小扎亲自官宣Meta视觉大模型 可以准确识别不同画风的同种物体
来源:中华侨讯网 发布日期:2024-10-18
无需文字标签,完全自监督的 Meta 视觉大模型来了!
小扎亲自官宣,发布即收获大量关注度 ——
在语义分割、实例分割、深度估计和图像检索等任务中,这个名叫 DINOv2 的视觉大模型均取得了非常不错的效果。
甚至有超过当前最好的开源视觉模型 OpenCLIP 之势。
虽然此前 Meta 就发布过自监督学习视觉大模型 DINO,不过这次 AI 识别图像特征的能力显然更进一步,准确分割出了视频中的主体:
换而言之,DINOv2 自己学会了找图像特征。
目前 Meta 官方不仅已经放出了开源代码,而且还给了网页版 Demo 试玩。有网友内涵:
什么叫开源,LLaMA,SAM,DINOv2 这才叫开源!
准确识别不同画风的同种物体
事实上,DINOv2 是基于上一代 DINOv1 打造的视觉大模型。
这个模型参数量是 10 亿级,也仍然是视觉 Transformer 架构(ViT),但与 DINO 不太一样的是,这次 DINOv2 在数据集上经过了精心挑选。
具体来说,DINOv2 构建了一个数据筛选 pipeline,将内容相似的图片精心筛选出来,同时排除掉相同的图片:
最终呈现给 DINOv2 的训练数据图片虽然没有文字标签,但这些图片的特征确实是相似的。
采用这类数据训练出来的视觉模型,效果如何?
这是 DINOv2 在 8 个视觉任务上的表现,包括语义分割、分类、深度估计等,其中橙色是自监督方法的效果,深粉色是弱监督方法的效果。
可以看见,经过自监督学习的视觉模型,表现上已经与经过弱监督学习的模型性能相当。
实际效果也不错,即便在一系列照片中,相同物体的画风并不相似,DINOv2 也能准确识别它们的特征,并分到相似的列表中。
如(a)组中都具有翅膀的鸟和飞机、(b)组中的大象和大象雕塑、(c)组中的汽车和汽车玩具模型、(d)组中的马和涂鸦版马:
而且从 PCA(主成分分析)图像效果来看,DINOv2 不仅能准确分类,还能用不同颜色标出它们“相同”的部分,例如象鼻都是绿色、车轮都是红色、马的尾巴是黄色等。
换而言之,DINOv2 能理解这些图像中的相似之处,就像人会形容飞机“看起来像一只鸟”一样。
目前 DINOv2 已经放出 Demo,我们也试了试它的实际效果。
Demo 直接可玩
官网已经开放语义分割、图像检索和深度估计三大功能的试玩。
据 Meta 介绍,这几个任务中,DINOv2 在大多数基准上超过了目前开源视觉模型中表现最好的 OpenCLIP。
我们先来看看深度估计的效果。
除此之外,如同扎克伯格所说,DINOv2 还能被用于改善医学成像、粮食作物生长等。当然这里小扎还进一步强调:
可以被用于制作更具沉浸感的元宇宙。
嗯,看来 Meta 的元宇宙路线还将继续……
四川新希望(000876)上市公司流通股是多少 流通股为45.02亿
(2023年07月02日)张崇和:古韵剑南 酒美博览-环球微速讯:
新疆维吾尔自治区天山股份(000877)上市公司每股多少钱 流通股为16.54亿
华为C8800(基本参数/产品介绍/其它性能)
云南云南铜业(000878)上市公司涉及概念有哪些 流通股为17.00亿
山东潍柴重机(000880)上市公司平均成本是多少 流通股为1.62亿
华为C8816(包装清单/规格参数)
辽宁中广核技(000881)上市公司平均成本是多少 流通股为7.76亿
北京华联股份(000882)上市公司平均成本是多少 流通股为27.37亿
华为T8300(功能/信息/网络数据)
湖北湖北能源(000883)上市公司每股多少钱 流通股为65.06亿
河南城发环境(000885)上市公司涉及概念有哪些 流通股为6.42亿
华为反腐(事发经过/简介)
海南海南高速(000886)上市公司每股多少钱 流通股为9.76亿
安徽中鼎股份(000887)上市公司流通股是多少 流通股为13.14亿
-
元宇宙与数字藏品的联系
-
疫情时代,元宇宙旅游
-
妈祖文化|推进妈祖元宇宙建设!这份协议签了
-
金融元宇宙赋能实体经济-赵永新教授演讲
-
网站与新媒体常态化监测:确保信息时代有效传播的关键
-
中国正在加速进入元宇宙时代,预计2023年将会有大发展
-
报告称生成式AI对客户服务部门员工影响最为明显 提高客服14%生产力
-
小扎亲自官宣Meta视觉大模型 可以准确识别不同画风的同种物体
-
新技术突破!芝加哥大学开发可拉伸双倍尺寸OLED显示器
-
AI生成歌曲《Heart On My Sleeve》蹿红 完整版在YouTube平台播放超21.6万次
-
女生学电子商务软件怎么样(女生学电子商务软件的好处)
-
手机软件怎么可以自动更新(自动更新技术)