卷起来了😂
Meta 也不甘示弱放出大招,推出V-JEPA
这是一种通过观看视频教会机器理解和模拟物理世界的方法。
V-JEPA可以通过自己观看视频来学习,而不需要人类监督。
也不需要对视频数据集进行标记!
学习完毕后它可以理解和预测一个全新视频内容,甚至根据一张静止图片来生成一个动态的视频。
与填充缺失像素的生成方法相比,V-JEPA的灵活性使其在训练和样本效率上实现了1.5到6倍的提升。
Meta称这是人工智能模型迈出的又一重要一步利用对世界的学习理解来计划、推理和完成复杂的任务。
V-JEPA(视频联合嵌入预测架构)的主要功能:
1、理解物理世界:V-JEPA 通过观看视频学习模拟和理解物理世界的基础,尤其是对象之间的互动和动态变化。
2、预测视频内容:它能够预测视频中缺失或被遮蔽部分的内容,在抽象表示空间中填补这些空白。这种方法不同于传统的填充缺失像素,更加注重于视频的高级概念理解。
3、非生成模型:作为一个非生成模型,V-JEPA通过预测视频的抽象特征而非直接生成像素,从而提高了训练和样本效率。
4、自监督学习:使用未标记数据进行预训练,使模型能够在没有明确标签的情况下学习视频内容,进一步通过少量标记数据进行微调,以适应特定任务。
5、效率提升:与其他视频理解模型相比,V-JEPA在训练效率和样本利用上实现了显著提升,这得益于其独特的学习方法和架构设计。
6、遮蔽方法:通过在视频的时间和空间上遮蔽部分内容,迫使模型学习并发展对场景的理解,这种方法有助于模型更深入地理解视频内容。
7、应用于多种任务:经过预训练的V-JEPA模型可以适用于多种下游图像和视频任务,例如图像分类、动作分类和时空动作检测,无需调整模型参数。
图像分类:识别图像中的主要对象或场景。
动作分类:识别视频片段中的特定动作或活动。
时空动作检测:识别视频中动作的类型及其发生的具体时间和位置。
V-JEPA的这些功能展示了Meta在通过视频理解推进机器智能方面的先进成就,为实现更高级的机器智能和人工通用智能(AGI)奠定了基础。
V-JEPA在基准测试中的表现:
Kinetics-400:达到了82.0%的准确率。
Something-Something-v2:达到了72.2%的准确率。
ImageNet1K:在图像分类任务上达到了77.9%的准确率。
这些成绩与或超过了之前领先的视频模型,显示了V-JEPA在理解视频内容、分类动作和图像分类等方面的强大能力。这些测试结果证明了V-JEPA在处理视频数据时的高效性和准确性,特别是它对视频中细节丰富的对象互动的理解能力。
低样本学习效率
V-JEPA还展示了在低样本(Low-shot)学习环境中的强大性能,这是通过在Kinetics-400和Something-Something-v2数据集上进行冻结评估(Frozen Evaluation)来证明的。在这种设置下,模型使用的标记样本数量有限,V-JEPA通过在几个不同的低样本设置中训练注意力探针(Attentive Probe),并在多个随机分割上获得更稳健的度量,显示出比其他视频模型更高的标签效率。具体来说,减少可用的标记样本数量会增加V-JEPA与基线模型之间的性能差距。
详细:https://t.co/cUanKgxpOq
GitHub:https://t.co/eRGETTbR14