新的发展将为人工智能提供了解复杂人类活动的窗口

来源:
导读 超过1,400小时的镜头捕捉人类从他们的角度和外部同时执行任务的过程,这将有助于人工智能模型了解人类如何进行活动。在两年前发布了世界上...

超过1,400小时的镜头捕捉人类从他们的角度和外部同时执行任务的过程,这将有助于人工智能模型了解人类如何进行活动。

在两年前发布了世界上最多样化的自我中心数据集Egocentric4DLivePerception的工作基础上,Ego4D联盟通过新发布的Ego-Exo4D(一个基础数据集)极大地扩展了他们的研究范围和雄心。支持视频学习和多模态感知的研究。

布里斯托大学计算机科学学院的DimaDamen教授领导的研究团队是由13所大学组成的国际联盟的一部分,该联盟与Meta合作,通过收集人类技能活动的联合自我中心和外中心数据集来推动计算机视觉研究。

Ego-Exo4D是Meta的FAIR(基础人工智能研究)、ProjectAria和由13家大学合作伙伴组成的Ego4D联盟历时两年努力的成果,是首个大型多模式多视图数据集和基准套房。

其定义功能是同时捕获来自参与者可穿戴相机的第一人称“自我中心”视图和来自参与者周围相机的多个“外中心”视图。

这两个视角将为人工智能模型提供一个了解复杂的熟练人类活动的新窗口,从而使方法能够了解熟练参与者如何执行舞蹈、演奏音乐等任务以及执行维护自行车等程序。

Damen教授在回顾该联盟的工作及其团队的贡献时表示:“我们很高兴成为发布Ego-Exo4D数据集的国际联盟的一员。今天标志着为期两年的研究合作的成果,该合作继续将以自我为中心的研究社区推向新的领域。”

布里斯托尔项目的共同领导者迈克尔·雷博士对技能活动和描述性语言之间的相互作用特别感兴趣。“在布里斯托尔,我们提出了“行动与叙述”录音,即捕捉人的内部状态——为什么他们以特定的方式执行任务。

Ego-Exo4D项目还通过提供专家评论旁白进行创新——这些领域专家观看视频并对表演提供丰富的反馈。

不仅通过视觉的多视角,而且通过语言,我们拥有参与者的“自我”语言和专家观察者的“外在”语言,为大型语言模型如何与辅助技术相互作用这一非常重要的研究主题提供了丰富的新见解”。

Ego4D联盟是FAIR与全球十几所大学之间的长期合作。联盟成员和FAIR研究人员在该项目的各个方面进行了合作,从开发数据集范围到收集数据,再到制定基准任务。

该项目还标志着学术研究界有史以来最大规模的Aria眼镜部署,12个不同地点的合作伙伴都在使用它们。

达门教授的团队是国际上以自我为中心的愿景的领先研究小组,他们的专业知识自联盟成立以来一直在该联盟的工作中发挥了重要作用。

“从2018年的EPIC-KITCHENS开始,一直到大规模的Ego4D,这个新增的Ego-Exo4D继续使布里斯托大学成为国际上以自我为中心的愿景的关键领导者,也是这一关键未来领域唯一的英国研究小组,”达门教授评论道。

除了捕获的镜头之外,研究人员还可以使用新颖基准任务的注释以及自我-外在理解的基线模型。这些数据集将于今年12月向签署Ego4D数据使用协议的研究人员公开。

数据的收集遵循严格的隐私和道德标准,包括每个机构的正式审查流程,以建立收集、管理和知情同意的标准,以及规定适当的许可协议。

通过此版本,Ego4D联盟旨在为更广泛的研究社区提供探索ego-exo视频、多模式活动识别等所需的工具。

标签:

免责声明:本文由用户上传,如有侵权请联系删除!