Apple的MM1能够解释图像和文本数据的多模态LLM模型

2024-03-20 11:34:09 来源：

导读苹果公司的计算机科学家和工程师团队开发了一种法学硕士模型，该公司声称该模型可以解释图像和数据。该小组已在arXiv预印本服务器上发布了

苹果公司的计算机科学家和工程师团队开发了一种法学硕士模型，该公司声称该模型可以解释图像和数据。该小组已在arXiv预印本服务器上发布了一篇论文，描述了他们新的MM1系列多模态模型和测试结果。

在过去的一年里，法学硕士因其先进的人工智能能力而受到广泛关注。苹果公司是其中一家特别缺席谈话的公司。在这项新的努力中，研究团队明确表示，该公司无意简单地添加另一家公司开发的法学硕士(目前他们正在与谷歌谈判，将GeminiAI技术添加到苹果设备中);相反，他们一直致力于开发下一代法学硕士，一种可以解释图像和文本数据的法学硕士。

多模态人工智能的工作原理是集成和处理不同类型的数据输入，例如视觉、听觉和文本信息。这种集成使人工智能能够更全面地理解复杂数据，从而比单模式人工智能系统做出更准确和上下文感知的解释。

苹果的研究团队声称，他们在MM1模型中使用多模态AI方面取得了重大进展，该模型集成了文本和图像数据，以提高图像字幕、视觉问答和查询学习的能力。他们的MM1是他们所描述的多模态模型系列的一部分，每个模型都包含多达300亿个参数。

研究人员指出，此类模型利用由图像捕获对、包含图像和纯文本文档的文档组成的数据集。研究人员进一步声称，他们的多模态法学硕士(MLLM)可以计算物体数量、识别图像中的物体，并利用日常物体的常识为用户提供有关图像所呈现内容的有用信息。

研究人员还声称他们的MLLM能够进行情境学习，这意味着它不需要每次提出问题时都重新开始;它使用在当前对话中学到的知识。该团队提供了模型高级功能的示例，其中包括上传一群朋友在酒吧拿着菜单的图像，并询问模型根据菜单中列出的价格为每个人购买一杯啤酒需要多少钱。

标签：

免责声明：本文由用户上传，如有侵权请联系删除！