字节跳动豆包上线图片理解，大模型走向多模态

来源：钛媒体AGI 更新时间2024-12-06 10:46:54 点击数：

12月3日消息，钛媒体AGI获悉，字节跳动豆包日前上线了一项实用功能——图片理解。目前，豆包APP及豆包PC新增照片及相机按钮，上传图片后可识别图片内容。

相比普通的OCR识别（光学字符识别）技术，豆包的“图片理解”并非识别文字，而是识别图片信息。比如，问一个景点在哪里，问动漫人物是谁，豆包都能流畅进行回答。

再比如，早前，马斯克创立的人工智能公司xAI宣布为Grok增加了图像理解功能，而马斯克本人也出来官宣了，并发布以下图片，称“Grok现在能够理解图像了，甚至还可以解释笑话”。

这是一幅四格漫画，内容是一个关于物理学家和牛顿的笑话。把这个四格漫画发给豆包，也能看到它对这个笑话的解析。
1. 第一格：文字：“HOW DO WE KNOW IF THEY'RE ACTUALLY DEAD OR JUST PRETENDING”（我们怎么知道他们是真的死了还是只是假装？）图像：两个人站在战场上，周围有许多倒地的士兵。
2. 第二格：文字：“PHYSICISTS”（物理学家），图像：两个人开始观察和思考。
3. 第三格：文字：“Discovered”（发现了），图像：两个人似乎有了某种发现，表情变得兴奋。
4. 第四格：文字：“Isaac Newton invented gravity”（艾萨克·牛顿发明了重力），图像：两个人得出结论，表情满意。
笑话解析：这个笑话讽刺了物理学家有时会提出一些看似荒谬但却基于科学理论的解释。漫画中的两个人在战场上看到士兵倒地，他们没有考虑士兵是死是活，而是思考这背后的科学原理。最后，他们得出结论是牛顿发明了重力，暗示士兵是因为重力而倒地。这种思维方式幽默地表现了物理学家对科学原理的执着和有时不切实际的思考方式。

你认为，上述这个解析结果怎么样？符合事实吗？

事实上，随着AI大模型狂飙两年，企业越来越多瞄向更实用的落地场景，“图片理解”就是其中一项，它可以解决一些搜索、查找评估、文本写作等场景的需求，这使得大模型更加贴近实用场景需求。

QuestMobile最新数据显示，2024年10月，AI原生应用行业月活跃用户规模达到8976万，同比增长373.0%。用于情感陪伴、职场办公、趣味休闲、文案写作、教育学习、生活助手、图像生成、行业顾问等场景中。

公开资料显示，字节跳动的豆包App已经成为中国日活用户最高的AI大模型产品。

同时，截止到2024年10月，在网页端访问量方面，Kimi智能助手、文心一言、豆包、通义千问分别达到2863万、2111万、1688万、1012万；在移动端AI原生应用方面，行业月活规模总数达到8976万，同比增长373%，其中，豆包、Kimi智能助手、文小言月活跃用户分别为4839万、1650万、1179万。

随着AI浪潮的兴起，各大厂商都在积极探索与AI大模型融合发展的新契机，AI有望引领全球新一轮科技创新周期，从而促使效率进一步增长。

据Statista数据显示，预计到2030年，全球AI领域规模将超过1.8万亿美元。

Chat AI人工智能中文在线使用

专业AI论文生成器一键生成万字论文只需5分钟