智谱 AI 开源视觉语言模型 CogAgent 支持GUI图形界面问答

来源：互联网更新时间2023-12-21 09:24:21 点击数：

智谱 AI 开源了 CogAgent，它是一个视觉语言模型，拥有180亿参数规模。该模型在 GUI 理解和导航方面表现出色，在多个基准测试上取得了 SOTA 的通用性能。

它还支持高分辨率的视觉输入和对话问答，并且可以针对任意 GUI 截图进行问答。

微信截图_20231221083343.png

模型可以通过上传截图来进行任务推理，并返回计划、下一个动作以及具体操作的坐标信息。

CogAgent 还支持 OCR 相关任务，通过预训练和微调，其能力得到了显著提升。

Github:

https://github.com/CogNLP/CogAGENT

cogagent-chat:

https://modelscope.cn/models/ZhipuAI/cogagent-chat/summary

cogagent-vqa:

https://www.modelscope.cn/models/ZhipuAI/cogagent-vqa/summary

Chat AI人工智能中文在线使用

Tag：大模型 AI问答智谱AI 语言模型

随便看看