首页 > AI创业资讯 > 热点聚焦

智谱AI宣布开源视频理解模型CogVLM2-Video

来源：互联网更新时间2024-07-12 15:11:04 点击数：

智谱AI宣布CogVLM2-Video模型开源升级，这是一个在视频理解领域取得显著进展的模型。CogVLM2-Video通过引入多帧视频图像和时间戳作为编码器输入，解决了现有视频理解模型在处理时间信息丢失问题上的局限。模型利用自动化的时间定位数据构建方法，生成了3万条与时间相关的视频问答数据，从而训练出在公共视频理解基准上达到最新性能的模型。CogVLM2-Video在视频字幕生成和时间定位方面表现出色，为视频生成和摘要等任务提供了强大工具。

CogVLM2-Video通过从输入视频中提取帧并注释时间戳信息，使语言模型能准确知道每一帧的对应时间，从而实现时间定位和相关问答。

微信截图_20240712135239.png

为了大规模训练，开发了自动化的视频问答数据生成流程，通过图像理解模型和大型语言模型的结合使用，减少了标注成本并提高了数据质量。最终构造的Temporal Grounding Question and Answer （TQA）数据集包含3万条记录，为模型训练提供了丰富的时间定位数据。

在多个公开评测集上，CogVLM2-Video展现了卓越的性能，包括在VideoChatGPT-Bench和Zero-shot QA以及MVBench等量化评估指标上的优异表现。

代码:https://github.com/THUDM/CogVLM2

项目网站:https://cogvlm2-video.github.io

在线试用:http://36.103.203.44:7868/

Chat AI人工智能中文在线使用

专业AI论文生成器一键生成万字论文只需5分钟

AI创作系统

Tag： AI AI视频智谱AI

随便看看

推荐文章

全球大模型第一股公司已入驻成都

AI自动化风暴来袭：Claude Code点燃内容爆炸，质量与分化双重危机

AI自动化风暴来袭：Claude Code点燃内容爆炸，质量与分化双重危机

AI幻觉再引关注 “生成内容”时代边界何在

AI算力浪潮驱动存储市场量价齐升

联想集团副总裁阿木：正研发面向企业的“个人超级智能体”

联想集团副总裁阿木：正研发面向企业的“个人超级智能体”

上一篇

返回

下一篇