阿里巴巴文档处理模型mPLUG-DocOwl1.5：无需OCR就能分析图表、网页各类文档

来源：AIbase基地更新时间2024-10-21 11:15:58 点击数：

最近，阿里巴巴的 AI 研究团队在文档理解领域取得了令人瞩目的进展，他们推出了 mPLUG-DocOwl1.5，这是一款在无OCR（光学字符识别）文档理解任务上表现卓越的尖端模型。

过去，处理文档理解任务时，我们通常依赖 OCR 技术来从图像中提取文本，但这往往会受到复杂布局和视觉噪声的困扰。而 mPLUG-DocOwl1.5则通过一种全新的统一结构学习框架，直接从图像中学习理解文档，巧妙地避开了这一瓶颈。

该模型通过分析文档在不同领域的布局和组织能力，涵盖了普通文档、表格、图表、网页和自然图像等五个领域。它不仅能准确识别文字，还能在理解文档结构时，运用空格和换行符等元素。

对于表格，模型能生成结构化的 Markdown 格式，而在解析图表时，它通过理解图例、坐标轴和数值之间的关系，将其转化为数据表。此外，mPLUG-DocOwl1.5还具备从自然图像中提取文本的能力。

在文本本地化方面，mPLUG-DocOwl1.5能够识别和定位单词、短语、行和块，确保文本与图像区域之间的精确对齐。而其背后的 H-Reducer 架构则通过卷积操作横向合并视觉特征，保持空间布局的同时减少序列长度，从而提升了处理效率。

为了训练这个模型，研究团队使用了两个精心挑选的数据集。DocStruct4M 是一个大规模的数据集，专注于统一结构学习，DocReason25K 则通过分步问答测试模型的推理能力。

结果显示，mPLUG-DocOwl1.5在十个基准测试中创下了新纪录，相比同类模型在一半任务上获得了超过10分的提升。此外，它还展现出优秀的语言推理能力，能够为其答案生成详细的分步解释。

尽管 mPLUG-DocOwl1.5在多个方面都取得了显著进展，但研究者们也意识到，模型仍有改进空间，尤其是在处理不一致或错误的陈述方面。未来，团队希望能够进一步扩展统一结构学习框架，涵盖更多的文档类型和任务，推动文档 AI 的进一步发展。

Chat AI人工智能中文在线使用

Tag：阿里巴巴

随便看看