多模态文档大模型mPLUG-DocOwl
多模态文档大模型mPLUG-DocOwl徐海洋 阿里巴巴通义实验室演讲嘉宾徐海洋阿里巴巴通义实验室-高级算法专家负 责 通 义 多 模 态 大 模 型 mPLUG 系 列 工 作 , 包 括 基 础 多 模 态 模 型mPLUG/mPLUG-2,多模态对话大模型mPLUG-Owl,多模态文档大模型mPLUG-DocOwl,多模态智能体Mobile-Agent等,其中 mPLUG 工作 在 VQA榜 单 首 超 人 类 的 成 绩 。 在 国 际 顶 级 期 刊 和 会 议ICML/CVPR/ICCV/ACL/EMNLP/MM/TOIS/IJCAI/AAAI 等 发 表 论 文 40多篇,并担任多个顶级和会议AC/PC/Reviewer。主导参与开源项目mPLUG,X-PLUG,AliceMind,DELTA。目 录CONTENTS1.多模态文档大模型背景2.mPLUG-DocOwl系列工作3.mPLUG-DocOwl开源实战4.总结与展望多模态文档大模型背景PART 01多模态文档大模型背景富含文字的图片(简称“文档图片”)在生活中无处不在!多模态文档大模型背景Revolutionizing Document AI with Multimodal Document Foundation Models多模态文档大模型背景一个通用的多模态大模型应该具备文档图片理解的能力,例如 GPT4V多模态文档大模型背景多模态大模型模型(MLLM)主要关注于一般图片的对话和问答mPLUG-OwlLLaVAInstructBLIP多模态文档大模型背景由于预训练中存在富含文字的图片,他们也初显一定的图片文字理解能力MLLM具备实现通用文档图片理解的潜力多模态文档大模型挑战多模态文档大模型背景PART 01mPLUG-DocOwlmPLUG-DocOwl•模型结构形状适应的切图模块1.𝑮𝒓𝒊𝒅𝒔 = {𝟏×𝟏, 𝟏×𝟐, … 𝟏×𝟐𝟎,𝟐×𝟏, 𝟐×𝟏, … , 𝟐×𝟏𝟎,…𝟐𝟎×𝟏}2.同时考虑形状和⼤⼩进⾏grid选择)每个子图在原图中第几行第几列mPLUG-DocOwl•模型训练: 训练任务mPLUG-DocOwl•模型训练: 训练任务mPLUG-DocOwl•模型训练: 训练数据mPLUG-DocOwl•实验结果mPLUG-DocOwl1.5mPLUG-DocOwl1.5mPLUG-DocOwl1.5mPLUG-DocOwl1.5mPLUG-DocOwl1.5mPLUG-DocOwl1.5mPLUG-DocOwl1.5•模型训练mPLUG-DocOwl1.5•模型训练mPLUG-DocOwl1.5•模型训练mPLUG-DocOwl1.5mPLUG-DocOwl1.5mPLUG-DocOwl1.5mPLUG-DocOwl1.5mPLUG-DocOwl1.5mPLUG-DocOwl1.5mPLUG-DocOwl1.5mPLUG-DocOwl1.5mPLUG-DocOwl1.5TinyChartTinyChartTinyChartTinyChartTinyChartTinyChartTinyChartTinyChartmPLUG-PaperOwlmPLUG-PaperOwlmPLUG-PaperOwlmPLUG-PaperOwlmPLUG-PaperOwlmPLUG-DocOwl开源实战PART 03mPLUG-DocOwl开源mPLUG-DocOwl Demo通义mPLUG多模态体系通义mPLUG多模态体系https://github.com/orgs/X-PLUG/repositories通义mPLUG多模态体系https://modelscope.cn/search?search=mplug总结与展望PART 04总结与展望•多模态文档大模型展示了Promising效果,但仍然存在通用性、鲁棒性、效率等问题,仍然还有很多提升的空间;•针对高分辨率,多页,探索更高效的视觉编码,图文融合结构;•增加更多Domain数据,探索通用的、鲁棒的多模态文档大模型;•大小模型协同,能够结合OCR、Chart等专业小模型;THANKS
[中智凯灵(北京)科技]:多模态文档大模型mPLUG-DocOwl,点击即可下载。报告格式为PDF,大小12.87M,页数57页,欢迎下载。
