多模态文档大模型mPLUG-DocOwl

多模态文档大模型mPLUG-DocOwl徐海洋阿里巴巴通义实验室演讲嘉宾徐海洋阿里巴巴通义实验室-高级算法专家负责通义多模态大模型 mPLUG 系列工作，包括基础多模态模型mPLUG/mPLUG-2，多模态对话大模型mPLUG-Owl，多模态文档大模型mPLUG-DocOwl，多模态智能体Mobile-Agent等，其中 mPLUG 工作在 VQA榜单首超人类的成绩。在国际顶级期刊和会议ICML/CVPR/ICCV/ACL/EMNLP/MM/TOIS/IJCAI/AAAI 等发表论文 40多篇，并担任多个顶级和会议AC/PC/Reviewer。主导参与开源项目mPLUG，X-PLUG，AliceMind，DELTA。目录CONTENTS1.多模态文档大模型背景2.mPLUG-DocOwl系列工作3.mPLUG-DocOwl开源实战4.总结与展望多模态文档大模型背景PART 01多模态文档大模型背景富含文字的图片（简称“文档图片”）在生活中无处不在！多模态文档大模型背景Revolutionizing Document AI with Multimodal Document Foundation Models多模态文档大模型背景一个通用的多模态大模型应该具备文档图片理解的能力，例如 GPT4V多模态文档大模型背景多模态大模型模型（MLLM）主要关注于一般图片的对话和问答mPLUG-OwlLLaVAInstructBLIP多模态文档大模型背景由于预训练中存在富含文字的图片，他们也初显一定的图片文字理解能力MLLM具备实现通用文档图片理解的潜力多模态文档大模型挑战多模态文档大模型背景PART 01mPLUG-DocOwlmPLUG-DocOwl•模型结构形状适应的切图模块1.𝑮𝒓𝒊𝒅𝒔 = {𝟏×𝟏, 𝟏×𝟐, … 𝟏×𝟐𝟎,𝟐×𝟏, 𝟐×𝟏, … , 𝟐×𝟏𝟎,…𝟐𝟎×𝟏}2.同时考虑形状和⼤⼩进⾏grid选择）每个子图在原图中第几行第几列mPLUG-DocOwl•模型训练: 训练任务mPLUG-DocOwl•模型训练: 训练任务mPLUG-DocOwl•模型训练: 训练数据mPLUG-DocOwl•实验结果mPLUG-DocOwl1.5mPLUG-DocOwl1.5mPLUG-DocOwl1.5mPLUG-DocOwl1.5mPLUG-DocOwl1.5mPLUG-DocOwl1.5mPLUG-DocOwl1.5•模型训练mPLUG-DocOwl1.5•模型训练mPLUG-DocOwl1.5•模型训练mPLUG-DocOwl1.5mPLUG-DocOwl1.5mPLUG-DocOwl1.5mPLUG-DocOwl1.5mPLUG-DocOwl1.5mPLUG-DocOwl1.5mPLUG-DocOwl1.5mPLUG-DocOwl1.5mPLUG-DocOwl1.5TinyChartTinyChartTinyChartTinyChartTinyChartTinyChartTinyChartTinyChartmPLUG-PaperOwlmPLUG-PaperOwlmPLUG-PaperOwlmPLUG-PaperOwlmPLUG-PaperOwlmPLUG-DocOwl开源实战PART 03mPLUG-DocOwl开源mPLUG-DocOwl Demo通义mPLUG多模态体系通义mPLUG多模态体系https://github.com/orgs/X-PLUG/repositories通义mPLUG多模态体系https://modelscope.cn/search?search=mplug总结与展望PART 04总结与展望•多模态文档大模型展示了Promising效果，但仍然存在通用性、鲁棒性、效率等问题，仍然还有很多提升的空间；•针对高分辨率，多页，探索更高效的视觉编码，图文融合结构；•增加更多Domain数据，探索通用的、鲁棒的多模态文档大模型；•大小模型协同，能够结合OCR、Chart等专业小模型；THANKS

立即下载

电子设备

2025-03-24

中智凯灵(北京)科技

57页

12.87M

[中智凯灵(北京)科技]:多模态文档大模型mPLUG-DocOwl，点击即可下载。报告格式为PDF，大小12.87M，页数57页，欢迎下载。

本报告共57页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

本报告共57页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

水滴研报所有报告均是客户上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作商用。