复旦大学(张奇):2024年大语言模型的能力边界与发展思考报告

1张奇 复旦大学大语言模型的能力边界与发展思考ChatGPT2023年--大模型报税、写诗、写代码,“无所不能”ChatGPT2023年--大模型“无所不能”ChatGPT2023年--大模型“无所不能”2023 年大家拿着锤子到处找钉子ChatGPT2024年--大模型落地总是“差一口气”ChatGPT2024年--大模型落地总是“差一口气”ChatGPT2024年--大模型落地总是“差一口气”Physics of Language Models: Part 3.2, Knowledge Manipulation,Allen-Zhu Z., Li Y., Arixv 2023 Meat AI/FAIR Labs语言模型无法进行逆向知识搜索,除非知识以逆序出现在预训练数据中ChatGPTGPT-o1 preview 号称物理问答达到“博士:水平ChatGPTGPT-o1 preview 似乎也不能很好的解决初中数学问题 • 在 GSM8K 和 MATH 数据集问题的基础上,加⼊了⼀些“陷阱”,构造了 MathTrap 数据集。• 改编后的题⽬很多时候没有定义明确的答案或者⽆解,只有能够同时理解原题和“陷阱”所涉及知识,才能找出其中的⽭盾点,发现“陷阱”所在。• MathTrap_Public上,GPT-o1-preview的回答准确率仅为24.3%• MathTrap_Private 上,GPT-o1-preview API 的测试准确率为 38.0%,相⽐ GPT-4 API 的 36.0%,⼏乎没有提升10为什么?11从飞机发展史看 AI 发展的核心问题ChatGPTChatGPT为什么这么强?基础理论对于技术发展至关重要1903年12月17日,世界上第一架载人动力飞机首飞ChatGPTChatGPT为什么这么强?同时期各种脑洞大开的“飞行器”ChatGPTChatGPT为什么这么强?莱特兄弟创造“飞行者一号”的历程1890年代前期莱特兄弟就从新闻、杂志或者照片上看到了德国航空先驱奥托·李林达尔研制的动力滑翔机1896年5月,塞缪尔·兰利成功试飞了一架蒸汽动力的无人飞机模型莱特兄弟认为困扰航空先驱们的飞行难题有三点:机翼、发动机以及如何控制飞机1899年7月,威尔伯·莱特制作了一架长5英尺,形似双翼飞机的箱型风筝用来测试翘曲机翼技术莱特兄弟兄弟建造了风洞,为200多种不同翼弧的翼型完成了旋转臂测试(一种测量升力和空气阻力的早期手段),并对其中的38种做了更详细的测试, 同时也对广受认可的升力方程中的斯密顿系数提出了质疑,当时已经被提出了100多年。基于展弦比知识和更精确的斯密顿系数,莱特兄弟设计了他们新的1902年款滑翔机1903年莱特兄弟用云杉木来建造他们配备有动力装置的飞行者一号猜测:OpenAI 发布 GPT-4 时已经掌握了大模型基础理论https://arxiv.org/pdf/2303.0877416回归基础理论进行分析ChatGPT17ChatGPT为什么这么强?语言模型的核心任务始终是生成一个“合理的延续”,即根据已有的文本,生成一个符合人类书写习惯的下一个合理内容。所谓“合理”,是指根据数十亿个网页、数字化书籍等人类撰写内容的统计规律,推测接下来可能出现的内容。语言模型真正做的事情—文字接龙ChatGPT完成像写文章这样的任务时,它实际上只是一遍又一遍地询问:“在已有的文本的基础上,下一个词应该是什么?”—— 并且每次都会添加一个词。ChatGPT实现过程18explain the moon landing to 6 year oldsSome people went tothe Moon标注人员构造目标答案explain the moon landing to 6 year olds标注人员对答案质量进行排序有监督微调大模型奖励函数ABCDC>A>B=DWrite somethingabout frog奖励函数大模型Once upon a time …<latexit sha1_base64="lxRiODWDiKsfqfp81f4ZDxA1qxw=">AB+nicbVC7SgNBFL0bXzG+opY2g0FIFXZF1DJgYxnRPCBZwuxkNhkyj2VmVghrPsFWezux9Wds/RInyRaeODC4Zx7OZcTJZwZ6/tfXmFtfWNzq7hd2tnd2z8oHx61jEo1oU2iuNKdCBvKmaRNynURTLCJO29H4Zua3H6k2TMkHO0loKPBQspgRbJ10r/vjfrni1/w50CoJclKBHI1+bs3UCQVFrCsTHdwE9smGFtGeF0WuqlhiaYjPGQdh2VWFATZvNXp+jMKQMUK+1GWjRXf19kWBgzEZHbFNiOzLI3E/1IrGUbOPrMGMyS2VZBEcpxZhWY9oAHTlFg+cQTzdzviIywxsS6tkqulGC5glXSOq8Fl7Xg7qJSr+b1FOETqEKAVxBHW6hAU0gMIRneIFX78l78969j8VqwctvjuEPvM8fmSKUZg=</latexit>rk数千亿单词图书、百科、网页等基础大模型预训练阶段十万各任务用户指令有监督微调奖励函数强化学习百万各任务用户指令十万各任务用户指令1000+GPU月级别训练时间1-100GPU天级别训练时间1-100GPU天级别训练时间1-100GPU天级别训练时间ChatGPT实现过程explain the moon landing to 6 year oldsSome people went tothe Moon标注人员构造目标答案explain the moon landing to 6 year olds标注人员对答案质量进行排序有监督微调大模型奖励函数ABCDC>A>B=DWrite somethingabout frog奖励函数大模型Once upon a time …<latexit sha1_base64="lxRiODWDiKsfqfp81f4ZDxA1qxw=">AB+nicbVC7SgNBFL0bXzG+opY2g0FIFXZF1DJgYxnRPCBZwuxkNhkyj2VmVghrPsFWezux9Wds/RInyRaeODC4Zx7OZcTJZwZ6/tfXmFtfWNzq7hd2tnd2z8oHx61jEo1oU2iuNKdCBvKmaRNynURTLCJO29H4Zua3H6k2TMkHO0loKPBQspgRbJ10r/vjfrni1/w50CoJclKBHI1+bs3UCQVFrCsTHdwE9smGFtGeF0WuqlhiaYjPGQdh2VWFATZvNXp+jMKQMUK+1GWjRXf19kWBgzEZHbFNiOzLI3E/1IrGUbOPrMGMyS2VZBEcpxZhWY9oAHTlFg+cQTzdzviIywxsS6tkqulGC5glXSOq8Fl7Xg7qJSr+b1FOETqEKAVxBHW6hAU0gMIRneIFX78l78969j8VqwctvjuEPvM8fmSKUZg=</latexit

立即下载
综合
2024-11-25
101页
18.19M
收藏
分享

复旦大学(张奇):2024年大语言模型的能力边界与发展思考报告,点击即可下载。报告格式为PDF,大小18.19M,页数101页,欢迎下载。

本报告共101页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共101页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
图2-4 美元兑埃镑汇率
综合
2024-11-25
来源:2024阿拉伯埃及共和国投资环境评价报告-大公国际资信评估有限公司-清华大学
查看原文
图2-3 2010-2022年埃及劳动力人口、劳动参与率与失业率
综合
2024-11-25
来源:2024阿拉伯埃及共和国投资环境评价报告-大公国际资信评估有限公司-清华大学
查看原文
图2-2 埃及营商环境指标排名
综合
2024-11-25
来源:2024阿拉伯埃及共和国投资环境评价报告-大公国际资信评估有限公司-清华大学
查看原文
图2-1 2024年埃及国家投资环境-效率环境
综合
2024-11-25
来源:2024阿拉伯埃及共和国投资环境评价报告-大公国际资信评估有限公司-清华大学
查看原文
图1-4 埃及经济增长及各要素拉动率(%)
综合
2024-11-25
来源:2024阿拉伯埃及共和国投资环境评价报告-大公国际资信评估有限公司-清华大学
查看原文
图1-3 2020年埃及初级院校入学率(右轴,%)和公共教育支出占比(%)
综合
2024-11-25
来源:2024阿拉伯埃及共和国投资环境评价报告-大公国际资信评估有限公司-清华大学
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起