通用Agent写报告能力测试报告

通用Agent 写报告能力测试报告2025.07.25郎瀚威/GPTDAO猫猫头AIwatch.ai2aiwatch.ai |01目录10巴黎旅行PPT制作02关于作者11纽约租房PPT03测试感受12LLM产业报告+PPT04测试结果13AI Agents教程指南05难度分级说明14奈飞电影Excel+邮件06ETH价格预测15HomeBots策略PPT07会员经济GDP分析16结尾08美股历史跌幅分析17附件09制定提前退休计划PPT182025/7/28目录金融目录 | 作者 | 测试感受 | 难度分级说明 | 金融 | 市场 | 教育 | 其他 | 结尾 | 附件市场教育其他3aiwatch.ai |2025/7/28关于作者•作者郎瀚威及团队,郎瀚威现居美国硅谷Palo Alto,GPTDAO分析师,第二作者猫猫头,也在硅谷,小红书:107279551•感谢刘渊 ,And,周江岭,HEXIN生财提供的Prompt。我们从群友提供的prompt中随机抽了5个。•更多数据内容请关注公众号:郎瀚威Will,新闻资讯请关注推特:@financeyf5 获取更多信息•官网飞书:https://aiwatch.ai/;GenAI网页数据2025Q1报告: 链接•加数据报告群:下方企业微信扫码,备注加Will的数据报告分享群,请简单自我介绍,仅用于讨论行业数据,发广告会飞机。•商务合作洽谈,请加微信lang2057,请备注公司信息,因为作者微信已经满了•服务包括:1对1推特增长咨询服务等。数据库服务,包含对于市场上产品的详细跟踪和打标,了解商机先人一步。咨询服务包含专业团队对于公开数据的收集,调研,增长分析等, 4000美元/月。推特增长顾问服务,分析欧美竞对,构建推特增长路径。价格同上。Will小助手企业微信进不去群扫这个微信公众号数据报告群21群满了可以加目录 | 作者 | 测试感受 | 难度分级说明 | 金融 | 市场 | 教育 | 其他 | 结尾 | 附件4aiwatch.ai |2025/7/28PPT+短报告测试结果目录 | 作者 | 测试感受 | 难度分级说明 | 金融 | 市场 | 教育 | 其他 | 结尾 | 附件注释:该表格中测试结果成功与否均为人工评价,会存在人工评价与AI不一致的情况(例如Prompt下达多个指令时(输出表格+发邮件),Agent完成了部分(输出表格),AI会判定为失败,人工会判定为部分成功)分类综合难度结果结果结果结果1ETH价格预测(报告)金融2.8失败成功成功成功2会员经济GDP分析(报告)金融3.8成功成功成功成功3美股历史跌幅分析(报告)金融4.3成功成功成功成功4制定提前退休计划PPT(PPT)金融4.4成功有PPT失败无PPT成功有PPT成功有PPT5巴黎旅行PPT制作(PPT)市场3.1成功有PPT失败无PPT成功有PPT成功有PPT6纽约租房PPT(PPT)市场4.2部分成功有PPT失败无PPT失败有PPT部分成功有PPT7LLM产业报告+PPT(PPT)市场4.7成功有PPT失败无PPT部分成功有PPT成功有PPT8AI Agents教程指南(报告)教育3.6成功成功成功成功9奈飞电影Excel+邮件(报告)其他3.1部分成功失败部分成功部分成功平均时间正确错误比例8/14/58/19/0 1,5601,030 62 607 592 16 300720 2,940 35 540360 1,380 85 5401,500 720 50 1,440360 960 35 3001,080 120 27 600323 566 69 660300 600 216 300420 420 22 780266 时间单位:秒OpenAICometManusGensparkPrompt时间时间时间时间5aiwatch.ai |2025/7/28报告一些Takeaway-by郎瀚威•这是我们第二次出报告,和上次综合类不同,这次选择的是报告类,这也是最大的垂类。•本次是一共9个任务,5个PPT,4个报告,未来深度报告会独立测试。•本次测试结论是,用通用AI Agent生成文档,已经达到初步可用水平,也发现一些问题:•1、当前AI Agent生态各有短板,没有一家在所有方面都表现完美。•2、对于通用Agent,步骤更多,因此数据幻觉是危险的问题,现阶段AI生成内容必须全面验证,不能因为前几条正确就信任整体。•3、直接承认能力局限,反而赢得信任,真正的行业进步需要直接的问题反馈和整个生态的共同迭代,而非单一平台独大。•欢迎到推特和公众号留言,我们会持续收集Prompt,目前已经将报告类Prompt看板开源( https://three-recorder-52a.notion.site/23efc520994e801aa636cb5d82523972?v=23efc520994e80eb96a2000caa6c0174)目录 | 作者 | 测试感受 | 难度分级说明 | 金融 | 市场 | 教育 | 其他 | 结尾 | 附件6aiwatch.ai |2025/7/28测试感受——by Will团队成员1 dyr (测了22个任务在三家的表现)这次测试我分别测了5个任务在Genspark、Manus、OpenAI上的表现,还有5个任务分别在Genspark、Manus上的表现。核心观点:AI生成内容必须仔细验证。功能完整度、诚实度、内容质量各有优劣 ,没有一家在所有方面都表现完美 ,当前AI Agent生态还不成熟,各有明显短板 ,需要持续反馈和迭代来推动整体进步 发现了一些问题:1、幻觉问题:Manus在统计奈飞电影Top50时,发现自己没有能力统计,转而找了几个测评文章,将文章数据抓下来写道了表格中,但是抓取的文章内容仅统计了Top20的数据,对于另外的30个,Manus采取的策略是乱编,电影名直接是“知名电影#21“,观看次数和观看小时数竟然是呈等差数列降序排列!!!给我气笑了,有一种上学时老师说”不会的题,宁可编上也别空着“的感觉。当时我刚跑完这个任务,它还大大方方的承认了无法发邮

立即下载
信息科技
2025-07-31
郎瀚威
91页
9.34M
收藏
分享

[郎瀚威]:通用Agent写报告能力测试报告,点击即可下载。报告格式为PDF,大小9.34M,页数91页,欢迎下载。

本报告共91页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共91页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
图106.2020-1Q25 曙光数创营收情况 图107.2020-1Q25 曙光数创研发投入情况
信息科技
2025-07-31
来源:电子行业深度分析:被动散热材料持续迭代,液冷成为主动散热新增长点
查看原文
图105.曙光数创业务矩阵
信息科技
2025-07-31
来源:电子行业深度分析:被动散热材料持续迭代,液冷成为主动散热新增长点
查看原文
图103.2020-1H25 飞龙股份营收情况 图104.2020-1H25 飞龙股份归母净利润情况
信息科技
2025-07-31
来源:电子行业深度分析:被动散热材料持续迭代,液冷成为主动散热新增长点
查看原文
图102.飞龙股份主要产品
信息科技
2025-07-31
来源:电子行业深度分析:被动散热材料持续迭代,液冷成为主动散热新增长点
查看原文
图100.2020-1Q25 富信科技营收情况 图101.2020-1Q25 富信科技研发投入情况
信息科技
2025-07-31
来源:电子行业深度分析:被动散热材料持续迭代,液冷成为主动散热新增长点
查看原文
图99.富信科技半导体制冷产品
信息科技
2025-07-31
来源:电子行业深度分析:被动散热材料持续迭代,液冷成为主动散热新增长点
查看原文
ai总结
AI智能总结
本报告测试了通用AI Agent在金融、市场、教育等领域的报告和PPT生成能力,发现当前AI Agent生态各有短板,生成内容需严格验证,但整体已达到初步可用水平。 - 1. AI Agent在金融报告类任务表现较好,如会员经济GDP分析和美股历史跌幅分析成功率较高,但在PPT制作上存在导出失败和设计简陋等问题。 - 2. 数据幻觉是当前主要风险,测试中发现Manus在奈飞电影统计任务中编造数据,而Comet因直接承认能力局限反而赢得信任。 - 3. 各平台表现差异明显:OpenAI邮件功能相对完善但PPT质量差,Genspark设计优秀但导出不稳定,Manus内容冗长且存在数据造假问题。 - 4. 任务复杂度影响完成质量,4分以上专家级任务如LLM产业报告完成率较低,而3分左右的中级任务如巴黎旅行PPT成功率较高。 - 5. 测试建议用户对AI生成内容进行全面验证,不能仅凭部分正确就信任整体,同时行业需要更多直接反馈推动生态共同进步而非单一平台垄断。
热门报告
加入社群
回顶部
报告群
公众号
小程序
在线客服
收起