通用Agent写报告能力测试报告
通用Agent 写报告能力测试报告2025.07.25郎瀚威/GPTDAO猫猫头AIwatch.ai2aiwatch.ai |01目录10巴黎旅行PPT制作02关于作者11纽约租房PPT03测试感受12LLM产业报告+PPT04测试结果13AI Agents教程指南05难度分级说明14奈飞电影Excel+邮件06ETH价格预测15HomeBots策略PPT07会员经济GDP分析16结尾08美股历史跌幅分析17附件09制定提前退休计划PPT182025/7/28目录金融目录 | 作者 | 测试感受 | 难度分级说明 | 金融 | 市场 | 教育 | 其他 | 结尾 | 附件市场教育其他3aiwatch.ai |2025/7/28关于作者•作者郎瀚威及团队,郎瀚威现居美国硅谷Palo Alto,GPTDAO分析师,第二作者猫猫头,也在硅谷,小红书:107279551•感谢刘渊 ,And,周江岭,HEXIN生财提供的Prompt。我们从群友提供的prompt中随机抽了5个。•更多数据内容请关注公众号:郎瀚威Will,新闻资讯请关注推特:@financeyf5 获取更多信息•官网飞书:https://aiwatch.ai/;GenAI网页数据2025Q1报告: 链接•加数据报告群:下方企业微信扫码,备注加Will的数据报告分享群,请简单自我介绍,仅用于讨论行业数据,发广告会飞机。•商务合作洽谈,请加微信lang2057,请备注公司信息,因为作者微信已经满了•服务包括:1对1推特增长咨询服务等。数据库服务,包含对于市场上产品的详细跟踪和打标,了解商机先人一步。咨询服务包含专业团队对于公开数据的收集,调研,增长分析等, 4000美元/月。推特增长顾问服务,分析欧美竞对,构建推特增长路径。价格同上。Will小助手企业微信进不去群扫这个微信公众号数据报告群21群满了可以加目录 | 作者 | 测试感受 | 难度分级说明 | 金融 | 市场 | 教育 | 其他 | 结尾 | 附件4aiwatch.ai |2025/7/28PPT+短报告测试结果目录 | 作者 | 测试感受 | 难度分级说明 | 金融 | 市场 | 教育 | 其他 | 结尾 | 附件注释:该表格中测试结果成功与否均为人工评价,会存在人工评价与AI不一致的情况(例如Prompt下达多个指令时(输出表格+发邮件),Agent完成了部分(输出表格),AI会判定为失败,人工会判定为部分成功)分类综合难度结果结果结果结果1ETH价格预测(报告)金融2.8失败成功成功成功2会员经济GDP分析(报告)金融3.8成功成功成功成功3美股历史跌幅分析(报告)金融4.3成功成功成功成功4制定提前退休计划PPT(PPT)金融4.4成功有PPT失败无PPT成功有PPT成功有PPT5巴黎旅行PPT制作(PPT)市场3.1成功有PPT失败无PPT成功有PPT成功有PPT6纽约租房PPT(PPT)市场4.2部分成功有PPT失败无PPT失败有PPT部分成功有PPT7LLM产业报告+PPT(PPT)市场4.7成功有PPT失败无PPT部分成功有PPT成功有PPT8AI Agents教程指南(报告)教育3.6成功成功成功成功9奈飞电影Excel+邮件(报告)其他3.1部分成功失败部分成功部分成功平均时间正确错误比例8/14/58/19/0 1,5601,030 62 607 592 16 300720 2,940 35 540360 1,380 85 5401,500 720 50 1,440360 960 35 3001,080 120 27 600323 566 69 660300 600 216 300420 420 22 780266 时间单位:秒OpenAICometManusGensparkPrompt时间时间时间时间5aiwatch.ai |2025/7/28报告一些Takeaway-by郎瀚威•这是我们第二次出报告,和上次综合类不同,这次选择的是报告类,这也是最大的垂类。•本次是一共9个任务,5个PPT,4个报告,未来深度报告会独立测试。•本次测试结论是,用通用AI Agent生成文档,已经达到初步可用水平,也发现一些问题:•1、当前AI Agent生态各有短板,没有一家在所有方面都表现完美。•2、对于通用Agent,步骤更多,因此数据幻觉是危险的问题,现阶段AI生成内容必须全面验证,不能因为前几条正确就信任整体。•3、直接承认能力局限,反而赢得信任,真正的行业进步需要直接的问题反馈和整个生态的共同迭代,而非单一平台独大。•欢迎到推特和公众号留言,我们会持续收集Prompt,目前已经将报告类Prompt看板开源( https://three-recorder-52a.notion.site/23efc520994e801aa636cb5d82523972?v=23efc520994e80eb96a2000caa6c0174)目录 | 作者 | 测试感受 | 难度分级说明 | 金融 | 市场 | 教育 | 其他 | 结尾 | 附件6aiwatch.ai |2025/7/28测试感受——by Will团队成员1 dyr (测了22个任务在三家的表现)这次测试我分别测了5个任务在Genspark、Manus、OpenAI上的表现,还有5个任务分别在Genspark、Manus上的表现。核心观点:AI生成内容必须仔细验证。功能完整度、诚实度、内容质量各有优劣 ,没有一家在所有方面都表现完美 ,当前AI Agent生态还不成熟,各有明显短板 ,需要持续反馈和迭代来推动整体进步 发现了一些问题:1、幻觉问题:Manus在统计奈飞电影Top50时,发现自己没有能力统计,转而找了几个测评文章,将文章数据抓下来写道了表格中,但是抓取的文章内容仅统计了Top20的数据,对于另外的30个,Manus采取的策略是乱编,电影名直接是“知名电影#21“,观看次数和观看小时数竟然是呈等差数列降序排列!!!给我气笑了,有一种上学时老师说”不会的题,宁可编上也别空着“的感觉。当时我刚跑完这个任务,它还大大方方的承认了无法发邮
[郎瀚威]:通用Agent写报告能力测试报告,点击即可下载。报告格式为PDF,大小9.34M,页数91页,欢迎下载。

