OpenAI Agent测试报告

OpenAI Agent测试报告2025.07.18郎瀚威/GPTDAO猫猫头AIwatch.ai2aiwatch.ai |01目录11Whole Foods订购02关于作者12YouTube视频用例总结03测试感受13视频prompt提取04界面说明14OpenAI Twitter分析05难度分级说明15智能眼镜行业分析06OpenAI任务难度评级表16YouTube找宣传博主07旧金山财务报告查找17Dify AI投资报告+PPT08旧金山寿司餐厅预订18稳定币全面分析09网球锦标赛旅行规划1910新加坡办公室开设研究+PPT202025/7/18目录OpenAI任务群友任务目录 | 作者 | 测试感受 | 难度分级说明 | OpenAI任务测试 | 群友任务测试3aiwatch.ai |2025/7/18关于作者•感谢孔一一 ,李福祥,张倩,张有鱼提供的Prompt。我们从30个群友提供的prompt中随机抽了4个。•作者郎瀚威及团队,郎瀚威现居美国硅谷Palo Alto,GPTDAO分析师,第二作者猫猫头,也在硅谷,小红书:107279551•更多数据内容请关注公众号:郎瀚威Will,新闻资讯请关注推特:@financeyf5 获取更多信息•官网飞书:https://aiwatch.ai/;GenAI网页数据2025Q1报告: 链接•加数据报告群:下方企业微信扫码,备注加Will的数据报告分享群,请简单自我介绍,仅用于讨论行业数据,发广告会飞机。•商务合作洽谈,请加微信lang2057,请备注公司信息,因为作者微信已经满了•服务包括:1对1推特增长咨询服务等。数据库服务,包含对于市场上产品的详细跟踪和打标,了解商机先人一步。咨询服务包含专业团队对于公开数据的收集,调研,增长分析等, 4000美元/月。推特增长顾问服务,分析欧美竞对,构建推特增长路径。价格同上。Will小助手企业微信进不去群扫这个微信公众号数据报告群21群满了可以加目录 | 作者 | 测试感受 | 难度分级说明 | OpenAI任务测试 | 群友任务测试4aiwatch.ai |2025/7/18测试结果时间单位:秒来源Prompt综合难度时间结果时间结果时间结果时间结果时间结果旧金山财务报告查找2300成功44部分成功480成功60部分成功220成功旧金山寿司餐厅预订3.5511部分成功34部分成功480部分成功120部分成功失败网球锦标赛旅行规划4729成功55成功300成功180成功501成功新加坡办公室开设研究+PPT4.31440成功30成功1500成功480成功742成功Whole Foods订购1.230部分成功14失败1260部分成功180部分成功失败YouTube视频用例总结2.5120成功16成功失败40成功成功视频prompt提取2.7600失败12成功部分成功32成功失败OpenAI Twitter分析2.8600部分成功132部分成功部分成功143部分成功部分成功智能眼镜行业分析3960成功46成功540成功300成功840部分成功YouTube找宣传博主3.5240部分成功85成功成功88成功部分成功Dify AI投资报告+PPT51740部分失败17失败1200部分失败2640成功1260成功稳定币全面分析5720成功失败1380成功840成功1200成功666 10成功44 9成功893 10成功425 12成功794 9成功600 2失败34 3失败870 2失败162 -791 3失败ManusGensparkFellou中位数OpenAIComet官方平均时间群友目录 | 作者 | 测试感受 | 难度分级说明 | OpenAI任务测试 | 群友任务测试5aiwatch.ai |2025/7/18报告一些Takeaway-by郎瀚威•6月我预测,Browerser和通用Agent,必有一战,但我还是没想到,Agent大战到来比想象的还要早的多!•从2023年Agent概念兴起,沉寂了一年多,到2024年末ComputerUse,2025年Claude模型能力的持续提高,再到产品的井喷涌现,Perplexity,OpenAI纷纷下场,新赛道的出现已经成为必然。究竟鹿死谁手?乾坤未定,你我皆是黑马。•总体来看,目前Agent已经能做到很多事情!•敲下这段文字,已经是硅谷的凌晨7点,我还是很兴奋,从2014年进入互联网行业,听了很多的故事,到有机会在硅谷亲眼见证经历这一切,有机会和从业者们分享,我感到很幸运。•我知道这个报告会出现在各家大小公司的投屏上,借此机会打破第四面墙,向各位一线工作者们,开发们,产品们,运营们,产品极客们,自媒体们,VC们,致敬!You know, you know ,•这个结果,仅仅是今天的结果。不代表明天,明天创始人就会更新,我们可能也会持续测试。所以别拿这个报告当个事,就是个讨论看板而已。•欢迎到推特和公众号留言,我们会持续收集Prompt,目前已经将Prompt看板开源(到Notion:https://three-recorder-52a.notion.site/234fc520994e806db6b1da924e7f67dd)•电脑端Agent 需要选按钮,可以提升性能。这次时间有限,并未对应选择, 全部是默认。这个交互Genspark作了引导,但OpenAI和Manus引导不是很明显。AI浏览器不需要选择。•像sheets这类case,prompt其实没说清楚要多少数据,agent会先做一些任务看是否满足你的要求目录 | 作者 | 测试感受 | 难度分级说明 | OpenAI任务测试 | 群友任务测试6aiwatch.ai |2025/7/18测试感受——by 猫猫头猫猫头使用感受:1. 给全部5款产品测试了4个prompt,prompt等级均为Level32. OpenAI的Agent功能只在网页版更新了,如何开启Agent功能没有任何提示,像是在跟用户玩找彩蛋。已经是Pro用户了,也只能抱着试试看的心态自愿上缴200刀开盲盒,看看有没有可能开启agent功能。某种程度上,算是隔绝了大批非死忠粉用户,保护服务器别崩,非常鸡贼。Perplexity上线comet时,也采取了同样的trick。区别在于,Comet本身是一个独立的电脑端软件,虽然也很贵($199),但胜在明码标价、童叟无欺。3. OpenAI:交付非常失望,等待时间过长,同时无法track进展,让人有火没处发。唯一的优点是,等待时的UI很好看,不过着实脱裤子放屁4. Fellou:没有幻觉是绝对的优势;同时有订餐厅这样的任务是真能执行,很棒。但是,不能全托管,需要手动补齐信息,陷入死循环还在耗credit。策划案出来之后,还得手动run。单一任务执行成本其高,堪比manus(btw,执行过程中,我的mac电脑风扇第一次开了;and 没有分享功能)5. Genspark:个别任务执行幻觉程度跟comet差

立即下载
信息科技
2025-07-22
郎瀚威
49页
11.85M
收藏
分享

[郎瀚威]:OpenAI Agent测试报告,点击即可下载。报告格式为PDF,大小11.85M,页数49页,欢迎下载。

本报告共49页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共49页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
表 1 电子行业上周涨幅前五公司(截至 7 月 18 日)(亿元,%)
信息科技
2025-07-22
来源:电子行业周报:台积电Q2财报超预期,算力需求持续强劲增长
查看原文
图 3 申万电子行业近 10 年估值(PE)表现(TTM)
信息科技
2025-07-22
来源:电子行业周报:台积电Q2财报超预期,算力需求持续强劲增长
查看原文
图 2 申万一级行业市盈率(TTM)
信息科技
2025-07-22
来源:电子行业周报:台积电Q2财报超预期,算力需求持续强劲增长
查看原文
图 1 申万一级行业周涨跌幅(07 月 14 日-07 月 18 日)
信息科技
2025-07-22
来源:电子行业周报:台积电Q2财报超预期,算力需求持续强劲增长
查看原文
本周中国台湾电子指数涨跌幅一览
信息科技
2025-07-22
来源:电子行业周报:国产EUV光刻机进展加速
查看原文
本周费城半导体指数图表 17:本周恒生科技指数
信息科技
2025-07-22
来源:电子行业周报:国产EUV光刻机进展加速
查看原文
ai总结
AI智能总结
本报告对OpenAI Agent及多款竞品进行了功能测试与体验评估,揭示了当前AI代理工具的发展现状与用户痛点。 - 1. 测试结果显示OpenAI Agent在复杂任务处理上表现尚可,但存在交互隐蔽、响应延迟等问题,且200美元的高门槛限制了用户体验。 - 2. 横向对比发现Perplexity的Comet以快速响应和精准执行脱颖而出,Genspark则以高性价比和优质报告生成能力获得好评,两者在特定场景下优于OpenAI产品。 - 3. 各产品在任务适应性上差异明显:Fellou擅长实际执行类任务但易陷入死循环,Manus在金融操作上更安全但报告生成能力较弱,反映出AI代理领域已出现明显功能分化。 - 4. 测试团队开发了5级难度评估体系,证实任务复杂度与AI表现直接相关,专业领域和多步骤任务的完成度普遍较低,揭示了当前技术瓶颈。 - 5. 行业观察指出Agent大战已提前爆发,产品快速迭代的特性意味着本次测试结果仅反映当下状态,技术演进速度远超预期,市场竞争格局尚未定型。
热门报告
加入社群
回顶部
报告群
公众号
小程序
在线客服
收起