OpenAI+Atlas测试报告(二)
OpenAI Atlas 测试报告(二)2025.10.242aiwatch.ai |01目录09测试4:创业公司融资调研02关于作者10测试5:查看日历预订餐厅03测试结果一览11结尾04测试设计理念12附件05测试感受06测试1:视频特定信息提取07测试2:简历转为网站08测试3:旅行储蓄预算规划2025/10/24目录前言测试任务测试任务目录 | 作者 | 测试结果 | 测试感受 | 视频特定信息提取 | 简历转为网站 | 旅行储蓄预算规划 | 创业公司融资调研 | 查看日历订餐厅4aiwatch.ai |2025/10/24测试Prompt执行结果表格目录 | 作者 | 测试结果 | 测试感受 | 视频特定信息提取 | 简历转为网站 | 旅行储蓄预算规划 | 创业公司融资调研 | 查看日历订餐厅场景结果结果结果结果1视频特定信息提取来源:Comet官方社媒失败失败成功成功2简历转为网站来源:Fellou官方编程部分成功部分成功成功成功3旅行储蓄预算规划来源:Anthropic官方个人助理成功失败部分成功成功4创业公司融资调研来源:Genspark官方办公成功成功成功成功5查看日历预订餐厅来源:OpenAI官方个人助理成功失败失败失败4/12/34/14/1时间单位:秒PerplexityCometGenspark浏览器Prompt时间时间谷歌Gemini浏览器插件时间 1641 292423 8 12020 82 417 9正确/错误比例34 平均时间104 182 17159 OpenAIAtlas时间 260 122 182 72 51 30 180 36 165aiwatch.ai |2025/10/24任务解析表Prompt任务解析任务1:视频特定信息提取案例Prompt来源:Comet官方what are the 7 features in this video Agent需要观看并分析视频内容,识别视频中提到的7个功能特性,并准确提取和归纳这些信息点。主要测试Agent的视频内容理解能力、信息识别和提取能力、多模态数据处理能力。任务2:简历转为网站案例Prompt来源:Fellou官方I’d like to use this resume to create a personal website. Could you please help me convert the information in this resume into a suitable format for web display? I’d like to create a clean, professional page that highlights my experience and strengths. It would be even better if you could add some personalized design读取简历文档内容,提取关键信息(工作经历、技能、教育背景等),并将其转换为适合网页展示的HTML格式。需要生成简洁专业的个人网站,突出用户经验和优势。主要测试Agent的文档解析能力、网页设计和代码生成能力。任务3:旅行储蓄预算规划案例Prompt来源:Anthorpic官方I want to surprise my wife with a trip to ltaly!lhave 6 months to save-here's my recent finances. Help me create a plan and a budget in Excel. Where canl save the money?! 分析用户提供的财务数据,基于6个月的储蓄周期为意大利旅行制定预算计划。需要识别可节省开支的领域,创建Excel格式的详细储蓄计划和旅行预算表。主要测试Agent的财务数据分析能力、预算规划能力、Excel表格创建能力、个性化建议生成能力。任务4:创业公司融资调研案例Prompt来源:Genspark官方Make a list of all American healthcare startups that are at Series A or Series B stage, founded after2020, with their most recent funding round occurring in 2024 or later. include a brief description of their business, founders, industry category, funding information, investors and employee size.需要进行复杂的市场调研,筛选符合特定条件的美国医疗创业公司(2020年后成立、A轮或B轮、2024年后最近融资),并收集多维度信息:业务描述、创始人、行业分类、融资信息、投资方和员工规模。主要测试Agent的商业情报收集能力、数据筛选和整合能力、结构化信息呈现能力。任务5:查看日历预订餐厅案例Prompt来源:OpenAI官方Find me a highly-rated sushi restaurant in SF and make a reservation for 2 on OpenTable for any night l have available on my calendar. 需要完成多步骤任务:检索旧金山高评分寿司餐厅,访问用户日历查看可用时间,在OpenTable平台为2人完成餐厅预订。主要测试Agent的信息检索能力、日程管理能力、第三方平台操作能力、多任务协同执行能力。目录 | 作者 | 测试结果 | 测试感受 | 视频特定信息提取 | 简历转为网站 | 旅行储蓄预算规划 | 创业公司融资调研 | 查看日历订餐厅6aiwatch.ai |2025/10/24浏览器测试感想——by 郎瀚威Will我们在过去的几个月里,陆续写了十几篇关于Agent,浏览器的测试(过往Agent测试报告下载链接:https://zw73xyquvv.feishu.cn/wiki/Sf0UwMFr8i0D9OkIJBKc7fBXnZe)。写这些报告很爽,每次隔一段时间就会有正反馈出现。巨头如同下饺子一般在陆续投入。现在还远不是最终决战,用户习惯尚未养成,KOL也在摸索用法,巨头们也在摸着彼此过河,找pmf。Ch
OpenAI+Atlas测试报告(二),点击即可下载。报告格式为PDF,大小4.08M,页数48页,欢迎下载。



