配资平台选择 OpenAI发布ChatGPT Agent:部分能力超越人类,但做电子表格仍不如人类
发布日期:2025-07-20 21:40 点击次数:83

7月配资平台选择,OpenAI尚未按照此前计划发布GPT-5,智能体方面的更新先行面世了。
北京时间7月18日凌晨,OpenAI直播发布了ChatGPT Agent,这一智能体融合了Operator智能体网页交互能力以及Deep Research功能,使ChatGPT内置计算机能帮助用户完成复杂的多步骤任务。
“现在ChatGPT可以思考和行动,能主动从技能工具箱中选择工具,完成一些任务。”OpenAI介绍,这些任务包括“查看我的日历并根据近期新闻介绍即将举行的会议”“分析三个竞争对手并创建幻灯片”等。此外,用户还可以执行一些重复任务,例如将屏幕截图转换为可编辑PPT、用新的财务数据更新电子表格、重新安排会议。
据介绍,ChatGPT的工作过程包括浏览网站、过滤结果、提醒用户登录相关账号、运行账号、分析、创建电子表格和幻灯片。
此前OpenAI曾单独发布Operator和Deep Research功能,其中Operator也是一个智能体,可以滚动、点击网页,帮用户完成餐厅预订等任务,Deep Research则主要面向信息深度分析和整合任务。OpenAI称,此次ChatGPT的核心更新是创建了一个统一的智能体系统,使Operator调动网站的能力、Deep Research整合信息的能力、ChatGPT对话能力融为一体。此次发布的智能体系统可以调用可视化浏览器、文本浏览器、终端工具、API接口,分别可用于与网页交互、处理大量文本、运行代码或下载文件、访问GitHub等应用数据。
从基准测试表现看,在跨学科专家级测试Humanity’s Last Exam中,ChatGPT Agent回答准确率为41.6%,超过Deep Research的26.6%、o3模型的24.9%;在数学基准测试FrontierMath中,ChatGPT Agent准确率为27.4%,高于o4 mini的19.3%和o3的10.3%;在针对真实知识工作任务的内部评测中,ChatGPT Agent在约半数案例中的表现与人类持平或超过人类;在现实数据科学任务DSBench测试中,ChatGPT的分析与建模准确率分别为89.9%和85.5%,超过人类水平;在衡量模型承担一到三年投资银行分析师建模任务能力的内部基准上,准确率高于o3和Deep Research。

不过,虽然ChatGPT Agent在SpreadsheetBench测试(评估模型编辑真实场景电子表格的能力)中,表现超过OpenAI的其他模型,但其最高得分45.5%还是远低于人类得分71.3%。

OpenAI称,此次更新是一个开始,公司将继续定期迭代改进。
Agent的能力很大程度上取决于基础模型的能力。发布ChatGPT Agent后,OpenAI最受关注的更新还是推出GPT-5。此前OpenAI CEO奥尔特曼表示,GPT-5可能于今年夏天推出,OpenAI代表此前也曾透露,初步预计的发布时间是在今年7月。当前,面对来自DeepSeek等厂商的竞争,OpenAI还是需要通过推出新的基础模型来证明自身的领先地位。
从Agent演进上看,有Agent开发者告诉记者,今年Agent预计可以在数十步较复杂的工具调用中,做到90%的准确率,基本达到可商用状态。但基础模型的能力还是还有所欠缺,基础模型还难以做到自主调用上万个工具并自主执行。
举报 第一财经广告合作,请点击这里此内容为第一财经原创,著作权归第一财经所有。未经第一财经书面授权,不得以任何方式加以使用,包括转载、摘编、复制或建立镜像。第一财经保留追究侵权者法律责任的权利。如需获得授权请联系第一财经版权部:banquan@yicai.com 文章作者

郑栩彤
相关阅读

OpenAI发布ChatGPT Agent
ChatGPT Agent可将多种能力融合,形成统一的智能体系统。
140 07-18 07:28

AI进化速递丨首个AI智能体安全测试标准发布
①首个AI智能体安全测试标准发布;②浙江大学与阿里巴巴成立AI安全联合实验室;③马斯克称将就特斯拉投资xAI举行股东投票。
54 07-14 20:44

“高考志愿填报指导师”半个月可拿证,用好AI 工具比速成专家靠谱
AI在志愿填报中究竟能扮演什么角色?它的决策依据是什么?边界又在哪里?
161 06-25 15:04

爆发前夜的智能体,落在中国算力的舒适区 | 海斌访谈
AI的发展又来到了一个拐点,“我们正处在Agentic AI爆发的前夜。”
371 06-21 16:15

盘前必读丨荣耀、中国移动达成AI终端战略合作;GPT-5迎来新消息
机构指出,市场需要量能的放大以激活人气,若后续量能放大能有明显的方向聚焦配资平台选择,则3400点的整数关口有望突破。
7 505 06-20 07:23 一财最热 点击关闭