天选“牛马”,OpenAI悟了?
4月24日凌晨,OpenAI正式发布GPT-5.5及更高规格的GPT-5.5 Pro。OpenAI总裁格雷格·布罗克曼称该模型“能在更少指导下做更多事,审视不明确问题并自己弄清楚下一步该做什么”。
GPT-5.5在智能体编程、计算机使用、知识型工作等领域的基准测试中全面超越前代GPT-5.4。在考核复杂命令行任务的Terminal-Bench 2.0测试中得分为82.7%,比GPT-5.4的75.1%提升近8个百分点。在评估跨44种职业知识工作能力的GDPval测试中得分为84.9%。在考核计算机自主操作能力的OSWorld-Verified测试中达78.7%。在考核复杂客服流程的Tau2-bench Telecom测试中达98.0%。
MagicPath CEO彼得罗·斯基拉诺的测试显示,GPT-5.5用约20分钟将一个包含数百个前端改动和重构变更的分支与主分支完成合并,一次性解决所有冲突。Every创始人丹·希珀称其为“第一个真正具备概念清晰度的编码模型”。AI工程师彼得·戈斯特夫测试确认,GPT-5.5可稳定自主运行近10小时。
科研场景中,GPT-5.5在FrontierMath最难数学题测试中得分为35.4%,Claude Opus 4.7为22.9%。OpenAI报告称,一个搭配定制工具的GPT-5.5内部版本协助发现了关于拉姆齐数的新数学证明,已在形式化证明工具Lean中得到验证。
第三方机构Artificial Analysis的智能指数显示,GPT-5.5在五项核心评估中的三项位居榜首,综合表现排名第一。Artificial Analysis在评测报告中写道:“GPT-5.5以竞争对手前沿编码模型一半的成本,提供了最先进的智能。”
OpenAI同步将GPT-5.5的生物和网络安全能力评定为“高”风险等级,部署了更严格的安全分类器,并推出“网络可信访问计划”供安全研究人员申请受限访问权限。