热点资讯

21点

尊龙app GPT-5.4发布：OpenAI首个大一统模子，险些是龙虾原生

发布日期：2026-03-09 10:54 点击次数：96

GPT-5.4，它来了！

它更像是一个"模子才调大一统"效果：OpenAI 初度在单一模子中，把推理（Reasoning）、编程（Coding）、诡计机原生交互（Computer Use）、深度网页搜索以及百万级 Token 险峻文全部揉碎、重组，焊死在了团结个模子里。

要点是，莫得因为 N in one 而纵容掉任何一个单项的性能——

OpenAI 稀疏强调，GPT-5.4 在以上界限的多个要害基准测试中依然保抓率先。

跳票许久的 OpenAI，终于冷不防给了 AI 大模子圈梆梆一拳。

其中最能勾引建造者眼神的，莫过于它是 OpenAI 首个原生支抓"诡计机使用"才调的通用模子。

我耳边齐还是听到 GPT-5.4 的声息了：

玩儿龙虾的一又友们，走过途经探究一下我咯～

同期，官方博文自大，GPT-5.4 的着力也出现了明显培植。

比较 GPT-5.2，GPT-5.4 在推理过程中使用的 Token 数目显赫减少。

Token 破钞下落意味着反应速率更快，同期全体老本也更低。

是的，它变强了，但也变低廉、变快了。

这亦然 OpenAI 此次发布反复强调的少量：才调培植和着力优化是同期发生的。

跟着 GPT-5.4 上线，ChatGPT 中的模子体系也随之调遣。

GPT-5.4 同步上线 ChatGPT、API 以及 Codex。

在 API 价钱体系中，GPT-5.4 的单 Token 价钱略高于 GPT-5.2，但由于任务所需 Token 减少，总体老本可能并不会上升太多。

面向复杂任务的 GPT-5.4 Pro 版块也沿途推出，在 ChatGPT 中则提供为 GPT-5.4 Thinking。

值得小伙伴们珍视的少量，GPT-5.4 Thinking 将取代此前的 GPT-5.2 Thinking，且 GPT-5.2 将在三个月后认真退役。

而 GPT-5.1 系列将在 3 月 11 日就要从 ChatGPT 里 say bye bye 了。

{jz:field.toptypename/}

选藏你们终末相处的甜密时光吧～

咫尺各个外交媒体还是炸开了锅。

有网友感触说念领有百万 token 险峻文窗口、还能原生使用电脑的 GPT-5.4，和苹果史上最低廉条记本电脑 MacBook Neo 同周发布……

"天爷啊，我的条记本电脑正在经验一场存在宗旨危险！！"

三大才调培植，系 OpenAI 首个原生支抓电脑操作的通用模子

在具体才调层面，GPT-5.4 的升级不错抽象为三个标的：

深度常识责任 ( Knowledge Work）

原生诡计机使用 ( Computer Use）

高阶编程与调试 ( Coding）

这三种才调基本隐蔽了现时大多数数字责任的中枢经由，而 GPT-5.4 齐作念得挺出色。

咱们逐一来看。

深度常识责任 ( Knowledge Work）

滥觞是常识责任才调。

在预计 AI 处理 44 种作事常识责任才调的 GDPval 基准测试中，它平局 + 得胜的综合得分 83.0%。

多说几句嗷，GDPval 评测主如若用来测试模子在真确作事场景中的发达，它评测触及 44 种作事，隐蔽了好意思国 GDP 孝顺最高的 9 个行业。

具体任务上并不仅仅浅易问答，它条目模子完成真确责任产物，举例销售演示文稿、司帐表格、排班表、制造经由图以至短视频。

是以在大批常识责任任务中，GPT-5.4 的遗弃还是好像与专科从业者抓平，以至杰出他们。

此外，OpenAI 稀疏强化了 GPT-5.4 在办公文档界限的才调。

举例在里面投资银行建模测试中，GPT-5.4 的平均得分达到 87.3%，而 GPT-5.2 为 68.4%。在东说念主类评审的 PPT 生成测试中，评委有 68% 的时候更偏好 GPT-5.4 生成的遗弃，原因包括视觉效果更好、版式更丰富以及图片使用更合理。

从运用角度来看，这些才调对应的场景绝顶径直。

包括写申报、作念财务模子、制作演示文稿、分析生意数据等责任，齐是典型的常识型任务。

GPT-5.4 正执政着这类任务进行专诚优化。

原生诡计机使用 ( Computer Use）

GPT-5.4 最引东说念主护理的一项才调是原生诡计机操作，这是 GPT-5.4 区别于以往统共模子的中枢记号。

模子不错通过截图连续软件界面，然后扩充鼠标点击和键盘输入等操作。

包括发送邮件、创建日期事件、填写表单、操作网页等……齐不错通过这种格式完成。

在 WebArena 浏览器任务测试中，GPT-5.4 取得 67.3% 的得胜率，高于 GPT-5.2 的 65.4%。

在 Online-Mind2Web 测试中，仅通过截图不雅察完成网页操作时，GPT-5.4 的得胜率达到 92.8%。

此外，在 OSWorld-Verified 基准测试中，GPT-5.4 在桌面操作任务中的得胜率达到 75.0%，还是杰出东说念主类平均水平（72.4%）。

这些数据背后代表的是一种新的交互模式，也算是没落下最近的龙虾狂飞腾。

高阶编程与调试

第三个要害才调来自编程。

而况强调的是"高阶编程"。

GPT-5.4 吸纳了此前最强的编程模子 GPT-5.3-Codex 的才调。咫尺的它不仅支抓 Token 输出速率培植 1.5 倍的 /fast 模式，还加入了一个名为" Playwright ( Interactive ) "的实验性技能。

它允许 AI 在帮你写网页或者运用时，开启一个窗口进行视觉化调试。

比如你给它一个浅易的需求去作念模拟游戏，它能一边生成好意思术钞票、一边写逻辑，以至一边运行自动测试来考据游戏情状是否平方。

在 SWE-Bench Pro 测试中，GPT-5.4 取得 57.7% 的收货，略高于 GPT-5.3-Codex 的 56.8%，同期延长更低。

里面测试还自大，GPT-5.4 在复杂前端任务中的发达明显优于此前模子。生成的界面联想愈加好意思不雅，功能结构也更圆善。

为了展示这一才调，OpenAI 演示了一个由 GPT-5.4 生成的浏览器主题公园模拟游戏。

模子简约单教导词开赴，生成游戏资源、构建场景、编写逻辑，尊龙并通过自动浏览器测试不停迭代。

这种"边造边测"的才调，还是绝顶接近一个东说念主类高等全栈工程师的责任流。

一种趋势无庸赘述：

UI 交互正在取代繁琐的 API 对接，成为 AI 操作天下的新主流旅途。

emmmm，这可能会让许多中间件失去价值。

全体定位：AI 数字职工

看完上述才调的整合，你就能读懂 OpenAI 在官方博文里浮现出的诡计。

OpenAI 在发布著作中屡次提到：

GPT-5.4 的计算是成为好像完成真确责任的 Agent 系统。

如果说之前的 GPT 模子版块照旧一个需要你盯着看的提拔用具，那么 GPT-5.4 还是运行尝试成为一个能颓唐负责整块业务的数字职工。

这种" AI 数字职工化"体咫尺三个维度的飞跃。

滥觞是电脑操作才调。

模子不错通过截图连续软件界面，并通过鼠标和键盘指示进行操作。

这使得 AI 好像径直在电脑环境中扩充当务。

其次是浏览器任务才调。

在 BrowseComp 测试中，GPT-5.4 的收货达到 82.7%，而 GPT-5.4 Pro 达到 89.3%，比 GPT-5.2 培植 17 个百分点。

这意味着模子好像抓续搜索网页、筛选信息并整合遗弃，尤其允洽处理需要多轮检索的问题。

第三是多用具调用才调。

在 Toolathlon 基准测试中，GPT-5.4 取得 54.6% 的准确率，高于 GPT-5.2 的 45.7%。

这个测试的任务经常需要多枢纽操作，举例读取邮件附件、上传文献、评分功课并记载到表格中。

这种按需检索用具的才调是裁汰 Agent 运行老本的要害，它经管了以前模子在面临复杂指示时容易"迷途"或者 Token 爆炸的问题。

此外，关于对延长条目较高的场景（在这种场景中，东说念主们倾向于不进行推理操作），GPT-5.4 比其前辈版块有了进一步的纠正。

细节之处的全面进化

除了上述撑抓才调，GPT-5.4 在办公细节上也进行了大批打磨。

比如它在创建和裁剪电子表格、PPT 方面的发达，其表格建模准确率从 68.4% 跃升至 87.3%。

在演示文稿生成测试中，东说念主类评审也更偏好 GPT-5.4 的遗弃，以为其视觉千般性和审好意思更强。

同期，视觉才调的培植也带动了文档领略的高出。

在 MMMU-Pro 视觉推理测试中，GPT-5.4 取得 81.2% 的准确率，高于 GPT-5.2 的 79.5%。

更伏击的是，它咫尺支抓高达 1024 万像素的原图输入，对高密度、高分辨率的图像连续愈加精确。

视觉才调的培植也带来了更强的文档领略才调。

在 OmniDocBench 测试中，GPT-5.4 的平均诞妄率从 0.140 下落到 0.109。

最令东说念主沸腾的是诞妄率的下落。

从官方先容中能初步嗅觉到，GPT-5.4 是个极其淡雅事实的模子，其事实诞妄概率比前代裁汰了 33%，大大缓解了用户对模子幻觉的慌乱。

在着力方面，GPT-5.4 引入用具搜索机制。

以前模子在使用用具时，需要在 Prompt 中包含所灵验具界说。如果用具数目许多，Prompt 就会变得绝顶渊博。

咫尺模子不错先取得用具列表，然后按需查询具体用具界说。

在达成交流准确率的情况下，将总 Token 使用率裁汰了 47%。

这种老本规定技巧施展 OpenAI 正试图让大模子大限制生意化变得愈加施行，毕竟关于企业来说，省钱和好用同等伏击。

更好用了，但更省钱了吗？

从 OpenAI 公布的 API 订价表来看，GPT-5.4 的订价如实比 5.2 版块要高出一截。

GPT-5.2 的每百万 Token 输入 / 输出价钱别离是 1.75 好意思元和 14 好意思元，而 GPT-5.4 则高潮到了 2.5 好意思元和 15 好意思元。

尤其是关于那些追求极限性能的用户，GPT-5.4 Pro 的价钱更是飙升到了每百万输入 30 好意思元。

天然，原因坚信是 5.4 被定位为针对专科机构和高端分娩力场景的溢价居品。

如果你仅仅写写浅易的闲聊案牍，陆续用 5.2 其实更合算。

不外天然单价涨了，但 GPT-5.4 在 Agent 任务中的"省钱之说念"主要藏在它的手艺机制里。

最中枢的少量是即是用具搜索（Tool Search）功能。

以往咱们让 AI 接入外部用具（比如接入几十个公司的数据库和里面接口）时，必须把所灵验具的界说全部塞进教导词里。

哪怕 AI 此次只用了一个用具，你也得为剩下的几十个用具的界说支付 Token 用度。

但在 GPT-5.4 下，由于引入了近似"查字典"的搜索机制，模子不错先看一遍粗略的用具清单，等坚信要用哪个时，再临时去调取阿谁用具的细心界说。

在针对 MCP Atlas 基准测试的实验中，这项手艺在保抓同等准确率的情况下，把总 Token 使用量足足裁汰了 47%。

One more Thing

全球千里浸在手艺狂欢中时，也有网友共享了一些心痛一忽儿。

弥远在冲浪一线的 Yuchen Jin 仅仅对 GPT 5.4 Pro 说了一句" Hi，俺是 Anthropic 创举东说念主"，就花掉了整整 560 元……

手艺高出好快，但网友的心好痛。

这也引出一个问题，杀鸡焉用牛刀？

如果 GPT-5.4 Pro 是最智能、最接近 AGI 的模子……那么，你有什么 AGI 级别的问题要问它呢？

（何况还这样贵，TAT）

一键三连「点赞」「转发」「留神心」

接待在驳斥区留住你的思法！

— 完 —

� � 今天，你养虾了吗？

接待加入【龙虾养成有计划组】，沿途交流养虾教养！扫码添加小助手加入社群，牢记备注【OPENCLAW】哦～

一键护理 � � 点亮星标

科技前沿进展逐日见

上一篇：DragonGame 底本Grok是36个小时极限卷出来的！xAI首创成员下野后放开说了

下一篇：尊龙app下载百束鲜花馈赠社区女性志愿者

热点资讯

推荐资讯

21点

尊龙app GPT-5.4发布：OpenAI首个大一统模子，险些是龙虾原生

推荐资讯