博士级AI？马斯克xAI 推出Grok 4 多代理推理、预测市场功能一次看

时间：2025-07-11 12:00:06 来源：标准下载网类别：软件攻略

马斯克领军的人工智慧公司xAI 几个小时前正式发表最新一代AI 模型Grok 4，号称为「地表最聪明AI」。该模型结合前所未有的推理能力、博士级学术水准与多工具使用的整合，并在多项基准测试中打破纪录。他预期Grok 4 将在一年内带来实质性的技术发明或学术意义。

Introducing Grok 4, the world's most powerful AI model. Watch the livestream now: https://t.co/59iDX5s2ck

— xAI (@xai) July 10, 2025

两版本：Grok 4 与Grok 4 Heavy

首先，Grok 4 分为单纯的单代理版本(Single-Agent Version) 的Grok 4、以及多代理版本(Multi-Agent Version) 的Grok 4 Heavy。

Grok 4 Heavy：采用多代理协作模式(multi-agent collaboration)，让多个代理先各自解决问题，再如同「学习小组」般互相分享解决方案并比较彼此成果，再得出最终答案。

目前，该公司也推出了至今最昂贵的订阅计划「SuperGrok Heavy」，每月300 美元。计画订阅者能抢先体验Grok 4 Heavy 服务，以及未来所推出功能的优先使用权。

再来，xAI 声称Grok 4 具有超越人类的学术与逻辑能力，成为现阶段最接近通用人工智慧(AGI) 的模型之一。他能在美国SAT、GRE等高等考试中获得近乎满分的成绩，并在所有学科表现出博士以上等级的知识涵养。

另外，Grok 4 在多项指标性基准测试中创下新高，展现前所未见的能力边界。具体包括：

在Vending-Bench 自动贩卖机商业营运模拟测试中，成功让资产收入翻倍，展现出稳定且贯彻始终的策略制定能力。

生物医学研究中心ARC Institute 以Grok 4 协助自动化其研究流程，高效率推动实验进行。

其他还有医疗影像检查、金融策略制定与游戏开发等领域皆已存在实际应用。

同时，在人类终极测验(Humanity's Last Exam, HLE) 中，Grok 4 能在无辅助情况下解出25.4% 题目，Grok 4 Heavy 版本则能够解出44.4% 的题目，在现有AI 模型中排名第一。

xAI 透露，Grok 4 的问世背后，是来自硬体与训练策略的双重飞跃：「Grok 4 的训练量是Grok 2 的100 倍。」

藉由我们的Colossus 超级电脑约20 万颗H100 GPU，从预训练到强化学习(RLHF)，Grok 4 强化了模型对推理任务的专注与精确度。

团队强调，随着人类编写的考题难度已「无法有效训练」Grok 4，现实世界将成为最终的测试场所，像是能否真正创造有用的发明或技术，借以判断它们是否实际有效。

同时，Grok 4 也不只是会思考，更将学会如何动手解决真实世界问题。 xAI 表明，不同于其他模型，Grok 4 将工具使用能力纳入训练流程，提升实作与应变能力：

未来几个月内，Grok 4 将接入特斯拉和SpaceX 使用的工程分析工具，进入更精密的工程环境。我们更计划在今年底前向各大公司提供强大的企业级工具与高度精确的物理模拟器。

团队补充，「当前目标是让Grok 能操纵人形机器人Optimus，并在物理世界中验证其逻辑与创意的真实与有效性。」

(辉达黄仁勋：华为晶片已追上NVIDIA H20，马斯克Optimus 机器人开启兆元商机)

再来是xAI 最引以为傲的推理功能，Grok 4 不仅能从训练资料中提取知识，更具备经强化训练所培养的的逻辑思考能力，能在未知情境中自行构建问题解法，并进行多代理的集体思辨验证，最终跟人类科学家一样推导出自己的结论：

Grok 4 被设计为从「第一性原理」出发的思考方式，能自行发现问题、建构逻辑并完成复杂的演绎，这是其他与以往AI 难以触及的推理场域。

xAI 预期，Grok 4 将在最早今年前、最晚明年发明出真正实用的新技术，并于未来两年内可能发现目前人类还未知的科学原理。

(专访马斯克：AI 超级智慧将爆发、创业者应追求「有用」而非「伟大」的人生)

最后，xAI 也展示了Grok 4 横跨语音互动与金融商业等多领域的实际应用潜力。以事件趋势判读为例，Grok 4 Heavy 能够查看预测市场Polymarket、运用统计计算与推理能力，仅用几分钟便预测出道奇队在世界大赛的胜率为21.6%，展现出超越传统量化分析工具的即时运算实力。

(X 宣布与Polymarket 合作，作为官方预测市场伙伴)

Grok 的未来愿景也令人惊艳，xAI 表示，未来版本将加入影片理解与游戏互动能力，能够游玩游戏并判断所谓「乐趣」，甚至整合游戏引擎自行创造互动与艺术内容。包括电视节目、电影作品与电玩游戏等。

语音方面，Grok 4 的表现也有重大升级。新版模型引入多种声音风格与口音，使对话更加自然且流畅。发布会上还刻意与GPT 做比较，凸显Grok 4 不仅不会打断使用者，也大大缩短了思考与回应的延迟时间，成为其介面的一大亮点。

Grok 4 的诞生，不仅代表AI 迈入更深入的思考与应用阶段，据马斯克所述，更有望引发一场横跨教育、科学、商业与创意产业的智慧革命，而Grok 将真正参与其中，而非仅是从旁协助的语言模型或辅助工具。

xAI 开发团队的未来愿景宏大而激进，他们强调：「AI 如今已不再只是帮我们思考，而是与我们共同创造世界。」