九游「中国」Ninegame·官方网站-登录入口

新闻    你的位置:九游「中国」Ninegame·官方网站-登录入口 > 新闻 >

九游体育官网登录入口那么 Grok-3 推理模子仅仅和 o1 相配-九游「中国」Ninegame·官方网站-登录入口

发布日期:2026-04-12 18:46    点击次数:169

Grok-3 才发布 3 天九游体育官网登录入口,就堕入舞弊风云。

隔邻 OpenAI 诈欺左右火速掀桌:每次评估中 o3-mini 王人要比 Grok-3 好,看到 Grok 团队舞弊果然令东说念主失望。

咋回事?

在 Grok-3 的 Blog 中有一张 AIME 2025 评估图令东说念主印象真切,两个新版块模子王人跳跃 o3-mini 高配版。

但郑重看,Grok-3 两个模子的柱状图中王人有 1 段情态更浅的部分。OpenAI 申斥的舞弊,便是在这里。

淡色部分代表了 Grok-3 模子在 Con@64 上的收获。

即这是模子进行 64 次谜底后的收获,而不是单次复兴。

那么问题就来了,被拿来对比的 o3-mini、o1、DeepSeek-R1、Gemini-2 Flash Thinking 似乎并莫得这部分收获。

有东说念主就示意,要是果然如斯,那么 Grok-3 推理模子仅仅和 o1 相配。OpenAI 和 xAI 之间依旧差了 9 个月。

OpenAI 认真模子策画的商榷员 Aidan McLaughlin 更是情谊开麦,示意马斯克发布时说的话极其有误导性,这会让东说念主以为浅蓝色部分是通过推理兑现的收获。

不外值得一提的是,这种模子评估对比顺序似乎是 OpenAI 开了头。o3-mini 的 Blog 中,也看到了访佛式样的评估。

是以,为啥这样对比辞别理?

经受 cons@64,o1 王人能和 o3-mini 相配

率先明确见解:

cons@64:让模子生成 64 个谜底,最终经受出现频率最高的复兴。

pass@64:要是 64 个谜底中惟有有一个谜底正确,模子就得分。

是以有东说念主就说了,问题的要道不是 xAI 不应该使用 cons@64;

要道在于,要是其他模子仅仅尝试了一次,那就不太公正了。

因为 blog 中并莫得说傲气,是以假设是这种情况。

有 AI 博主也列出了征集到的关系数据,o3-mini 在单次复兴上的进展更好。

其次,左证 o3-mini 的 blog,o1 模子经受 cons@64 收获,以致不错和 o3-mini 打个相配。

这意味着经受 cons@64 收获是"有上风"的。

有东说念主也揪着这事不放,然则 OpenAI 如实没让 o3-mini 用 cons@64。

临了,Grok-3 发布时的说法似乎有一定误导性。

有东说念主贴出来了原片断。在被问及评估图中的淡色部分是什么时,官方给出的评释是:

这些模子不错推理、不错念念考,不错条目模子念念考更长、花更多时分进行测试时推理。这种情况下,这些淡色部分意味着咱们仅仅破耗更多时分让模子贬责归并个问题,然后它才会得出什么是正确的谜底。要是这样作念,模子以致不错进展得更好。

OpenAI 商榷员 Aidan 认为这段话极具误导性,他仅仅说使用更多测试时筹谋,听起来像是作念更多推理,但其实不是如斯。

一言以蔽之,Grok 团队这样干如实有点不隧说念。

吃瓜到这,网友们未免启动蛐蛐:

Grok-3 不如 o3-mini,马斯克就会给团队上压力。然后想出的好目标便是在基准测试上作念作为。

以及为啥王人不和 Claude 作念对比呢?

不外也有东说念主认为这事不可一棒子打死,Grok 仍旧有好多值得暖和的方面。比如 Grok-3 一个月前才完成预磨真金不怕火,这仅仅一个月内基于 CoT 的后磨真金不怕火铁心,模子还有很大的升迁空间。此外 xAI 正在以行业内最快的速率膨胀预磨真金不怕火筹谋智商。

以及 Grok-3 发布后,开发者们仍是火速酌量出了一些真谛的新玩法。

温存开发小游戏

这不,有东说念主就晒出了在特斯拉上完用 Replit+Grok 开发的小游戏。

还有曾在微软深度参与 Windows 系统开发的大佬 Dave Plummer,也用 Grok-3 复刻了经典的打砖块游戏。

他为 Windows 创建了任务料理器、为 Windows 完成了对 zip 文献的复旧。

这一次,他展示了怎样只用几句话就让 Grok-3 开发小游戏。

教唆词王人很大略:

"来作念个彩色版打砖块怎样样"

"让球自动出动,并让球每次从拍子上弹起时速率提高 10% "

"很好,球在垂直弹射时会卡住。一启动游戏是怎样策画的?do the same "

临了获得的恶果是这样的:

值得一提的是,马斯克最近确认了开导了 AI 游戏职责室的音尘,他要让游戏再次伟大(doge)。

参考连合:

[ 1 ] https://x.com/BorisMPower/status/1892407015038996740

[ 2 ] https://www.reddit.com/r/singularity/comments/1itoi3f/grok3_thinking_had_to_take_64_answers_per/

[ 3 ] https://www.tomshardware.com/tech-industry/artificial-intelligence/grok-3-used-to-clone-breakout-game-fabled-windows-developer-shares-prompts-and-code九游体育官网登录入口



上一篇:现金九游体育app平台各方王人作了好多奋力-九游「中国」Ninegame·官方网站-登录入口

下一篇:九游体育app(中国)官方网站当作后续内容检索的基础-九游「中国」Ninegame·官方网站-登录入口

Powered by 九游「中国」Ninegame·官方网站-登录入口 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群系统 © 2013-2024

top