02-13-日报-AI资讯日报

今日摘要

Google Deep Think 刷爆 ARC-AGI-2 榜单，能当论文同行评审，还帮 Duke 大学造出了传统方法做不到的晶体薄膜。
OpenAI 的 Codex-Spark 跑在晶圆级芯片上，每秒 1000 token，写代码终于不用干等了。
神仙打架的一天，OpenAI 顺便把对齐团队全解散了，安全问题谁来管？

⚡ 快速导航

📰 今日 AI 资讯 - 最新动态速览

💡 提示：想第一时间体验文中提到的最新 AI 模型（Claude 4.5、GPT、Gemini 3 Pro）？没有账号？来 爱窝啦 Aivora 领个号，一分钟上手，售后无忧。

今日AI资讯

👀 只有一句话

Google 和 OpenAI 今天同时放大招，Deep Think 刷爆榜单，Codex-Spark 让编程快到飞起。

🔑 3 个关键词

#神仙打架 #推理狂飙 #编程提速

🔥 重磅 TOP 10

1. Google 发布 Gemini 3 Deep Think 重大升级

以前让 AI 帮你审论文，它最多帮你查查语法。现在 Deep Think 直接能当"同行评审"——Rutgers 大学拿它复查高能物理论文，结果它揪出了人类审稿人漏掉的逻辑缺陷。更狠的是，Duke 大学用它设计晶体生长配方，直接造出了超过 100μm 的薄膜，传统方法根本做不到。ARC-AGI-2 跑分 84.6%，比 Gemini 3 Pro 翻了一倍多。Ultra 用户现在就能用，开发者可以申请 API。

2. OpenAI 发布 GPT-5.3-Codex-Spark：每秒 1000 token 的编程小钢炮

写代码最烦什么？等。改个函数等十分钟，调个接口等半小时。Codex-Spark 就是来解决这个痛点的——跑在 Cerebras 晶圆级芯片上，推理速度超过每秒 1000 token。SWE-Bench Pro 上达到 51% 准确率只要 2.3 分钟，完整版 Codex 要 3 分钟。你可以一边看它输出一边打断、纠正、追问，像跟一个反应极快的搭档对话。目前仅限 ChatGPT Pro 用户。

3. Gemini 3.1 Preview 已现身竞技场

Gemini 3 正式版还没出，3.1 预览版就已经在 Artificial Analysis 竞技场露面了。有网友截图显示该模型短暂出现在对比列表中，蓝点网是唯一报道此事的媒体。Google 这是要卷死谁？刚发完 Deep Think 升级，下一代预览版就开始内测了。等等党又要纠结了：是现在上车 3.0，还是再等等 3.1？

4. OpenAI 解散所有对齐团队

OpenAI 正式解散了公司内所有负责模型安全的对齐团队。这意味着什么？以前 OpenAI 还有一群人专门研究"怎么让 AI 不作恶"，现在这群人没了。有人猜测这是为了加速产品迭代，也有人担心安全问题会被忽视。不管怎样，这个决定肯定会引发行业热议。

5. TRAE CN 上线 Minimax M2.5 模型

字节的 TRAE 编辑器国内版悄悄上线了 Minimax M2.5。作为一个 200B 参数的模型，M2.5 在编码方面表现相当不错，价格也比较亲民。不过有开发者测试发现它在复杂逻辑推理上还有短板——比如理解集合运算时会犯一些"清澈的愚蠢"。但对于日常编码任务来说，这个选择还是挺香的。

6. DeepSeek V4 灰度测试开启

通过创建新会话有机会进入 DeepSeek V4 的灰度版本。有开发者测试了黑洞物理引擎渲染，效果和 Gemini 3 Pro 有得一拼。但问题也很明显：幻觉大得离谱，能编造不存在的对话，甚至会发 [image] [file1] 假装图片。上限很高，下限也很低，未来可期但还需打磨。

7. TinyFish 在 Mind2Web 基准测试中碾压三巨头

TinyFish 这个 Web Agent 在 Mind2Web 基准测试中拿下 90% 的成绩，比 Gemini 高 21 分，比 OpenAI 高 29 分，比 Anthropic 高 34 分。可以把它理解为运行在云端的、能大规模并行任务的 Browser Use，执行速度更快，能获取比搜索引擎更深层次的数据。所有 300 个任务并行运行的结果都公开在电子表格里，透明度拉满。

8. Claude Code 被曝"商战"行为后辟谣

之前有传言说 Claude Code 会检测到非 Claude 模型时故意破坏缓存命中。宝玉老师用 Codex 分析了 Claude Code 客户端代码（混淆后但还是明文），没有发现任何证据。原来是把段子当真了。不过 Kimi K2.5 的 Cache 命中率确实因为 Claude Code 的某些更新降低了，现在已经修复。