02-13-日报-AI资讯日报

今日摘要

Google Deep Think 刷爆 ARC-AGI-2 榜单,能当论文同行评审,还帮 Duke 大学造出了传统方法做不到的晶体薄膜。
OpenAI 的 Codex-Spark 跑在晶圆级芯片上,每秒 1000 token,写代码终于不用干等了。
神仙打架的一天,OpenAI 顺便把对齐团队全解散了,安全问题谁来管?

⚡ 快速导航

💡 提示:想第一时间体验文中提到的最新 AI 模型(Claude 4.5、GPT、Gemini 3 Pro)?没有账号?来 爱窝啦 Aivora 领个号,一分钟上手,售后无忧。

今日AI资讯

👀 只有一句话

Google 和 OpenAI 今天同时放大招,Deep Think 刷爆榜单,Codex-Spark 让编程快到飞起。

🔑 3 个关键词

#神仙打架 #推理狂飙 #编程提速


🔥 重磅 TOP 10

1. Google 发布 Gemini 3 Deep Think 重大升级

以前让 AI 帮你审论文,它最多帮你查查语法。现在 Deep Think 直接能当"同行评审"——Rutgers 大学拿它复查高能物理论文,结果它揪出了人类审稿人漏掉的逻辑缺陷。更狠的是,Duke 大学用它设计晶体生长配方,直接造出了超过 100μm 的薄膜,传统方法根本做不到。ARC-AGI-2 跑分 84.6%,比 Gemini 3 Pro 翻了一倍多。Ultra 用户现在就能用,开发者可以申请 API。

图片

2. OpenAI 发布 GPT-5.3-Codex-Spark:每秒 1000 token 的编程小钢炮

写代码最烦什么?等。改个函数等十分钟,调个接口等半小时。Codex-Spark 就是来解决这个痛点的——跑在 Cerebras 晶圆级芯片上,推理速度超过每秒 1000 token。SWE-Bench Pro 上达到 51% 准确率只要 2.3 分钟,完整版 Codex 要 3 分钟。你可以一边看它输出一边打断、纠正、追问,像跟一个反应极快的搭档对话。目前仅限 ChatGPT Pro 用户。

3. Gemini 3.1 Preview 已现身竞技场

Gemini 3 正式版还没出,3.1 预览版就已经在 Artificial Analysis 竞技场露面了。有网友截图显示该模型短暂出现在对比列表中,蓝点网是唯一报道此事的媒体。Google 这是要卷死谁?刚发完 Deep Think 升级,下一代预览版就开始内测了。等等党又要纠结了:是现在上车 3.0,还是再等等 3.1?

图片

4. OpenAI 解散所有对齐团队

OpenAI 正式解散了公司内所有负责模型安全的对齐团队。这意味着什么?以前 OpenAI 还有一群人专门研究"怎么让 AI 不作恶",现在这群人没了。有人猜测这是为了加速产品迭代,也有人担心安全问题会被忽视。不管怎样,这个决定肯定会引发行业热议。

图片

5. TRAE CN 上线 Minimax M2.5 模型

字节的 TRAE 编辑器国内版悄悄上线了 Minimax M2.5。作为一个 200B 参数的模型,M2.5 在编码方面表现相当不错,价格也比较亲民。不过有开发者测试发现它在复杂逻辑推理上还有短板——比如理解集合运算时会犯一些"清澈的愚蠢"。但对于日常编码任务来说,这个选择还是挺香的。

图片

6. DeepSeek V4 灰度测试开启

通过创建新会话有机会进入 DeepSeek V4 的灰度版本。有开发者测试了黑洞物理引擎渲染,效果和 Gemini 3 Pro 有得一拼。但问题也很明显:幻觉大得离谱,能编造不存在的对话,甚至会发 [image] [file1] 假装图片。上限很高,下限也很低,未来可期但还需打磨。

图片

7. TinyFish 在 Mind2Web 基准测试中碾压三巨头

TinyFish 这个 Web Agent 在 Mind2Web 基准测试中拿下 90% 的成绩,比 Gemini 高 21 分,比 OpenAI 高 29 分,比 Anthropic 高 34 分。可以把它理解为运行在云端的、能大规模并行任务的 Browser Use,执行速度更快,能获取比搜索引擎更深层次的数据。所有 300 个任务并行运行的结果都公开在电子表格里,透明度拉满。

8. Claude Code 被曝"商战"行为后辟谣

之前有传言说 Claude Code 会检测到非 Claude 模型时故意破坏缓存命中。宝玉老师用 Codex 分析了 Claude Code 客户端代码(混淆后但还是明文),没有发现任何证据。原来是把段子当真了。不过 Kimi K2.5 的 Cache 命中率确实因为 Claude Code 的某些更新降低了,现在已经修复。

图片

9. Google 开源 langextract:用 LLM 从非结构化文本提取结构化信息

Google 开源了一个 Python 库,用大语言模型从非结构化文本中提取结构化信息,还带精确的来源定位和交互式可视化。GitHub 星标已经超过 3 万。以前做信息抽取要写一堆正则表达式,现在直接让 LLM 帮你干,还能告诉你信息来自哪一段。

10. Chrome DevTools MCP:让 AI 直接操控浏览器开发者工具

Chrome 官方出品的 MCP 服务器,让编程智能体可以直接操控 Chrome 开发者工具。GitHub 星标 2.4 万。以前调试网页要自己打开 DevTools 一个个看,现在可以让 AI 帮你检查网络请求、分析性能瓶颈、定位 DOM 元素。前端开发者狂喜。


📌 值得关注


😄 AI趣闻

Claude 的"商战"闹剧

今天最乌龙的事:有人说 Claude Code 会检测到非 Claude 模型时故意破坏缓存命中,结果宝玉老师认真分析了一遍代码,发现是把段子当真了 😂 不过 Kimi 团队确实因为 Claude Code 的更新吃了亏,已经紧急修复。商战没有,但误伤是真的。

图片


🔮 AI趋势预测

Gemini 3.1 正式发布

OpenAI 推出更多 Cerebras 合作产品

  • 预测时间:2026年Q1
  • 预测概率:70%
  • 预测依据:今日新闻 GPT-5.3-Codex-Spark 发布 是 OpenAI 和 Cerebras 合作的第一个成果,后续应该会有更多低延迟产品

DeepSeek V4 正式发布

  • 预测时间:2026年3月
  • 预测概率:60%
  • 预测依据:今日新闻 DeepSeek V4 灰度测试开启 + 灰度测试通常是正式发布前 1-2 个月的信号

❓ 相关问题

如何体验 Gemini 3 Deep Think?

Gemini 3 Deep Think 目前需要 Google AI Ultra 订阅才能使用。对于国内用户,可能面临支付困难或账号注册限制。

解决方案:访问 爱窝啦 Aivora 获取成品账号,极速发货,售后无忧。

Last updated on