02-13-日报-AI资讯日报
今日摘要
Google Deep Think 刷爆 ARC-AGI-2 榜单,能当论文同行评审,还帮 Duke 大学造出了传统方法做不到的晶体薄膜。
OpenAI 的 Codex-Spark 跑在晶圆级芯片上,每秒 1000 token,写代码终于不用干等了。
神仙打架的一天,OpenAI 顺便把对齐团队全解散了,安全问题谁来管?⚡ 快速导航
- 📰 今日 AI 资讯 - 最新动态速览
💡 提示:想第一时间体验文中提到的最新 AI 模型(Claude 4.5、GPT、Gemini 3 Pro)?没有账号?来 爱窝啦 Aivora 领个号,一分钟上手,售后无忧。
今日AI资讯
👀 只有一句话
Google 和 OpenAI 今天同时放大招,Deep Think 刷爆榜单,Codex-Spark 让编程快到飞起。
🔑 3 个关键词
#神仙打架 #推理狂飙 #编程提速
🔥 重磅 TOP 10
1. Google 发布 Gemini 3 Deep Think 重大升级
以前让 AI 帮你审论文,它最多帮你查查语法。现在 Deep Think 直接能当"同行评审"——Rutgers 大学拿它复查高能物理论文,结果它揪出了人类审稿人漏掉的逻辑缺陷。更狠的是,Duke 大学用它设计晶体生长配方,直接造出了超过 100μm 的薄膜,传统方法根本做不到。ARC-AGI-2 跑分 84.6%,比 Gemini 3 Pro 翻了一倍多。Ultra 用户现在就能用,开发者可以申请 API。
2. OpenAI 发布 GPT-5.3-Codex-Spark:每秒 1000 token 的编程小钢炮
写代码最烦什么?等。改个函数等十分钟,调个接口等半小时。Codex-Spark 就是来解决这个痛点的——跑在 Cerebras 晶圆级芯片上,推理速度超过每秒 1000 token。SWE-Bench Pro 上达到 51% 准确率只要 2.3 分钟,完整版 Codex 要 3 分钟。你可以一边看它输出一边打断、纠正、追问,像跟一个反应极快的搭档对话。目前仅限 ChatGPT Pro 用户。
3. Gemini 3.1 Preview 已现身竞技场
Gemini 3 正式版还没出,3.1 预览版就已经在 Artificial Analysis 竞技场露面了。有网友截图显示该模型短暂出现在对比列表中,蓝点网是唯一报道此事的媒体。Google 这是要卷死谁?刚发完 Deep Think 升级,下一代预览版就开始内测了。等等党又要纠结了:是现在上车 3.0,还是再等等 3.1?

4. OpenAI 解散所有对齐团队
OpenAI 正式解散了公司内所有负责模型安全的对齐团队。这意味着什么?以前 OpenAI 还有一群人专门研究"怎么让 AI 不作恶",现在这群人没了。有人猜测这是为了加速产品迭代,也有人担心安全问题会被忽视。不管怎样,这个决定肯定会引发行业热议。

5. TRAE CN 上线 Minimax M2.5 模型
字节的 TRAE 编辑器国内版悄悄上线了 Minimax M2.5。作为一个 200B 参数的模型,M2.5 在编码方面表现相当不错,价格也比较亲民。不过有开发者测试发现它在复杂逻辑推理上还有短板——比如理解集合运算时会犯一些"清澈的愚蠢"。但对于日常编码任务来说,这个选择还是挺香的。

6. DeepSeek V4 灰度测试开启
通过创建新会话有机会进入 DeepSeek V4 的灰度版本。有开发者测试了黑洞物理引擎渲染,效果和 Gemini 3 Pro 有得一拼。但问题也很明显:幻觉大得离谱,能编造不存在的对话,甚至会发 [image] [file1] 假装图片。上限很高,下限也很低,未来可期但还需打磨。

7. TinyFish 在 Mind2Web 基准测试中碾压三巨头
TinyFish 这个 Web Agent 在 Mind2Web 基准测试中拿下 90% 的成绩,比 Gemini 高 21 分,比 OpenAI 高 29 分,比 Anthropic 高 34 分。可以把它理解为运行在云端的、能大规模并行任务的 Browser Use,执行速度更快,能获取比搜索引擎更深层次的数据。所有 300 个任务并行运行的结果都公开在电子表格里,透明度拉满。
8. Claude Code 被曝"商战"行为后辟谣
之前有传言说 Claude Code 会检测到非 Claude 模型时故意破坏缓存命中。宝玉老师用 Codex 分析了 Claude Code 客户端代码(混淆后但还是明文),没有发现任何证据。原来是把段子当真了。不过 Kimi K2.5 的 Cache 命中率确实因为 Claude Code 的某些更新降低了,现在已经修复。
9. Google 开源 langextract:用 LLM 从非结构化文本提取结构化信息
Google 开源了一个 Python 库,用大语言模型从非结构化文本中提取结构化信息,还带精确的来源定位和交互式可视化。GitHub 星标已经超过 3 万。以前做信息抽取要写一堆正则表达式,现在直接让 LLM 帮你干,还能告诉你信息来自哪一段。
10. Chrome DevTools MCP:让 AI 直接操控浏览器开发者工具
Chrome 官方出品的 MCP 服务器,让编程智能体可以直接操控 Chrome 开发者工具。GitHub 星标 2.4 万。以前调试网页要自己打开 DevTools 一个个看,现在可以让 AI 帮你检查网络请求、分析性能瓶颈、定位 DOM 元素。前端开发者狂喜。
📌 值得关注
- [产品] AionUi:支持多种 AI 编程工具的本地协作平台 - 支持 Gemini CLI、Claude Code、Codex 等,开源免费
- [产品] 给 Claude 加上魔兽语言提示音 - “Ready to work”,再也不会错过 Claude 需要你的时刻
- [开源] tambo:React 生成式 UI SDK - 用 AI 生成 React 组件,星标近 9000
- [开源] rowboat:带记忆功能的开源 AI 协作伙伴 - 能记住你之前说过什么
- [研究] Minimax 2.5 逻辑推理大比拼 - Gemini 3 Pro 和 GPT-5.2 Thinking 断层领先
- [吐槽] opencode 上了全机翻文档,没有任何测试 - 20 万行本地化 PR 说 merge 就 merge
😄 AI趣闻
Claude 的"商战"闹剧
今天最乌龙的事:有人说 Claude Code 会检测到非 Claude 模型时故意破坏缓存命中,结果宝玉老师认真分析了一遍代码,发现是把段子当真了 😂 不过 Kimi 团队确实因为 Claude Code 的更新吃了亏,已经紧急修复。商战没有,但误伤是真的。

🔮 AI趋势预测
Gemini 3.1 正式发布
- 预测时间:2026年3月
- 预测概率:75%
- 预测依据:今日新闻 Gemini 3.1 Preview 已现身竞技场 + Google 通常在预览版出现后 1-2 个月内发布正式版
OpenAI 推出更多 Cerebras 合作产品
- 预测时间:2026年Q1
- 预测概率:70%
- 预测依据:今日新闻 GPT-5.3-Codex-Spark 发布 是 OpenAI 和 Cerebras 合作的第一个成果,后续应该会有更多低延迟产品
DeepSeek V4 正式发布
- 预测时间:2026年3月
- 预测概率:60%
- 预测依据:今日新闻 DeepSeek V4 灰度测试开启 + 灰度测试通常是正式发布前 1-2 个月的信号
❓ 相关问题
如何体验 Gemini 3 Deep Think?
Gemini 3 Deep Think 目前需要 Google AI Ultra 订阅才能使用。对于国内用户,可能面临支付困难或账号注册限制。
解决方案:访问 爱窝啦 Aivora 获取成品账号,极速发货,售后无忧。