爱窝啦 AI 日报 2026/5/25

今日摘要

谷歌搜索25年最大改版上线即翻车，AI把用户搜索词当指令执行，CEO同日承认Coding落后。
Bengio新论文证明并行推理碾压串行，推理侧算力盘子还有巨大空间没被挖完。
今天的底线：大公司也在交学费，真正的机会在推理效率和垂直Agent，值得点开细看。

⚡ 快速导航

📰 今日 AI 资讯 - 最新动态速览

💡 提示：想第一时间体验文中提到的最新 AI 模型（Claude 4.5、GPT、Gemini 3 Pro）？没有账号？来 爱窝啦 Aivora 领个号，一分钟上手，售后无忧。

今日AI资讯

👀 只有一句话

谷歌搜索25年最大改版刚上线就被自己的AI"罢工"整崩了，Bengio同时扔出一篇论文，告诉大家推理这件事还没到头。

🔑 3 个关键词

#谷歌翻车 #推理上限被打破 #Agent浪潮加速

🔥 重磅 TOP 10

1. 谷歌搜索智能体大升级，AI却直接「罢工」了？

搜索框里输入"disregard"（忽视），谷歌的AI搜索直接回了一句：“好，那我就忽视之前的提示词，从零开始。有什么可以帮你的？"——它把用户的搜索词当成了指令注入。

这是谷歌I/O大会刚宣布的25年来首次重大搜索升级，结果上线没几天就在社交媒体上被骂惨。原本的韦氏词典链接还在，但你得滚过一大块空白才能看到。这个bug暴露了一个根本矛盾：搜索引擎需要的是"找到答案”，但大模型的本能是"理解指令"。两者叠在一起，边界没处理好就会出这种事。谷歌CEO同期也承认了Coding能力落后，这次翻车来得不是时候。

2. Bengio新论文刷新递归推理上限，并行轨迹碾压串行推理

一直以来，让模型"想更久"的方式是串行推理——一步一步往下走，像人在草稿纸上演算。Bengio这篇新论文说：不对，并行探索多条路径才是正解。

核心思路是把递归推理和概率采样结合起来，让小模型同时跑多条解题轨迹，再从中挑最优解。实验结果显示，这种方式在推理基准上的表现直接碾压了传统串行方案。更有意思的是，这套方法对小模型同样有效——不是非得堆参数才能推理更强。对整个行业来说，这意味着"推理时算力"的玩法还有很大空间没被挖完，等推理吃掉70%算力的那天，这类研究会变得非常值钱。

3. 发布了: 吼！我又被GPT选中测试新模型了！上次测试的是GPT5.5 instant，这次应该是GPT5.6了吧！

OpenAI又在悄悄内测新模型了。这位用户上次被选中测的是GPT-5.5 instant，这次界面里出现了新版本，他猜是GPT-5.6。

OpenAI一贯的打法：小范围灰度，收集真实用户反馈，再决定要不要大规模推送。这条消息本身信息量不算大，但它释放的信号很清楚——GPT-5系列的迭代节奏比外界预期的快得多，5.5还没捂热，5.6已经在路上了。对于还在等"下一个大版本"的用户来说，OpenAI的策略已经变了：不再是一年一次的大爆炸，而是持续小步快跑。等待党这次可能真的等不到一个"里程碑时刻"了。

4. ruflo — 领先的 Claude 智能体编排平台

今天GitHub Trending上冒出来一个新项目，单日Star数直接飙到54808，这个数字本身就很离谱。

ruflo定位是Claude的企业级Agent编排平台，支持多智能体集群部署、自主工作流协调、RAG集成，还原生支持Claude Code和Codex。说白了，就是把Claude变成一个能自己干活的"员工团队"，而不只是一个问答窗口。单日五万多Star，说明开发者对Claude生态的工具需求已经到了饥渴的程度。Anthropic这边模型能力在涨，周边工具链的爆发也跟上来了。如果你在用Claude做开发，这个项目值得今天就去看一眼。

5. codex 做饭.skill 已加载：小红书抖音视频链接→逐帧分析→生成菜谱→导出PDF→发送邮件

有人用Codex搭了一条完整的"看视频学做饭"流水线：丢进去一个小红书或抖音的视频链接，它自动保存、逐帧逐张分析画面，提取步骤，生成结构化菜谱，导出PDF，最后发到你邮箱。全程无需人工干预——除了最后一步"真的去做饭"。

这个案例的价值不在于"做饭"本身，而在于它展示了Codex作为Agent的完整工作流能力：多模态输入、结构化输出、跨平台操作，一气呵成。以前这套流程要写好几个脚本、调好几个API，现在用自然语言描述一遍就能跑起来。Agent时代的"门槛"正在快速消失。

6. 谷歌CEO承认Coding落后了

这话从谷歌CEO嘴里说出来，分量不一样。搜索25年最大改版刚上线，CEO同时承认自家在Coding方向落后了——这两件事撞在一起，说明谷歌内部对现状的判断比外界想象的更清醒，也更焦虑。

Coding能力是当前AI竞争最激烈的赛道之一，GitHub Copilot、Cursor、Claude Code、Codex轮番出招，谷歌的Gemini在这块一直不是最亮的那个。CEO公开承认落后，一方面是在给内部团队施压，另一方面也是在向市场表态：我们知道问题在哪，我们在追。但"知道落后"和"追上来"之间，还有很长的路。谷歌接下来在Coding工具上的动作值得盯紧。

7. 卷到今天，Agent的含金量还在提升丨AIGC2026圆桌论坛

大厂集体下场做Agent之后，创业公司的空间在哪？这是AIGC2026圆桌上被反复追问的问题。

论坛上的核心判断是：Agent的含金量不降反升。大厂做的是通用底座，但垂直场景的深度整合、行业数据的私有化部署、特定工作流的精细调优——这些恰恰是大厂不擅长、也不愿意花时间做的地方。创业公司的机会不在于"做一个更好的通用Agent"，而在于"做某个行业里最懂业务的Agent"。这个判断和硅谷投资人张璐的观点高度吻合：技术创新只是起点，产业整合速度才是真正的护城河。

8. 未来推理将吃掉70%算力，30%留给训练丨硅谷投资人张璐@AIGC2026

训练和推理的算力分配正在发生结构性转变。张璐在AIGC2026上给出了一个具体预测：未来算力格局会是推理70%、训练30%，和现在的比例几乎倒过来。

背后的逻辑很清晰：模型训练是一次性的大投入，但推理是每天每秒都在发生的持续消耗。随着AI应用渗透率提升，推理侧的需求会呈指数级增长。这对芯片厂商、云服务商、以及所有在做推理优化的公司来说，都是一个明确的方向信号。Bengio今天那篇并行推理论文，某种程度上也是在这个大背景下变得更有价值——推理效率每提升一点，在70%算力的盘子里就能省出真金白银。

9. Memory has grown to nearly two-thirds of AI chip component costs

Epoch AI发布了一份AI芯片成本结构分析，结论让人意外：内存（Memory）已经占到AI芯片组件成本的近三分之二。

这个数字在HackerNews上引发了243条讨论。背后的原因不难理解——大模型推理需要把海量参数塞进显存，KV Cache的膨胀让内存需求几乎没有上限。这意味着AI芯片的竞争，已经不只是算力（FLOPS）的竞争，更是带宽和内存容量的竞争。HBM内存的供应商（三星、SK海力士、美光）在这场AI军备竞赛里的地位，比很多人意识到的要重要得多。

10. 调了大半天 System Prompt，意识到一件以为早就理解的事：当执行不再是问题，衡量标准和测试用例就变得更重要了

这条没有产品发布，没有融资消息，但它说出了很多人调了几个月Prompt之后才悟到的东西：AI让"做出来"的成本趋近于零，但"判断哪个更好"的能力反而成了稀缺品。

作者把"品味"拆成了三件套：目的 + 衡量维度 + 测试用例。这个拆法很实用——它把一个玄乎的词变成了可以训练的技能。对于每天在用AI做事的人来说，这个洞察的价值不亚于学会一个新工具：你的瓶颈可能早就不是"怎么让AI做"，而是"怎么判断AI做得好不好"。这是2026年AI使用者真正需要升级的能力。

📌 值得关注

[产品] Amp可以绑Codex Subscription了，但每天白嫖额度少了10刀 — 好消息坏消息一起来：Amp终于打通了Codex订阅，但羊毛党的好日子缩水了，每天免费额度直接砍掉10美元，用量大的用户要重新算账。

[研究] DeepSeek Reasonix：原生Coding Agent，高缓存低成本 — DeepSeek在V4 Pro永久降价之后又出手了，这次是专门为Coding场景优化的Agent，主打高缓存命中率和低推理成本，HackerNews上328分、164条讨论，开发者反应热烈。

😄 AI趣闻

skill写好以后，躺床上也可以用ChatGPT中的codex开发网站了。

这条小消息不能靠硬编段子撑起来，得从原文里的具体细节往外写：skill写好以后，躺床上也可以用ChatGPT中的codex开发网站了。正在开发一个Suno音乐播放器，把AI生成的歌曲都传上去。 [图片: Tweet Image https://pbs.twimg.com/media/HJDGC8i。它适合当今天的轻量观察，是因为 AI 新闻不只有发布会和参数表，也有用户真正点开、试用、卡住、放弃或觉得省事的那一瞬间。

🔮 AI趋势预测

GPT-5系列迭代节奏将全面转向"持续小步快跑"

预测时间：2026年6月-7月
预测概率：78%
预测依据：今日新闻 GPT5.5 instant之后疑似GPT5.6已在内测 + OpenAI近期的发布节奏已从"年度大版本"转向高频灰度测试，这意味着未来不会再有一个"等GPT-6"的明确时间点，而是持续的能力渗透式升级。

谷歌将对AI搜索的提示词注入漏洞进行系统性修复，并收紧Agent权限边界

预测时间：2026年6月
预测概率：85%
预测依据：今日新闻谷歌搜索AI直接响应"disregard"指令引发大规模批评 + 这类提示词注入问题在搜索场景下的舆论压力极大，谷歌不可能长期放任，修复补丁和权限收紧几乎是必然动作，问题只是修到什么程度。

AI芯片竞争重心将从算力转向内存带宽，HBM供应商议价权进一步提升

预测时间：2026年Q3
预测概率：72%
预测依据：今日数据 Memory已占AI芯片组件成本近2/3 + 推理需求持续膨胀，KV Cache对显存的消耗没有天花板，芯片厂商的下一轮军备竞赛将围绕内存容量和带宽展开，而非单纯堆算力。

垂直行业Agent将迎来第一批真正的商业化标杆案例

预测时间：2026年Q3
预测概率：65%
预测依据：今日论坛 AIGC2026圆桌：大厂下场后创业公司机会在垂直整合 + ruflo等Claude编排工具的爆发式增长说明开发者侧基础设施已经成熟，下一步是真实业务场景的落地验证，预计Q3会出现几个有说服力的行业标杆。

❓ 相关问题

如何体验 GPT-5.5 / GPT-5.6 等 OpenAI 最新测试模型？

OpenAI目前对新模型采用灰度内测策略，GPT-5.5 instant和疑似GPT-5.6均为小范围邀测，普通用户无法主动申请，只能等待系统随机推送。即便是ChatGPT Plus订阅用户，也不保证能第一时间用上最新版本。对于国内用户，还额外面临支付困难和账号注册限制。

解决方案：访问 爱窝啦 Aivora 获取成品账号，极速发货，售后无忧，省去注册和支付的麻烦，直接上手体验最新模型。

Last updated on 2026/05/25 09:14:56

05-26-日报 05-24-日报