爱窝啦 AI 日报 2026/5/25
今日摘要
谷歌搜索25年最大改版上线即翻车,AI把用户搜索词当指令执行,CEO同日承认Coding落后。
Bengio新论文证明并行推理碾压串行,推理侧算力盘子还有巨大空间没被挖完。
今天的底线:大公司也在交学费,真正的机会在推理效率和垂直Agent,值得点开细看。⚡ 快速导航
- 📰 今日 AI 资讯 - 最新动态速览
💡 提示:想第一时间体验文中提到的最新 AI 模型(Claude 4.5、GPT、Gemini 3 Pro)?没有账号?来 爱窝啦 Aivora 领个号,一分钟上手,售后无忧。
今日AI资讯
👀 只有一句话
谷歌搜索25年最大改版刚上线就被自己的AI"罢工"整崩了,Bengio同时扔出一篇论文,告诉大家推理这件事还没到头。
🔑 3 个关键词
#谷歌翻车 #推理上限被打破 #Agent浪潮加速
🔥 重磅 TOP 10
1. 谷歌搜索智能体大升级,AI却直接「罢工」了?
搜索框里输入"disregard"(忽视),谷歌的AI搜索直接回了一句:“好,那我就忽视之前的提示词,从零开始。有什么可以帮你的?"——它把用户的搜索词当成了指令注入。
这是谷歌I/O大会刚宣布的25年来首次重大搜索升级,结果上线没几天就在社交媒体上被骂惨。原本的韦氏词典链接还在,但你得滚过一大块空白才能看到。这个bug暴露了一个根本矛盾:搜索引擎需要的是"找到答案”,但大模型的本能是"理解指令"。两者叠在一起,边界没处理好就会出这种事。谷歌CEO同期也承认了Coding能力落后,这次翻车来得不是时候。
2. Bengio新论文刷新递归推理上限,并行轨迹碾压串行推理
一直以来,让模型"想更久"的方式是串行推理——一步一步往下走,像人在草稿纸上演算。Bengio这篇新论文说:不对,并行探索多条路径才是正解。
核心思路是把递归推理和概率采样结合起来,让小模型同时跑多条解题轨迹,再从中挑最优解。实验结果显示,这种方式在推理基准上的表现直接碾压了传统串行方案。更有意思的是,这套方法对小模型同样有效——不是非得堆参数才能推理更强。对整个行业来说,这意味着"推理时算力"的玩法还有很大空间没被挖完,等推理吃掉70%算力的那天,这类研究会变得非常值钱。
3. 发布了: 吼!我又被GPT选中测试新模型了!上次测试的是GPT5.5 instant,这次应该是GPT5.6了吧!
OpenAI又在悄悄内测新模型了。这位用户上次被选中测的是GPT-5.5 instant,这次界面里出现了新版本,他猜是GPT-5.6。
OpenAI一贯的打法:小范围灰度,收集真实用户反馈,再决定要不要大规模推送。这条消息本身信息量不算大,但它释放的信号很清楚——GPT-5系列的迭代节奏比外界预期的快得多,5.5还没捂热,5.6已经在路上了。对于还在等"下一个大版本"的用户来说,OpenAI的策略已经变了:不再是一年一次的大爆炸,而是持续小步快跑。等待党这次可能真的等不到一个"里程碑时刻"了。

4. ruflo — 领先的 Claude 智能体编排平台
今天GitHub Trending上冒出来一个新项目,单日Star数直接飙到54808,这个数字本身就很离谱。
ruflo定位是Claude的企业级Agent编排平台,支持多智能体集群部署、自主工作流协调、RAG集成,还原生支持Claude Code和Codex。说白了,就是把Claude变成一个能自己干活的"员工团队",而不只是一个问答窗口。单日五万多Star,说明开发者对Claude生态的工具需求已经到了饥渴的程度。Anthropic这边模型能力在涨,周边工具链的爆发也跟上来了。如果你在用Claude做开发,这个项目值得今天就去看一眼。
5. codex 做饭.skill 已加载:小红书抖音视频链接→逐帧分析→生成菜谱→导出PDF→发送邮件
有人用Codex搭了一条完整的"看视频学做饭"流水线:丢进去一个小红书或抖音的视频链接,它自动保存、逐帧逐张分析画面,提取步骤,生成结构化菜谱,导出PDF,最后发到你邮箱。全程无需人工干预——除了最后一步"真的去做饭"。
这个案例的价值不在于"做饭"本身,而在于它展示了Codex作为Agent的完整工作流能力:多模态输入、结构化输出、跨平台操作,一气呵成。以前这套流程要写好几个脚本、调好几个API,现在用自然语言描述一遍就能跑起来。Agent时代的"门槛"正在快速消失。

6. 谷歌CEO承认Coding落后了
这话从谷歌CEO嘴里说出来,分量不一样。搜索25年最大改版刚上线,CEO同时承认自家在Coding方向落后了——这两件事撞在一起,说明谷歌内部对现状的判断比外界想象的更清醒,也更焦虑。
Coding能力是当前AI竞争最激烈的赛道之一,GitHub Copilot、Cursor、Claude Code、Codex轮番出招,谷歌的Gemini在这块一直不是最亮的那个。CEO公开承认落后,一方面是在给内部团队施压,另一方面也是在向市场表态:我们知道问题在哪,我们在追。但"知道落后"和"追上来"之间,还有很长的路。谷歌接下来在Coding工具上的动作值得盯紧。
7. 卷到今天,Agent的含金量还在提升丨AIGC2026圆桌论坛
大厂集体下场做Agent之后,创业公司的空间在哪?这是AIGC2026圆桌上被反复追问的问题。
论坛上的核心判断是:Agent的含金量不降反升。大厂做的是通用底座,但垂直场景的深度整合、行业数据的私有化部署、特定工作流的精细调优——这些恰恰是大厂不擅长、也不愿意花时间做的地方。创业公司的机会不在于"做一个更好的通用Agent",而在于"做某个行业里最懂业务的Agent"。这个判断和硅谷投资人张璐的观点高度吻合:技术创新只是起点,产业整合速度才是真正的护城河。
8. 未来推理将吃掉70%算力,30%留给训练丨硅谷投资人张璐@AIGC2026
训练和推理的算力分配正在发生结构性转变。张璐在AIGC2026上给出了一个具体预测:未来算力格局会是推理70%、训练30%,和现在的比例几乎倒过来。
背后的逻辑很清晰:模型训练是一次性的大投入,但推理是每天每秒都在发生的持续消耗。随着AI应用渗透率提升,推理侧的需求会呈指数级增长。这对芯片厂商、云服务商、以及所有在做推理优化的公司来说,都是一个明确的方向信号。Bengio今天那篇并行推理论文,某种程度上也是在这个大背景下变得更有价值——推理效率每提升一点,在70%算力的盘子里就能省出真金白银。
9. Memory has grown to nearly two-thirds of AI chip component costs
Epoch AI发布了一份AI芯片成本结构分析,结论让人意外:内存(Memory)已经占到AI芯片组件成本的近三分之二。
这个数字在HackerNews上引发了243条讨论。背后的原因不难理解——大模型推理需要把海量参数塞进显存,KV Cache的膨胀让内存需求几乎没有上限。这意味着AI芯片的竞争,已经不只是算力(FLOPS)的竞争,更是带宽和内存容量的竞争。HBM内存的供应商(三星、SK海力士、美光)在这场AI军备竞赛里的地位,比很多人意识到的要重要得多。
10. 调了大半天 System Prompt,意识到一件以为早就理解的事:当执行不再是问题,衡量标准和测试用例就变得更重要了
这条没有产品发布,没有融资消息,但它说出了很多人调了几个月Prompt之后才悟到的东西:AI让"做出来"的成本趋近于零,但"判断哪个更好"的能力反而成了稀缺品。
作者把"品味"拆成了三件套:目的 + 衡量维度 + 测试用例。这个拆法很实用——它把一个玄乎的词变成了可以训练的技能。对于每天在用AI做事的人来说,这个洞察的价值不亚于学会一个新工具:你的瓶颈可能早就不是"怎么让AI做",而是"怎么判断AI做得好不好"。这是2026年AI使用者真正需要升级的能力。
📌 值得关注
[产品] Amp可以绑Codex Subscription了,但每天白嫖额度少了10刀 — 好消息坏消息一起来:Amp终于打通了Codex订阅,但羊毛党的好日子缩水了,每天免费额度直接砍掉10美元,用量大的用户要重新算账。
[研究] DeepSeek Reasonix:原生Coding Agent,高缓存低成本 — DeepSeek在V4 Pro永久降价之后又出手了,这次是专门为Coding场景优化的Agent,主打高缓存命中率和低推理成本,HackerNews上328分、164条讨论,开发者反应热烈。
😄 AI趣闻
skill写好以后,躺床上也可以用ChatGPT中的codex开发网站了。
这条小消息不能靠硬编段子撑起来,得从原文里的具体细节往外写:skill写好以后,躺床上也可以用ChatGPT中的codex开发网站了。 正在开发一个Suno音乐播放器,把AI生成的歌曲都传上去。 [图片: Tweet Image https://pbs.twimg.com/media/HJDGC8i。它适合当今天的轻量观察,是因为 AI 新闻不只有发布会和参数表,也有用户真正点开、试用、卡住、放弃或觉得省事的那一瞬间。
🔮 AI趋势预测
GPT-5系列迭代节奏将全面转向"持续小步快跑"
- 预测时间:2026年6月-7月
- 预测概率:78%
- 预测依据:今日新闻 GPT5.5 instant之后疑似GPT5.6已在内测 + OpenAI近期的发布节奏已从"年度大版本"转向高频灰度测试,这意味着未来不会再有一个"等GPT-6"的明确时间点,而是持续的能力渗透式升级。
谷歌将对AI搜索的提示词注入漏洞进行系统性修复,并收紧Agent权限边界
- 预测时间:2026年6月
- 预测概率:85%
- 预测依据:今日新闻 谷歌搜索AI直接响应"disregard"指令引发大规模批评 + 这类提示词注入问题在搜索场景下的舆论压力极大,谷歌不可能长期放任,修复补丁和权限收紧几乎是必然动作,问题只是修到什么程度。
AI芯片竞争重心将从算力转向内存带宽,HBM供应商议价权进一步提升
- 预测时间:2026年Q3
- 预测概率:72%
- 预测依据:今日数据 Memory已占AI芯片组件成本近2/3 + 推理需求持续膨胀,KV Cache对显存的消耗没有天花板,芯片厂商的下一轮军备竞赛将围绕内存容量和带宽展开,而非单纯堆算力。
垂直行业Agent将迎来第一批真正的商业化标杆案例
- 预测时间:2026年Q3
- 预测概率:65%
- 预测依据:今日论坛 AIGC2026圆桌:大厂下场后创业公司机会在垂直整合 + ruflo等Claude编排工具的爆发式增长说明开发者侧基础设施已经成熟,下一步是真实业务场景的落地验证,预计Q3会出现几个有说服力的行业标杆。
❓ 相关问题
如何体验 GPT-5.5 / GPT-5.6 等 OpenAI 最新测试模型?
OpenAI目前对新模型采用灰度内测策略,GPT-5.5 instant和疑似GPT-5.6均为小范围邀测,普通用户无法主动申请,只能等待系统随机推送。即便是ChatGPT Plus订阅用户,也不保证能第一时间用上最新版本。对于国内用户,还额外面临支付困难和账号注册限制。
解决方案:访问 爱窝啦 Aivora 获取成品账号,极速发货,售后无忧,省去注册和支付的麻烦,直接上手体验最新模型。