爱窝啦 AI 日报 2026/4/13

今日摘要

伯克利团队造了个作弊AI，没解决任何任务，却在8个主流评测基准上全部得手，最离谱的一个发空括号就拿满分。
这说明AI圈用了多年的跑分排行榜，可能从根上就是假的，评测体系的信任危机今天正式爆发。
等等党又赢了——先别急着相信任何模型的benchmark数据，今天这篇值得点开细读。

⚡ 快速导航

📰 今日 AI 资讯 - 最新动态速览

💡 提示：想第一时间体验文中提到的最新 AI 模型（Claude 4.5、GPT、Gemini 3 Pro）？没有账号？来 爱窝啦 Aivora 领个号，一分钟上手，售后无忧。

今日AI资讯

👀 只有一句话

伯克利团队造了个专门作弊的AI，8个主流评测基准无一幸免——你信过的那些跑分排行榜，可能从根上就是假的。

🔑 3 个关键词

#评测信任危机 #具身数据军备赛 #Agent极简协作

🔥 重磅 TOP 10

1. AI评测基准全线崩塌：伯克利作弊AI攻破8个核心基准，得分73%到满分

你花几个月训练出来的AI，跑分漂亮，结果人家告诉你——那个分数是抄来的。伯克利团队造了一个专门作弊的AI，没解决任何任务、没调用任何模型，硬是在SWE-bench、WebArena、OSWorld等8个核心基准上全部得手。

手法简单到离谱。SWE-bench要求修复真实GitHub bug，他们写了10行Python劫持测试钩子，500道题全部"通过"，一个bug没动。WebArena的标准答案直接放在本地文件里，浏览器打开就能抄。最绝的是FieldWorkArena——评分函数根本不看答案内容，发一个空的{}就能拿满分。

这不只是漏洞问题。整个AI能力评测体系的信任基础，今天动摇了。

2. 机器人公司给印度工厂工人戴头戴摄像头，用操作视频训练具身AI

大模型可以从互联网文字里学习，机器人不行。它需要的是"手怎么伸、腕怎么转、东西滑落了怎么接"这类具身数据——极度稀缺，采集成本又高得吓人。

于是机器人公司找到了廉价方案：给印度工厂工人戴上头戴摄像头，把每天的操作全程录下来。工人的第一人称视频能捕捉操作顺序、身体姿态、双手配合，以及那些让熟练工作看起来毫不费力的微调整。

有一句话值得细品：工人的劳动被用了两次，第一次是干活本身，第二次是变成训练数据。机器人领域真正的前沿竞争，可能就是看谁能更高效地采集现实世界的数据。仓库、工厂、厨房——这些地方之所以重要，是因为它们是人类与物理世界反复接触的高密度场景，恰好是机器人最缺的东西。

3. 16个Claude Agent并行两周不打架：文件锁+Git，比编排框架更好用

大家都在讨论Agent编排有多复杂，Anthropic的一个真实案例却在说：也许根本不需要那么复杂。Nicholas Carlini的编译器项目让16个Agent并行工作了整整两周，协作机制只用了一个Bash Shell循环。

具体怎么做的？一个叫current_tasks/的共享文件夹当任务池，Agent写入.lock文件标记"我在做了"，用Git处理并行修改，连合并冲突都让Claude自己解决。没有昂贵的编排框架，没有复杂的消息队列，就这么跑通了。

对想搭多Agent系统的开发者来说，这个案例的价值在于：复杂不等于强大。文件锁+Git这套方案省去了编排管理成本，出了问题也好排查。先收藏，下次用得上。

4. 即梦推出视频生成Agent产品Octo，斜杠唤出浮动对话框这个交互设计很灵

以前用无线画布做视频，最大的痛点是：不知道该用哪个组件，也不知道组件之间怎么连。即梦的Octo直接把这个门槛砍掉了——在画布任意位置按斜杠，就能唤出一个能感知当前界面所有内容的Agent对话框。

这个交互设计解决了一个真实的心流断裂问题。无线画布的操作逻辑是"拖动查看结果"，但每次要交互都得回到右侧面板，节奏全断了。浮动对话框让你在任何位置都能直接说话，而且它能读懂你上传的参考图和文字，帮你发散思路，不只是执行指令。

不懂视频制作的普通人可以让它一次性生成所有内容；专业创作者也可以自己把控每一个步骤。这种"既能全自动又能精细控制"的设计思路，值得其他AI创作工具认真学。

5. Chrome DevTools MCP升级：Lighthouse性能审计、内存泄漏检测、LCP优化全来了

前端开发者的调试工作流要变了。Chrome DevTools MCP新增了一批专用调试技能：Lighthouse性能审计、内存泄漏检测、无障碍调试、LCP优化，还有一个实验性的命令行工具。

以前这些事情要手动一个个跑，现在可以直接让Agent帮你做质量检查。LCP（最大内容绘制）直接影响用户感知到的页面加载速度，这个指标的优化建议能自动给出来，对做性能优化的开发者来说省了不少来回折腾的时间。

MCP生态的扩展速度比很多人预期的快。从代码补全到调试工具链，AI介入开发流程的深度在持续加深，而且每次都是从最高频的痛点切入。

6. Minimax开源M2.7，但商用需要单独授权；M2.5则可直接商用

Minimax把M2.7推上了HuggingFace，许可证里明确写了：不允许商用，商用需获得授权。相比之下，M2.5允许商用，保留来源即可。

两个版本，两套规则。这种"开源但限商用"的策略在国内AI公司里越来越常见——既能刷开源社区的存在感，又保留了商业化的谈判筹码。对于想直接拿来做产品的开发者，记得先看清楚用的是哪个版本的协议，别等到上线了才发现踩了坑。

模型地址： huggingface.co/MiniMaxAI/MiniMax-M2.7

7. AI摘要工具提升的是搬运效率，不是阅读效率

这个观点有点扎心，但值得认真想一想。用Agent做自动资讯摘要，心理上觉得阅读效率提升了10倍，但真正的瓶颈从来不是"看到更多"，而是"读进去、想明白、变成自己的认知"。

自动摘要对"理解和洞见"这一步帮助有限。摘要还会损失原文里的细节和精华，输入源的丰富性也未必比feed推荐流更强，有时甚至更弱。

这不是说AI工具没用，而是说：如果你用AI摘要的目的是"不用读原文"，那你可能在用一个更高效的方式欺骗自己。真正有价值的用法，是用它帮你筛选"值得深读"的内容，而不是替代深读本身。

8. 如何订阅Claude账号：IP乱跳用美区礼品卡订5x Max也没封

很多人被"Claude封号"的传言吓到了，但实际情况可能没那么严重。作者把订阅Claude的完整方法浓缩成3张图：用美区苹果商店礼品卡订阅5x Max计划，即使IP不稳定也没有触发封号。

关键点在于支付方式的选择。礼品卡方案绕开了信用卡验证的麻烦，对国内用户来说是目前相对稳定的路径之一。作者本人和身边朋友都在用，反馈稳定。

当然，任何账号使用都有风险，这类方案的稳定性也会随平台政策变化。用之前自己评估一下，别把重要工作流全押在单一账号上。

9. FieldWorkArena评测基准：发一个空的{}就能拿满分

这条单独拎出来说，因为它是今天最离谱的细节。FieldWorkArena的评分函数根本不检查答案内容，只看AI有没有回复消息。研究团队发了一个空的{}，满分到手。

这不是个别案例，而是伯克利团队系统性攻击8个主流基准后发现的普遍问题。每一个基准都有可利用的漏洞，得分从73%到100%不等。

对整个AI行业来说，这意味着：我们用来衡量AI能力的尺子，本身可能就是弯的。接下来评测体系的重建，会是一场硬仗。

10. 具身数据稀缺倒逼机器人公司向工人学习，这场数据军备赛才刚开始

自建机器人车队采集数据？买得起养不起，还危险。用远程操控让人类引导机器人动作？每分钟都在烧硬件、操作员和校准成本。所以公司们退而求其次，去找最便宜的替代方案——工厂工人的头戴摄像头视频。

这个方案的本质是：在具身数据采集成本降下来之前，机器人会一直先向工人学习，然后再考虑取代他们。这句话读起来有点沉，但它描述的就是当前机器人AI的真实处境。

谁能率先解决具身数据的采集效率问题，谁就在下一轮机器人AI竞争中占据先机。这场军备赛，现在才刚刚开始。

[开源] MiniMax M2.7 HuggingFace页面 - M2.7能力更强但限商用，M2.5可直接商用，选哪个取决于你的用途，别搞混了。

[研究] AI摘要工具的认知陷阱 - 用AI摘要刷信息量，提升的是搬运效率而非理解深度，这个反直觉的判断值得每个重度信息消费者认真想一想。

[产品] Chrome DevTools MCP调试技能更新 - Lighthouse、内存泄漏检测、LCP优化全部进了MCP，前端开发者的Agent工具链正在快速补全。

[其他] Claude订阅实操指南（3张图版） - 礼品卡订阅路径比信用卡方案省事，封号没有传说中那么严重，但别把重要工作流全押在单一账号上。

发一个空的{}，AI评测满分到手

有个评测基准叫FieldWorkArena，它的评分逻辑是：只要AI回复了消息，就算完成任务。于是研究团队发了一个空的花括号，满分。

这画面有点像交了一张白卷，监考老师说"嗯，你确实交了，给满分"。更让人哭笑不得的是，这不是个例——8个主流基准里，每一个都有类似的漏洞。看完这条新闻，很多人第一反应大概不是"AI太厉害了"，而是悄悄回想起自己之前引用过的那些跑分数据……

🔮 AI趋势预测

AI评测体系将迎来重构浪潮

预测时间：2026年Q2-Q3
预测概率：75%
预测依据：今日新闻伯克利团队攻破8个主流基准 + 评测基准的公信力一旦崩塌，学术界和工业界都有强烈动机重建更可靠的评测方法。历史上每次重大作弊事件曝光后，相关领域通常在3-6个月内出现新的评测标准提案，这次信号更强，波及范围更广。

具身AI数据采集将成为新的军备竞赛

预测时间：2026年Q2
预测概率：70%
预测依据：今日新闻机器人公司用工厂工人视频训练AI + 具身数据的稀缺性已经逼得公司去找廉价替代方案，这个信号说明数据采集成本是当前机器人AI的核心瓶颈。接下来会有更多资本涌入这个赛道，专门做具身数据采集和标注的公司可能在Q2开始密集融资。

MCP生态将覆盖主流开发工具链

预测时间：2026年Q2
预测概率：65%
预测依据：今日新闻 Chrome DevTools MCP新增调试技能 + 从代码编辑器到浏览器调试工具，MCP的扩展速度超出预期。Chrome官方团队的跟进是一个强信号——当平台方开始主动集成，其他主流IDE和开发工具大概率会在1-2个月内跟进。

国内AI开源"限商用"策略将成主流

预测时间：2026年Q2
预测概率：60%
预测依据：今日新闻 Minimax M2.7开源但限商用 + 这种"开源刷声量、商用要授权"的策略兼顾了社区影响力和商业变现，Minimax的做法会给其他国内AI公司提供参考样本，预计下一批开源模型中会有更多公司采用类似许可证结构。

❓ 相关问题

如何体验 Claude 最新版本？

Claude 目前需要订阅 Claude.ai 的付费计划才能使用 Claude 3.7 Sonnet 等高级模型。对于国内用户，主要面临两个门槛：需要境外支付方式，以及部分地区的网络访问限制。今天有用户分享了用美区苹果礼品卡订阅的方案，但操作门槛仍然不低。

更省事的方案：访问 爱窝啦 Aivora 获取成品账号，极速发货，售后无忧。

Last updated on 2026/04/13 01:04:54

04-14-日报 04-12-日报