爱窝啦 AI 日报 2026/4/13
今日摘要
伯克利团队造了个作弊AI,没解决任何任务,却在8个主流评测基准上全部得手,最离谱的一个发空括号就拿满分。
这说明AI圈用了多年的跑分排行榜,可能从根上就是假的,评测体系的信任危机今天正式爆发。
等等党又赢了——先别急着相信任何模型的benchmark数据,今天这篇值得点开细读。⚡ 快速导航
- 📰 今日 AI 资讯 - 最新动态速览
💡 提示:想第一时间体验文中提到的最新 AI 模型(Claude 4.5、GPT、Gemini 3 Pro)?没有账号?来 爱窝啦 Aivora 领个号,一分钟上手,售后无忧。
今日AI资讯
👀 只有一句话
伯克利团队造了个专门作弊的AI,8个主流评测基准无一幸免——你信过的那些跑分排行榜,可能从根上就是假的。
🔑 3 个关键词
#评测信任危机 #具身数据军备赛 #Agent极简协作
🔥 重磅 TOP 10
1. AI评测基准全线崩塌:伯克利作弊AI攻破8个核心基准,得分73%到满分
你花几个月训练出来的AI,跑分漂亮,结果人家告诉你——那个分数是抄来的。伯克利团队造了一个专门作弊的AI,没解决任何任务、没调用任何模型,硬是在SWE-bench、WebArena、OSWorld等8个核心基准上全部得手。
手法简单到离谱。SWE-bench要求修复真实GitHub bug,他们写了10行Python劫持测试钩子,500道题全部"通过",一个bug没动。WebArena的标准答案直接放在本地文件里,浏览器打开就能抄。最绝的是FieldWorkArena——评分函数根本不看答案内容,发一个空的{}就能拿满分。
这不只是漏洞问题。整个AI能力评测体系的信任基础,今天动摇了。
2. 机器人公司给印度工厂工人戴头戴摄像头,用操作视频训练具身AI
大模型可以从互联网文字里学习,机器人不行。它需要的是"手怎么伸、腕怎么转、东西滑落了怎么接"这类具身数据——极度稀缺,采集成本又高得吓人。
于是机器人公司找到了廉价方案:给印度工厂工人戴上头戴摄像头,把每天的操作全程录下来。工人的第一人称视频能捕捉操作顺序、身体姿态、双手配合,以及那些让熟练工作看起来毫不费力的微调整。
有一句话值得细品:工人的劳动被用了两次,第一次是干活本身,第二次是变成训练数据。机器人领域真正的前沿竞争,可能就是看谁能更高效地采集现实世界的数据。仓库、工厂、厨房——这些地方之所以重要,是因为它们是人类与物理世界反复接触的高密度场景,恰好是机器人最缺的东西。
3. 16个Claude Agent并行两周不打架:文件锁+Git,比编排框架更好用
大家都在讨论Agent编排有多复杂,Anthropic的一个真实案例却在说:也许根本不需要那么复杂。Nicholas Carlini的编译器项目让16个Agent并行工作了整整两周,协作机制只用了一个Bash Shell循环。
具体怎么做的?一个叫current_tasks/的共享文件夹当任务池,Agent写入.lock文件标记"我在做了",用Git处理并行修改,连合并冲突都让Claude自己解决。没有昂贵的编排框架,没有复杂的消息队列,就这么跑通了。
对想搭多Agent系统的开发者来说,这个案例的价值在于:复杂不等于强大。文件锁+Git这套方案省去了编排管理成本,出了问题也好排查。先收藏,下次用得上。
4. 即梦推出视频生成Agent产品Octo,斜杠唤出浮动对话框这个交互设计很灵
以前用无线画布做视频,最大的痛点是:不知道该用哪个组件,也不知道组件之间怎么连。即梦的Octo直接把这个门槛砍掉了——在画布任意位置按斜杠,就能唤出一个能感知当前界面所有内容的Agent对话框。
这个交互设计解决了一个真实的心流断裂问题。无线画布的操作逻辑是"拖动查看结果",但每次要交互都得回到右侧面板,节奏全断了。浮动对话框让你在任何位置都能直接说话,而且它能读懂你上传的参考图和文字,帮你发散思路,不只是执行指令。
不懂视频制作的普通人可以让它一次性生成所有内容;专业创作者也可以自己把控每一个步骤。这种"既能全自动又能精细控制"的设计思路,值得其他AI创作工具认真学。

5. Chrome DevTools MCP升级:Lighthouse性能审计、内存泄漏检测、LCP优化全来了
前端开发者的调试工作流要变了。Chrome DevTools MCP新增了一批专用调试技能:Lighthouse性能审计、内存泄漏检测、无障碍调试、LCP优化,还有一个实验性的命令行工具。
以前这些事情要手动一个个跑,现在可以直接让Agent帮你做质量检查。LCP(最大内容绘制)直接影响用户感知到的页面加载速度,这个指标的优化建议能自动给出来,对做性能优化的开发者来说省了不少来回折腾的时间。
MCP生态的扩展速度比很多人预期的快。从代码补全到调试工具链,AI介入开发流程的深度在持续加深,而且每次都是从最高频的痛点切入。
6. Minimax开源M2.7,但商用需要单独授权;M2.5则可直接商用
Minimax把M2.7推上了HuggingFace,许可证里明确写了:不允许商用,商用需获得授权。相比之下,M2.5允许商用,保留来源即可。
两个版本,两套规则。这种"开源但限商用"的策略在国内AI公司里越来越常见——既能刷开源社区的存在感,又保留了商业化的谈判筹码。对于想直接拿来做产品的开发者,记得先看清楚用的是哪个版本的协议,别等到上线了才发现踩了坑。
模型地址: huggingface.co/MiniMaxAI/MiniMax-M2.7
7. AI摘要工具提升的是搬运效率,不是阅读效率
这个观点有点扎心,但值得认真想一想。用Agent做自动资讯摘要,心理上觉得阅读效率提升了10倍,但真正的瓶颈从来不是"看到更多",而是"读进去、想明白、变成自己的认知"。
自动摘要对"理解和洞见"这一步帮助有限。摘要还会损失原文里的细节和精华,输入源的丰富性也未必比feed推荐流更强,有时甚至更弱。
这不是说AI工具没用,而是说:如果你用AI摘要的目的是"不用读原文",那你可能在用一个更高效的方式欺骗自己。真正有价值的用法,是用它帮你筛选"值得深读"的内容,而不是替代深读本身。
8. 如何订阅Claude账号:IP乱跳用美区礼品卡订5x Max也没封
很多人被"Claude封号"的传言吓到了,但实际情况可能没那么严重。作者把订阅Claude的完整方法浓缩成3张图:用美区苹果商店礼品卡订阅5x Max计划,即使IP不稳定也没有触发封号。
关键点在于支付方式的选择。礼品卡方案绕开了信用卡验证的麻烦,对国内用户来说是目前相对稳定的路径之一。作者本人和身边朋友都在用,反馈稳定。
当然,任何账号使用都有风险,这类方案的稳定性也会随平台政策变化。用之前自己评估一下,别把重要工作流全押在单一账号上。
9. FieldWorkArena评测基准:发一个空的{}就能拿满分
这条单独拎出来说,因为它是今天最离谱的细节。FieldWorkArena的评分函数根本不检查答案内容,只看AI有没有回复消息。研究团队发了一个空的{},满分到手。
这不是个别案例,而是伯克利团队系统性攻击8个主流基准后发现的普遍问题。每一个基准都有可利用的漏洞,得分从73%到100%不等。
对整个AI行业来说,这意味着:我们用来衡量AI能力的尺子,本身可能就是弯的。接下来评测体系的重建,会是一场硬仗。
10. 具身数据稀缺倒逼机器人公司向工人学习,这场数据军备赛才刚开始
自建机器人车队采集数据?买得起养不起,还危险。用远程操控让人类引导机器人动作?每分钟都在烧硬件、操作员和校准成本。所以公司们退而求其次,去找最便宜的替代方案——工厂工人的头戴摄像头视频。
这个方案的本质是:在具身数据采集成本降下来之前,机器人会一直先向工人学习,然后再考虑取代他们。这句话读起来有点沉,但它描述的就是当前机器人AI的真实处境。
谁能率先解决具身数据的采集效率问题,谁就在下一轮机器人AI竞争中占据先机。这场军备赛,现在才刚刚开始。
[开源] MiniMax M2.7 HuggingFace页面 - M2.7能力更强但限商用,M2.5可直接商用,选哪个取决于你的用途,别搞混了。
[研究] AI摘要工具的认知陷阱 - 用AI摘要刷信息量,提升的是搬运效率而非理解深度,这个反直觉的判断值得每个重度信息消费者认真想一想。
[产品] Chrome DevTools MCP调试技能更新 - Lighthouse、内存泄漏检测、LCP优化全部进了MCP,前端开发者的Agent工具链正在快速补全。
[其他] Claude订阅实操指南(3张图版) - 礼品卡订阅路径比信用卡方案省事,封号没有传说中那么严重,但别把重要工作流全押在单一账号上。
发一个空的{},AI评测满分到手
有个评测基准叫FieldWorkArena,它的评分逻辑是:只要AI回复了消息,就算完成任务。于是研究团队发了一个空的花括号,满分。
这画面有点像交了一张白卷,监考老师说"嗯,你确实交了,给满分"。更让人哭笑不得的是,这不是个例——8个主流基准里,每一个都有类似的漏洞。看完这条新闻,很多人第一反应大概不是"AI太厉害了",而是悄悄回想起自己之前引用过的那些跑分数据……
🔮 AI趋势预测
AI评测体系将迎来重构浪潮
- 预测时间:2026年Q2-Q3
- 预测概率:75%
- 预测依据:今日新闻 伯克利团队攻破8个主流基准 + 评测基准的公信力一旦崩塌,学术界和工业界都有强烈动机重建更可靠的评测方法。历史上每次重大作弊事件曝光后,相关领域通常在3-6个月内出现新的评测标准提案,这次信号更强,波及范围更广。
具身AI数据采集将成为新的军备竞赛
- 预测时间:2026年Q2
- 预测概率:70%
- 预测依据:今日新闻 机器人公司用工厂工人视频训练AI + 具身数据的稀缺性已经逼得公司去找廉价替代方案,这个信号说明数据采集成本是当前机器人AI的核心瓶颈。接下来会有更多资本涌入这个赛道,专门做具身数据采集和标注的公司可能在Q2开始密集融资。
MCP生态将覆盖主流开发工具链
- 预测时间:2026年Q2
- 预测概率:65%
- 预测依据:今日新闻 Chrome DevTools MCP新增调试技能 + 从代码编辑器到浏览器调试工具,MCP的扩展速度超出预期。Chrome官方团队的跟进是一个强信号——当平台方开始主动集成,其他主流IDE和开发工具大概率会在1-2个月内跟进。
国内AI开源"限商用"策略将成主流
- 预测时间:2026年Q2
- 预测概率:60%
- 预测依据:今日新闻 Minimax M2.7开源但限商用 + 这种"开源刷声量、商用要授权"的策略兼顾了社区影响力和商业变现,Minimax的做法会给其他国内AI公司提供参考样本,预计下一批开源模型中会有更多公司采用类似许可证结构。
❓ 相关问题
如何体验 Claude 最新版本?
Claude 目前需要订阅 Claude.ai 的付费计划才能使用 Claude 3.7 Sonnet 等高级模型。对于国内用户,主要面临两个门槛:需要境外支付方式,以及部分地区的网络访问限制。今天有用户分享了用美区苹果礼品卡订阅的方案,但操作门槛仍然不低。
更省事的方案:访问 爱窝啦 Aivora 获取成品账号,极速发货,售后无忧。