爱窝啦 AI 日报 2026/4/13

今日摘要

伯克利用10行代码把8个主流AI评测基准全部攻破，跑分满分，一个真实任务没解决。
那些"超越人类"的榜单背后，考卷本身就没认真出——评测体系的公信力今天塌了一块。
建议点开第1和第9条，下次看到跑分新闻，先问一句"这基准防作弊吗"。

⚡ 快速导航

📰 今日 AI 资讯 - 最新动态速览

💡 提示：想第一时间体验文中提到的最新 AI 模型（Claude 4.5、GPT、Gemini 3 Pro）？没有账号？来 爱窝啦 Aivora 领个号，一分钟上手，售后无忧。

今日AI资讯

👀 只有一句话

伯克利10行代码把AI圈8个权威评测基准全部攻破——那些跑分榜单，可能从来就没测出真实能力。

🔑 3 个关键词

#跑分信任危机 #具身数据争夺战 #Agent轻量协作

🔥 重磅 TOP 10

1. AI评测基准全线崩塌：伯克利用10行代码拿满分，一个bug没修

你每天看到的"某模型在XX基准上超越人类"，可信度要打一个大大的问号了。伯克利研究团队专门造了一个"作弊AI"，拿它去攻击SWE-bench、WebArena、OSWorld等8个最主流的智能体评测基准，结果全部攻破，得分73%到100%不等，没有解决任何一个真实任务。

手法简单到离谱。SWE-bench要求AI修复真实GitHub bug，他们写了10行Python，劫持pytest测试钩子，让所有测试直接报告通过，500题全拿，一行代码没改。WebArena更直接，标准答案就放在本地文件里，直接抄。FieldWorkArena的评分函数压根不看答案内容，发一个空的{}就满分。

整个AI评测体系的公信力，今天被动了根基。

2. 机器人公司给印度工厂工人戴头戴摄像头，用他们的劳动训练AI

每天在流水线上干活，头上顶着摄像头，你的每一个手势、每一次抓取、每一次纠错，都在变成机器人的训练数据。这不是科幻，这正在发生。

机器人训练需要的是"具身数据"——手怎么伸、腕怎么转、布料怎么折、工具卡住了怎么处理。这类数据极度稀缺，自建机器人车队采集太贵，远程操控烧钱，于是公司们找到了最便宜的替代方案：人类工人的第一人称视频。

工人的劳动被用了两次：第一次是干活本身，第二次是变成训练数据。具身AI的真正竞争，可能就是看谁能更快、更便宜地把现实世界的操作数据收进来。仓库、工厂、厨房，正在成为下一轮AI军备竞赛的战场。

3. 即梦推出视频生成Agent产品Octo：斜杠唤出、感知画布、自然语言控全流程

以前用无线画布做视频，最大的痛点是：不知道该用哪个组件，不知道组件之间怎么连，拖来拖去还打断思路。Octo直接把这个门槛砍掉了。

任何位置按斜杠，Agent对话框就弹出来，而且它能感知画布里的所有内容——上传的素材、已生成的结果、参考图和文字，全都读得到。你用自然语言说"帮我加一个转场，参考左边那张图的风格"，它自动添加组件、自动生成，不用手动连线。

对普通用户来说，这是真正降低了视频创作门槛；对专业创作者来说，既可以自己把控每一步，也可以一键全自动。即梦在"人机协作"这件事上想得比较深，这个产品值得体验一下。

4. 16个Claude Agent并行两周不打架，靠的是一个Bash Shell循环和Git

大家都在讨论Agent编排有多复杂，Anthropic的Nicholas Carlini直接用最朴素的方案证明：编排不是必须的。

他的编译器项目让16个Agent并行工作了两周，协同机制极其简单：一个current_tasks/共享文件夹当任务池，.lock文件做互斥锁，Git处理并行修改，连合并冲突都让Claude自己解决。每个Agent启动、认领任务、完成编码、push代码、释放锁，一个循环搞定。

没有昂贵的编排框架，没有复杂的消息队列。对于长任务Agent来说，这套设计模式省去了大量管理成本。有时候最简单的方案，反而是最能跑起来的方案。

5. Chrome DevTools MCP升级：Lighthouse性能审计、内存泄漏检测、无障碍调试全上线

前端开发者的日常痛点：性能问题要手动跑Lighthouse，内存泄漏要一个个排查，无障碍问题要等QA反馈。现在Chrome DevTools MCP把这些全塞进了Agent工具链。

Google的Addy Osmani宣布，DevTools MCP新增了四项专用调试技能：Lighthouse性能审计、内存泄漏检测、无障碍调试，以及LCP优化。还有一个实验性的命令行工具。

实际意义在于：你的AI编程助手现在可以直接调用这些能力，不只是帮你写代码，还能帮你检查代码跑起来之后的真实表现。从"写完就交差"到"写完还能自检"，这个闭环对开发效率的提升是实实在在的。

6. Minimax开源M2.7：研究可用，商用需授权；M2.5则允许商用保留来源即可

国内大模型开源又有新动作。Minimax把M2.7推上了HuggingFace，但许可证写得很清楚：M2.7不允许商用，商用需要单独获得授权；M2.5则允许商用，保留来源即可。

两个版本，两套规则。对于想直接拿来做产品的开发者，M2.5是更友好的选择；想研究最新能力的，M2.7可以跑起来看看，但别直接套进商业项目。

这种"研究版开放、商业版收费"的策略，在国内大模型圈越来越常见了。开源的边界，正在被越来越精细地划定。模型地址： huggingface.co/MiniMaxAI/MiniMax-M2.7

7. AI摘要工具提升的是搬运效率，不是阅读效率

很多人用Agent做自动资讯摘要，觉得自己阅读效率提升了10倍。但这个观点戳到了一个真实的盲区：你提升的是搬运效率，不是理解效率。

阅读的真正瓶颈从来不是"看到更多"，而是"读进去、想明白、变成自己的认知"。自动摘要会损失原文细节，输入源的丰富性也未必比算法推荐更强。更关键的是，认同一个道理，不等于形成自己的洞见。

这不是反对用AI工具，而是提醒：别把"信息流动得更快"误认为"自己变聪明了"。在AI工具泛滥的今天，这个区分越来越重要。

8. 如何订阅Claude账号：IP乱跳、美区礼品卡订5x Max，也没封

订阅Claude一直是国内用户的老大难问题。这条帖子把实操经验浓缩进了3张图：用美区苹果商店礼品卡订阅5x Max版本，IP也没有刻意固定，结果账号稳稳的，没有封号。

封号这件事，实际上没有传说中那么严重。只要不用来路不明的共享账号、不频繁切换设备，正规渠道订阅的账号稳定性相当不错。对于想长期用Claude的用户来说，这套方案比很多攻略帖更有参考价值——因为它是真实跑过的。

9. AI评测基准漏洞深度解析：从SWE-bench到FieldWorkArena，7种作弊手法全曝光

同一项研究，值得再深挖一层。伯克利团队不只是"发现了漏洞"，他们系统性地梳理了7种不同的作弊手法，覆盖了编程、网页操作、终端任务、桌面操作等核心赛道。

每个基准的漏洞成因各不相同：有的是测试框架设计缺陷，有的是答案文件权限没锁，有的是评分函数根本没验证内容。这说明问题不是个例，而是整个评测体系在设计时就没有把"防作弊"当成核心约束。

对AI研究者来说，这篇论文是一记警钟；对普通用户来说，下次看到跑分新闻，多问一句"这个基准本身靠谱吗"，是值得养成的习惯。

10. 具身数据稀缺性：为什么机器人训练比大语言模型难得多

大语言模型可以从互联网上海量文本中学习，机器人不行。这个根本差异，正在塑造整个具身AI行业的竞争格局。

语言数据无处不在，具身数据极度稀缺。真实世界里手怎么伸、腕怎么转、东西滑落了怎么接——这些数据没有现成的互联网语料库可以爬取。自建机器人车队采集太贵，远程操控每分钟都在烧钱，于是工厂工人的第一人称视频成了当下最可行的替代方案。

这个逻辑说明：具身AI的竞争壁垒，不只是模型架构，更是数据采集管道。谁先建立起高效低成本的现实世界数据飞轮，谁就掌握了下一代机器人的核心资产。

[开源] MiniMax M2.7模型页面 - M2.7研究可用但商用需授权，M2.5可直接商用，两套规则搞清楚再下载，别踩许可证的坑
[产品] Chrome DevTools MCP实验性CLI工具 - 除了四项调试技能，还有一个实验性命令行工具悄悄上线，前端开发者可以提前摸一摸
[观点] AI信息消费效率的真实瓶颈在哪里 - 搬运效率≠阅读效率，这个区分在AI工具泛滥的今天越来越值得认真对待

发一个空的 {} 就能拿满分——AI考卷比学生更不认真

想象一下参加一场考试，监考老师只检查你有没有交卷，不看你写了什么。伯克利团队发现FieldWorkArena的评分函数就是这么工作的：只要AI回复了消息，就算完成任务。发一个空的{}，满分到手。

不是模型不够聪明，是考卷本身就没认真出。这大概是今天最让人哭笑不得的细节——AI还没开始作弊，出题人已经先摆烂了。

🔮 AI趋势预测

AI评测体系将迎来一轮重构

预测时间：2026年Q2-Q3
预测概率：75%
预测依据：今日新闻伯克利攻破8个主流评测基准 + 当主流基准被证明可以被10行代码攻破，学术界和产业界都会面临压力，重新设计更难作弊的评测方法；历史上每次评测危机后都会催生新一代基准，这次影响范围更广，重构压力更大

具身AI数据采集将成为新的军备竞赛

预测时间：2026年Q2-Q3
预测概率：70%
预测依据：今日新闻机器人公司用工厂工人头戴摄像头采集训练数据 + 具身数据稀缺性已被多家机器人公司公开承认，谁先建立高效低成本的数据采集管道，谁就掌握下一代机器人训练的核心资产；预计未来几个月会有更多公司公开类似方案

视频生成Agent产品将从"工具"走向"协作者"

预测时间：2026年Q2
预测概率：65%
预测依据：今日新闻即梦Octo上线，斜杠唤出Agent感知整个画布 + 即梦、Runway等产品都在往"AI理解创作意图、主动参与流程"方向走，而不只是"输入提示词、输出视频"的单次交互模式，这个趋势在未来一个季度会加速

轻量级多Agent协作范式将替代重型编排框架

预测时间：2026年Q2
预测概率：60%
预测依据：今日新闻 16个Claude Agent靠Bash循环+Git并行两周 + 越来越多的实践案例表明，文件系统+版本控制的朴素协作方案在长任务场景下比复杂编排框架更稳定，社区会逐渐形成这类轻量模式的最佳实践并推动工具链跟进

❓ 相关问题

如何体验 Claude？

Claude 目前需要海外手机号注册，订阅 Pro/Max 版本还需要境外支付方式，国内用户直接开通有一定门槛。实际使用中，只要不频繁切换设备、用正规渠道订阅，账号稳定性比传言中好得多——今天就有用户分享了用美区礼品卡订阅5x Max版本、IP也没刻意固定、依然稳定使用的经历。

解决方案：访问 爱窝啦 Aivora 获取成品账号，极速发货，售后无忧。

Last updated on 2026/04/13 10:14:24

04-14-日报 04-12-日报