爱窝啦 AI 日报 2026/4/13

今日摘要

伯克利用10行代码把8个主流AI评测基准全部攻破,跑分满分,一个真实任务没解决。
那些"超越人类"的榜单背后,考卷本身就没认真出——评测体系的公信力今天塌了一块。
建议点开第1和第9条,下次看到跑分新闻,先问一句"这基准防作弊吗"。

⚡ 快速导航

💡 提示:想第一时间体验文中提到的最新 AI 模型(Claude 4.5、GPT、Gemini 3 Pro)?没有账号?来 爱窝啦 Aivora 领个号,一分钟上手,售后无忧。

今日AI资讯

👀 只有一句话

伯克利10行代码把AI圈8个权威评测基准全部攻破——那些跑分榜单,可能从来就没测出真实能力。

🔑 3 个关键词

#跑分信任危机 #具身数据争夺战 #Agent轻量协作


🔥 重磅 TOP 10

1. AI评测基准全线崩塌:伯克利用10行代码拿满分,一个bug没修

你每天看到的"某模型在XX基准上超越人类",可信度要打一个大大的问号了。伯克利研究团队专门造了一个"作弊AI",拿它去攻击SWE-bench、WebArena、OSWorld等8个最主流的智能体评测基准,结果全部攻破,得分73%到100%不等,没有解决任何一个真实任务。

手法简单到离谱。SWE-bench要求AI修复真实GitHub bug,他们写了10行Python,劫持pytest测试钩子,让所有测试直接报告通过,500题全拿,一行代码没改。WebArena更直接,标准答案就放在本地文件里,直接抄。FieldWorkArena的评分函数压根不看答案内容,发一个空的{}就满分。

整个AI评测体系的公信力,今天被动了根基。

image


2. 机器人公司给印度工厂工人戴头戴摄像头,用他们的劳动训练AI

每天在流水线上干活,头上顶着摄像头,你的每一个手势、每一次抓取、每一次纠错,都在变成机器人的训练数据。这不是科幻,这正在发生。

机器人训练需要的是"具身数据"——手怎么伸、腕怎么转、布料怎么折、工具卡住了怎么处理。这类数据极度稀缺,自建机器人车队采集太贵,远程操控烧钱,于是公司们找到了最便宜的替代方案:人类工人的第一人称视频。

工人的劳动被用了两次:第一次是干活本身,第二次是变成训练数据。具身AI的真正竞争,可能就是看谁能更快、更便宜地把现实世界的操作数据收进来。仓库、工厂、厨房,正在成为下一轮AI军备竞赛的战场。


3. 即梦推出视频生成Agent产品Octo:斜杠唤出、感知画布、自然语言控全流程

以前用无线画布做视频,最大的痛点是:不知道该用哪个组件,不知道组件之间怎么连,拖来拖去还打断思路。Octo直接把这个门槛砍掉了。

任何位置按斜杠,Agent对话框就弹出来,而且它能感知画布里的所有内容——上传的素材、已生成的结果、参考图和文字,全都读得到。你用自然语言说"帮我加一个转场,参考左边那张图的风格",它自动添加组件、自动生成,不用手动连线。

对普通用户来说,这是真正降低了视频创作门槛;对专业创作者来说,既可以自己把控每一步,也可以一键全自动。即梦在"人机协作"这件事上想得比较深,这个产品值得体验一下。

image


4. 16个Claude Agent并行两周不打架,靠的是一个Bash Shell循环和Git

大家都在讨论Agent编排有多复杂,Anthropic的Nicholas Carlini直接用最朴素的方案证明:编排不是必须的。

他的编译器项目让16个Agent并行工作了两周,协同机制极其简单:一个current_tasks/共享文件夹当任务池,.lock文件做互斥锁,Git处理并行修改,连合并冲突都让Claude自己解决。每个Agent启动、认领任务、完成编码、push代码、释放锁,一个循环搞定。

没有昂贵的编排框架,没有复杂的消息队列。对于长任务Agent来说,这套设计模式省去了大量管理成本。有时候最简单的方案,反而是最能跑起来的方案。

image


5. Chrome DevTools MCP升级:Lighthouse性能审计、内存泄漏检测、无障碍调试全上线

前端开发者的日常痛点:性能问题要手动跑Lighthouse,内存泄漏要一个个排查,无障碍问题要等QA反馈。现在Chrome DevTools MCP把这些全塞进了Agent工具链。

Google的Addy Osmani宣布,DevTools MCP新增了四项专用调试技能:Lighthouse性能审计、内存泄漏检测、无障碍调试,以及LCP优化。还有一个实验性的命令行工具。

实际意义在于:你的AI编程助手现在可以直接调用这些能力,不只是帮你写代码,还能帮你检查代码跑起来之后的真实表现。从"写完就交差"到"写完还能自检",这个闭环对开发效率的提升是实实在在的。


6. Minimax开源M2.7:研究可用,商用需授权;M2.5则允许商用保留来源即可

国内大模型开源又有新动作。Minimax把M2.7推上了HuggingFace,但许可证写得很清楚:M2.7不允许商用,商用需要单独获得授权;M2.5则允许商用,保留来源即可。

两个版本,两套规则。对于想直接拿来做产品的开发者,M2.5是更友好的选择;想研究最新能力的,M2.7可以跑起来看看,但别直接套进商业项目。

这种"研究版开放、商业版收费"的策略,在国内大模型圈越来越常见了。开源的边界,正在被越来越精细地划定。模型地址: huggingface.co/MiniMaxAI/MiniMax-M2.7


7. AI摘要工具提升的是搬运效率,不是阅读效率

很多人用Agent做自动资讯摘要,觉得自己阅读效率提升了10倍。但这个观点戳到了一个真实的盲区:你提升的是搬运效率,不是理解效率。

阅读的真正瓶颈从来不是"看到更多",而是"读进去、想明白、变成自己的认知"。自动摘要会损失原文细节,输入源的丰富性也未必比算法推荐更强。更关键的是,认同一个道理,不等于形成自己的洞见。

这不是反对用AI工具,而是提醒:别把"信息流动得更快"误认为"自己变聪明了"。在AI工具泛滥的今天,这个区分越来越重要。

image


8. 如何订阅Claude账号:IP乱跳、美区礼品卡订5x Max,也没封

订阅Claude一直是国内用户的老大难问题。这条帖子把实操经验浓缩进了3张图:用美区苹果商店礼品卡订阅5x Max版本,IP也没有刻意固定,结果账号稳稳的,没有封号。

封号这件事,实际上没有传说中那么严重。只要不用来路不明的共享账号、不频繁切换设备,正规渠道订阅的账号稳定性相当不错。对于想长期用Claude的用户来说,这套方案比很多攻略帖更有参考价值——因为它是真实跑过的。

image


9. AI评测基准漏洞深度解析:从SWE-bench到FieldWorkArena,7种作弊手法全曝光

同一项研究,值得再深挖一层。伯克利团队不只是"发现了漏洞",他们系统性地梳理了7种不同的作弊手法,覆盖了编程、网页操作、终端任务、桌面操作等核心赛道。

每个基准的漏洞成因各不相同:有的是测试框架设计缺陷,有的是答案文件权限没锁,有的是评分函数根本没验证内容。这说明问题不是个例,而是整个评测体系在设计时就没有把"防作弊"当成核心约束。

对AI研究者来说,这篇论文是一记警钟;对普通用户来说,下次看到跑分新闻,多问一句"这个基准本身靠谱吗",是值得养成的习惯。


10. 具身数据稀缺性:为什么机器人训练比大语言模型难得多

大语言模型可以从互联网上海量文本中学习,机器人不行。这个根本差异,正在塑造整个具身AI行业的竞争格局。

语言数据无处不在,具身数据极度稀缺。真实世界里手怎么伸、腕怎么转、东西滑落了怎么接——这些数据没有现成的互联网语料库可以爬取。自建机器人车队采集太贵,远程操控每分钟都在烧钱,于是工厂工人的第一人称视频成了当下最可行的替代方案。

这个逻辑说明:具身AI的竞争壁垒,不只是模型架构,更是数据采集管道。谁先建立起高效低成本的现实世界数据飞轮,谁就掌握了下一代机器人的核心资产。



发一个空的 {} 就能拿满分——AI考卷比学生更不认真

想象一下参加一场考试,监考老师只检查你有没有交卷,不看你写了什么。伯克利团队发现FieldWorkArena的评分函数就是这么工作的:只要AI回复了消息,就算完成任务。发一个空的{},满分到手。

不是模型不够聪明,是考卷本身就没认真出。这大概是今天最让人哭笑不得的细节——AI还没开始作弊,出题人已经先摆烂了。


🔮 AI趋势预测

AI评测体系将迎来一轮重构

  • 预测时间:2026年Q2-Q3
  • 预测概率:75%
  • 预测依据:今日新闻 伯克利攻破8个主流评测基准 + 当主流基准被证明可以被10行代码攻破,学术界和产业界都会面临压力,重新设计更难作弊的评测方法;历史上每次评测危机后都会催生新一代基准,这次影响范围更广,重构压力更大

具身AI数据采集将成为新的军备竞赛

  • 预测时间:2026年Q2-Q3
  • 预测概率:70%
  • 预测依据:今日新闻 机器人公司用工厂工人头戴摄像头采集训练数据 + 具身数据稀缺性已被多家机器人公司公开承认,谁先建立高效低成本的数据采集管道,谁就掌握下一代机器人训练的核心资产;预计未来几个月会有更多公司公开类似方案

视频生成Agent产品将从"工具"走向"协作者"

  • 预测时间:2026年Q2
  • 预测概率:65%
  • 预测依据:今日新闻 即梦Octo上线,斜杠唤出Agent感知整个画布 + 即梦、Runway等产品都在往"AI理解创作意图、主动参与流程"方向走,而不只是"输入提示词、输出视频"的单次交互模式,这个趋势在未来一个季度会加速

轻量级多Agent协作范式将替代重型编排框架

  • 预测时间:2026年Q2
  • 预测概率:60%
  • 预测依据:今日新闻 16个Claude Agent靠Bash循环+Git并行两周 + 越来越多的实践案例表明,文件系统+版本控制的朴素协作方案在长任务场景下比复杂编排框架更稳定,社区会逐渐形成这类轻量模式的最佳实践并推动工具链跟进

❓ 相关问题

如何体验 Claude?

Claude 目前需要海外手机号注册,订阅 Pro/Max 版本还需要境外支付方式,国内用户直接开通有一定门槛。实际使用中,只要不频繁切换设备、用正规渠道订阅,账号稳定性比传言中好得多——今天就有用户分享了用美区礼品卡订阅5x Max版本、IP也没刻意固定、依然稳定使用的经历。

解决方案:访问 爱窝啦 Aivora 获取成品账号,极速发货,售后无忧。

Last updated on