爱窝啦 AI 日报 2026/5/29

今日摘要

Anthropic 发布 Claude Opus 4.8,SWE-bench Pro 跑出 69.2%,比 GPT-5.5 高出 10 个百分点,还专门修了"写错代码还不认账"的老毛病。
模型能力竞争的新战场不再是跑分,而是"诚实度"——Agent 敢承认自己错了,才真的能用。
Cursor 用户今天直接切 4.7 消失了,换 4.8 就行;开发者重点看第 1、5 条。

⚡ 快速导航

💡 提示:想第一时间体验文中提到的最新 AI 模型(Claude 4.5、GPT、Gemini 3 Pro)?没有账号?来 爱窝啦 Aivora 领个号,一分钟上手,售后无忧。

今日AI资讯

👀 只有一句话

Claude Opus 4.8 悄悄上线,跑分碾压 GPT-5.5,还学会了"承认自己写错了"——这个改变,比跑分更值得盯着。

🔑 3 个关键词

#Opus4.8突袭 #芯模协同加速 #AI越强人越忙


🔥 重磅 TOP 10

1. Claude Opus 4.8 发布:SWE-bench Pro 69.2%,还学会了"认错"

以前 Agent 最让人头疼的不是不会写代码,是写错了还一脸自信——像个喝多了的实习生,坚持说自己没问题。Anthropic 这次发布 Claude Opus 4.8,专门盯着这个毛病下手:让代码缺陷"不被指出"的概率降到了 Opus 4.7 的四分之一。SWE-bench Pro 跑出 69.2%,高于 GPT-5.5 的 58.6% 和 Gemini 3.1 Pro 的 54.2%。Fast mode 还降价了,速度提升 2.5 倍,价格便宜 3 倍。API 调用名是 claude-opus-4-8,今天就能用。

image

2. Cursor 上线 Opus 4.8,但悄悄藏起了 4.7

升级完 Cursor,打开模型列表,Opus 4.8 出现了,Opus 4.7 消失了,4.6 还在。Cursor 官方说 4.8 在 CursorBench 上比 4.7 效率高得多,在更难的任务上也更能坚持到底。4.7 被藏起来这件事没有官方解释,但结合 Opus 4.8 Model Card 里"在部分 Agent 安全测试中出现倒退"的描述,大概能猜到一点原因。对每天靠 Cursor 写代码的人来说,今天可以直接切换 4.8 试试。

image

3. DeepSeek V4 背后:国产算力从"被动适配"走向"芯模协同"

过去几年,国产芯片的处境有点尴尬:模型在哪,芯片就追到哪,永远在追赶。DeepSeek V4 发布之后,这个局面开始变了。量子位的分析指出,国产算力生态正在从单向奔赴转向"芯模协同"——芯片和模型同步设计、互相优化,不再是一方等另一方。这个变化不是一个产品发布,而是整个生态的飞轮开始转动的信号。对关注国产 AI 基础设施的人来说,这篇值得认真读。

image

4. 腾讯"代号 Craft":用自然语言一句话生成游戏世界

游戏策划最怕的事之一,是把脑子里的世界描述给程序员听,然后看着对方做出一个完全不同的东西。腾讯发布的 AI 游戏创作平台"代号 Craft",直接让自然语言驱动游戏世界生成——你说,它建。同一批素材里还有小米上线的招聘 Agent,基于 xiaomimimo 大模型,支持简历精准匹配和跨会话记忆,校招季直接用 AI 替代了一部分 HR 的初筛工作。两件事放在一起看:大模型从实验室落地到具体业务场景的速度,比大多数人预期的快。

image

5. AI越强,人越忙:Every 过去一年员工翻倍,每个 Agent 都需要人照料

“AI 会让大家失业"这个判断,正在被一个反直觉的数据打脸:AI 媒体公司 Every 过去一年员工翻倍了。这个访谈总结了 9 个观点,几条特别值得记:AI 自动化创造了新工种——管理自动化;每个 Agent 都需要专人照料;CLI 时代结束,GUI 才是主战场;AI 嵌进 SaaS 是错误方向,应该反过来让 Agent 给 SaaS 带用户。最后一条最扎心:不用 AI 的人会被用 AI 的人替代,但大规模失业不会来——这两件事不矛盾。

6. Genesis 开源通用物理引擎:让机器人自己生成训练数据

机器人训练最贵的不是算力,是数据——真实世界采集慢、成本高、还危险。Genesis 想绕开这个问题:开源一个通用物理仿真平台,目标是让机器人在虚拟环境里自己生成训练数据。目前开放的是底层物理引擎和仿真平台,面向机器人、具身智能和物理 AI。上层的生成式框架还没完全放出,但底层已经可以在 GitHub 上拿到。对做机器人和具身智能的团队来说,这个项目值得现在就盯着。

7. FunloomAI 完成数千万 Pre-A 融资,估值 2 亿,押注 AI 内容共创

AI 内容共创平台库兰织梦(FunloomAI)刚完成数千万元 Pre-A 融资,晴澜家族办公室领投,估值达 2 亿元。创始团队背景不一般:创始人吴同来自 Unity 游戏圈,CTO 张吉豪曾主导淘宝特价版搜索推荐引擎,COO 郑君凯有 20 年游戏行业经验。方向是让创作回归创意本身,用 AI 处理执行层,人专注想法层。游戏 × AI 创作这条赛道,今年融资动作明显密集起来了。

image

8. 抖音严打 AIGC 违规带货,平台开始给 AI 生成内容划红线

AIGC 内容泛滥之后,平台的反应来了。抖音宣布严打 AIGC 违规带货行为,这意味着用 AI 生成虚假人设、伪造场景来卖货的路子,正式被堵上。这不只是一个平台规则更新,而是一个信号:AI 生成内容的监管边界,正在从"技术讨论"变成"执法动作”。对做内容创作和电商的人来说,搞清楚哪些 AIGC 用法合规,现在比以前重要得多。

9. Twitter 全量自动翻译上线,AI 时代语言墙还没倒

Twitter 把全量自动翻译功能正式推上线了,效果据说不错。有意思的是,这可能是几家主要国际内容平台里,唯一一个做到全量自动化翻译的。AI 这么发达了,跨语言沟通在内容平台上依然是个大障碍——这件事本身就挺值得琢磨的。对经常在 Twitter 上看英文内容的用户来说,今天可以直接去试试这个功能。

image

10. twenty:专为 AI 设计的开源 Salesforce 替代品,今日 GitHub 日榜 493 星

Salesforce 贵、重、难定制——这是销售团队的老抱怨了。twenty 是一个用 TypeScript 写的开源 CRM,定位是"专为 AI 设计的 Salesforce 替代品",今天在 GitHub 日榜新增 493 星,总星数接近 4.8 万。“专为 AI 设计"意味着它在数据结构和工作流上为 AI 集成做了原生适配,而不是事后打补丁。对想自建 CRM 或者把 AI Agent 接进销售流程的团队来说,这个项目值得看一眼。


📌 值得关注

[研究] 教皇发布首份 AI 通谕:4 万字,Anthropic 联合创始人出席发布会 — 天主教会史上第一次以 AI 为核心议题发通谕,现场还坐着 Chris Olah,神学和技术的边界正在以意想不到的方式交叉。

[产品] Plannotator:AI 生成方案后,在浏览器里像飞书一样划线批注再执行 — 解决了 CLI 编程里"AI 给了一大段方案,但你不敢直接让它跑"的痛点,支持 Codex、Claude Code、Gemini 等主流工具。

[其他] 杭州首个高中 AI 特色班获批,马云说"死记硬背的时间可以释放出来” — 云谷学校 AI 特色班落地,AI+教育从大学往高中渗透,这个趋势比很多人预期的快。


🔮 AI趋势预测

Claude 系列进入"诚实性"军备竞赛

  • 预测时间:2026年Q3
  • 预测概率:75%
  • 预测依据:今日新闻 Claude Opus 4.8 发布 中,Anthropic 专门强调"更诚实、更愿意承认代码缺陷",并把这作为核心卖点。这个信号说明:随着 Agent 大规模落地,“过度自信导致静默失败"已经成为用户最真实的痛点,各家模型接下来会把"校准度"和"不确定性标注"作为差异化竞争点,而不只是跑分。

国内大模型 Agent 落地进入"垂直场景爆发期”

  • 预测时间:2026年Q3
  • 预测概率:70%
  • 预测依据:今日新闻 小米招聘 Agent 上线 + 腾讯代号 Craft 发布 ,两家大厂同一天在招聘和游戏创作两个完全不同的垂直场景落地 Agent。这不是巧合,而是大模型能力成熟后,各家开始抢占具体业务场景的集中信号。未来 3 个月,预计会有更多大厂在客服、内容审核、销售等场景密集发布垂直 Agent。

“芯模协同"成为国产 AI 基础设施标配叙事

  • 预测时间:2026年Q3
  • 预测概率:65%
  • 预测依据:今日新闻 DeepSeek V4 芯模协同分析 指出国产算力生态正从被动适配转向协同设计。随着华为、寒武纪等芯片厂商与模型团队合作加深,“芯模协同"这个词接下来会从分析文章里的概念,变成发布会上的标准话术。

Agent 管理岗位开始在招聘市场出现

  • 预测时间:2026年Q3
  • 预测概率:60%
  • 预测依据:今日新闻 Every 员工翻倍访谈 明确提出"AI 自动化创造了新工作:管理自动化,每个 Agent 都需要一个人照料”。这个判断已经在头部 AI 公司得到验证。预计未来 3 个月,国内外招聘平台上会开始出现"Agent 运营"“AI 工作流管理"等新职位,并逐渐形成独立岗位描述。

❓ 相关问题

如何体验 Claude Opus 4.8?

Claude Opus 4.8 目前通过 Anthropic API 开放调用,模型名称为 claude-opus-4-8。对于国内用户,直接注册 Anthropic 账号可能面临手机号验证和支付限制,API 充值也需要境外信用卡。

解决方案:访问 爱窝啦 Aivora 获取成品账号,极速发货,售后无忧,省去注册和支付的麻烦,直接上手体验 Opus 4.8 的 Agent 编程能力。

Last updated on