爱窝啦 AI 日报 2026/5/29

今日摘要

Anthropic 发布 Claude Opus 4.8，SWE-bench Pro 跑出 69.2%，比 GPT-5.5 高出 10 个百分点，还专门修了"写错代码还不认账"的老毛病。
模型能力竞争的新战场不再是跑分，而是"诚实度"——Agent 敢承认自己错了，才真的能用。
Cursor 用户今天直接切 4.7 消失了，换 4.8 就行；开发者重点看第 1、5 条。

⚡ 快速导航

📰 今日 AI 资讯 - 最新动态速览

💡 提示：想第一时间体验文中提到的最新 AI 模型（Claude 4.5、GPT、Gemini 3 Pro）？没有账号？来 爱窝啦 Aivora 领个号，一分钟上手，售后无忧。

今日AI资讯

👀 只有一句话

Claude Opus 4.8 悄悄上线，跑分碾压 GPT-5.5，还学会了"承认自己写错了"——这个改变，比跑分更值得盯着。

🔑 3 个关键词

#Opus4.8突袭 #芯模协同加速 #AI越强人越忙

🔥 重磅 TOP 10

1. Claude Opus 4.8 发布：SWE-bench Pro 69.2%，还学会了"认错"

以前 Agent 最让人头疼的不是不会写代码，是写错了还一脸自信——像个喝多了的实习生，坚持说自己没问题。Anthropic 这次发布 Claude Opus 4.8，专门盯着这个毛病下手：让代码缺陷"不被指出"的概率降到了 Opus 4.7 的四分之一。SWE-bench Pro 跑出 69.2%，高于 GPT-5.5 的 58.6% 和 Gemini 3.1 Pro 的 54.2%。Fast mode 还降价了，速度提升 2.5 倍，价格便宜 3 倍。API 调用名是 claude-opus-4-8，今天就能用。

2. Cursor 上线 Opus 4.8，但悄悄藏起了 4.7

升级完 Cursor，打开模型列表，Opus 4.8 出现了，Opus 4.7 消失了，4.6 还在。Cursor 官方说 4.8 在 CursorBench 上比 4.7 效率高得多，在更难的任务上也更能坚持到底。4.7 被藏起来这件事没有官方解释，但结合 Opus 4.8 Model Card 里"在部分 Agent 安全测试中出现倒退"的描述，大概能猜到一点原因。对每天靠 Cursor 写代码的人来说，今天可以直接切换 4.8 试试。

3. DeepSeek V4 背后：国产算力从"被动适配"走向"芯模协同"

过去几年，国产芯片的处境有点尴尬：模型在哪，芯片就追到哪，永远在追赶。DeepSeek V4 发布之后，这个局面开始变了。量子位的分析指出，国产算力生态正在从单向奔赴转向"芯模协同"——芯片和模型同步设计、互相优化，不再是一方等另一方。这个变化不是一个产品发布，而是整个生态的飞轮开始转动的信号。对关注国产 AI 基础设施的人来说，这篇值得认真读。

4. 腾讯"代号 Craft"：用自然语言一句话生成游戏世界

游戏策划最怕的事之一，是把脑子里的世界描述给程序员听，然后看着对方做出一个完全不同的东西。腾讯发布的 AI 游戏创作平台"代号 Craft"，直接让自然语言驱动游戏世界生成——你说，它建。同一批素材里还有小米上线的招聘 Agent，基于 xiaomimimo 大模型，支持简历精准匹配和跨会话记忆，校招季直接用 AI 替代了一部分 HR 的初筛工作。两件事放在一起看：大模型从实验室落地到具体业务场景的速度，比大多数人预期的快。

5. AI越强，人越忙：Every 过去一年员工翻倍，每个 Agent 都需要人照料

“AI 会让大家失业"这个判断，正在被一个反直觉的数据打脸：AI 媒体公司 Every 过去一年员工翻倍了。这个访谈总结了 9 个观点，几条特别值得记：AI 自动化创造了新工种——管理自动化；每个 Agent 都需要专人照料；CLI 时代结束，GUI 才是主战场；AI 嵌进 SaaS 是错误方向，应该反过来让 Agent 给 SaaS 带用户。最后一条最扎心：不用 AI 的人会被用 AI 的人替代，但大规模失业不会来——这两件事不矛盾。

6. Genesis 开源通用物理引擎：让机器人自己生成训练数据

机器人训练最贵的不是算力，是数据——真实世界采集慢、成本高、还危险。Genesis 想绕开这个问题：开源一个通用物理仿真平台，目标是让机器人在虚拟环境里自己生成训练数据。目前开放的是底层物理引擎和仿真平台，面向机器人、具身智能和物理 AI。上层的生成式框架还没完全放出，但底层已经可以在 GitHub 上拿到。对做机器人和具身智能的团队来说，这个项目值得现在就盯着。

7. FunloomAI 完成数千万 Pre-A 融资，估值 2 亿，押注 AI 内容共创

AI 内容共创平台库兰织梦（FunloomAI）刚完成数千万元 Pre-A 融资，晴澜家族办公室领投，估值达 2 亿元。创始团队背景不一般：创始人吴同来自 Unity 游戏圈，CTO 张吉豪曾主导淘宝特价版搜索推荐引擎，COO 郑君凯有 20 年游戏行业经验。方向是让创作回归创意本身，用 AI 处理执行层，人专注想法层。游戏 × AI 创作这条赛道，今年融资动作明显密集起来了。

8. 抖音严打 AIGC 违规带货，平台开始给 AI 生成内容划红线

AIGC 内容泛滥之后，平台的反应来了。抖音宣布严打 AIGC 违规带货行为，这意味着用 AI 生成虚假人设、伪造场景来卖货的路子，正式被堵上。这不只是一个平台规则更新，而是一个信号：AI 生成内容的监管边界，正在从"技术讨论"变成"执法动作”。对做内容创作和电商的人来说，搞清楚哪些 AIGC 用法合规，现在比以前重要得多。

9. Twitter 全量自动翻译上线，AI 时代语言墙还没倒

Twitter 把全量自动翻译功能正式推上线了，效果据说不错。有意思的是，这可能是几家主要国际内容平台里，唯一一个做到全量自动化翻译的。AI 这么发达了，跨语言沟通在内容平台上依然是个大障碍——这件事本身就挺值得琢磨的。对经常在 Twitter 上看英文内容的用户来说，今天可以直接去试试这个功能。

10. twenty：专为 AI 设计的开源 Salesforce 替代品，今日 GitHub 日榜 493 星

Salesforce 贵、重、难定制——这是销售团队的老抱怨了。twenty 是一个用 TypeScript 写的开源 CRM，定位是"专为 AI 设计的 Salesforce 替代品"，今天在 GitHub 日榜新增 493 星，总星数接近 4.8 万。“专为 AI 设计"意味着它在数据结构和工作流上为 AI 集成做了原生适配，而不是事后打补丁。对想自建 CRM 或者把 AI Agent 接进销售流程的团队来说，这个项目值得看一眼。

📌 值得关注

[研究] 教皇发布首份 AI 通谕：4 万字，Anthropic 联合创始人出席发布会 — 天主教会史上第一次以 AI 为核心议题发通谕，现场还坐着 Chris Olah，神学和技术的边界正在以意想不到的方式交叉。

[产品] Plannotator：AI 生成方案后，在浏览器里像飞书一样划线批注再执行 — 解决了 CLI 编程里"AI 给了一大段方案，但你不敢直接让它跑"的痛点，支持 Codex、Claude Code、Gemini 等主流工具。

[其他] 杭州首个高中 AI 特色班获批，马云说"死记硬背的时间可以释放出来” — 云谷学校 AI 特色班落地，AI+教育从大学往高中渗透，这个趋势比很多人预期的快。

🔮 AI趋势预测

Claude 系列进入"诚实性"军备竞赛

预测时间：2026年Q3
预测概率：75%
预测依据：今日新闻 Claude Opus 4.8 发布中，Anthropic 专门强调"更诚实、更愿意承认代码缺陷"，并把这作为核心卖点。这个信号说明：随着 Agent 大规模落地，“过度自信导致静默失败"已经成为用户最真实的痛点，各家模型接下来会把"校准度"和"不确定性标注"作为差异化竞争点，而不只是跑分。

国内大模型 Agent 落地进入"垂直场景爆发期”

预测时间：2026年Q3
预测概率：70%
预测依据：今日新闻小米招聘 Agent 上线 + 腾讯代号 Craft 发布，两家大厂同一天在招聘和游戏创作两个完全不同的垂直场景落地 Agent。这不是巧合，而是大模型能力成熟后，各家开始抢占具体业务场景的集中信号。未来 3 个月，预计会有更多大厂在客服、内容审核、销售等场景密集发布垂直 Agent。

“芯模协同"成为国产 AI 基础设施标配叙事

预测时间：2026年Q3
预测概率：65%
预测依据：今日新闻 DeepSeek V4 芯模协同分析指出国产算力生态正从被动适配转向协同设计。随着华为、寒武纪等芯片厂商与模型团队合作加深，“芯模协同"这个词接下来会从分析文章里的概念，变成发布会上的标准话术。

Agent 管理岗位开始在招聘市场出现

预测时间：2026年Q3
预测概率：60%
预测依据：今日新闻 Every 员工翻倍访谈明确提出"AI 自动化创造了新工作：管理自动化，每个 Agent 都需要一个人照料”。这个判断已经在头部 AI 公司得到验证。预计未来 3 个月，国内外招聘平台上会开始出现"Agent 运营"“AI 工作流管理"等新职位，并逐渐形成独立岗位描述。

❓ 相关问题

如何体验 Claude Opus 4.8？

Claude Opus 4.8 目前通过 Anthropic API 开放调用，模型名称为 claude-opus-4-8。对于国内用户，直接注册 Anthropic 账号可能面临手机号验证和支付限制，API 充值也需要境外信用卡。

解决方案：访问 爱窝啦 Aivora 获取成品账号，极速发货，售后无忧，省去注册和支付的麻烦，直接上手体验 Opus 4.8 的 Agent 编程能力。

Last updated on 2026/05/29 09:03:48

05-30-日报 05-28-日报