爱窝啦 AI 日报 2026/6/5

今日摘要

Claude Mythos 提前半年跑出了专家预测"年底才到"的3小时自主任务,成功率80%。
Agent能力正在按月翻倍,OpenAI同日推出"一句话生成真实网页应用",两家同时加速。
今天的内容含金量很高,第1、3、4条建议必看。

⚡ 快速导航

💡 提示:想第一时间体验文中提到的最新 AI 模型(Claude 4.5、GPT、Gemini 3 Pro)?没有账号?来 爱窝啦 Aivora 领个号,一分钟上手,售后无忧。

今日AI资讯

👀 只有一句话

Claude Mythos 把专家预测"年底才能到"的3小时自主任务记录,提前半年跑出来了,Agent时代的时间表正在加速。

🔑 3 个关键词

#预言提前兑现 #Agent能力跃升 #世界模型大辩论


🔥 重磅 TOP 10

1. 专家预测年底才到,Claude Mythos今天就跑出3小时6分

超级预言家和领域专家集体预测:2026年底,AI才能独立完成3-4小时的自主任务。Anthropic没有等到年底——Claude Mythos在今天就以80%成功率跑出了3小时6分钟。这不是参数刷分,是真实的"不间断、不出错、持续干活"的时长记录。更关键的细节:从Opus 4到Opus 4.5,时间能力翻倍只花了4个月。按这个节奏,Agent接管你半天工作的时间表,可能比你想象中近得多。

image


2. 李飞飞看不下去了,亲自下场"辟谣"世界模型

“世界模型"这个词现在已经被玩坏了。CV圈、机器人圈、生成式AI圈各说各话,谁都宣称自己在做世界模型,但说的根本不是一件事。李飞飞直接下场,拿POMDP框架把它拆成三类:渲染器、仿真器、规划器。核心判断是:被冷落最久的仿真器,恰恰是产业价值最深、技术难度最硬的那个。最后她还抛出一个方向——三类模型最终走向大一统基础模型,边界消融,形态互换。这不是综述,是一份用来终止扯皮的定义文件。

image


3. Anthropic工程师代码产出8倍增长,Claude科研决策正确率从22%升至64%

两组数字扔在一起,冲击力挺大。第一组:Anthropic工程师今天每季度交付的代码量,是2021-2025年均值的8倍。第二组:在科研决策测试里,当人类研究员走错方向,把现场交给Claude Mythos接管,它在64%的情况下给出更好的下一步判断——2024年同一测试,这个数字是22%。前者说明AI正在改变工程师的生产方式,后者说明它开始改变科学家的研究方式。两件事同时发生,同一家公司,同一天发布。

image


4. ChatGPT Sites上线:一条Prompt生成可分享的真实网页应用

以前"让AI帮我做个工具"的终点,是一段代码,然后你还得自己部署。现在OpenAI直接把终点往前推了一大步:Codex帮你把想法变成网页应用,生成一个URL,任何人打开就能用,不用装环境、不用配服务器。Sam Altman发帖附上了一句怀念HyperCard的感叹——老程序员的伤感夹在发布公告里,有点好笑。功能目前先向Business和Enterprise开放,普通用户等着排队。


5. ECC:为Claude Code、Codex、Cursor等提供技能、记忆与安全增强的智能体框架

今天GitHub日榜第一,20万+颗Star,单日新增1750颗。ECC的定位是给现有AI编程工具装"大脑扩展包”——不只是补全代码,而是给Claude Code、Codex、Opencode、Cursor系统性地加上技能层、记忆层、安全层和研究优先模式。你的AI编程助手原本是个"接活干"的工具,ECC想让它变成一个"记得上下文、懂得优先级、知道踩刹车"的正经协作者。有Cursor或Codex在用的开发者,值得去扒一扒文档。


6. AI让普通人帮狗狗抗癌成功:医生放弃,AI给出了答案

医生已经放弃了。主人不甘心,把检查报告、症状记录、用药历史全部喂给AI,让模型一遍遍分析,找可能被遗漏的治疗路径。最终,狗狗活下来了。这个真实案例在Telegram上引发了大量转发。它触碰的不是"AI比医生厉害"的问题,而是"当正规渠道穷尽之后,AI能不能成为最后的备选"。人类攻克癌症这件事,可能比我们以为的近得多。


7. 一条Prompt生成城市文旅宣传片:8K、IMAX、汉斯·季默风格

Prompt里写明了摄影机位、色彩体系、音效逻辑、分镜时间码,直接扔给文生视频模型,出来的是15秒"新中式史诗宣传片"。这件事的含义不是视频好不好看,而是——以前这条生产链需要导演、摄影、剪辑、调色、配乐五个角色,现在变成了一个懂Prompt的人加一个模型。传统文旅制作公司,可能正在意识到他们接下来几年要面对一个什么样的市场。


8. 快手上线AI购物助手,Kimi Work开启内测,微信推A2A助手协议

三件事同一天发,拼在一起看才有意思。快手的AI购物助手做的是"帮你在一堆评论里找到真正重要的信息",解决货架电商的信息密度问题。Kimi Work走本地Agent路线,知识工作者直接在本机跑多智能体任务。微信那边更激进,推了A2A协议,让不同厂商的Agent之间可以互联互通。单独看哪件事都是"又一个AI产品上线",合在一起看,是国内AI工具正在同步往Agent层跑。

image.png


9. 「智维创芯」完成数千万元天使轮:把芯片验证从60%时间占比打下来

一款芯片从架构到流片,平均两年,验证环节就吃掉60%的时间和人力,首次流片成功率只有14%。智维创芯用AI把这个验证流程自动化,目标提升效率10倍以上。东南大学副教授王翕带队,技术积累来自国家EDA国创中心。国内芯片设计的瓶颈不只是算力和IP授权,验证效率本身就是一堵墙——这个赛道做对了,影响的是整条半导体上游的节奏。

image


10. 星灿智能完成千万级天使+轮:家用具身机器人,不靠云端、自己采数据

大多数具身机器人的策略是:在云端存一批固化数据集,靠远程遥控迭代。星灿智能反着来——让机器人在庭院、居家、康养、医院的真实场景里全天候跑,实时采集、实时反馈,持续喂养自家XcanBrain模型。力合科创战略入局,加上此前的山东亚华电子和浙江亚特投资,三家上市产业资本同时押注。L4级自动驾驶的空间智能技术落地民用,这条路线在家用机器人里还算少见。

image


📌 值得关注

[产品] ListenHub AI视频功能正式上线 - 人类和Agent都能直接调用,已接入Seedance 2.0,输入想法一键出视频,API同步开放,门槛很低。

[产品] 即览App更新,同时支持iOS 17和18 - Bug修复+双系统适配,TestFlight用户可直接拉取,小而美工具持续打磨中。

[其他] 小红书9.9的700条AI工作流,闲鱼上不到1块钱 - 付费工作流资源的定价泡沫被直接戳破,有需要的人可以自行取用。


🔮 AI趋势预测

Claude Agent长时程任务能力在Q3形成新基准线

  • 预测时间:2026年Q3
  • 预测概率:78%
  • 预测依据:今日新闻 Claude Mythos跑出3小时6分 + Opus 4到Opus 4.5时间能力翻倍仅用4个月,按此节奏Q3或突破6小时,“自主完成半天工作"将从实验室描述变成产品卖点。

ChatGPT Sites触发一波无代码应用创业热

  • 预测时间:2026年Q3
  • 预测概率:70%
  • 预测依据:今日新闻 ChatGPT Sites上线 + 历史规律表明每次OpenAI开放新能力,都会在2-3个月内催生一批基于该能力的垂直工具,这次URL即产品的形态门槛更低,复制速度会更快。

国内Agent互联互通标准之争将在Q3浮出水面

  • 预测时间:2026年Q3
  • 预测概率:65%
  • 预测依据:今日新闻 微信推A2A助手协议 + 快手、Kimi等同日上线Agent产品,各家接口各不相同,当生态规模足够大,标准统一的压力会在3个月内变得显性化。

AI芯片验证赛道将迎来更多融资事件

  • 预测时间:2026年Q3
  • 预测概率:60%
  • 预测依据:今日新闻 智维创芯完成天使轮 + 芯片验证效率是全行业共识痛点,首次流片成功率只有14%这个数字极具说服力,资本会沿着这个痛点继续找标的。

❓ 相关问题

如何体验 Claude Mythos?

Claude Mythos 目前处于 Anthropic 内部测试和特定合作伙伴阶段,尚未对普通用户全面开放。对于国内用户,除访问限制外,Anthropic 账号注册和付费同样存在门槛。

解决方案:访问 爱窝啦 Aivora 获取 Claude 系列成品账号,包含主流版本,极速发货,售后无忧。

Last updated on