爱窝啦 AI 日报 2026/4/17

今日摘要

OpenAI 把 Codex 升级成能看屏幕、动鼠标的"数字同事",300万开发者的工具今天变了性质。
算力、芯片、图像生成同步爆发,AI 基础设施的钱正在重新找位置。
今天内容密度极高,Codex 更新和 xAI 租 GPU 这两条值得点进去仔细看。

⚡ 快速导航

💡 提示:想第一时间体验文中提到的最新 AI 模型(Claude 4.5、GPT、Gemini 3 Pro)?没有账号?来 爱窝啦 Aivora 领个号,一分钟上手,售后无忧。

今日AI资讯

👀 只有一句话

Codex 不只是写代码了——它现在能看你屏幕、动你鼠标,AI 助手正在变成真正的"数字同事"。

🔑 3 个关键词

#Agent破壁 #算力重组 #图像军备竞赛


🔥 重磅 TOP 10

1. Codex 大更新:从写代码工具变成能操作你电脑的助手

以前你跟 AI 说"帮我操作一下这个软件",它只能干瞪眼——因为没有开放 API 就进不去。现在不一样了。OpenAI 给 Codex 推了重大升级,这个每周被 300 万开发者使用的工具,现在能自己看屏幕、点鼠标、敲键盘,在 Mac 上跑多个 Agent 并行干活,还不占你正在用的窗口。同步新增 90+ 插件,JIRA、GitLab、CircleCI、微软全家桶全接进来了。图像生成也整合进工作流,产品概念图和代码在同一个地方搞定。开发者工具从"助手"升级成"同事",这一步跨度不小。

2. Codex 上线应用内浏览器:点点鼠标就能给 Agent 下指令

调试前端 Bug 最烦的一步,是在编辑器和浏览器之间反复切换、手动截图、复制粘贴元素。这个新功能直接把浏览器搬进了 Codex——你在编辑器里就能浏览任意网页,鼠标圈一下,Codex 自动截图、抓 DOM 元素,把精准上下文塞进对话窗口。以前这个功能只在 v0 上见过,现在 Codex 也有了。前端开发和游戏调试的迭代速度,今天起可以快一截。

3. xAI 变身 GPU 出租商,Cursor 成第一个大客户

坐拥 20 万块 Nvidia GPU,GPU 利用率只有 11%——这就是 xAI 当下的尴尬处境。行业正常水平是 35%-45%,也就是说马斯克的算力帝国大部分时间在空转。解法很直接:租出去。Cursor(估值 500 亿美元)拿下第一单,计划用 xAI 的 GPU 训练编程模型 Composer 2.5。更微妙的是,xAI 今年 3 月刚从 Cursor 挖走两位产品工程负责人,现在又成了它的算力供应商——这段关系,说不清是合作还是博弈。

4. gpt-image-2 实测:给 GitHub 链接直接生成中文宣传图,零错字

扔一个 GitHub 项目链接进去,让它生成卡片式宣传图,中文输出一个错字都没有。这件事放在半年前根本不敢想——AI 图像生成的中文渲染一直是老大难,要么乱码要么别字。gpt-image-2 这次直接把这个槛迈过去了。对比同期谷歌给 Gemini Nano 2 “降智"的操作,用户的感受很直白:Pro 会员买对了。对做内容、做产品的人来说,这个能力今天就能用上。

image

5. Nuvacore 成立:Nuvia 原班人马重新出发,拿下 2.4 亿美元融资

五年前,Gerard 创立的 Nuvia 被高通收购,他从头再来。新公司叫 Nuvacore,做面向 AI 基础设施和 Agentic Computing 的通用 ARM CPU,已经拿下红杉 2.4 亿美元投资。时机选得刁:AWS 多个客户正在包揽所有 Graviton ARM CPU 产能,AI Agent 带来的 CPU 短缺潮已经初现。上次在未被验证的大方向上都能成功,这次赛道更明确、阵容更强、资金更充足——硅谷芯片圈最热的工作机会,可能就要出现了。

6. AI 智能体反复崩溃?问题不是模型笨,是"缰绳"没配好

让 Agent 写市场分析报告,前三步顺滑,第七步突然开始胡编,因为搜索内容超出上下文被默默截掉了;第十步输出残破 JSON,整条链路夭折。这篇博客提出"Harness Engineering"的概念,直指 Agent 开发的真正瓶颈:不是模型不够聪明,是约束机制没到位。四个核心原则:JSON 格式用 Schema 验证器而非靠提示词求模型自觉;关键状态必须外置存储;重要步骤加检查点;工具调用要限速。对正在踩这些坑的开发者,这篇直接存下来备用。

7. Video Use:Browser Use 开源新工具,Claude Code 直接剪视频

以前让 AI 剪视频,要么要上传整个视频文件,要么要自己写复杂的多模态调用。Browser Use 开源的 Video Use 换了个思路:提取字幕 + 标注每个词的时间点,让 LLM 靠文本来决定怎么剪。去口头禅、删停顿、砍空白段,口播类视频直接在 Claude Code 里搞定。局限也很明确,整体依赖字幕文本,不适合纯画面叙事的内容。但对做教程、做访谈剪辑的人来说,这个开源工具今天就能拉下来跑。

8. 谷歌终于推出 Gemini Mac 客户端,但 UI 糙到令人叹气

全用 Swift 写的原生应用,这是好消息。坏消息是,Artifact 网页渲染不了,功能缺一大截,整体 UI 粗糙——用用户的原话:“谷歌正常发挥水平。“这不是苛责,是真的和竞品差距肉眼可见。OpenAI 的 Codex 今天还在推浏览器内嵌功能,谷歌这边刚把 Mac 客户端生出来。产品执行力的差距,在这种对比下格外扎眼。

image

9. 李广密点评海外 AI 大厂:Anthropic 专注领跑,OpenAI 暂时被低估

一个做过深度调研的从业者视角,难得直接。Anthropic:果断放弃 C 端和多模态,All in Coding 和 Agent,创始人亲自带队清数据——这种专注度在大厂里很罕见。OpenAI:曾经一头扎进和谷歌抢流量的泥潭,对 Coding 赛道判断晚了几个月,但人才密度极高,正在快速补课,“大概率能追平甚至交替领先”。谷歌:跑分优先,忽视实际体验,产品执行力是短板。三段点评各有锋芒,今天再看 Codex 大更新,印证感更强。

10. 警惕 X 上的 AI 训练项目诈骗:Google Sites 钓鱼页面极难辨别

手法升级了,这次防不胜防。有人在 X 上联系你,说有 AI 训练项目可以参与;跳到 Telegram 之后,发来一个用 Google Sites 做的钓鱼页面——域名和界面跟谷歌官方几乎一模一样。进去之后提示"认证错误”,让你执行一段指定命令,点下去就完蛋。这个套路真正可怕的地方在于它借用了谷歌的域名信任感,普通用户很难识别。转发给身边对 AI 副业感兴趣的朋友,多一个人看到,少一个人踩坑。


📌 值得关注(5条)

[产品] 阿里开源 Qwen3.6-35B-A3B — 小版本升级但阿里还在坚持开源,模型已上 HuggingFace,关注国产开源路线的可以拉来对比。

[产品] Impeccable 2.0:无需 LLM 就能扫描 25 种 AI 设计烂味 — CLI 工具 + Chrome 扩展,专门对抗"AI 味设计”,想让产品界面摆脱千篇一律感的设计师值得一试。

[产品] Logo 生成 Skill:扔产品介绍自动输出展示网页 — 代码生成动态 Logo 展示页,能直出 PPT 封面素材,做品牌内容的可以直接拿来用。

[商业] GPT-Image-V2 大战 Claude Opus 4.7? — 社区已经自发开始横评,图像生成和语言理解谁更能打,接下来几天会有大量对比帖出来。

[研究] 经济学人封面:五个"神"级技术人掌控 AI 未来 — 封面设计有点辣眼睛但问题本身很严肃:这几个人是否应该被赋予如此大的权力?值得花10分钟看完原文。


😄 AI趣闻

Claude 开始说"黑话"了,用户懵了

有用户发现,最新版 Opus 4.7 里的 Claude 不说人话了——“一句话锁死版本”、“最硬的那一刀”,这类措辞开始频繁出现。用户本来期待一个稳重、清晰的模型,结果感觉像跑进了某个程序员互怼群。到底是哪批训练语料带歪了它?大概只有 Anthropic 内部知道答案。不过换个角度看,一个 AI 模型开始有"语言风格漂移”,这事本身反而有点微妙——你养的 AI,最后养出了自己的腔调。


🔮 AI趋势预测

Codex 与 Cursor 的"IDE 霸权"之争将全面白热化

  • 预测时间:2026年5月-6月
  • 预测概率:78%
  • 预测依据:今日新闻 Codex 大更新 显示 OpenAI 正在把 Codex 从插件升级为完整开发环境;而 xAI-Cursor GPU 合作 表明 Cursor 正在自训模型、补强技术底座。两家都在往"全栈 AI 开发平台"的方向走,接下来两个月大概率会看到双方的密集功能对轰。

ARM CPU 服务器赛道迎来新一轮融资潮

  • 预测时间:2026年5月-7月
  • 预测概率:65%
  • 预测依据:今日新闻 Nuvacore 成立并拿下 2.4 亿融资 是一个强信号——原 Nuvia 团队重出江湖、红杉入局,加上 AWS 客户正在抢占 Graviton 产能,AI Agent 对 CPU 的需求缺口已被市场感知。接下来几个月预计会有更多资本涌入 ARM 服务器芯片赛道。

gpt-image 系列将在中文内容市场引爆一轮创作工具替换潮

  • 预测时间:2026年5月
  • 预测概率:70%
  • 预测依据:今日素材 gpt-image-2 中文生成零错字实测 打破了"AI 图像生成不适合中文场景"的固有认知。一旦这个能力被更多国内用户验证,做内容营销、宣传物料的团队会快速迁移工作流,传统设计工具的付费续费压力会在这一波中明显增大。

Agent Harness Engineering 成为开发者社区新显学

  • 预测时间:2026年5月-6月
  • 预测概率:60%
  • 预测依据:今日新闻 “Harness Engineering"博客 提出了一个新概念,时机恰好:Codex 的大更新让 Agent 多步执行场景进入主流开发者视野,而 Agent 可靠性问题是当前最普遍的痛点。类似 Prompt Engineering 在 2023 年的爆发路径,这个方向接下来很可能产出大量教程、框架和工具。

❓ 相关问题

如何体验 OpenAI gpt-image-2 图像生成功能?

gpt-image-2 目前通过 OpenAI API 和 ChatGPT Pro 订阅提供访问。国内用户通常面临两个门槛:绑定境外信用卡支付,以及账号注册的地区限制。

解决方案:访问 爱窝啦 Aivora 获取成品账号,无需自行解决支付和注册问题,极速发货,售后无忧。

Last updated on