05-13-日报-AI资讯日报

今日摘要

OpenAI 推出 GPT-Realtime-2,首次把 GPT-5 级推理塞进语音,同天 Mira Murati 的新公司正面硬刚,延迟更低还压过对手。
语音 AI 的战场从"听得懂"升级到"想得清",阿里同步把淘宝搜索底层交给千问,两个超级入口同日易主。
今天值得点开,语音和电商这两条线都在变天。

⚡ 快速导航

💡 提示:想第一时间体验文中提到的最新 AI 模型(Claude 4.5、GPT、Gemini 3 Pro)?没有账号?来 爱窝啦 Aivora 领个号,一分钟上手,售后无忧。

今日AI资讯

👀 只有一句话

OpenAI 把 GPT-5 级推理塞进了语音,人机对话的最后一道墙正在倒。

🔑 3 个关键词

#语音战争打响 #AI重写入口 #实时交互竞速

🔥 重磅 TOP 10

1. 绝杀,OpenAI正式接管人类耳朵,首个GPT-5级推理音频模型来了

以前跟语音助手说话,最大的痛点不是听不懂,而是它根本不会"想"。OpenAI 这次推出 GPT-Realtime-2,第一次把 GPT-5 级别的推理能力注入语音交互,同时带来实时翻译和流式转写两个配套工具。这不是音频模型的小升级,是语音 AI 从"能说话"跨到"会思考着说话"的分水岭。做客服、会议助手、口语陪练的人,今天就该认真看一眼。

image

2. Mira创办的公司发布了实时交互模型

同一天,另一颗炸弹落地。Thinking Machines 亮出全双工实时交互模型:200 毫秒延迟、同时处理文本音频视频,276B MoE 版本在 FD-bench v1.5 上直接压过 GPT-Realtime-2.0。更聪明的设计是前台顺滑对话、后台异步啃复杂任务,两条线并行互不干扰。Mira Murati 离开 OpenAI 后第一个大动作,就是正面硬刚前东家。

3. 千问重构淘宝,阿里"推翻"阿里

逛淘宝二十年,用户习惯的动作是"自己搜"。阿里现在要把这个动作改成"让 AI 替你搜"——千问与淘宝、天猫完成深度整合,不是加个聊天框,而是把流量分发的底层逻辑整个重写。真正吓人的不是技术,是一家公司亲手拆掉自己最赚钱的核心机制,押注 AI 导购成为新入口。马云说"今天不做,明天就被人做掉",这句话现在看起来不像口号。

image

4. 下一代 Android Auto 带来更有帮助的 Gemini

开车时喊语音助手,以前像在跟一台反应迟钝的机器吵架。Google 这次把 Gemini 往 Android Auto 里塞得更深,不只是换界面,而是让车载 AI 真正能理解上下文、处理连续对话。车载屏幕是每天必经的高频场景,谁先在方向盘旁边站稳脚跟,谁就离用户的日常生活更近一步。

image

5. Codex App 可以当 Typeless 用,任意输入位置语音输入

有些产品的厉害之处,不是发布会讲得多响,而是你突然发现它悄悄接管了你的输入法。Codex App 开好全局快捷键和系统权限后,几乎任何输入框都能直接语音转文字——这段介绍本身就是作者用它口述出来的。对写消息、记灵感、赶文档的人,这种"张嘴就写完"的轻改造,比花哨的 Agent 工作流更容易今天就用上。

image

6. 吴恩达:所谓"AI 会引发大规模失业",是不负责任的恐慌故事

软件工程师被 AI 工具折腾得够呛,但美国失业率还稳在 4.3%,招聘市场没半点要崩的迹象。吴恩达直接点破三股推力:AI 公司爱把技术吹神、企业爱拿 AI 当裁员遮羞布、媒体天然偏爱恐慌标题。这个观点的价值不在于安慰,而在于提醒咱们:与其盯着"哪些岗位消失",不如更早看清"哪些新分工正在冒出来"。

image

7. AutoGPT

Agent 这个词被说烂了,但 AutoGPT 今天还有 18 万+ Star 在涨,说明一件事:大家对"把任务丢给 AI 自己跑完"的期待,根本没有降温。它的意义不只是星数多,而是把 Agent 从演示视频拉回到开发者能摸、能改、能接真实业务的开源地面战。想自己搭 Agent 流程的人,这里是最省事的起点之一。

8. Skill写成好了,做了第一个测试

很多人做 AI 工具,上来先挑库、挑框架,最后发现根本不是代码的问题。这个实验很真实:作者把 HeavySkill 论文里"多模型并行思考、再集中裁决"的思路做进 Skill,Claude Code 负责推理、Codex 当主持人,跑完第一个测试后得出的结论反而很朴素——需求没讲清,选啥库都白搭。做产品的人看完大概会心一笑。

Tweet Image

9. Batchlyai.com新玩法:让图中人物 cos 海贼王角色

别小看"把照片一键玩坏"这种功能,它往往最能把普通用户拉进 AI 场子。Batchlyai 这次的玩法极简:丢一张人物图,加一句角色扮演提示词,立刻把人变成海贼王宇宙成员。技术门槛几乎被抹平,用户只需要会想梗。AI 图像产品接下来的竞争,越来越不是拼模型本身,而是谁更会做这种顺手就上头的体验。

10. PolarVSR: A Unified Framework and Benchmark for Continuous Space-Time Polarization Video Reconstruction

大多数人拍视频只在意清不清楚,研究者现在盯上的是"光怎么偏振"。PolarVSR 把偏振视频重建这块零散问题统一成一套框架和基准,让模型不只看颜色和运动,还能更好理解材质与表面细节。离普通用户有点远,但对机器人视觉、工业检测这类高精度场景,很可能是底层能力的关键补课。


📌 值得关注

😄 AI趣闻

codex读完我即刻795条内容,给出了一句人设总结

有人把自己写的 795 条内容全部丢给 Codex,让 AI 来回答"我到底是个什么样的人"。结果 AI 真的给出了一句像模像样的人设描述,还挺准。以前写年终总结是折磨自己,现在可能先交给 AI 看看——它比你还会夸你,而且不会尬。

image


🔮 AI趋势预测

实时语音模型迎来集体加速

AI 购物入口从"试验功能"变成平台默认

  • 预测时间:2026年6月—8月
  • 预测概率:72%
  • 预测依据:今日新闻 千问重构淘宝 。阿里这次改的是主干而非插件,释放的信号是:AI 导购、AI 代搜会从可选功能变成电商平台的标配入口,其他平台跟进只是时间问题。

车载 AI 从"能唤醒"升级到"能办事"

  • 预测时间:2026年7月
  • 预测概率:68%
  • 预测依据:今日新闻 Android Auto 整合 Gemini + 实时语音模型成熟度快速提升。车内是最需要少低头、少动手的场景,一旦连续对话和上下文理解到位,导航、消息、行程协同会迅速整合成一套。

开源 Agent 框架重新升温

  • 预测时间:2026年6月—8月
  • 预测概率:65%
  • 预测依据:今日新闻 AutoGPT + HeavySkill 多模型协作实验 。老牌项目持续吸引开发者,个人开发者开始把"多模型协作"做细,说明 Agent 热潮没死,只是从口号阶段回到实操阶段。

❓ 相关问题

如何体验 GPT-Realtime-2?

GPT-Realtime-2 目前通过 OpenAI 的 API 和相关产品提供访问,国内用户通常会遇到账号注册、信用卡支付和接口权限这三道门槛。最省事的路径是直接用成品账号,跳过注册和支付环节,今天就能上手试语音推理和实时翻译功能。

解决方案:访问 爱窝啦 Aivora 获取成品账号,极速发货,售后无忧。

Last updated on