05-13-日报-AI资讯日报

今日摘要

OpenAI 推出 GPT-Realtime-2，首次把 GPT-5 级推理塞进语音，同天 Mira Murati 的新公司正面硬刚，延迟更低还压过对手。
语音 AI 的战场从"听得懂"升级到"想得清"，阿里同步把淘宝搜索底层交给千问，两个超级入口同日易主。
今天值得点开，语音和电商这两条线都在变天。

⚡ 快速导航

📰 今日 AI 资讯 - 最新动态速览

💡 提示：想第一时间体验文中提到的最新 AI 模型（Claude 4.5、GPT、Gemini 3 Pro）？没有账号？来 爱窝啦 Aivora 领个号，一分钟上手，售后无忧。

今日AI资讯

👀 只有一句话

OpenAI 把 GPT-5 级推理塞进了语音，人机对话的最后一道墙正在倒。

🔑 3 个关键词

#语音战争打响 #AI重写入口 #实时交互竞速

🔥 重磅 TOP 10

1. 绝杀，OpenAI正式接管人类耳朵，首个GPT-5级推理音频模型来了

以前跟语音助手说话，最大的痛点不是听不懂，而是它根本不会"想"。OpenAI 这次推出 GPT-Realtime-2，第一次把 GPT-5 级别的推理能力注入语音交互，同时带来实时翻译和流式转写两个配套工具。这不是音频模型的小升级，是语音 AI 从"能说话"跨到"会思考着说话"的分水岭。做客服、会议助手、口语陪练的人，今天就该认真看一眼。

2. Mira创办的公司发布了实时交互模型

同一天，另一颗炸弹落地。Thinking Machines 亮出全双工实时交互模型：200 毫秒延迟、同时处理文本音频视频，276B MoE 版本在 FD-bench v1.5 上直接压过 GPT-Realtime-2.0。更聪明的设计是前台顺滑对话、后台异步啃复杂任务，两条线并行互不干扰。Mira Murati 离开 OpenAI 后第一个大动作，就是正面硬刚前东家。

3. 千问重构淘宝，阿里"推翻"阿里

逛淘宝二十年，用户习惯的动作是"自己搜"。阿里现在要把这个动作改成"让 AI 替你搜"——千问与淘宝、天猫完成深度整合，不是加个聊天框，而是把流量分发的底层逻辑整个重写。真正吓人的不是技术，是一家公司亲手拆掉自己最赚钱的核心机制，押注 AI 导购成为新入口。马云说"今天不做，明天就被人做掉"，这句话现在看起来不像口号。

4. 下一代 Android Auto 带来更有帮助的 Gemini

开车时喊语音助手，以前像在跟一台反应迟钝的机器吵架。Google 这次把 Gemini 往 Android Auto 里塞得更深，不只是换界面，而是让车载 AI 真正能理解上下文、处理连续对话。车载屏幕是每天必经的高频场景，谁先在方向盘旁边站稳脚跟，谁就离用户的日常生活更近一步。

5. Codex App 可以当 Typeless 用，任意输入位置语音输入

有些产品的厉害之处，不是发布会讲得多响，而是你突然发现它悄悄接管了你的输入法。Codex App 开好全局快捷键和系统权限后，几乎任何输入框都能直接语音转文字——这段介绍本身就是作者用它口述出来的。对写消息、记灵感、赶文档的人，这种"张嘴就写完"的轻改造，比花哨的 Agent 工作流更容易今天就用上。

6. 吴恩达：所谓"AI 会引发大规模失业"，是不负责任的恐慌故事

软件工程师被 AI 工具折腾得够呛，但美国失业率还稳在 4.3%，招聘市场没半点要崩的迹象。吴恩达直接点破三股推力：AI 公司爱把技术吹神、企业爱拿 AI 当裁员遮羞布、媒体天然偏爱恐慌标题。这个观点的价值不在于安慰，而在于提醒咱们：与其盯着"哪些岗位消失"，不如更早看清"哪些新分工正在冒出来"。

7. AutoGPT

Agent 这个词被说烂了，但 AutoGPT 今天还有 18 万+ Star 在涨，说明一件事：大家对"把任务丢给 AI 自己跑完"的期待，根本没有降温。它的意义不只是星数多，而是把 Agent 从演示视频拉回到开发者能摸、能改、能接真实业务的开源地面战。想自己搭 Agent 流程的人，这里是最省事的起点之一。

8. Skill写成好了，做了第一个测试

很多人做 AI 工具，上来先挑库、挑框架，最后发现根本不是代码的问题。这个实验很真实：作者把 HeavySkill 论文里"多模型并行思考、再集中裁决"的思路做进 Skill，Claude Code 负责推理、Codex 当主持人，跑完第一个测试后得出的结论反而很朴素——需求没讲清，选啥库都白搭。做产品的人看完大概会心一笑。

Tweet Image

9. Batchlyai.com新玩法：让图中人物 cos 海贼王角色

别小看"把照片一键玩坏"这种功能，它往往最能把普通用户拉进 AI 场子。Batchlyai 这次的玩法极简：丢一张人物图，加一句角色扮演提示词，立刻把人变成海贼王宇宙成员。技术门槛几乎被抹平，用户只需要会想梗。AI 图像产品接下来的竞争，越来越不是拼模型本身，而是谁更会做这种顺手就上头的体验。

10. PolarVSR: A Unified Framework and Benchmark for Continuous Space-Time Polarization Video Reconstruction

大多数人拍视频只在意清不清楚，研究者现在盯上的是"光怎么偏振"。PolarVSR 把偏振视频重建这块零散问题统一成一套框架和基准，让模型不只看颜色和运动，还能更好理解材质与表面细节。离普通用户有点远，但对机器人视觉、工业检测这类高精度场景，很可能是底层能力的关键补课。

📌 值得关注

[研究] A Recursive Decomposition Framework for Causal Structure Learning in the Presence of Latent Variables — 专门解决"有隐藏变量时怎么学因果结构"，不性感但很关键，未来 AI 分析工具靠不靠谱，底层可能就靠这类研究撑着。

😄 AI趣闻

codex读完我即刻795条内容，给出了一句人设总结

有人把自己写的 795 条内容全部丢给 Codex，让 AI 来回答"我到底是个什么样的人"。结果 AI 真的给出了一句像模像样的人设描述，还挺准。以前写年终总结是折磨自己，现在可能先交给 AI 看看——它比你还会夸你，而且不会尬。

🔮 AI趋势预测

实时语音模型迎来集体加速

预测时间：2026年6月—7月
预测概率：80%
预测依据：今日新闻 GPT-Realtime-2 发布 + Thinking Machines 实时交互模型亮相。两家同天发力，竞争点已从"能说话"切到"低延迟全双工"，大厂接下来大概率密集补齐这块能力。

AI 购物入口从"试验功能"变成平台默认

预测时间：2026年6月—8月
预测概率：72%
预测依据：今日新闻千问重构淘宝。阿里这次改的是主干而非插件，释放的信号是：AI 导购、AI 代搜会从可选功能变成电商平台的标配入口，其他平台跟进只是时间问题。

车载 AI 从"能唤醒"升级到"能办事"

预测时间：2026年7月
预测概率：68%
预测依据：今日新闻 Android Auto 整合 Gemini + 实时语音模型成熟度快速提升。车内是最需要少低头、少动手的场景，一旦连续对话和上下文理解到位，导航、消息、行程协同会迅速整合成一套。

开源 Agent 框架重新升温

预测时间：2026年6月—8月
预测概率：65%
预测依据：今日新闻 AutoGPT + HeavySkill 多模型协作实验。老牌项目持续吸引开发者，个人开发者开始把"多模型协作"做细，说明 Agent 热潮没死，只是从口号阶段回到实操阶段。

❓ 相关问题

如何体验 GPT-Realtime-2？

GPT-Realtime-2 目前通过 OpenAI 的 API 和相关产品提供访问，国内用户通常会遇到账号注册、信用卡支付和接口权限这三道门槛。最省事的路径是直接用成品账号，跳过注册和支付环节，今天就能上手试语音推理和实时翻译功能。

解决方案：访问 爱窝啦 Aivora 获取成品账号，极速发货，售后无忧。

Last updated on 2026/05/13 12:06:42

05-14-日报 05-12-日报