12-24-日报-AI资讯日报
爱窝啦 AI 日报 2025/12/24
AI 日报
今日摘要
GPT-5.2 在 ARC-AGI-2 上跑出 75%,首次超越人类基线,OpenAI 年底放大招。
国产模型集体发力:文心冲到 LMArena 第一,MiniMax 生成的网页审美终于在线了。
年度报告刷屏、榜单出炉,年底适合回顾一年用了多少 AI,明年继续卷。⚡ 快速导航
- 📰 今日 AI 资讯 - 最新动态速览
💡 提示:想第一时间体验文中提到的最新 AI 模型(Claude、GPT、Gemini)?没有账号?来 爱窝啦 Aivora 领个号,一分钟上手,售后无忧。
今日AI资讯
👀 只有一句话
GPT-5.2 在 ARC-AGI-2 上跑出 75%,直接超越人类基线,这事儿有点大。
🔑 3 个关键词
#GPT5.2碾压 #国产模型逆袭 #年度报告刷屏
🔥 重磅 TOP 10
1. GPT-5.2 在 ARC-AGI-2 上超越人类基线,跑分达 75%
还记得 ARC-AGI 吗?那个号称"测试真正智能"的硬核基准。之前最好的成绩也就 60% 出头,人类基线一直是个难以逾越的坎。结果 GPT-5.2 X-High 直接干到 75%,比之前 SOTA 高了 15 个百分点,每道题成本还不到 8 美元。Greg Brockman 亲自转发,这波属于 OpenAI 年底的硬实力展示。
2. ChatGPT 年度报告上线,Sam Altman 吐槽自己没进 Top 1%
OpenAI 给用户推送了"Your Year with ChatGPT"年度报告,能看到你今年跟 ChatGPT 聊了多少、生成了多少图。有人发现 1.1 万条消息就能进全球 Top 1%,说明大多数人其实用得没那么深。最搞笑的是 Sam Altman 自己发推说"没进 Top 1%,有点失望"——老板,你是不是太忙了?
3. Replit 直接嵌入 ChatGPT,不用切 Tab 就能写代码
以前用 ChatGPT 写代码,得复制粘贴到 IDE 里跑。现在 Replit 直接集成进 ChatGPT,你描述需求,它直接帮你把应用跑起来。不用配环境、不用切窗口,从"想法"到"能跑的东西"的路径又短了一截。对于快速验证想法的人来说,这个组合拳挺香的。
4. 文心 ERNIE-5.0 冲到 LMArena 国产第一,比上版高 23 分
百度这波有点意思。ERNIE-5.0-Preview-1203 在 LMArena 文本榜单上超过了千问,成为国产模型第一。关键是比上一个版本高了 23 分,主要靠创意写作和高难度指令。更重要的是,百度现在不憋大招了,改成频繁发小版本迭代,这个策略转变值得关注。
5. MiniMax M2.1 和 GLM-4.7 同天发布,前端美学能力炸裂
让 AI 帮你做网页,以前出来的东西丑得没法看。但 MiniMax M2.1 这次生成的页面,连鼠标样式都给你改了,设计感拉满。GLM-4.7 也不差,CSS Grid 有点小问题但整体能打。国产模型在"审美"这件事上终于开窍了,估计是专门找了设计好的网页数据做 RL。
6. 通义开源 Fun-Audio-Chat 8B,能听懂你的情绪还能帮你干活
这不是普通的语音聊天模型。它能从你的语气、语速里感知情绪——你生气它会安慰你,你焦虑它陪你深呼吸。更狠的是支持 Speech Function Call,你用嘴说"帮我查下明天的日程",它直接调函数给你办了。端到端架构,延迟低,8B 模型已经开源。
7. Gemini 3 Flash 快到能玩猜画游戏
Google 秀了一波 Gemini 3 Flash 的速度:你还在画,它就已经猜出来了。这种实时响应能力对于需要即时反馈的场景(比如实时翻译、游戏 NPC)来说是刚需。速度优化做到这个程度,说明 Google 在推理效率上下了狠功夫。
8. 知乎年度 AI 产品榜出炉:豆包第一,Cursor 开启 Agent 元年
知乎的榜单挺有参考价值。国内豆包靠语音模式低门槛拿下第一,DeepSeek 吃了年初爆发的红利。海外 Gemini 靠年底发布会冲到前面,Claude 在编程领域难以撼动。最值得关注的是 Cursor——它基本定义了今年 Agent 的交互范式,上下文工程、多模型混合调用这些玩法都是它带起来的。
9. 宝玉深度解读:AI 是泡沫还是明天?答案是两个都是
过去三年 AI 公司市值涨了 10 万亿美元,OpenAI 估值增量比大多数国家 GDP 还高。泡沫吗?短期确实有。但历史告诉我们,互联网泡沫破了,光纤还在;生物科技热潮过了,新药还在。泡沫会破,但基础设施不会消失。对普通人来说,别管估值,先把 AI 用起来才是正经事。
10. LLM 调用 Web API 还是很拉胯,但有人找到了解法
大家都以为代码模型调 API 应该很稳,但实际测下来,开源模型没一个能解决超过 40% 的任务,URL 幻觉率高达 14-39%。原因是 Web API 跟普通函数调用差别太大——HTTP 方法、长 URL、嵌套参数类型,模型根本记不住。好消息是研究者提出了约束解码方案,把 OpenAPI 规范转成正则约束,正确率直接提升 90%。
📌 值得关注
[产品]
- Open WebUI 持续更新 - 11.8 万星的本地 AI 界面,支持 Ollama 和 OpenAI API
- Claude Code Templates 工具发布 - 配置和监控 Claude Code 的命令行工具
[开源]
- exo:用日常设备组建 AI 集群 - 3.7 万星,手机+电脑+手表都能跑模型
- LEANN:省 97% 存储的本地 RAG - 快速、准确、100% 私密
- vllm-omni:全模态模型推理框架 - vLLM 团队出品
[研究]
- RewardScope:RL 奖励黑客检测工具 - 实时监控奖励组件,检测状态循环和边界利用
[其他]
- 人生 K 线开源项目火了 - 输入八字生成人生运势图,GitHub 上已有多个开源版本
❓ 相关问题
如何体验 ChatGPT 的年度报告功能?
ChatGPT 年度报告(Your Year with ChatGPT)目前正在向美国、英国、加拿大、新西兰和澳大利亚的用户推送,需要开启"保存记忆"和"聊天历史"功能。对于国内用户,可能面临账号注册和访问限制。
解决方案:
- 爱窝啦 Aivora 提供 ChatGPT Plus 成品账号服务
- 极速发货,下单即用,无需处理支付和注册问题
- 提供稳定的独享账号,售后无忧
访问 aivora.cn 可查看完整的 AI 账号服务列表。
AI 账号极速发货: 爱窝啦 Aivora ⬆️
还在为 ChatGPT Plus、Claude Pro、Midjourney 的支付问题烦恼?爱窝啦 Aivora 为您提供一站式 AI 账号解决方案!
✅ 极速发货:下单即发,无需等待,即刻开启 AI 之旅。 ✅ 稳定可靠:精选优质独享账号,拒绝封号焦虑,售后无忧。 ✅ 超全品类:ChatGPT Plus、Claude Pro、Midjourney、Poe、Sunno 等热门 AI 工具账号应有尽有。 ✅ 超高性价比:比官方订阅更优惠的价格,享受同等尊贵服务。
🚀 立即访问 aivora.cn 选购您的 AI 助手,释放无限创造力!