12-24-日报-AI资讯日报

爱窝啦 AI 日报 2025/12/24

AI 日报

今日摘要

GPT-5.2 在 ARC-AGI-2 上跑出 75%，首次超越人类基线，OpenAI 年底放大招。
国产模型集体发力：文心冲到 LMArena 第一，MiniMax 生成的网页审美终于在线了。
年度报告刷屏、榜单出炉，年底适合回顾一年用了多少 AI，明年继续卷。

⚡ 快速导航

📰 今日 AI 资讯 - 最新动态速览

💡 提示：想第一时间体验文中提到的最新 AI 模型（Claude、GPT、Gemini）？没有账号？来 爱窝啦 Aivora 领个号，一分钟上手，售后无忧。

今日AI资讯

👀 只有一句话

GPT-5.2 在 ARC-AGI-2 上跑出 75%，直接超越人类基线，这事儿有点大。

🔑 3 个关键词

#GPT5.2碾压 #国产模型逆袭 #年度报告刷屏

🔥 重磅 TOP 10

1. GPT-5.2 在 ARC-AGI-2 上超越人类基线，跑分达 75%

还记得 ARC-AGI 吗？那个号称"测试真正智能"的硬核基准。之前最好的成绩也就 60% 出头，人类基线一直是个难以逾越的坎。结果 GPT-5.2 X-High 直接干到 75%，比之前 SOTA 高了 15 个百分点，每道题成本还不到 8 美元。Greg Brockman 亲自转发，这波属于 OpenAI 年底的硬实力展示。

AI资讯图片

2. ChatGPT 年度报告上线，Sam Altman 吐槽自己没进 Top 1%

OpenAI 给用户推送了"Your Year with ChatGPT"年度报告，能看到你今年跟 ChatGPT 聊了多少、生成了多少图。有人发现 1.1 万条消息就能进全球 Top 1%，说明大多数人其实用得没那么深。最搞笑的是 Sam Altman 自己发推说"没进 Top 1%，有点失望"——老板，你是不是太忙了？

AI资讯图片

3. Replit 直接嵌入 ChatGPT，不用切 Tab 就能写代码

以前用 ChatGPT 写代码，得复制粘贴到 IDE 里跑。现在 Replit 直接集成进 ChatGPT，你描述需求，它直接帮你把应用跑起来。不用配环境、不用切窗口，从"想法"到"能跑的东西"的路径又短了一截。对于快速验证想法的人来说，这个组合拳挺香的。

4. 文心 ERNIE-5.0 冲到 LMArena 国产第一，比上版高 23 分

百度这波有点意思。ERNIE-5.0-Preview-1203 在 LMArena 文本榜单上超过了千问，成为国产模型第一。关键是比上一个版本高了 23 分，主要靠创意写作和高难度指令。更重要的是，百度现在不憋大招了，改成频繁发小版本迭代，这个策略转变值得关注。

AI资讯图片

5. MiniMax M2.1 和 GLM-4.7 同天发布，前端美学能力炸裂

让 AI 帮你做网页，以前出来的东西丑得没法看。但 MiniMax M2.1 这次生成的页面，连鼠标样式都给你改了，设计感拉满。GLM-4.7 也不差，CSS Grid 有点小问题但整体能打。国产模型在"审美"这件事上终于开窍了，估计是专门找了设计好的网页数据做 RL。

6. 通义开源 Fun-Audio-Chat 8B，能听懂你的情绪还能帮你干活

这不是普通的语音聊天模型。它能从你的语气、语速里感知情绪——你生气它会安慰你，你焦虑它陪你深呼吸。更狠的是支持 Speech Function Call，你用嘴说"帮我查下明天的日程"，它直接调函数给你办了。端到端架构，延迟低，8B 模型已经开源。

7. Gemini 3 Flash 快到能玩猜画游戏

Google 秀了一波 Gemini 3 Flash 的速度：你还在画，它就已经猜出来了。这种实时响应能力对于需要即时反馈的场景（比如实时翻译、游戏 NPC）来说是刚需。速度优化做到这个程度，说明 Google 在推理效率上下了狠功夫。

8. 知乎年度 AI 产品榜出炉：豆包第一，Cursor 开启 Agent 元年

知乎的榜单挺有参考价值。国内豆包靠语音模式低门槛拿下第一，DeepSeek 吃了年初爆发的红利。海外 Gemini 靠年底发布会冲到前面，Claude 在编程领域难以撼动。最值得关注的是 Cursor——它基本定义了今年 Agent 的交互范式，上下文工程、多模型混合调用这些玩法都是它带起来的。

AI资讯图片

9. 宝玉深度解读：AI 是泡沫还是明天？答案是两个都是

过去三年 AI 公司市值涨了 10 万亿美元，OpenAI 估值增量比大多数国家 GDP 还高。泡沫吗？短期确实有。但历史告诉我们，互联网泡沫破了，光纤还在；生物科技热潮过了，新药还在。泡沫会破，但基础设施不会消失。对普通人来说，别管估值，先把 AI 用起来才是正经事。

AI资讯图片

10. LLM 调用 Web API 还是很拉胯，但有人找到了解法

大家都以为代码模型调 API 应该很稳，但实际测下来，开源模型没一个能解决超过 40% 的任务，URL 幻觉率高达 14-39%。原因是 Web API 跟普通函数调用差别太大——HTTP 方法、长 URL、嵌套参数类型，模型根本记不住。好消息是研究者提出了约束解码方案，把 OpenAPI 规范转成正则约束，正确率直接提升 90%。

AI资讯图片

📌 值得关注

[产品]

Open WebUI 持续更新 - 11.8 万星的本地 AI 界面，支持 Ollama 和 OpenAI API
Claude Code Templates 工具发布 - 配置和监控 Claude Code 的命令行工具

[开源]

exo：用日常设备组建 AI 集群 - 3.7 万星，手机+电脑+手表都能跑模型
LEANN：省 97% 存储的本地 RAG - 快速、准确、100% 私密
vllm-omni：全模态模型推理框架 - vLLM 团队出品

[研究]

RewardScope：RL 奖励黑客检测工具 - 实时监控奖励组件，检测状态循环和边界利用

[其他]

人生 K 线开源项目火了 - 输入八字生成人生运势图，GitHub 上已有多个开源版本

❓ 相关问题

如何体验 ChatGPT 的年度报告功能？

ChatGPT 年度报告（Your Year with ChatGPT）目前正在向美国、英国、加拿大、新西兰和澳大利亚的用户推送，需要开启"保存记忆"和"聊天历史"功能。对于国内用户，可能面临账号注册和访问限制。

解决方案：

爱窝啦 Aivora 提供 ChatGPT Plus 成品账号服务
极速发货，下单即用，无需处理支付和注册问题
提供稳定的独享账号，售后无忧

访问 aivora.cn 可查看完整的 AI 账号服务列表。

AI 账号极速发货: 爱窝啦 Aivora ⬆️

还在为 ChatGPT Plus、Claude Pro、Midjourney 的支付问题烦恼？爱窝啦 Aivora 为您提供一站式 AI 账号解决方案！

✅ 极速发货：下单即发，无需等待，即刻开启 AI 之旅。 ✅ 稳定可靠：精选优质独享账号，拒绝封号焦虑，售后无忧。 ✅ 超全品类：ChatGPT Plus、Claude Pro、Midjourney、Poe、Sunno 等热门 AI 工具账号应有尽有。 ✅ 超高性价比：比官方订阅更优惠的价格，享受同等尊贵服务。

🚀 立即访问 aivora.cn 选购您的 AI 助手，释放无限创造力！

Last updated on 2026/01/23 22:15:18

12-25-日报 12-23-日报