01-22-日报-AI资讯日报

今日摘要

DeepSeek 代码库惊现 V4 旗舰模型代号,国产大模型暗流涌动;Gemini 3 Flash 登顶专业 Agent 测试榜首,开源模型胜率不足 5% 被吊打。

微软推出 Agent Lightning 训练神器,X 和 Grok 相继开源核心算法,AI 工具圈今天炸了一波。

xAI 工程师因播客泄密被开除,马斯克亲自下场清理门户——职场第一课:嘴严比技术更重要。

⚡ 快速导航

💡 提示:想第一时间体验文中提到的最新 AI 模型(Claude 4.5、GPT、Gemini 3 Pro)?没有账号?来 爱窝啦 Aivora 领个号,一分钟上手,售后无忧。

今日AI资讯

👀 只有一句话

DeepSeek 代码库疑似曝光 V4 旗舰模型,国产大模型又要放大招了?

🔑 3 个关键词

#模型迭代 #开源工具 #AI编程


🔥 重磅 TOP 10

1. Gemini 3 Flash 登顶 APEX-Agents 基准测试

Mercor 发布的 APEX-Agents 基准测试专门评估 AI Agent 在投资银行、管理咨询、法律服务等专业领域的长周期任务执行能力。Gemini 3 Flash(高思考模式)以 24.0% 的胜率拿下榜首,GPT-5.2(高思考)以 23.0% 紧随其后。这个测试由 256 名平均从业 12.9 年的资深专业人士共同构建,包含 480 个复杂任务和 33 个模拟真实办公环境。测试结果显示,开源模型如 GPT-OSS-120B 和 Kimi K2 Thinking 的胜率均低于 5%,闭源模型在专业领域的优势依然明显。这个基准测试的数据集和代码已在 GitHub 开源,为 AI Agent 的评估提供了新的标准。

APEX-Agents 基准测试排行榜


2. DeepSeek 更新代码库,疑似曝光 V4 旗舰模型代号

DeepSeek 近日更新了代码库,有开发者在代码中发现了疑似 V4 旗舰模型的代号。虽然官方尚未正式宣布,但这一发现引发了社区的广泛关注。DeepSeek 作为国产大模型的代表之一,V4 的推出可能意味着在性能和功能上的重大突破。目前,DeepSeek 的 V3 版本已经在多个基准测试中表现出色,V4 的到来无疑会进一步提升其竞争力。不过,具体的发布时间和功能细节还需等待官方的正式公告。


3. OpenAI 联手盖茨基金会,注资五千万美元改善非洲医疗

OpenAI 与盖茨基金会宣布合作,共同投资 5000 万美元用于改善非洲的医疗服务。这笔资金将用于开发和部署 AI 驱动的医疗工具,帮助非洲地区的医疗机构提升诊断和治疗能力。盖茨基金会一直致力于全球健康事业,而 OpenAI 的 AI 技术则为这一目标提供了强大的技术支持。这次合作不仅是 AI 技术在医疗领域的又一次重要应用,也展示了科技公司在社会责任方面的积极作为。未来,AI 在医疗领域的应用将更加广泛,尤其是在资源匮乏的地区。


4. React 生成式 UI 工具 Tambo 发布,简化动态前端界面构建

Tambo 是一款全新的 React 生成式 UI SDK,旨在简化动态前端界面的构建流程。开发者只需提供简单的描述或配置,Tambo 就能自动生成符合需求的 UI 组件。这款工具特别适合快速原型开发和需要频繁调整界面的项目。Tambo 的核心优势在于其高度的灵活性和易用性,开发者无需深入了解复杂的前端框架,就能快速搭建出功能完善的界面。目前,Tambo 已在 GitHub 上开源,获得了 3497 颗星,社区反响热烈。


5. Claude Code 复合工程插件正式发布

EveryInc 推出了官方的 Claude Code 复合工程插件,为开发者提供了更强大的代码生成和优化能力。这款插件支持多种编程语言和框架,能够根据开发者的需求自动生成高质量的代码片段。插件的核心功能包括代码补全、错误检测和性能优化,极大地提升了开发效率。目前,这款插件已在 GitHub 上开源,获得了 5843 颗星,成为开发者社区的热门工具。


6. 中国团队发布医疗 AI 标准,国产 MedGPT 安全性表现优异

中国团队近日发布了医疗 AI 的标准化评估体系,国产 MedGPT 在安全性测试中表现优异。这一标准涵盖了医疗 AI 在诊断、治疗建议和患者管理等方面的评估指标,旨在确保 AI 技术在医疗领域的安全和有效应用。MedGPT 作为国产医疗 AI 的代表,在安全性和准确性方面都达到了国际先进水平。这一成果不仅提升了国产 AI 在医疗领域的竞争力,也为全球医疗 AI 的发展提供了新的参考标准。


7. 纳德拉提出 AI 算力即商品,强调能源成本决定国家未来增长

微软 CEO 纳德拉在达沃斯世界经济论坛上提出了一个新观点:AI 算力将成为未来的商品,而能源成本将决定一个国家的增长潜力。他指出,随着 AI 技术的普及,算力需求将呈指数级增长,而能源成本将成为制约算力发展的关键因素。纳德拉呼吁各国政府和企业加大对清洁能源的投资,以确保 AI 技术的可持续发展。这一观点引发了广泛讨论,也为未来的能源政策和 AI 发展指明了方向。


8. X 推荐算法源代码开源

X(原 Twitter)正式开源了其推荐算法的源代码,这是社交媒体平台首次公开其核心算法。开源的代码包括内容推荐、用户匹配和广告投放等核心功能,开发者可以深入了解 X 如何为用户推荐内容。这一举措不仅提升了平台的透明度,也为开发者提供了学习和改进推荐算法的机会。目前,这个项目已在 GitHub 上获得了 71503 颗星,成为开源社区的热门项目。


9. Grok 开源发布

xAI 正式开源了 Grok 大模型,这是马斯克旗下 AI 公司的首个开源项目。Grok 是一款专注于实时信息处理和对话生成的大模型,其核心优势在于能够快速响应用户的查询并提供准确的答案。开源后的 Grok 已在 GitHub 上获得了 51045 颗星,社区反响热烈。这一举措不仅推动了开源 AI 的发展,也为开发者提供了更多选择。


10. 微软发布 Agent Lightning,点亮 AI 智能体的绝对训练师

微软推出了 Agent Lightning,一款专为 AI 智能体设计的训练工具。这款工具能够快速训练和优化 AI Agent,使其在复杂任务中表现更加出色。Agent Lightning 的核心功能包括自动化训练、性能评估和模型优化,极大地降低了开发者的工作量。目前,这款工具已在 GitHub 上开源,获得了 11286 颗星,成为 AI Agent 开发的热门工具。


📌 值得关注

[产品]

[研究]

[开源]


😄 AI趣闻

xAI 工程师因泄密被解雇

xAI 的一名工程师因在播客访谈中不慎泄露大量机密信息而被解雇。泄密内容包括人类模拟器、特斯拉闲时算力租赁计划、数据中心环境审批等敏感项目。据传,这期播客节目引起了马斯克的不快,最终导致这名工程师丢了饭碗。网友评论:“这大概是史上最贵的播客访谈了吧!” 😂 虽然泄密事件很严重,但也提醒了所有科技从业者:守口如瓶才是职场生存之道。


🔮 AI趋势预测

GPT-5 正式发布

  • 预测时间:2026年Q2
  • 预测概率:65%
  • 预测依据:根据 OpenAI 的历史发布节奏,通常在春季发布重大更新。加上近期 GPT-5.2 在 APEX-Agents 基准测试中的优异表现,GPT-5 的正式发布可能已进入倒计时。

Agent 应用开始爆发

  • 预测时间:2026年Q1
  • 预测概率:80%
  • 预测依据:本周多个 Agent 工具发布(如微软的 Agent Lightning),加上 APEX-Agents 基准测试的推出,表明 Agent 技术已达到临界点。预计 Q1 将有大量 Agent 应用涌现。

开源大模型性能大幅提升

  • 预测时间:2026年Q2
  • 预测概率:70%
  • 预测依据:Grok 的开源发布为开源社区注入了新的活力。加上 DeepSeek V4 的即将推出,开源大模型在性能上有望实现重大突破。

❓ 相关问题

如何体验 Gemini 3 Flash?

Gemini 3 Flash 目前需要 Google 账号才能使用,对于国内用户可能面临注册限制。

解决方案:访问 爱窝啦 Aivora 获取成品账号,极速发货,售后无忧。

Last updated on