中国AI三箭齐发:阿里千问刷新全球纪录,DeepSeek、Kimi同日重大升级

1 月 26 日至 27 日,国内 AI 企业密集发布重磅模型,在视觉理解、多模态融合、推理性能三大维度实现突破 —— 阿里千问刷新全球推理性能纪录,DeepSeek 重构 AI 看图逻辑,月之暗面 Kimi 完善多模态架构,展现国内 AI 技术的强劲迭代势头。

PART.1 DeepSeek 发布新模型,重构 AI 视觉理解逻辑

1 月 27 日,DeepSeek 团队发布全新DeepSeek-OCR 2 模型,并同步开源模型及《DeepSeek-OCR 2: Visual Causal Flow》论文。该模型核心亮点是采用创新的DeepEncoder V2 方法,颠覆传统 AI 处理图像的模式,让 AI 能像人类一样遵循语义逻辑顺序 “观察” 图像,这一技术创新被定义为 “视觉因果流”。

传统视觉语言模型(VLM)普遍采用光栅扫描(Raster-Scan) 方式处理图像,即固定按照 “从左到右、从上到下” 的刚性顺序,强行将二维图像 “拍扁” 为一维序列。这种模式完全忽略了图像内部的语义关联与结构逻辑,无法贴合真实场景的信息传递规律。

而 DeepEncoder V2 方法的核心革新,在于让 AI 基于图像本身的语义含义,动态重排图像片段的处理顺序,而非固守机械的扫描路径。这一设计精准模仿了人类观察场景时 “追随语义逻辑流” 的视觉习惯,从根源上解决了传统模型 “重形式、轻语义” 的处理缺陷。

这显然与人类的视觉习惯背道而驰。

人类在看图或阅读文档时,目光是随着逻辑流动的:先看标题,再看正文,遇到表格会按列或按行扫视,遇到分栏会自动跳跃。

为了解决这个问题,DeepSeek-OCR2引入了DeepEncoder V2。

它最大的特点是用一个轻量级的大语言模型(Qwen2-0.5B)替换了原本的CLIP编码器,并设计了一种独特的「因果流查询」(Causal Flow Query)机制。

DeepEncoder V2 架构深度解析

DeepEncoder V2 作为 DeepSeek-OCR 2 的核心架构,通过 “视觉处理 + 语言模型赋能” 的双模块设计,搭配创新注意力机制,实现了 AI 视觉理解的逻辑革新。其架构细节与技术价值可拆解如下:

核心架构组成

1. 视觉分词器(Vision Tokenizer)

沿用SAM-base(80M 参数)+ 卷积层的经典组合,核心功能是将输入图像转化为可被模型处理的视觉 Token,为后续语义分析奠定基础,兼顾特征提取的准确性与效率。

2. 基于 LLM 的视觉编码器

突破传统视觉编码器的设计思路,DeepSeek 采用Qwen2-0.5B 小型语言模型作为视觉编码器核心。该模块不仅负责处理视觉分词器输出的 Token,更创新性引入一组可学习的查询 Token(Query Tokens) ,为语义排序提供核心支撑,让编码器具备初步推理能力,而非单纯执行特征提取。

关键创新:注意力掩码(Attention Mask)设计

架构的核心突破在于注意力机制的差异化配置,通过 “双向 + 因果” 的组合模式,实现全局感知与顺序推理的兼顾:

  • 视觉 Token 间采用双向注意力(Bidirectional Attention) :借鉴 ViT 架构优势,让每个视觉 Token 都能捕捉全局图像信息,确保对图像整体语义的完整感知,避免局部信息遗漏。
  • 查询 Token 采用因果注意力(Causal Attention) :每个查询 Token 仅能访问前序 Token(含前序查询 Token 与所有视觉 Token),天然形成有序决策链,为图像语义的逻辑排序提供机制保障。

这种设计实现了两级级联因果推理:首先通过可学习查询 Token 对视觉 Token 进行语义重排,将杂乱的视觉信息按逻辑梳理有序;再将整理后的序列传递给 LLM 解码器,进行自回归推理。这意味着模型在编码阶段就完成了信息 “梳理”,而非将原始视觉数据直接传递给解码器,从根源上提升了推理效率与准确性。

性能表现与优势

根据 DeepSeek 公布的技术报告,DeepSeek-OCR 2 依托该架构,在核心基准测试中展现显著竞争力:在OmniDocBench v1.5文档解析基准测试中,综合得分达 91.09%,较前代模型提升 3.73%,不仅验证了架构的有效性,更实现了 OCR 任务性能的跨越式升级。

架构探索的深远意义

DeepEncoder V2 的价值远超单一 OCR 模型的性能优化,为 AI 多模态架构发展提供了重要方向:

  1. 验证 LLM 作为视觉编码器的潜力:该架构可直接复用 LLM 社区在基础设施优化上的成果(如混合专家 MoE 架构、高效注意力机制),降低多模态模型的研发与优化成本。
  2. 铺垫全模态统一编码器路径:通过配置模态专属可学习查询 Token,未来单一编码器有望在同一参数空间内,实现对图像、音频、文本等多模态数据的统一特征提取与压缩,为全模态模型提供可行技术路线。
  3. 突破 2D 推理瓶颈:采用 “两个级联的 1D 因果推理器” 模式,将二维图像理解拆解为 “阅读逻辑推理” 与 “视觉任务推理” 两个互补子任务,为实现真正意义上的 AI 2D 推理,提供了突破性架构思路。

PART.2 阿里、月之暗面同步发力,多模态与推理性能再突破

与 DeepSeek 同日(1 月 27 日),国内 AI 初创公司月之暗面 Kimi 正式发布新一代开源模型 Kimi K2.5;而在前一日(1 月 26 日)晚间,阿里巴巴也推出千问旗舰推理模型Qwen3-Max-Thinking,两大厂商分别在多模态融合与极致推理性能上实现突破,与 DeepSeek 形成国内 AI 技术迭代的密集爆发态势。

月之暗面 Kimi K2.5:原生多模态开源模型,静默升级优化体验

Kimi K2.5 以静默推送方式完成全量更新,官网聊天界面原 K2 模型已无缝切换至 K2.5 版本,无需用户手动操作、无需下载安装包,仅通过服务端模型替换实现落地,全面覆盖所有 Web 端用户。此次升级核心聚焦三大维度:提升响应速度、强化推理能力、优化多轮对话稳定性,进一步夯实其 “Kimi 当前最智能模型” 的定位。

作为全能型开源模型,Kimi K2.5 的核心优势的是原生多模态架构设计—— 无需额外插件适配,即可同时支持视觉与文本输入,将视觉理解、逻辑推理、代码编程、Agent 自主交互等能力深度集成于单一模型,实现多任务场景的端到端处理。性能层面,该模型在 HLE(人类最后的考试)、BrowseComp、DeepSearchQA 等多项 Agent 核心评测中,均斩获全球开源模型最佳成绩,印证了其综合能力的领先性。

Kimi 创始人、CEO 杨植麟表示,此次升级的关键在于技术底层优化:“我们重构了强化学习基建,针对性优化训练算法,以此确保模型达到极致的效率与性能平衡。”

阿里 Qwen3-Max-Thinking:刷新全球推理纪录,万亿参数赋能复杂任务

阿里千问新模型 Qwen3-Max-Thinking 以 “突破推理性能边界” 为核心,在多项关键基准测试中,大幅超越GPT-5.2、Claude Opus 4.5、Gemini 3 Pro等国际顶尖模型,刷新全球推理性能纪录,覆盖科学知识、数学推理、代码编程三大核心领域。具体来看,其在 GPQA Diamond(科学知识)、IMO-AnswerBench(数学推理)、LiveCodeBench(代码编程)等权威测试中均登顶榜首,展现出极致的综合推理实力。

该模型的性能飞跃源于三重技术突破:一是总参数超万亿,实现规模级扩展;二是经过更大规模强化学习后训练,夯实能力底座;三是创新采用测试时扩展(Test-time Scaling)机制,在提升推理性能的同时,兼顾成本经济性,实现高效与经济的平衡。

此外,Qwen3-Max-Thinking 还大幅强化了原生 Agent 工具调用能力,可像专业人士一样 “边用工具边思考”,同时显著降低模型幻觉率,为解决真实场景中的复杂任务提供可靠支撑。目前,普通用户可通过千问 PC 端、网页端免费试用该模型,千问 APP 也即将完成接入,实现全端覆盖。

这个视觉因果流的概念挺有意思

这个视觉因果流的概念挺有意思

国内AI最近动作真多啊

视觉因果流这思路确实妙

这波更新有点猛啊

国内AI最近确实挺猛的