幻觉率不到3%,王小川把医生版的DeepSeek免费了

在医疗健康这一容错率极低的领域,大模型终于从“凭空想象”转向严谨可靠、能引会搜——百川智能本周四正式发布新一代大模型Baichuan-M3 Plus,专为医疗应用开发者设计,在真实场景下将医学问题推理能力推向全新高度。

新模型发布同时,接入M3 Plus的百小应 App与网页版已同步上线。

百川智能创始人、CEO王小川表示:在垂直领域,M3 Plus已经可以认为是医生版的ChatGPT或DeepSeek,作为性能最强、推理效率最高的模型,可大规模用于AI辅助医疗落地。

全球最低幻觉率:从“看着像”到“真的准”

长期以来,医生与患者对AI的态度矛盾:既期待AI分担繁重工作,又恐惧它们“一本正经地胡说八道”。信任,是AI进入医疗的最后一道墙。

发布活动中,模型技术负责人鞠强现场演示:医生用AI检查肿瘤药物不良反应,结果市面上AI生成内容虽“画风”专业、引用看似权威,但“按照面积计算,90%信息完全错误”。这种“貌似专业”风险比直接答错更大,更具迷惑性。

针对这一痛点,M3 Plus延续上周发布的基座模型Baichuan-M3的内生逻辑机制,通过引入Fact-Aware RL(事实感知强化学习)等新技术,将幻觉控制推向极致。

Baichuan-M3开拓了幻觉降低的技术路线,首创Fact-Aware RL范式:在无工具、无检索增强情况下大幅降低幻觉,实现SOTA水平。M3 Plus完整延续这一能力。

在Fact-Aware RL范式下,模型生成的文本被拆解成一条条可核查的医学判断,再逐条与权威医学来源比对,量化AI生成内容的事实准确性。这种设计赋予AI与真实临床工作流程相合的内在医学增强能力。据测试,Baichuan-M3在医疗沟通和推理能力上全面领先GPT-5.2,在医疗幻觉率上也实现超越,达到全球最低水平。

“六源循证”方法(EAR)加持:每条建议都有专业证据支持

在去年10月发布的Baichuan-M2 Plus上,百川首次应用六源循证方法(EAR),将循证医学范式引入大模型训练和推理过程,使每条建议都有专业医学证据支持。

在RAG检索过程中,查询被转化为结构化医学问题,并在六源数据库中分层匹配。这种方法克服通用RAG两大缺陷:对医学语义理解缺乏,以及引用文献可靠性不足。

六源循证不仅大幅提升AI医学知识储备和利用能力,更直接将幻觉降低到DeepSeek-R1模型的1/3,使模型可信度比肩资深临床专家。

M3 Plus在Hallucination Rate评测中幻觉率仅2.6%,比GPT-5.2低超过30%,也低于行业标杆Open Evidence,刷新医疗模型低幻觉世界纪录。现在,AI不再生成高频但模糊建议,而是系统抑制那些“看起来很美”但无事实依据的回答。

首创“证据锚定”技术:让每个医学判断都有据可查、可核验

“验证AI回答比自己查书还累”是医生常见抱怨。在医疗场景,引用是可信度底线,但许多大模型引用内容指向文献或段落并不支持表述,AI并未真正理解证据立场。

为此,百川首创证据锚定(Evidence Anchoring)技术,让AI生成的每一句医学结论都能逐句核验。

在M3 Plus中,引用准确性作为独立核心训练目标系统建模。AI不简单标注“引用自哪篇文献”,而要求每句结论精确对应原始论文或指南具体证据段落。

结合专门训练的Citation Reward Model(引用奖励模型),对错误引用明确惩罚,模型只能在“确实有证据支持”空间推理生成。最终,结论与证据段落匹配准确率超过95%,真正实现可核验、可追责、可教学。生成内容中,引用的段落与支持表述完全一致,用户可直接定位证据,验证权力交还医生。

王小川表示,基于低幻觉新一代模型,百川希望面向医生提供AI辅助能力,并向患者提供建议:“我们认为随着大模型技术提升,人们对AI辅助接受度将逐步提高。同时,这需要多方面持续努力。”

“海纳百川计划”:免费开放,推动行业共荣

在美国,OpenEvidence等AI医学助手覆盖45%医生,但高订阅费在中国难落地。中国医生工作环境不同:美国医生一天看10个病人,中国可能上百个。AI普及不能增加经济负担,也不能简单SaaS收费。

百川大胆解法:公布海纳百川计划——面向所有为医务工作者提供服务机构,免费提供循证增强的M3-Plus API。百川希望推动更多医生服务AI应用落地,让更多医生拥有可用好用工具,推动临床、医学教育进步。

目前,M3 Plus也面向所有开发者开放为期15天API限时免费体验,所有开发者均可申请。

王小川表示,即使全中国临床医生都用M3 Plus,一年成本可控(约1亿元),百川愿意承担催熟生态。

2026是AI进入医疗的关键一年

“今年是AI进入医疗的关键一年,”王小川判断。

事实上,国内外AI领域开年就有多起医疗大新闻:

  • 1月8日,OpenAI推出ChatGPT Health,提供健康对话独立空间,连接电子医疗记录和健康应用,回复结合用户健康信息与情境;
  • 1月12日,Anthropic推出Claude for Healthcare,支持医疗服务提供者、支付方、消费者医疗用途;
  • 国内,蚂蚁阿福(AQ)作为AI驱动医疗健康应用已获3000万月活用户。

这证明医疗正成AI落地核心场景,也印证百川率先切入医疗赛道的正确性。

不过,百川路径与许多构建AI健康助手的玩家本质不同——许多应用试图连接手表手机成“健康管家”,百川选择更艰难、更垂直道路:直面严肃场景,进入医院核心科室,成为医生“第二大脑”。

M3 Plus发布,标志中国AI公司在垂直赛道,通过极致工程化与场景深耕,正在构建属于自己的护城河。

王小川相信,在三年以内,AI辅助医疗问诊等应用将在国内外大规模落地。