端侧 AI 再迎重磅突破,腾讯混元正式开源面向消费级硬件的超轻量模型HY-1.8B-2Bit,凭借等效 0.3B 参数量、仅 600MB 内存占用的极致轻量化表现,成为业界首个实现 2 比特产业级量化的端侧模型实践。这款模型比常用手机 APP 占用空间更小,可直接本地化部署在手机、智能耳机、智能家居等设备上,且生成速度提升 2-3 倍,完美兼顾轻量化、高性能与实用性,推动端侧智能应用向更普惠的消费级场景下沉。
此前大语言模型的落地多集中在云端或高性能设备,消费级端侧设备因内存、算力限制,难以实现模型本地部署,而 HY-1.8B-2Bit 的出现,彻底打破了这一壁垒,让普通消费级硬件也能拥有自主的 AI 推理能力,同时兼顾数据隐私性,无需上传云端即可完成智能交互。
硬核技术:2 比特量化炼出超小模型,性能不打折
HY-1.8B-2Bit 基于腾讯混元此前的小尺寸语言模型 HY-1.8B-Instruct 打造,依托首个产业级 2 比特端侧量化方案和量化感知训练(QAT)技术实现极致瘦身,核心技术亮点让模型在 “变小” 的同时,牢牢守住性能底线:
6 倍极致压缩,保留全量思考能力
模型通过 2 比特量化感知训练,将原始精度模型的等效参数量降低 6 倍,实际文件大小仅 300MB,内存占用 600MB,但完整沿用了原模型的全思考能力,可根据任务复杂度灵活切换长 / 短思维链,简单任务快速响应,复杂任务深度推理,不会因轻量化牺牲推理能力。
低比特不减效,性能追平 4 比特版本
2 比特量化虽因精度降低易导致模型性能损耗,但混元团队通过 QAT 技术将量化操作融合到训练过程,让模型直接学习低位表示的权重,再配合先进的量化策略,使 2 比特模型性能无限接近全精度模型。在数学、代码、科学等核心指标上,该模型与 4 比特 PTQ 版本表现相当,彻底解决低比特量化的性能痛点。
三重优化加持,全科能力再升级
为进一步提升模型的综合能力,混元团队还通过数据优化、弹性拉伸量化、训练策略创新三大方法,针对性强化模型的全科推理能力,让这款超小模型在多场景下都能稳定输出,满足端侧设备的多样化智能需求。
速度拉满:多平台实测,端侧生成效率大幅提升
轻量化的核心价值在于适配端侧设备,而 HY-1.8B-2Bit 在速度上的表现同样亮眼,腾讯团队在多款主流硬件平台完成实测,模型的首字时延和生成速度均实现大幅加速,完美适配端侧设备的实时交互需求:
-
MacBook M4 芯片:固定 2 线程测试,在 1024 输入窗口内,首字时延实现 3~8 倍加速,常用窗口下生成速度对比原始精度模型,稳定实现至少 2 倍加速;
-
天玑 9500 移动芯片:对比 4 比特版本,首字时延加速 1.5~2 倍,生成速度加速约 1.5 倍,完美适配安卓旗舰手机的端侧部署;
-
全平台适配:模型已完成 Arm 计算平台适配,可直接部署在启用 Arm SME2 技术的移动设备上,同时支持 gguf-int2、bf16 等多种格式权重,能灵活适配手机、耳机、智能家居等不同硬件。
在真实端侧设备上,HY-1.8B-2Bit 的整体生成速度较原始模型提升 2-3 倍,彻底告别端侧 AI 交互的卡顿、延迟问题,让本地智能体验更流畅。
极简部署:多格式支持,消费级硬件轻松上手
为了让开发者和硬件厂商快速落地,腾讯混元为 HY-1.8B-2Bit 提供了多格式的模型权重和便捷的部署方式,大幅降低端侧集成门槛:
-
多格式权重支持:提供 gguf-int2 格式的轻量化权重和 bf16 伪量化权重,满足不同端侧设备的算力、存储需求;
-
全平台适配:完成 Arm 等主流计算平台适配,兼容启用 Arm SME2 技术的移动设备,可直接集成到手机、智能耳机、智能音箱、扫地机器人等硬件中;
-
开源全链路支持:模型已在 GitHub 和 Hugging Face 开源,同时发布详细技术报告,开发者可免费获取、二次开发,快速适配各类端侧智能场景。
场景无限:从手机到智能家居,端侧智能全面落地
HY-1.8B-2Bit 的极致轻量化,让 AI 能力真正走进各类消费级硬件,为端侧智能场景打开无限想象空间,契合当前 AI 终端从 “智能工具” 向 “智能助理” 升级的趋势深圳政府:
-
智能手机:实现本地智能问答、离线语音助手、个性化推荐等功能,数据不上云,兼顾隐私与效率;
-
智能可穿戴:在智能耳机、手表中实现本地实时翻译、语音指令识别、健康数据智能分析,无需依赖手机或云端;
-
智能家居:让智能音箱、扫地机器人、智能电视拥有自主推理能力,实现设备间的无感联动、个性化场景定制,打造 “数字家庭生命体”;
-
轻量化办公:在平板、便携笔记本中实现本地文档处理、代码辅助、思维导图生成,离线状态下也能享受 AI 办公便利。
行业意义:小模型成趋势,推动端侧 AI 普惠化
HY-1.8B-2Bit 的开源,不仅是腾讯在模型小型化、端侧 AI 领域的重要突破,更成为端侧大模型发展的重要里程碑,为行业带来全新参考:
一方面,这款模型验证了 2 比特量化在产业级端侧场景的可行性,为后续模型轻量化提供了全新技术路径,让 “更小、更快、更强” 的端侧模型成为可能;另一方面,随着阿里 Qwen-Embedding-0.6B、谷歌 Gemma 3、腾讯 HY-1.8B-2Bit 等小尺寸模型的相继推出,端侧大模型的选择越来越丰富,推动 RAG、语义搜索、智能交互等应用不断下沉至个人设备,让 AI 能力真正普惠大众。
当然,当前 HY-1.8B-2Bit 的能力仍受限于监督微调训练流程和基础模型性能,腾讯混元团队表示,未来将重点发力强化学习与模型蒸馏技术,进一步缩小低比特量化模型与全精度模型的能力差距,让端侧 AI 的性能和体验再上台阶。


