融资近亿!VUI Labs 宇生月伴:用情感语音大模型,让语音成为下一代交互 UI!

2026 年 2 月 28 日,语音 AI 领域黑马 VUI Labs(宇生月伴)宣布完成数千万元天使 + 轮融资,由同创伟业领投,老股东靖亚资本、小苗朗程持续加注。短短半年内,公司累计获得近亿元投资,聚焦 “超低延迟 + 情感交互 + 多模态 Agent + 端侧模型” 四大核心壁垒,以 “让 AI 听懂情感,让交互充满温度” 为使命,全力打造下一代 AI 原生语音交互入口。

一、明星团队与技术基因:学术 + 创业双轮驱动

VUI Labs 的核心竞争力源于顶尖的技术团队与深厚的行业积累:

  • 创始团队强强联合:由教育部长江学者、上海交通大学钱彦旻教授(听觉认知与计算声学专家)创办,CEO 梅杰为浙江大学竺可桢学院出身的连续创业者,兼具学术深度与商业化经验;

  • 技术先发优势:团队早在 2019 年就全球首个提出端到端语音模型训练,构建了全栈语音技术能力,覆盖情感交互、语音生成、多说话人理解等核心领域,全面对标 Google、ElevenLabs、OpenAI 等国际一线厂商。

二、核心技术矩阵:三大模型突破,定义语音交互新标杆

VUI Labs 自研 Luna 系列多模态情感语音大模型,构建了从交互、合成到翻译的全链路技术体系,多项指标位居行业第一梯队:

1. Luna-1:全球首个端到端情感语音交互模型

打破传统 “ASR+LLM+TTS” 三级管道架构,实现从原始音频到语音响应的端到端处理,核心优势显著:

  • 性能领先:在 VoiceBench 权威测评中以 79.05 分跻身行业第一梯队,AlpacaEval 评分与 GPT-4o 持平(4.78/5),展现出顶尖的语音理解能力;

  • 超低延迟:语音对话延迟仅 1.4 秒,交互 RTF(实时因子)小于 0.3,远超业内主流模型,为实时沟通奠定基础;

  • 情感感知:能精准捕捉语音中的情绪色彩,理解语调、语速背后的情感表达,让交互告别 “冰冷机械”,实现有温度的沟通。

2. Luna-TTS-1:200 毫秒级低延迟语音合成

在语音生成领域,Luna-TTS-1 以 “稳定 + 高效 + 自然” 脱颖而出:

  • 极致效率:合成延迟低至 200 毫秒,实时响应无需等待;

  • 品质可控:依托自主高吞吐数据管线,无需 “抽卡式” 生成,在自然度、稳定性上稳居行业第一梯队,确保不同场景下输出品质一致;

  • 多场景适配:支持博客、ASMR、个性化语音等多种高复杂度场景,满足内容创作、智能助手等多元需求。

3. Luna-Live-Translation-1:端侧部署的同声传译利器

基于创新的 SimulMEGA 无监督策略学习框架(入选 NeurIPS 2025),实现语音翻译的重大突破:

  • 端侧友好:模型仅 500M 大小,可直接部署在手机等终端设备,无需依赖云端算力;

  • 低延迟高精准:翻译延迟仅 1.5 秒,支持数十种语言互译,在 6 组语言对测试中,BLEU 值降解不足 7%,兼顾速度与质量;

  • 商业落地:已在某知名手机品牌欧洲版本中落地应用,解决跨语言实时沟通痛点。

三、C 端产品落地:SaySo 语音 Agent,重塑生产力交互

2026 年 1 月,VUI Labs 推出首款 C 端语音智能体产品 SaySo(sayso.ai),彻底颠覆传统语音工具的定位,从 “听写员” 升级为 “懂思考的合作者”:

核心功能:不止于转写,更是生产力助手

  • 上下文精准理解:能捕捉复杂语境,优化输出内容,消除创意与表达的鸿沟,生成文本可直接使用,无需二次修改;

  • 多任务全链路打通:具备多步规划、工具调用、长时记忆与智能体编排能力,可统筹复杂任务,指挥多个数字智能体协同执行;

  • 商务场景深度适配:针对外贸等场景,支持外语语音转写翻译、专业邮件生成、报价单自动整理,熟悉 FOB、MOQ 等行业术语与商务礼仪,输出符合专业规范的工作成果。

用户反馈与数据:交互变革已成趋势

  • 效率倍增:内容创作者使用 SaySo 后,稿件产出时间从 1 小时压缩至 10 分钟,78% 的文字产出由其完成,覆盖近 50 个主流应用;

  • 粘性极高:周处理语音转文字生成量近千万,仅 6 周时间,中位数用户的键盘依赖度降至 20%,数字化工作流逐渐由语音智能体接管;

  • 口碑爆棚:用户评价其 “堪比《钢铁侠》的贾维斯”,成为核心生产力界面,帮助创作者快速打造爆款内容。

四、市场前景与行业格局:语音交互的千亿赛道

语音交互作为 AI 时代的核心入口,正迎来爆发式增长,VUI Labs 的布局精准契合行业趋势:

  • 赛道潜力巨大:海外对标企业 ElevenLabs 估值已达 110 亿美元,ARR 突破 3.3 亿美金,同类 Agent 应用 Wispr Flow 估值超 7 亿美金,验证了语音大模型 + Agent 模式的商业价值;

  • 投资机构看好:同创伟业认为,下一代人机交互的核心在于语音,而时延与情感是关键,VUI Labs 在这两大维度超越国际竞品;靖亚资本强调,语音多模态 Agent 在 To B、To C 场景均具高价值,市场空间广阔;

  • 技术壁垒坚固:公司通过端到端架构、情感感知、端侧优化等技术,构建了难以复制的竞争优势,同时开放 Skill-based Voice Agent Framework,为行业提供基础设施。

结语:让语音成为新的 UI,重新定义交互体验

VUI Labs 的崛起,标志着语音交互从 “功能执行” 迈向 “情感共鸣 + 任务统筹” 的新阶段。凭借近亿元融资的加持,公司将持续迭代核心模型、拓展商业化场景、搭建 Voice Agent 平台,推动语音成为下一代人机交互的核心界面。

当 AI 能听懂情感、实时响应、高效执行,语音将不再只是 “输入工具”,而是连接人与数字世界的自然桥梁。VUI Labs 用技术证明,有温度的交互并非遥不可及,一个 “所说即所得” 的智能时代正在到来。

语音助手真这么好用吗

融资好多啊,希望产品能落地。

这融资节奏好快啊
技术布局很全面
SaySo产品数据挺亮眼的

这个语音AI挺厉害啊

这个团队的技术路线很扎实,端到端架构和情感交互的突破确实抓住了行业痛点。不过C端产品能否持续保持用户粘性,还得看后续的场景拓展和数据飞轮效应。

这技术感觉有点东西啊