2026 年 2 月 28 日,语音 AI 领域迎来重磅消息 ——VUI Labs(宇生月伴)宣布完成数千万元天使 + 轮融资。本轮由同创伟业领投,老股东靖亚资本、小苗朗程持续加注,半年内累计融资近亿元。这家由上海交大钱彦旻教授与连续创业者梅杰联合创办的企业,以 “让 AI 听懂情感,让交互充满温度” 为使命,凭借 Luna 系列情感语音大模型与 C 端语音 Agent 产品 SaySo,在 “超低延迟 + 情感交互 + 多模态 Agent + 端侧部署” 四大维度构建起核心壁垒,正推动语音成为下一代 AI 原生交互入口。
核心团队:学术 + 创业双基因,夯实技术根基
VUI Labs 的核心竞争力源于顶尖的团队配置,实现了学术深度与商业化能力的强强联合:
-
创始人钱彦旻教授:教育部长江学者,上海交大计算机学院与人工智能学院双聘教授,听觉认知与计算声学研究中心负责人,团队早在 2019 年就提出全球首个端到端语音模型训练方案,奠定技术先发优势;
-
CEO 梅杰:浙江大学竺可桢学院毕业,连续成功创业者,擅长将前沿技术转化为落地产品,主导 SaySo 等 C 端产品的商业化推进;
-
技术团队:覆盖全栈语音模型技术,在情感交互、语音合成、同声传译等领域全面对标 Google、ElevenLabs、OpenAI 等国际一线厂商,工程化落地经验丰富。
投资方对团队实力高度认可,同创伟业张昕表示,语音交互的核心在于时延与情感,VUI Labs 在这两大基础技术上已超越 Sonic 3 与 ElevenLabs,展现出全球领先水准。
技术突破:四大核心模型,构建全链路能力
VUI Labs 以自研 Luna 系列模型为核心,打造了覆盖 “交互 - 合成 - 翻译 - Agent” 的全链路技术体系,关键突破集中在四大维度:
1. 情感语音交互模型 Luna-1:听懂情绪的 “沟通桥梁”
作为全球首个端到端情感语音交互模型,Luna-1 在 VoiceBench 权威测评中斩获 79.05 的高分,跻身行业第一梯队,核心亮点突出:
-
情感理解能力:精准识别语音中的喜悦、愤怒、悲伤等情绪,打破传统语音模型 “无情感交互” 的局限;
-
超低延迟:语音对话延迟仅 1.4 秒,达到实时交互水准,远超行业平均水平;
-
综合性能强劲:AlpacaEval 评分与 GPT-4o 持平(均为 95.6),在 AdvBench 测试中得分 99.62,展现出优异的推理与鲁棒性。
2. 语音合成模型 Luna-TTS-1:200 毫秒延迟的自然发声
Luna-TTS-1 在自然度、可控性、稳定性上稳居 TTS 行业第一梯队:
-
极致低延迟:合成延迟低至 200 毫秒,支持实时语音反馈,避免交互卡顿;
-
稳定输出:依托自主可控的高吞吐数据管线,无需 “抽卡式” 生成,不同场景下均能保持一致高品质;
-
情感化表达:可合成带情绪的语音,适配客服、播客、导航等多元场景。
3. 端侧同声传译模型 Luna-Live-Translation-1:500M 体量的跨语言利器
基于自研 SimulMEGA 无监督策略学习框架(入选 NeurIPS 2025),该模型实现三大突破:
-
端侧部署:模型大小仅 500M,可直接嵌入手机、穿戴设备等终端;
-
超低延迟:翻译延迟低至 1.5 秒,支持数十种语言互译;
-
商业落地:已在某知名手机品牌欧洲版本中实现商业应用,验证了技术的鲁棒性与实用性。
4. 语音 Agent 框架:从交互到执行的全链路打通
构建了包含多步规划、工具调用、长时记忆、智能体编排的完整技术框架,支持语音驱动复杂任务执行,为多模态 Agent 落地奠定基础。
产品落地:SaySo 引爆 C 端,重塑生产力交互
2026 年 1 月推出的 C 端语音智能体 SaySo(sayso.ai),成为 VUI Labs 技术落地的核心验证场景,上线即引发用户狂热追捧:
核心价值:从 “听写员” 到 “思考型合作者”
与传统语音转文字工具不同,SaySo 的核心优势在于 “理解 + 优化”,而非单纯转录:
-
上下文精准理解:纠正口误、梳理逻辑,将口语化表达转化为可直接使用的书面语,无需二次修改;
-
全场景适配:横跨近 50 个主流应用,支持稿件生成、社媒分发、邮件撰写等多元任务;
-
效率革命:内容创作者口述 10 分钟即可完成原本 1 小时的键盘输入工作,某博主借助其高频更新,一周内收获数十万爆款流量。
用户粘性数据亮眼
-
78% 的用户文字产出由 SaySo 完成,周处理语音转文字生成量近千万;
-
仅 6 周时间,中位数用户的键盘依赖度从高降至 20%,大部分数字化工作流被语音智能体接管;
-
用户评价极高,被称为 “现实版贾维斯”,成为核心生产力工具。
市场前景:语音 Agent 成 2026 核心赛道,商业化潜力巨大
VUI Labs 的崛起,恰逢语音 AI 成为 Agent 领域核心战场的行业风口。根据 CB Insights 报告,2026 年 AI Agent 将从 “带护栏代理” 迈向 “全自动代理”,而语音作为最自然的人机交互方式,渗透率正加速提升。
赛道空间广阔
海外市场已验证商业价值:ElevenLabs ARR 突破 3.3 亿美金,估值超 110 亿美金;同类语音 Agent 应用 Wispr Flow 估值超 7 亿美金。国内市场中,语音交互正从辅助工具向核心入口演进,覆盖 C 端生产力、B 端客户服务、智能硬件等多元场景,市场增量空间巨大。
商业化路径清晰
VUI Labs 已形成 “技术授权 + C 端产品 + B 端解决方案” 的三维商业化布局:
-
技术授权:向手机、穿戴设备等硬件厂商输出端侧语音模型(如同声传译模型已落地手机品牌);
-
C 端产品:通过 SaySo 构建用户生态,探索订阅制付费模式;
-
B 端服务:为金融、客服、教育等行业提供情感语音交互与语音 Agent 解决方案。
投资方靖亚资本骆银银表示,基于语音大模型的多模态 Agent 在 To B 和 To C 场景均极具价值,VUI Labs 的技术与产品化能力已得到市场验证,未来增长潜力可期。
未来规划:持续夯实壁垒,推动语音成为新 UI
本轮融资将主要用于四大方向:
-
核心模型迭代:深化情感交互、多模态融合能力,提升端侧模型性能;
-
产品与商业化:完善 SaySo 功能,拓展海外市场,落地更多 B 端行业解决方案;
-
全球人才引进:扩充算法、工程与运营团队,强化技术与商业化优势;
-
Voice Agent 平台建设:构建 Skill-based Voice Agent Framework,支持多智能体协同执行复杂任务。
创始人钱彦旻教授表示,键盘已成为人类表达效率的枷锁,VUI Labs 的终极目标是 “Make voice as the new UI”—— 让语音成为下一代人机交互的核心界面,通过全链路语音技术,为 AI 原生应用提供关键基础设施。
在 AI Agent 爆发的 2026 年,VUI Labs 凭借情感语音技术的独特壁垒与 SaySo 的成功落地,正从语音 AI 赛道脱颖而出。随着技术持续迭代与商业化加速,这家融资近亿的初创公司,有望重塑人机交互规则,成为语音 Agent 领域的全球领跑者。