融资近亿！VUI Labs 宇生月伴领跑情感语音赛道，语音 Agent 重塑人机交互！

qso · 2026 年2 月 28 日 06:12

2026 年 2 月 28 日，语音 AI 领域迎来重磅消息 ——VUI Labs（宇生月伴）宣布完成数千万元天使 + 轮融资。本轮由同创伟业领投，老股东靖亚资本、小苗朗程持续加注，半年内累计融资近亿元。这家由上海交大钱彦旻教授与连续创业者梅杰联合创办的企业，以 “让 AI 听懂情感，让交互充满温度” 为使命，凭借 Luna 系列情感语音大模型与 C 端语音 Agent 产品 SaySo，在 “超低延迟 + 情感交互 + 多模态 Agent + 端侧部署” 四大维度构建起核心壁垒，正推动语音成为下一代 AI 原生交互入口。

核心团队：学术 + 创业双基因，夯实技术根基

VUI Labs 的核心竞争力源于顶尖的团队配置，实现了学术深度与商业化能力的强强联合：

创始人钱彦旻教授：教育部长江学者，上海交大计算机学院与人工智能学院双聘教授，听觉认知与计算声学研究中心负责人，团队早在 2019 年就提出全球首个端到端语音模型训练方案，奠定技术先发优势；
CEO 梅杰：浙江大学竺可桢学院毕业，连续成功创业者，擅长将前沿技术转化为落地产品，主导 SaySo 等 C 端产品的商业化推进；
技术团队：覆盖全栈语音模型技术，在情感交互、语音合成、同声传译等领域全面对标 Google、ElevenLabs、OpenAI 等国际一线厂商，工程化落地经验丰富。

投资方对团队实力高度认可，同创伟业张昕表示，语音交互的核心在于时延与情感，VUI Labs 在这两大基础技术上已超越 Sonic 3 与 ElevenLabs，展现出全球领先水准。

技术突破：四大核心模型，构建全链路能力

VUI Labs 以自研 Luna 系列模型为核心，打造了覆盖 “交互 - 合成 - 翻译 - Agent” 的全链路技术体系，关键突破集中在四大维度：

1. 情感语音交互模型 Luna-1：听懂情绪的 “沟通桥梁”

作为全球首个端到端情感语音交互模型，Luna-1 在 VoiceBench 权威测评中斩获 79.05 的高分，跻身行业第一梯队，核心亮点突出：

情感理解能力：精准识别语音中的喜悦、愤怒、悲伤等情绪，打破传统语音模型 “无情感交互” 的局限；
超低延迟：语音对话延迟仅 1.4 秒，达到实时交互水准，远超行业平均水平；
综合性能强劲：AlpacaEval 评分与 GPT-4o 持平（均为 95.6），在 AdvBench 测试中得分 99.62，展现出优异的推理与鲁棒性。

2. 语音合成模型 Luna-TTS-1：200 毫秒延迟的自然发声

Luna-TTS-1 在自然度、可控性、稳定性上稳居 TTS 行业第一梯队：

极致低延迟：合成延迟低至 200 毫秒，支持实时语音反馈，避免交互卡顿；
稳定输出：依托自主可控的高吞吐数据管线，无需 “抽卡式” 生成，不同场景下均能保持一致高品质；
情感化表达：可合成带情绪的语音，适配客服、播客、导航等多元场景。

3. 端侧同声传译模型 Luna-Live-Translation-1：500M 体量的跨语言利器

基于自研 SimulMEGA 无监督策略学习框架（入选 NeurIPS 2025），该模型实现三大突破：

端侧部署：模型大小仅 500M，可直接嵌入手机、穿戴设备等终端；
超低延迟：翻译延迟低至 1.5 秒，支持数十种语言互译；
商业落地：已在某知名手机品牌欧洲版本中实现商业应用，验证了技术的鲁棒性与实用性。

4. 语音 Agent 框架：从交互到执行的全链路打通

构建了包含多步规划、工具调用、长时记忆、智能体编排的完整技术框架，支持语音驱动复杂任务执行，为多模态 Agent 落地奠定基础。

产品落地：SaySo 引爆 C 端，重塑生产力交互

2026 年 1 月推出的 C 端语音智能体 SaySo（sayso.ai），成为 VUI Labs 技术落地的核心验证场景，上线即引发用户狂热追捧：

核心价值：从 “听写员” 到 “思考型合作者”

与传统语音转文字工具不同，SaySo 的核心优势在于 “理解 + 优化”，而非单纯转录：

上下文精准理解：纠正口误、梳理逻辑，将口语化表达转化为可直接使用的书面语，无需二次修改；
全场景适配：横跨近 50 个主流应用，支持稿件生成、社媒分发、邮件撰写等多元任务；
效率革命：内容创作者口述 10 分钟即可完成原本 1 小时的键盘输入工作，某博主借助其高频更新，一周内收获数十万爆款流量。

用户粘性数据亮眼

78% 的用户文字产出由 SaySo 完成，周处理语音转文字生成量近千万；
仅 6 周时间，中位数用户的键盘依赖度从高降至 20%，大部分数字化工作流被语音智能体接管；
用户评价极高，被称为 “现实版贾维斯”，成为核心生产力工具。

市场前景：语音 Agent 成 2026 核心赛道，商业化潜力巨大

VUI Labs 的崛起，恰逢语音 AI 成为 Agent 领域核心战场的行业风口。根据 CB Insights 报告，2026 年 AI Agent 将从 “带护栏代理” 迈向 “全自动代理”，而语音作为最自然的人机交互方式，渗透率正加速提升。

赛道空间广阔

海外市场已验证商业价值：ElevenLabs ARR 突破 3.3 亿美金，估值超 110 亿美金；同类语音 Agent 应用 Wispr Flow 估值超 7 亿美金。国内市场中，语音交互正从辅助工具向核心入口演进，覆盖 C 端生产力、B 端客户服务、智能硬件等多元场景，市场增量空间巨大。

商业化路径清晰

VUI Labs 已形成 “技术授权 + C 端产品 + B 端解决方案” 的三维商业化布局：

技术授权：向手机、穿戴设备等硬件厂商输出端侧语音模型（如同声传译模型已落地手机品牌）；
C 端产品：通过 SaySo 构建用户生态，探索订阅制付费模式；
B 端服务：为金融、客服、教育等行业提供情感语音交互与语音 Agent 解决方案。

投资方靖亚资本骆银银表示，基于语音大模型的多模态 Agent 在 To B 和 To C 场景均极具价值，VUI Labs 的技术与产品化能力已得到市场验证，未来增长潜力可期。

未来规划：持续夯实壁垒，推动语音成为新 UI

本轮融资将主要用于四大方向：

核心模型迭代：深化情感交互、多模态融合能力，提升端侧模型性能；
产品与商业化：完善 SaySo 功能，拓展海外市场，落地更多 B 端行业解决方案；
全球人才引进：扩充算法、工程与运营团队，强化技术与商业化优势；
Voice Agent 平台建设：构建 Skill-based Voice Agent Framework，支持多智能体协同执行复杂任务。

创始人钱彦旻教授表示，键盘已成为人类表达效率的枷锁，VUI Labs 的终极目标是 “Make voice as the new UI”—— 让语音成为下一代人机交互的核心界面，通过全链路语音技术，为 AI 原生应用提供关键基础设施。

在 AI Agent 爆发的 2026 年，VUI Labs 凭借情感语音技术的独特壁垒与 SaySo 的成功落地，正从语音 AI 赛道脱颖而出。随着技术持续迭代与商业化加速，这家融资近亿的初创公司，有望重塑人机交互规则，成为语音 Agent 领域的全球领跑者。

nonono · 2026 年2 月 28 日 08:31

这家公司技术挺厉害的嘛

coderX · 2026 年2 月 28 日 08:38

语音助手越来越厉害了啊

oldme · 2026 年2 月 28 日 09:25

这项目听起来有点意思

k8sfan99 · 2026 年2 月 28 日 13:30

钱教授团队的端到端情感交互方案确实超前，1.4秒延迟数据很硬核。SaySo的78%文字产出占比说明语音Agent已不是玩具，而是真正的生产力入口。

justin66 · 2026 年3 月 1 日 01:34

钱教授这团队真硬核，技术落地速度也快。SaySo这产品我用过，语音转文字确实比打字快多了。

logic7 · 2026 年3 月 1 日 19:59

这公司技术挺实在的语音交互确实该有温度

uxmaster · 2026 年3 月 3 日 17:05

SaySo这数据太猛了