当多模态大模型席卷行业,独立语音模型却逆势崛起。全球第二大 AI 语音平台 Fish Audio,在 12 个月内实现 13 倍增长,达成 1000 万美金 ARR,积累 350 万用户与 110 万 UGC 声音模型。这家由前 Meta 增长负责人 Rissa 与 00 后前英伟达算法研究员冷月联合创办的公司,以世界首个自然语言情感控制 TTS 模型 S1 破局,用传统公司丢弃的「吵架声、争论声」打造数据壁垒,正引领 AI 语音从「工具级配音」迈入「情感级交互」的 2.0 时代。
核心破局:AI Voice 2.0 的三大革命
在 Fish Audio 看来,AI Voice 2.0 的核心是从「逐字逐句的广播式语音」,升级为「有情感、可交互、能共情」的智能语音。这一转型背后,是技术、数据与产品的三重革命:
1. 技术革命:端到端建模,告别「单调语音」
早期 TTS 模型(如 ElevenLabs 2.5)采用 StyleTTS 架构,虽延迟低但韵律单调;后续 Tortoise 架构(CosyVoice、Seed TTS 在用)通过「语义 token + 音频解码」提升稳定性,却仍脱离语音本质。Fish Audio 选择了更激进的端到端路线 —— 将语义与声学信息大一统建模,天生支持多说话人,表现力实现质的飞跃。
为解决端到端模型的稳定性问题,团队通过强化学习后训练优化,让模型在表现力领先的同时,稳定性媲美传统架构。更颠覆性的是,其即将发布的 S2 模型将完全开源,并推出无 Vocoder 版本,实现从文本到波形的直接生成,理论延迟可压缩至 30-50 毫秒,为实时交互奠定基础。
2. 数据革命:「脏数据」成为核心壁垒
不同于行业追求「干净单声道语音」的主流做法,Fish Audio 发现:人类情绪最丰富的表达,往往藏在「吵架、争论、兴奋讨论」等多音轨重叠的「脏数据」中。传统数据清洗会直接丢弃这类数据,而 Fish Audio 的管线却特意保留,并用自研的世界第一情感标注 ASR 模型,为其打上从「简单强调」到「愤怒 + 悲伤」的复杂情感标签。
这种反直觉的数据策略,构建了难以复制的护城河:一方面,高自然度、多情感的语音数据在互联网上极度稀缺;另一方面,合成数据虽易获取,却会限制模型表现力上限。Fish Audio 每年在数据上投入百万美金级别,构建覆盖多语种、多场景的数据配方,确保模型能适配游戏配音、情感陪伴、实时客服等多元需求。
3. 产品革命:从「工具」到「创作者生态」
Fish Audio 拒绝做单一 API 工具,而是构建了「模型矩阵 + UGC 生态 + 专业创作平台」的完整产品体系:
-
模型矩阵:旗舰模型 S1 主打娱乐与 AI 原生应用,即将推出的 S2 Flash(4B 参数)聚焦实时客服等低延迟场景,S2 Pro 强化内容创作的情感表达力;
-
UGC 生态:110 万公共声音模型构成全球最大 UGC 语音市场,创作者可获得被使用 token 消耗的 30% 收益,形成「创作 - 使用 - 反馈」的正向循环;
-
专业平台:Fish Studio 提供多轨编辑、情感精细控制、唇形同步等功能,解决播客、VTuber 等专业创作者的核心痛点,让 AI 语音融入现有工作流。
商业飞轮:从开源到 B2B,13 倍增长的底层逻辑
Fish Audio 的增长并非偶然,而是「开源获客 + Product-Led Growth+B2B 破圈」的必然结果:
1. 开源引流:最低成本获取精准用户
起源于开源项目 Fish Speech 的 Fish Audio,在 GitHub 累计收获超 10 万 Star。团队开源模型推理工具与训练方法,让开发者可本地测试 latency、音质等性能,用代码建立信任 —— 这与依赖 Demo 展示的竞品形成鲜明对比。开源社区的游戏开发者、ASMR 创作者成为早期核心用户,为后续商业化奠定基础。
2. 用户分层:C 端打口碑,B 端冲营收
-
C 端(占 60% 营收):聚焦专业内容创作者(vlogger、播客主、游戏配音演员),他们用 Fish Audio 提升创作效率并商业化,付费意愿强、粘性高,形成口碑传播;
-
B 端(占 40% 营收,三个月内突飞猛进):覆盖四大场景 ——AI 陪伴社交应用(如 Character.AI)、游戏 NPC 配音、AI 内容创作平台(如 HeyGen)、实时语音 Agent(客服、教育),采用 bottom-up 模式,由内部开发者推荐至企业签约。
3. 差异化竞争:避开 ElevenLabs 的正面战场
面对 3.3 亿美金 ARR、110 亿估值的行业龙头 ElevenLabs,Fish Audio 选择差异化定位:ElevenLabs 主打传统世界 500 强的企业配音、有声书场景,强调专业合规;Fish Audio 则聚焦 AI 原生应用、游戏等娱乐场景,主打「更有趣、有灵魂、有情感」的声音,瞄准未来两三年可能成为世界 500 强的高潜力市场。
未来蓝图:18 个月剑指 50-100 万美金 ARR
Fish Audio 的野心不止于语音,而是构建多模态内容创作平台。其未来 18 个月的目标清晰而激进:
1. 模型进化:从「语音生成」到「多模态交互」
-
半年内:完成多模态感知模型研发,可基于人物线稿、剧情分镜进行配音,实现「视觉 - 语音」联动;
-
12 个月内:推出端到端 speech-in-to-speech-out 模型,年底前实现全双工交互,让 AI 能在用户说话时给出「确实」「我想想」等支持性回应,智力水平超越 99% 配音演员;
-
技术路线:采用 MOE 架构(30 active 3、100 active 10),在 30B-100B 参数规模实现更强可控性与思考能力,训练推理成本仅相当于 6B 稠密模型。
2. 商业扩张:从「单一语音」到「多模态创作」
-
营收目标:从 1000 万美金 ARR 冲刺 5000-10000 万美金,实现 B2B 与 B2C 协同增长;
-
产品延伸:在 Fish Studio 中加入视频 avatar、音频补全、字幕自动生成等功能,打造端到端内容创作闭环;
-
全球化布局:深耕日语、中文、英文、阿拉伯语市场,利用 UGC 生态优势,让小语种与带口音语言的模型表现随使用量爆发(如阿拉伯语因王子去世事件的声音克隆需求实现性能突破)。
团队密码:找战友而非培养人
Fish Audio 的快速增长,离不开其独特的团队文化与人才策略:
-
互补型创始团队:CEO Rissa 擅长增长、社区运营与商业化,CTO 冷月主导技术架构与模型研发,技能完美契合;
-
超级个体集结:核心团队以 00 后为主,均来自开源社区顶尖贡献者,采用「work trial」模式 —— 给予充足资源让候选人试跑感兴趣的方向,筛选出真正自驱力强、能落地的人才;
-
文化内核:不鼓励加班但奖励功劳,核心成员自愿工作至凌晨 4-5 点,源于「改变 AGI 世界」的共同信念,形成「目标一致、效率极高」的战斗氛围。
行业启示:AI 语音的下一个十年
Fish Audio 的崛起证明,在多模态时代,独立语音模型的价值不在于「做通用语音功能」,而在于「深耕语音本质的情感与交互」。其成功关键在于三点:
-
价值观差异化:不追逐流量红利,聚焦创作者真实需求,用技术解决「语音不自然、无情感」的核心痛点;
-
数据思维颠覆:从「规避噪音」到「拥抱噪音」,挖掘行业忽视的高价值数据,构建难以复制的壁垒;
-
开源 + 商业化平衡:开源作为获客与信任建立的渠道,闭源模型作为规模化变现的核心,形成良性循环。
随着 AI Voice 2.0 时代来临,语音将不再是多模态的附属,而是成为「情感交互第一入口」。Fish Audio 的探索,不仅为独立语音模型找到了生存空间,更定义了未来人机交互的核心形态 —— 当语音能共情、会回应,AI 与人类的连接将变得前所未有的紧密。