首页 · AI导航 · AI音频工具 · SoulX-Podcast

SoulX-Podcast

访问项目地址

工具介绍：90分钟无中断播客生成，多人多轮对话 AI 语音生成项目

收录时间：2025年11月5日

Github一开源，就登顶？一口气合成90分钟音频～ #ai #语音合成 #程序员 #github #Soul

6 月前抖音/程序员三千

工具信息

oulX-Podcast 是由 Soul-AILab 开发的播客风格 AI 语音生成系统，核心定位是解决 “长文本、多轮对话、多说话人” 场景下的高自然度语音合成需求，同时兼容传统的独白式 TTS（文本转语音）任务，在方言支持、语音个性化控制等方面具备显著优势。

一、核心定位与技术目标

SoulX-Podcast 的核心目标是打破传统 TTS 在 “对话场景” 和 “方言多样性” 上的局限，让 AI 生成的语音更贴近真实播客的自然感 —— 不仅能实现 “单人读文本”，还能模拟 “多人多轮对话”，并支持方言、副语言（如情绪、语气词）的精细化控制，最终落地 “个性化播客生成”“跨方言语音克隆” 等实用场景。

二、关键技术特性（核心优势）

1. 长文本 + 多轮 + 多说话人对话生成

突破传统 TTS “单人独白” 的限制，支持多说话人之间的连续对话生成（如播客中主持人与嘉宾的互动），语音衔接自然，无明显 “机械感”。
适配 “长文本场景”（如 30 分钟以上的播客内容），避免因文本长度过长导致的语音质量下降或逻辑断裂。

2. 跨方言零样本语音克隆

支持以普通话为参考音频，克隆出目标方言的语音（无需目标方言的参考音频，即 “零样本”），目前已覆盖 3 种主流汉语方言：
- 河南话（Henanese）
- 四川话（Sichuanese）
- 粤语（Cantonese，文档中标记为 “Yue”）
克隆后的方言语音同时保证 “说话人相似度” 和 “方言准确性”，解决了传统方言 TTS “需要大量方言数据训练” 的痛点。