简介
SoulX-Podcast,这是一个专为播客式多轮、多说话人对话语音生成而设计的系统,同时还在传统的文本转语音 (TTS) 任务中实现了最先进的性能。 SoulX-Podcast 集成了一系列副语言控制,支持普通话和英语,以及多种中国方言,包括四川话、河南话和粤语,从而实现更个性化的播客风格语音生成。可以连续产生超过90分钟的对话,说话人音色稳定,说话人过渡流畅。
项目地址:
https://soul-ailab.github.io/soulx-podcast/
仓库:
https://github.com/Soul-AILab/SoulX-Podcast
模型地址:
https://huggingface.co/Soul-AILab/SoulX-Podcast-1.7B/tree/main
总结:
方言控制,副语言控制(如笑声、叹气声、清嗓子的能力)、长音频连贯性(超过60分钟的长音频输出能力)。
整体测试下来,对声音的掌控力确实强劲,音色转方言不失真。
需求场景:
一人饰演多个角色的短视频,可以用多语言体系,做角色强区分。
视频投发特定区域的视频,可原声转方言。
vlog视频,旁白。
参考音频 | 合成文本 | 生成结果 |
我的音频就不放了,社恐。 | [S1] 哈喽,AI时代的小伙伴们 !欢迎收听《瞎说瞎聊》。啊,一个充满了未来感,然后,还有一点点,<|laughter|>神经质的播客节目,我是主持人一丹。 [S2] 大家好呀!我是林一,<|laughter|>一个程序员! [S1] 最近活得特别赛博朋克哈!以前老是觉得AI是科幻片儿里的,<|sigh|> 现在,现在连我妈都用AI写广场舞文案了。 [S2] <|laughter|>这个例子很生动啊。是的,特别是生成式AI哈,感觉都要炸了! 诶,那我们今天就聊聊AI是怎么走进我们的生活的哈! | 双人对话 |
林一 | [S1] <|Henan|>哎,大家好啊,我是林一,我来测试一下我的河南话,标不标准。你瞅瞅这话说的还挺得劲儿。<|sigh|>这河南话啊,是最近我老刷手机,跟着学的。 | 河南话 |
| [S1] <|Sichuan|>各位《巴适得板》的听众些,大家好噻!我是你们主持人晶晶。今儿天气硬是巴适,不晓得大家是在赶路嘛,还是茶都泡起咯,准备跟我们好生摆一哈龙门阵喃? [S2] <|Sichuan|>晶晶好哦,大家安逸噻!我是李老倌。你刚开口就川味十足,摆龙门阵几个字一甩出来,我鼻子头都闻到茶香跟火锅香咯! [S1] <|Sichuan|>就是得嘛!李老倌,我前些天带个外地朋友切人民公园鹤鸣茶社坐了一哈。他硬是搞不醒豁,为啥子我们一堆人围到杯茶就可以吹一下午壳子,从隔壁子王嬢嬢娃儿耍朋友,扯到美国大选,中间还掺几盘斗地主。他说我们四川人简直是把摸鱼刻进骨子里头咯! [S2] <|Sichuan|>你那个朋友说得倒是有点儿趣,但他莫看到精髓噻。摆龙门阵哪是摸鱼嘛,这是我们川渝人特有的交际方式,更是一种活法。外省人天天说的松弛感,根根儿就在这龙门阵里头。今天我们就要好生摆一哈,为啥子四川人活得这么舒坦。就先从茶馆这个老窝子说起,看它咋个成了我们四川人的魂儿! | 双人对话-四川话 |
小丹 | [S1] <|Sichuan|>要得要得!<|laughter|>,大家伙我是成都的小丹哦,大家一起摆一哈龙门阵<|breathing|>,巴适得很! | 小丹-四川话 |
小丹 | [S1] <|Yue|>哈囉大家好啊,歡迎收聽我哋嘅節目。喂<|coughing|>,我今日想問你樣嘢啊,你覺唔覺得,嗯,而家揸電動車,最煩,最煩嘅一樣嘢係咩啊? | 小丹-粤语 |
8G 能跑
