简介

SoulX-Podcast,这是一个专为播客式多轮、多说话人对话语音生成而设计的系统,同时还在传统的文本转语音 (TTS) 任务中实现了最先进的性能。 SoulX-Podcast 集成了一系列副语言控制,支持普通话和英语,以及多种中国方言,包括四川话、河南话和粤语,从而实现更个性化的播客风格语音生成。可以连续产生超过90分钟的对话,说话人音色稳定,说话人过渡流畅。

项目地址:

https://soul-ailab.github.io/soulx-podcast/

仓库:

https://github.com/Soul-AILab/SoulX-Podcast

模型地址:

https://huggingface.co/Soul-AILab/SoulX-Podcast-1.7B/tree/main

总结:

方言控制,副语言控制(如笑声、叹气声、清嗓子的能力)、长音频连贯性(超过60分钟的长音频输出能力)。

整体测试下来,对声音的掌控力确实强劲,音色转方言不失真。

需求场景:

一人饰演多个角色的短视频,可以用多语言体系,做角色强区分。

视频投发特定区域的视频,可原声转方言。

vlog视频,旁白。

参考音频

合成文本

生成结果

我的音频就不放了,社恐。

[S1] 哈喽,AI时代的小伙伴们 !欢迎收听《瞎说瞎聊》。啊,一个充满了未来感,然后,还有一点点,<|laughter|>神经质的播客节目,我是主持人一丹。

[S2] 大家好呀!我是林一,<|laughter|>一个程序员!

[S1] 最近活得特别赛博朋克哈!以前老是觉得AI是科幻片儿里的,<|sigh|> 现在,现在连我妈都用AI写广场舞文案了。

[S2] <|laughter|>这个例子很生动啊。是的,特别是生成式AI哈,感觉都要炸了! 诶,那我们今天就聊聊AI是怎么走进我们的生活的哈!

双人对话

林一

[S1] <|Henan|>哎,大家好啊,我是林一,我来测试一下我的河南话,标不标准。你瞅瞅这话说的还挺得劲儿。<|sigh|>这河南话啊,是最近我老刷手机,跟着学的。

河南话

[S1] <|Sichuan|>各位《巴适得板》的听众些,大家好噻!我是你们主持人晶晶。今儿天气硬是巴适,不晓得大家是在赶路嘛,还是茶都泡起咯,准备跟我们好生摆一哈龙门阵喃?

[S2] <|Sichuan|>晶晶好哦,大家安逸噻!我是李老倌。你刚开口就川味十足,摆龙门阵几个字一甩出来,我鼻子头都闻到茶香跟火锅香咯!

[S1] <|Sichuan|>就是得嘛!李老倌,我前些天带个外地朋友切人民公园鹤鸣茶社坐了一哈。他硬是搞不醒豁,为啥子我们一堆人围到杯茶就可以吹一下午壳子,从隔壁子王嬢嬢娃儿耍朋友,扯到美国大选,中间还掺几盘斗地主。他说我们四川人简直是把摸鱼刻进骨子里头咯!

[S2] <|Sichuan|>你那个朋友说得倒是有点儿趣,但他莫看到精髓噻。摆龙门阵哪是摸鱼嘛,这是我们川渝人特有的交际方式,更是一种活法。外省人天天说的松弛感,根根儿就在这龙门阵里头。今天我们就要好生摆一哈,为啥子四川人活得这么舒坦。就先从茶馆这个老窝子说起,看它咋个成了我们四川人的魂儿!

双人对话-四川话

小丹

[S1] <|Sichuan|>要得要得!<|laughter|>,大家伙我是成都的小丹哦,大家一起摆一哈龙门阵<|breathing|>,巴适得很!

小丹-四川话

小丹

[S1] <|Yue|>哈囉大家好啊,歡迎收聽我哋嘅節目。喂<|coughing|>,我今日想問你樣嘢啊,你覺唔覺得,嗯,而家揸電動車,最煩,最煩嘅一樣嘢係咩啊?

小丹-粤语

8G 能跑