迪克猪的博客
Toggle Dark/Light/Auto mode Toggle Dark/Light/Auto mode Toggle Dark/Light/Auto mode Back to homepage

阿里新开源的FunAudioLLM项目

描述

如果只有短短几秒的微信语音,如何才能模仿他们的声音?在当时,各种项目不是效果不好,就是无法根据这么短的输入音频进行声音模仿。不过现在,依靠 FunAudioLLM,我们终于可以实现了!

只需三秒的输入音频,提供输入文本,FunAudioLLM 可以生成具有相同音色的音频。更让人惊喜的是,项目支持跨语言语音翻译!比如你只给出了一段中文的语音,项目可以帮你生成相同音色下,粤语、日语、英语等不同语种的声音,想象一下,哪怕自己日语的五十音图都还没有认全,借助 FunAudioLLM 的 CosyVoice,你甚至可以听到自己的声音说着流利的日语!

而 FunAudioLLM 的功能远不止如此。如果我们将一本书输入给大模型,让大模型尝试理解书中各个人物的性格、情感,模拟出他们的情绪特点和音色,通过 CosyVoice 的语音合成功能,你可以得到一段旁白,其中不同的人物有不同的音色与情绪。

项目的高级功能还有很多。不知道大家有没有看过一本网络小说《十日终焉》,小说里的角色“青龙”具有分辨不出是男是女的神奇音色,我根本无法想象这个声音到底是什么样的。通过 FunAudioLLM,你可以输入两个不同音色的输入音频,项目可以合成两个音色,创造出一个可能真的从未存在的声音!甚至,你可以调整偏好,让生成出的音色更贴近某一个音源。

此外,先前介绍过的 ChatTTS 可以通过打标签的形式让生成出带情绪起伏的音频,比如大笑、悲伤、强调,FunAudioLLM同样能做到。还有给识别到的语音加标点符号,通过识别语音中的音乐查询到音乐的名字,都是非常实用的功能。

视频地址:

https://www.bilibili.com/video/BV18T421Y7FG

项目地址:

https://github.com/FunAudioLLM/CosyVoice

https://github.com/FunAudioLLM/SenseVoice