这个系列会阶段性的分享一些读到的、看到的优秀的内容,以及一些思考,希望对你有帮助。这周还真经历了不少事,值得给大家分享。

1、有个朋友找到我,说家里的亲人去世了,希望帮她模拟亲人的声音,和家里老人通个电话
尊重逝者,这个故事是经过加工的,主要想分享给大家AI克隆声音技术,普通人实操层面能做到什么样子。这是个很让人伤感的事情,因为怕老人接受不了刺激,所以一直没自己亲人离开的消息和老人讲,所以想到能不能克隆一下声音,和老人进行做个通话。
能做到完全克隆另外一个人的声音,并且让亲人都听不出来,这个技术是有些危险的;另外特别能理解这个心情,但是否选择要这样做,还是当事人的决策。所以我讲清楚这事的风险后,还是尝试看下作为一个普通人,应用者,用身边的工具能做成什么样子。
我先是选择了实时变声技术,RVC,开源方案,项目方提供了打包好的程序,方便快速部署,个人电脑可运行,地址如下:Release 2.2.231006 · RVC-Project/Retrieval-based-Voice-Conversion-WebUI · GitHub
其实变声软件,这个感觉已经出现了很久的技术,作为从业者,其实大家也就是了解,真正生活中要用到的场景还是不多,所以我知道这些项目的,但过去从来没实操过;但你如果在网络上搜索,你会发现,其实在年轻人群体中,尤其在游戏圈,游戏陪玩、语音直播、语音交友这些平台上,这是个刚需。
我放几张截图,给大家介绍下怎么用:
首先解压到本地一个纯英文的路径下,比如C:/rvc

接着,我们打开go-web.bat这个文件,会自动浏览器打开一个webui界面,这个是用来做声音训练的。默认不要调参数,只是添加实验名称,把你需要克隆的声音的素材,最好有个半分钟以上,干净环境的录音,把素材文件所在目录地址,填写到训练文件夹路径上,然后点击一键训练。一块普通的游戏显卡,基本上10分钟以内都能完成训练。

再打开另外一个文件:go-realtime-gui.bat,参数可以参考我这份参数,然后加载模型可以手动选择,因为会有一个默认的模型路径,其实就是相同路径下,你刚刚的实验名字,分别选择。然后很容易出问题的一部就是音频设备,类型一定要选择MME,然后,输入设备选择你的麦克风,输出设备这里,如果你想用微信和对方通话,那么你需要一个虚拟声卡软件,这里推荐省事一点,可以装另外一个变声软件的客户端大饼AI变声 (dubbing.tech),这里面自带了一个虚拟声卡。大饼AI变声是一个偏娱乐的实时偏生工具,里面有很多训练好的好听的声音,很多游戏陪玩就用这种软件,但它不支持随意克隆声音。所以rvc解决的是克隆的问题。当这个工具装好后,你会发现在以下界面的输出设备里,就有真么一个dubbing virturl device的设备,选择它

然后,打开微信,在呼叫另外一个人的时候,麦克风的位置,可以选择这块虚拟声卡,作为输入设备,这样你就可以用你克隆的声音来和对方通话了。

我和这位朋友变声通话后,对方反馈,音色很像,但说话的口音,语速,语调,语气都不一样,他觉得可能得找一个老乡,口音差不多的,然后来用这个还有可能,但这个人不好找。
所以这也看出来这种实时变声软件的一个问题,就是他只能克隆音色,或者说即便有能力把其他这几个特征都克隆上,但推理的性能可能也达不到,我说一句话,实时的给我换了方言和语速、语气。
所以我们有聊了另外一种方案,就是离线克隆,然后把可能和对方互动的一些问题,提前预支成几十段录音,然后根据具体的问题,然后播放声音,或者就干脆不通话,直接模拟成微信的语音留言。所以我对这个又做了一个测试,这里就用到了另外一个平台:睿声,地址如下:REECHO 睿声 – 超拟真AI语音合成与瞬时克隆平台
这个特点就是不能实时变,但耗费一些时间生成后,质量非常高。
下面的图是创建角色,克隆声音。

然后输入你想让他说的话,完成生成。

我们听一下,以下这段是原声,当然这里我用了老罗的声音,主要为了给大家演示:

然后下面这个是rvc实时克隆的声音:

然后最后这个是睿声的离线克隆:

大家看下,离线的表现还是要好很多。

最后把这两个方案都教会了我这位朋友,让他自己选择。同时对于在看这篇文章的朋友们,AI技术还在发展的早期,法律上还不是很完善,这些目前唾手可得的技术还是有可能被用来做违法的事情。一方面善用技术,另外一方面对于未来接到的朋友、家人的电话,还是要有一定的防范意识。
我相信这块未来一定会有更多规范的管理,但我不希望是一刀切,因为想我朋友的这个需求,可能真的也就无法实现了,很矛盾。

2、本周作为圆桌嘉宾,参加了首届中国数字人大会,主持人问了我几个问题,我把回答简要的放在这里,希望对你有帮助
1)主持人:近年来数字人技术发展迅速,您认为哪些突破性技术对数字人的应用产生了最大影响?未来3-5年内,还有哪些关键技术可能会出现重大突破?
我:数字人是一系列技术发展在产品端的一个表现形态。从模拟外貌、肢体动作,到声音克隆、口型对齐、模拟表情和情绪,再到基于大模型或者智能体的智能的互动,数字人的技术发展非常迅速。我认为大模型的突破是近年来最大推动力,刺激了需求端和底层硬件的发展。未来3-5年,技术将朝更精细、更真实的3D数字人方向发展,同时保证实时互动性,在硬件和算法上都有很多要突破的地方,以及空间成像技术发展,更有利于把数字人推向更多场景。
2)主持人:数字人在您所在的领域中有哪些应用,面临哪些特殊的挑战?业界是如何应对这些挑战的?
我:在企业供应链优化领域,数字人技术主要应用于协同决策。通过为企业内不同职能的角色创建数字分身,即数字化的代表,利用人工智能模型模拟他们的协同决策过程,可以显著提升复杂决策的效率。以某制造企业为例,供应链涉及销售、市场、生产、采购等多个环节,每个环节都有自己的KPI、决策风格,这些角色过去需要耗费大量精力坐在一起开会讨论企业未来的供需规划,能把这个会议开好的企业屈指可数。而数字人技术能够帮助这些角色,在会议前就完成了基于AI计算出的数据多轮讨论,给出了多套方案。决策者只需要针对数字人输出的收敛后的结论进行确认即可,从而实现整个供应链的优化和利润最大化。
3)主持人:在数字人的知识产权保护和监管方面,目前存在哪些法律空白或争议?您对未来的立法趋势有何看法?
我:数字人技术的发展确实带来了一系列法律监管挑战,尤其是在权利保护方面。无论是使用个人形象、声音还是用于训练模型的数据,都可能引发法律争议。这些争议不仅限于知识产权,还可能涉及肖像权和人格权,但新技术的发展给取证带来极大的挑战,关于未来立法和政策制定的趋势应该是在保护权利和促进产业发展之间找到平衡点,避免采取极端措施,既不应一刀切式地禁止,也不应过度放任。同时,随着技术的进步,数字人的溯源手段也将逐步得到加强和完善,比如泰尔英福这边的数字身份体系在未来就至关重要。

我建立了一个分享AI资讯、知识、工具等信息的社群(目前超过几百名群成员),现在还是免费加入,我也会经常发一些福利,比如一些工具的体验权限等。如果你想加入,请加我的微信:aipcz1900

By adampan

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注