首页 > 元宇宙 > 3 秒即可模拟任何人声音,微软发布最新语音模型,网友担忧:电信诈骗门槛或再被降?

3 秒即可模拟任何人声音,微软发布最新语音模型,网友担忧:电信诈骗门槛或再被降?

摘要:过去一年以来,随着 Stable Diffusion 2.0 模型的开源,以及 ChatGPT 聊天机器人的面世,AI 在图像、文本方面取得了十足的进展。近日,微软助力 AI 在语音领域再下一城,其最新推出了一款名为 VALL-E 的全新文本转语音人工智能模型,可以基于仅有 3 秒钟的语音样本,
3 秒即可模拟任何人声音,微软发布最新语音模型,网友担忧:电信诈骗门槛或再被降?-iNFTnews

以往一年以来,伴随着 Stable Diffusion 2.0 模型的开源系统,及其 ChatGPT 对话机器人的问世,AI 在图象、文字层面获得了十足的进度。

近日,微软公司助推 AI 在语音行业再下一城,其近期发布了一款名叫 VALL-E 一个全新的文字转语音人工智能技术模型,能够根据只有 3 秒左右的语音样版,形成近乎真实的人类声音!

仅需 3 秒,就可模拟出一切声音

为了能向大众发布这一则喜讯,微软公司科研人员尤其分享一篇将近 16 页文章标题为《Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers》论文(https://valle-demo.github.io/)展开了详细描述。

令人赞不绝口是指,VALL-E 只必须对声音开展三秒钟的取样,就能清晰地模拟出这种声音的语音。

简易来说,一旦 VALL-E 懂得了别人特定声音以后,那就可以合成此人说一切说话的音频,而且还能保存说话者心态主旋律和声学设计,这就意味着文字到语音合成(TTS,Text-to-Speech)科技的一次重大进展。

那样,微软公司是怎样完成那么奇妙的科技的?

VALL-E 原理

依据官方网详细介绍,VALL-E 被称作「神经系统编码解码语言表达模型」,是以现成神经系统音频转码软件模型中提取离散变量编码练习成的。他们被是建立在一项名叫 EnCodec(https://github.com/facebookresearch/encodec)的专业技术以上。EnCodec 是 Meta 企业在 2022 年 10 月全新上线的基于深度学习的音频转码软件,是开源代码的,该服务支持单声道 24kHz 音频和环绕声 48kHz 音频。

与其它比较常见的根据控制波型合成语音的 TTS 方式不一样,以往语音合成的形式很有可能通常是鉴别语素→节奏→波型的一个过程,而 VALL-E 乃是根据语素→离散变量编码→波型那样的操作流程,存在一定的差别。

具体来说,VALL-E 将 TTS 视作一个标准语言表达模型每日任务,依据语素和声码提醒形成离散变量的音频编码解码编码,相匹配于总体目标内容与说话人声音。

在控制方式上,它大部分剖析了一个人的声音,进而根据 EnCodec 将这个信息内容转化成离散变量的部件(称之为 "动态口令"),并用训练数据来配对其所 "知晓的 "具体内容,从而形成该声音在三秒钟的样版以外说别的语句的声音。

如同微软公司在 VALL-E 文章中常说:

为了能合成个性化语音(比如,0-shot TTS),VALL-E 以 3 秒左右的样版音频和语素提醒的声学材料标识作为条件,形成对应的声音具体内容,这种声学材料标识各自牵制着说话人与具体内容信息内容。最终,产生的声音具体内容被用于与相对应神经转码软件合成最后波型。

微软公司在一个由 Meta 成立的名叫 LibriLight 的音频库上练习 VALL-E 的语音合成水平。它包括了来源于 7000 多位演讲人的 60,000 小时的英语演讲内容,绝大多数来源于 LibriVox 公共性的有声阅读。

在预训练环节,VALL-E 根据这种训练数据,微软官网称,“这个比目前系统软件大数百倍”。也为 VALL-E 真正且准确地效仿人类语言带来了一定的前提。

微软公司在 VALL-E 实例网址(https://valle-demo.github.io/)上带来了数十个人工智能技术模型运转的音频事例。

特别注意的事情,VALL-E 具有情境自学能力,并适合于合成高质量人性化语音。

以下属于"Speaker Prompt "的「气愤」声音,指的是发放给 VALL-E 务必借鉴的三秒钟音频。

对比数据结果显示,VALL-E 在语音当然度与说话人相似性层面显著好于最先进 TTS 系统软件,并且在合成中保存说话人的情绪和声音提醒的声学设计。

怎么防范 VALL-E 可能产生的安全隐患?

在运用层面上,微软公司的探索技术工程师们都做了一些构想,其推断 VALL-E 适合于高质量文字转语音运用、语音编写。自然,还可以与其它形成类的人工智能模型(如 GPT-3)融合,适合于音频具体内容的作品。

但是,不害怕技术性自身造成的影响,只怕用心可以利用 VALL-E 这种先进技术“做恶”,上文中仅是由实例的声音,大家基本上难分到底是真人版说的话还是 VALL-E 讲的话。

对于此事,许多网友们的第一反应都是:电信诈骗准入门槛也被减少了一步!

也如同一位网友分享道:

若是有人玩过 "Uplink",这让我想到了网络黑客,给网站管理员通电话,录下来她们说 "您好 "的两三句,随后自己的电脑依据这几句搭建语言表达,让她们说 "您好,我就是网站管理员。我声音是唯一标识,能够进行身份验证。"

我一直认为这不可能,你没办法用这么少的信息去完成今天的任务。如今看来,我或许不对......

或许恰好是忧虑 VALL-E 很有可能会促长捉弄和蒙骗等行为发生,现阶段微软公司并没有对外开放开源系统 VALL-E 的编码。科研人员好像也意识到此项技术性可能产生的潜在性社会发展伤害。所以在文章的结果一节中,她们写到:

“因为 VALL-E 能够合成说话者身份语音,如果它会引发乱用模型的潜在性风险,如蒙骗语音鉴别或假冒特殊说话者。为了缓解这类风险性,有可能会建立一个检验模型来判断一个音频精彩片段是不是由 VALL-E 合成的。在进一步开发设计模型时,咱们也将把微软公司 AI 标准付诸行动。”

大量小细节技术细节详细毕业论文详细地址:https://arxiv.org/pdf/2301.02111.pdf

参照连接:

https://www.rockpapershotgun.com/microsoft-unveil-vall-e-their-creepy-ai-that-can-mimic-voices#comments

https://valle-demo.github.io/

https://arstechnica.com/information-technology/2023/01/microsofts-new-ai-can-simulate-anyones-voice-with-3-seconds-of-audio/

来源:iNFTnews深层优选

Tags:
免责声明
世链财经作为开放的信息发布平台,所有资讯仅代表作者个人观点,与世链财经无关。如文章、图片、音频或视频出现侵权、违规及其他不当言论,请提供相关材料,发送到:2785592653@qq.com。
风险提示:本站所提供的资讯不代表任何投资暗示。投资有风险,入市须谨慎。
世链粉丝群:提供最新热点新闻,空投糖果、红包等福利,微信:msy2134。