OpenAI 语音克隆技术引发担忧再次解释其文本转语音工具

作者： 2024年06月10日创投浏览

IT之家 6 月 10 日消息，OpenAI 在几个月内第二次就其文本转语音工具进行解释，并再次强调该工具目前并未大范围开放，且未来也可能不会。

图源 Pexels

“无论我们最终是否会大规模部署这项技术，让世界各地的人们理解这项技术的发展方向都非常重要，”OpenAI公司周五在其网站上发布的一份声明中表示，“这就是为什么我们想要解释模型的运作方式、我们如何将其用于研究和教育，以及我们如何围绕该技术实施安全措施的原因。”

据IT之家了解，去年年底，OpenAI 与一小部分外部用户分享了其“语音引擎”。该引擎利用文本输入和 15 秒的人声音频剪辑，即可“生成听起来自然的人声，并与原始说话人非常相似”。该工具可以创建以假乱真的多语言人物声音，当时该公司表示他们选择预览这项技术而非大规模发布，是为了“增强社会抵御能力”，以应对“越来越逼真的人工智能生成模型”带来的威胁。

作为这些努力的一部分，OpenAI 表示他们正在积极淘汰使用语音识别进行银行账户验证的方式，探索保护个人声音在人工智能中使用的政策，教育公众有关人工智能的风险，并加快开发跟踪视听内容的技术，以便用户识别他们是在与真人还是合成内容进行互动。

然而，尽管做出了上述努力，人们对这项技术的担忧仍然存在。美国总统拜登的人工智能负责人布鲁斯・里德 (Bruce Reed) 曾表示，声音克隆技术是他夜不能寐的原因之一。美国联邦贸易委员会 (Federal Trade Commission) 今年 3 月表示，诈骗分子正在利用人工智能技术来提高他们欺诈行为的可信度，他们使用声音克隆工具，使得人们更难区分人工智能生成的声音和人类的声音。

OpenAI 在周五更新的声明中试图缓解这些担忧，“我们继续与来自政府、媒体、娱乐、教育、民间社会等领域的美国和国际合作伙伴接触，以确保我们在构建过程中纳入他们的反馈。”该公司还指出，一旦“语音引擎”配备了其最新模型 GPT-4o，它也将带来新的威胁。该公司表示，他们内部正在积极地“对 GPT-4o 进行‘红队测试’，以识别和解决来自社会心理学、偏见和公平以及错误信息等领域的已知和未知风险。”

python有可以将文字转化为语音的工具吗

import = ()(Hello, it works!)或者用pyttsx

文字转语音引擎怎样使用

文字转语音引擎不能单独使用，需要配合文字转语音软件，这类软件当中功能最强大的是能说会道 XP 专业版，能够利用你的文字转语音引擎读小说、新闻，还可以把你的文字内容制作成MP3文件，可以充分发挥你的语音引擎的功能与效果。

什么是语音合成技术

语音合成，又称文语转换（Text to Speech）技术，能将任意文字信息实时转化为标准流畅的语音朗读出来，相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术，是中文信息处理领域的一项前沿技术，解决的主要问题就是如何将文字信息转化为可听的声音信息，也即让机器像人一样开口说话。我们所说的“让机器像人一样开口说话”与传统的声音回放设备（系统）有着本质的区别。传统的声音回放设备（系统），如磁带录音机，是通过预先录制声音然后回放来实现“让机器说话”的。这种方式无论是在内容、存储、传输或者方便性、及时性等方面都存在很大的限制。而通过计算机语音合成则可以在任何时候将任意文本转换成具有高自然度的语音，从而真正实现让机器“像人一样开口说话”。文语转换系统实际上可以看作是一个人工智能系统。为了合成出高质量的语言，除了依赖于各种规则，包括语义学规则、词汇规则、语音学规则外，还必须对文字的内容有很好的理解，这也涉及到自然语言理解的问题。下图显示了一个完整的文语转换系统示意图。文语转换过程是先将文字序列转换成音韵序列，再由系统根据音韵序列生成语音波形。其中第一步涉及语言学处理，例如分词、字音转换等，以及一整套有效的韵律控制规则；第二步需要先进的语音合成技术，能按要求实时合成出高质量的语音流。因此一般说来，文语转换系统都需要一套复杂的文字序列到音素序列的转换程序，也就是说，文语转换系统不仅要应用数字信号处理技术，而且必须有大量的语言学知识的支持。