近日OpenAI宣布推出一项创新的声音克隆技术——“Voice Engine”。该技术能够在极短的时间内,通过简单的文本输入和15秒的音频样本,复刻出与原始说话者极为相似的语音,其情感表达丰富且自然逼真。
“Voice Engine”技术的研发始于2022年,目前已成功集成到OpenAI的文本转语音API和Read Aloud功能中。该技术的核心优势在于其高效率和高质量,仅需15秒的音频样本即可生成精准的语音复刻,极大地节省了传统声音复刻所需的时间和资源。
OpenAI认为,“Voice Engine”技术在多个领域都有着广泛的应用前景。在阅读辅助和语言翻译领域,它能够提供更为自然的语音输出,极大地提升用户的听觉体验。此外,对于言语障碍患者,该技术提供了一种全新的交流方式,帮助他们更好地融入社会。
OpenAI高度重视合成语音技术的潜在风险,目前仅对少数可信合作伙伴开放小规模测试。公司致力于深入了解技术的潜在应用,并积极评估可能带来的风险。同时,OpenAI也倡导社会各界共同参与到合成语音技术负责任部署的讨论中,探索适应这一新型技术的最佳途径。
为了确保“Voice Engine”技术的安全使用,OpenAI采取了一系列严格的安全措施。其中包括使用水印技术追踪音频来源,以及对系统使用方式的主动监控。此外,公司计划在产品正式推向市场时,设立一个“禁止语音列表”,以检测并阻止与名人声音过于相似的人工智能生成声音,从而避免潜在的版权和隐私问题。
OpenAI将继续致力于“Voice Engine”技术的研发和完善,旨在为用户提供更加安全、高效和自然的声音复刻体验。公司期待与全球合作伙伴一起,推动这一技术在各个领域的广泛应用,同时确保其负责任地服务于社会。