OpenAI向部分ChatGPT Plus用户开放GPT-4o语音模式，可提供更自然实时对话 - 站长新闻

近日，人工智能领域的领军企业OpenAI宣布了一项重要更新：即日起，将向部分ChatGPT Plus订阅用户开放GPT-4o的语音模式（Alpha版本），并计划在今年秋季逐步推广至所有ChatGPT Plus用户。这一消息标志着OpenAI在推动自然语言处理与语音交互技术融合方面迈出了重要一步。

GPT-4o作为OpenAI最新研发的跨文本、视觉和音频的端到端统一模型，其独特的之处在于能够同时处理所有类型的输入和输出，通过同一个神经网络实现无缝衔接。这一特性不仅提升了模型的综合处理能力，也为用户带来了更加自然、实时的对话体验。

据OpenAI首席技术官米拉·穆拉蒂此前透露，GPT-4o是OpenAI首次尝试将文本、视觉和音频模式全面融合的模型，目前仍处于功能探索和局限性评估的初期阶段。尽管面临诸多挑战，但OpenAI团队对于GPT-4o的潜力充满信心，并致力于不断优化和完善该模型。

原定于今年6月底启动的GPT-4o语音模式测试因需更多时间进行模型打磨而推迟。OpenAI方面表示，他们正致力于提升模型检测和拒绝不当内容的能力，以确保用户体验的纯净与安全。经过一段时间的努力，GPT-4o语音模式现已提前向部分ChatGPT Plus用户开放，预示着这一创新技术即将进入更广泛的用户群体。

与GPT-3.5和GPT-4相比，GPT-4o在语音交流方面的表现尤为出色。据悉，GPT-3.5模型的平均语音反馈延迟为2.8秒，而GPT-4则延长至5.4秒，这在一定程度上影响了语音交流的流畅性。而GPT-4o通过技术优化，极大地缩短了延迟时间，实现了近乎无缝的对话体验。此外，GPT-4o语音模式还具备快速反应和声音逼真等特征，能够感知并模拟语音中的情感语调，如悲伤、兴奋或歌唱等，为用户带来更加生动、自然的交流感受。

值得注意的是，OpenAI在推广GPT-4o语音模式的同时，也强调了其对于用户隐私和安全的重视。公司发言人林赛·麦卡勒姆表示，ChatGPT不会假冒任何人的声音，包括个人和公众人物的声音，并将严格限制与预设声音不符的输出内容。这一措施旨在保护用户的合法权益和隐私安全，确保GPT-4o语音模式的健康、有序发展。

随着GPT-4o语音模式的逐步推广，我们有理由相信，OpenAI将继续引领人工智能技术的创新与发展，为用户带来更加智能、便捷、安全的语音交互体验。

┃ 来源: 网络转载

┃ 标签: ChatGPT Plus,GPT-4o,OpenAI,更新,语音模式

上一篇： AMD发布第二季度财报：营收稳健增长，AI芯片业务成亮点

下一篇： OpenAI入局AI搜索 SearchGPT演示中“翻车”