SamAltman亲自确认下周开始推送GPT4o实时语音功能

shadowrocket • 2026年1月20日 am8:01 • Shadowrocket官网

⭐好用的小火箭节点推荐⭐Shadowrocket高速节点推荐

哪一个AI功能最令你期待？肯定有不少小伙伴都会回答 GPT-4o 的实时语音（OpenAI官方称这个功能为： Advanced Voice Mode ）功能。

实时语音功能最早亮相于OpenAI 5月13日的直播发布会上，主持人Mira Murati和两位OpenAI的研究员在直播中展示了这个极其“拟人化”的实时语音功能。在实时语音对话模式下， GPT-4o 能够快速响应用户的问题，甚至能够理解、感知用户对话时的情绪，更为重要的是，用户可以随时打断 GPT-4o 的讲话，就像是人类之间的对话一样。

不出意外，凭借这个“王炸”级别的功能，OpenAI成功吸引了所有人的好奇心。然而，发布会上提到的“将会在未来几周内上线”变成了漫长的等待。直到6月25日，OpenAI才发布了一则长文，表示由于安全方面的原因，将推迟一个月发布 GPT-4o 实时语音功能的alpha版本。

如今，一个月过去了，这个令人期待的功能终于要来了。7月25日，OpenAI CEO Sam Altman在社交媒体平台回复网友的问题时亲自确认，实时语音功能的alpha版本将于下周开始向Plus订阅用户推送！

不得不说，在这个强敌环伺的AI领域，OpenAI慌了。OpenAI画了太多的饼，包括昨天我在文章里提到的SearchGPT这个AI搜索引擎，也只是处于产品原型阶段。反观其他竞争对手Anthropic和谷歌，不断地推出新模型和新功能，比如前几天介绍过的Anthropic推出的一套完整的提示词工具，是真的好用。

关于实时语音功能

其实很多AI工具，比如现在的ChatGPT和Kimi都有语音对话功能，那么为什么还这么推荐 GPT-4o 的实时语音功能？

首先需要指出的是， GPT-4o 的实时语音功能并不仅仅是简单的语音转文字再转回语音（这是目前主流的AI语音对话的实现方式）。相比之前的版本， GPT-4o 集成了更强的语音处理技术，使得语音对话更加自然流畅。用户可以像与真人对话一样，随时打断 GPT-4o 的讲话，这种互动方式大大提升了用户体验。该功能不仅可以识别用户的语音，还能感知和回应用户的情绪变化，提供更加个性化和人性化的对话体验。

实时响应： GPT-4o 能够在几乎无延迟的情况下对用户的语音输入作出回应。这使得对话变得更加顺畅，仿佛是在与真人交谈。

情感识别：该功能可以检测用户语音中的情感变化，并相应地调整回应的语气和内容。这种能力使得互动更加贴近人类的沟通方式。

多模态处理： GPT-4o 不仅能处理语音，还能结合文本、图像和视频信息，提供更加全面的互动体验。例如，在演示中，ChatGPT支持直接通过摄像头捕捉当前画面并发送给 GPT-4o ，以此作为上下文信息进行进一步对话。

多语言支持： GPT-4o 模型支持多语言实时翻译和对话，这对于全球用户来说是一个巨大的优势，可以轻松跨语言进行交流。

结语

Sam Altman的确认其实和ChatGPT app中关于实时语音功能的解释说明是一致的。在ChatGPT app的语音模式下，点击右上角的说明按钮，就会弹出这样一则公告：We are taking additional time to reach our bar for launch and will begin the alpha with a small group of Plus users in late July . We plan for all Plus users to have access in the fall, and will let you know when you have access.

从公告里可以看出，即使是7月底开始推送alpha版本，也只是向“少部分用户”开放体验。对于不是天选之子的普通用户，我们还是等等看吧。

精选推荐

使用GPT-4o模型的5种方法，总有一种适合你！

⭐好用的小火箭节点推荐⭐Shadowrocket高速节点推荐

THE END

二维码

zookeeper技术介绍python书籍福利

< <上一篇

程序员接单日常分享案例

下一篇>>

搜索内容

SamAltman亲自确认下周开始推送GPT4o实时语音功能

⭐好用的小火箭节点推荐⭐Shadowrocket高速节点推荐

⭐好用的小火箭节点推荐⭐Shadowrocket高速节点推荐

取消回复

共有 0 条评论

Shadowrocket高速节点推荐

标签

热门文章

⭐好用的小火箭节点推荐⭐Shadowrocket高速节点推荐