SamAltman亲自确认下周开始推送GPT4o实时语音功能
哪一个AI功能最令你期待?肯定有不少小伙伴都会回答 GPT-4o 的 实时语音 (OpenAI官方称这个功能为: Advanced Voice Mode )功能。
实时语音功能最早亮相于OpenAI 5月13日的直播发布会上,主持人Mira Murati和两位OpenAI的研究员在直播中展示了这个极其“拟人化”的实时语音功能。在实时语音对话模式下, GPT-4o 能够快速响应用户的问题,甚至能够理解、感知用户对话时的情绪,更为重要的是,用户可以随时打断 GPT-4o 的讲话,就像是人类之间的对话一样。

不出意外,凭借这个“王炸”级别的功能,OpenAI成功吸引了所有人的好奇心。然而,发布会上提到的“将会在未来几周内上线”变成了漫长的等待。直到6月25日,OpenAI才发布了一则长文,表示由于安全方面的原因,将推迟一个月发布 GPT-4o 实时语音功能的alpha版本。
如今,一个月过去了,这个令人期待的功能终于要来了。7月25日,OpenAI CEO Sam Altman在社交媒体平台回复网友的问题时亲自确认,实时语音功能的alpha版本将于下周开始向Plus订阅用户推送!

不得不说,在这个强敌环伺的AI领域,OpenAI慌了。OpenAI画了太多的饼,包括昨天我在文章里提到的SearchGPT这个AI搜索引擎,也只是处于产品原型阶段。反观其他竞争对手Anthropic和谷歌,不断地推出新模型和新功能,比如前几天介绍过的Anthropic推出的一套完整的提示词工具,是真的好用。
关于实时语音功能
其实很多AI工具,比如现在的ChatGPT和Kimi都有语音对话功能,那么为什么还这么推荐 GPT-4o 的实时语音功能?

首先需要指出的是, GPT-4o 的实时语音功能并不仅仅是简单的语音转文字再转回语音(这是目前主流的AI语音对话的实现方式)。相比之前的版本, GPT-4o 集成了更强的语音处理技术,使得语音对话更加自然流畅。用户可以像与真人对话一样,随时打断 GPT-4o 的讲话,这种互动方式大大提升了用户体验。该功能不仅可以识别用户的语音,还能感知和回应用户的情绪变化,提供更加个性化和人性化的对话体验。
实时响应 : GPT-4o 能够在几乎无延迟的情况下对用户的语音输入作出回应。这使得对话变得更加顺畅,仿佛是在与真人交谈。
情感识别 :该功能可以检测用户语音中的情感变化,并相应地调整回应的语气和内容。这种能力使得互动更加贴近人类的沟通方式。
多模态处理 : GPT-4o 不仅能处理语音,还能结合文本、图像和视频信息,提供更加全面的互动体验。例如,在演示中,ChatGPT支持直接通过摄像头捕捉当前画面并发送给 GPT-4o ,以此作为上下文信息进行进一步对话。
多语言支持 : GPT-4o 模型支持多语言实时翻译和对话,这对于全球用户来说是一个巨大的优势,可以轻松跨语言进行交流。
结语
Sam Altman的确认其实和ChatGPT app中关于实时语音功能的解释说明是一致的。在ChatGPT app的语音模式下,点击右上角的 说明 按钮,就会弹出这样一则公告:We are taking additional time to reach our bar for launch and will begin the alpha with a small group of Plus users in late July . We plan for all Plus users to have access in the fall, and will let you know when you have access.

从公告里可以看出,即使是7月底开始推送alpha版本,也只是向“少部分用户”开放体验。对于不是天选之子的普通用户,我们还是等等看吧。
精选推荐
使用GPT-4o模型的5种方法,总有一种适合你!



共有 0 条评论