图片来源:由无界AI生成

图片来源:由无界AI生成

12月13日,OpenAI在其12天发布会的第六天,重磅推出了高级语音视觉功能(Advanced Voice with Vision)。这意味着ChatGPT现在能够通过视觉和听觉与用户互动,提供实时的视觉互动体验,就像与真人视频聊天一样自在。

自当地时间12月5日起,OpenAI开启了一个密集的新功能发布周期,计划在接下来的12天内通过12场直播活动陆续推出新产品和功能。在此之前,OpenAI已经陆续发布了多项创新,包括ChatGPT Pro计划、强化微调技术、Sora、交互界面Canvas,以及如何在iPhone或Mac上的Siri中以多种方式集成ChatGPT。

值得注意的是,OpenAI在第六天发布的高级语音视觉功能,其实在5月份已经展示过。该项技术随着GPT-4o模型的发布而一同展示,允许ChatGPT在进行语音对话时同时处理视觉信息,例如通过视频输入设备识别图像。此外,该技术还提供了更加自然、实时的对话体验,并且能够识别非语言细节,如说话的速度,并带有情感地回应。

更令人兴奋的是,12月期间,OpenAI用户将体验到一个带有英式英语口音的圣诞老人声音,能够自然的与人类进行视频对话。从周四开始,ChatGPT移动应用将开始向全球(欧洲除外)的Teams、Plus和Pro订阅者推出高级语音视觉功能。

OpenAI第六天的发布会由首席产品官凯文·韦尔(Kevin Weil)领衔,语音和视觉技术专家杰基·香农(Jackie Shannon)、米歇尔·秦(Michelle Qin)和罗文·泽勒斯(Rowan Zellers)也参与直播活动。

在演示环节,ChatGPT展现了其在视频、语音和文本记忆方面的显著进步。它甚至能够在仅通过语音描述的情况下记住摄像头中出现的人名。高级语音功能以其原生的多模态交互,使得对话更加自然流畅。此外,它还支持视频通话和屏幕共享功能,使用户能够向ChatGPT展示应用程序,以便获得故障排除的协助。通过“共享屏幕”功能,用户可以向ChatGPT展示手机上的任何应用。无论是打开一条消息还是其他任何内容,用户都可以向ChatGPT寻求回复建议。令人印象深刻的是,ChatGPT还能识别出用户当前正在使用的具体是哪一款应用。

在另一场演示中,视觉技术专家罗文·泽勒斯(Rowan Zellers)在准备手冲咖啡时启动了ChatGPT的视觉识别功能。ChatGPT不仅成功识别了他头上戴着的圣诞帽和手中的咖啡滴滤器,还能够逐步指导他完成手冲咖啡的整个制作过程。在整个演示过程中,ChatGPT的高级语音功能展现出了自然而友好的语调,甚至在对话中适时地发出笑声,给人一种仿佛在与真人交流的感觉。

OpenAI的高级语音视觉功能与谷歌的Project Astra项目相似,后者在本周谷歌Gemini 2.0的更新中也得到了进一步的增强。

高级语音视觉功能信息汇总:

–高级语音模式(Advanced Voice Mode)现已增加了屏幕共享和视觉识别能力,能够根据用户手机摄像头捕捉的画面或屏幕上显示的信息提供相应的辅助。

–这些新功能在高级语音模式已经擅长的领域–模拟人类的日常对话–上进一步扩展。这些对话不仅能够被随时打断,支持多轮互动,还能理解跳跃性的思维模式。

–在演示环节,演示者依据ChatGPT及语音视觉功能的指引来制作咖啡。在演示者逐步操作的过程中,ChatGPT会同步提供口头的建议和指导。

–圣诞节期间,OpenAI特别推出了圣诞老人的声音功能。用户只需点击界面上的雪花图标,即可轻松激活。无论用户身在何处,只要能够使用ChatGPT的语音模式,就能体验到圣诞老人的声音。而且,当用户首次与圣诞老人对话时,可以尽情与圣诞老人畅谈,不受使用限制的影响。

–从今日起,最新的移动应用将逐步向所有Team用户及大部分Pro和Plus订阅者推出高级语音视觉功能。对于欧洲的Pro和Plus用户,OpenAI将尽快提供这项服务。至于企业用户和教育用户,他们将在明年年初获得访问权限。

Source

Visited 2 times, 1 visit(s) today
Subscribe
Notify of
guest
0 Comments
Most Voted
Newest Oldest
Inline Feedbacks
View all comments
0
Would love your thoughts, please comment.x
()
x