OpenAI又放大招！ChatGPT现在能听能说又能看了！

2024-12-13 12:13:14来源：www.luwei123.com发布：二蛋

OpenAI又放大招！ChatGPT最新的高级语音模式可以实时对视频和屏幕共享内容作出响应。圣诞将至，语音功能还新增了圣诞老人模式。

ChatGPT的高级语音模式（AVM）现在有视频和屏幕共享功能了！该功能将于周四开始向付费的ChatGPT Plus和Pro订阅者推出，企业和教育客户则将于一月份获得该功能。

在“12 Days of OpenAI”活动的第六天，这家人工智能初创公司宣布，ChatGPT可以识别摄像头拍摄到的或设备屏幕上显示的物体，并通过其高级语音模式功能进行响应。用户可以使用手机摄像头与ChatGPT聊天，模型将“看到”您所看到的内容。

此前，OpenAI在5月份推出GPT-4o模型时就预告了该功能。该初创公司表示，AVM由OpenAI的原生多模式4o模型提供支持，这意味着它可以处理音频输入，并以自然的对话方式做出响应。

OpenAI的视频模式感觉就像视频通话，因为ChatGPT会实时响应用户在视频中显示的内容。它可以看到用户周围的事物，识别物体，甚至记住自我介绍的人。在直播中，该公司首席产品官（CPO）Kevin Weil和其他团队成员演示了ChatGPT协助如何制作手冲咖啡。他们通过将摄像机对准冲咖啡的动作，AVM引导团队完成了冲泡过程，证明它了解咖啡机的原理。

图片来自视频截图

另外，ChatGPT还可以识别屏幕上的内容。在演示中，OpenAI研究人员触发了屏幕共享，然后打开消息应用程序，请求ChatGPT帮助回复通过短信收到的照片。

这一期待已久的消息是在谷歌推出下一代旗舰模型Gemini 2.0的一天后发布的。新的Gemini 2.0可以处理视觉和音频输入，并具有更多代理功能，这意味着它可以代表用户执行多步骤任务。 Gemini 2.0的代理功能目前有三个不同名称的研究原型：用于通用AI助手的Project Astra、用于特定AI任务的Project Mariner ，以及用于开发人员的Project Jules。

另外，上周，微软也发布了Copilot Vision的预览版，它可以让Pro订阅者在浏览网页时打开Copilot聊天。 Copilot Vision可以查看屏幕上的照片，甚至可以帮忙玩地图猜谜游戏。谷歌的Project Astra也可以用同样的方式读取浏览器。

OpenAI也不甘示弱，其演示展示了ChatGPT的视觉模式如何准确识别物体，甚至是可中断的，其中还包括语音模式下的圣诞老人语音选项，声音低沉、欢快，还有很多“ho-ho-hos（呵呵呵）”。用户可以通过点击ChatGPT中的雪花图标与OpenAI版本的圣诞老人聊天。媒体开玩笑说道，目前尚不清楚到底是真正的圣诞老人为AI训练贡献了自己的声音，还是OpenAI在未经事先同意的情况下使用了他的声音。

此前，具有视觉功能的高级语音模式已被多次推迟。据报道，部分原因是OpenAI在准备好之前就早早宣布了该功能。今年4月，OpenAI承诺将在“几周内”向用户推出高级语音模式。几个月后，该公司仍表示需要更多时间。

本站内容来源于互联网，旨在传递更多信息，并不意味着本站赞同其观点或证实其真实性。若涉及侵权问题，请与我们联系，我们将尽快予以处理

上一篇： 美联储中性利率成谜，华尔街押注严重分裂 下一篇： 最后一篇

OpenAI又放大招！ChatGPT现在能听能说又能看了！

相关阅读

热门资讯