OpenAI又放大招!ChatGPT现在能听能说又能看了!
2024-12-13 11:38:48来源:www.luwei123.com发布:二蛋
ChatGPT的高级语音模式(AVM)现在有视频和屏幕共享功能了!该功能将于周四开始向付费的ChatGPT Plus和Pro订阅者推出,企业和教育客户则将于一月份获得该功能。
在“12 Days of OpenAI”活动的第六天,这家人工智能初创公司宣布,ChatGPT可以识别摄像头拍摄到的或设备屏幕上显示的物体,并通过其高级语音模式功能进行响应。用户可以使用手机摄像头与ChatGPT聊天,模型将“看到”您所看到的内容。
此前,OpenAI在5月份推出GPT-4o模型时就预告了该功能。该初创公司表示,AVM由OpenAI的原生多模式4o模型提供支持,这意味着它可以处理音频输入,并以自然的对话方式做出响应。
OpenAI的视频模式感觉就像视频通话,因为ChatGPT会实时响应用户在视频中显示的内容。它可以看到用户周围的事物,识别物体,甚至记住自我介绍的人。在直播中,该公司首席产品官(CPO)Kevin Weil和其他团队成员演示了ChatGPT协助如何制作手冲咖啡。他们通过将摄像机对准冲咖啡的动作,AVM引导团队完成了冲泡过程,证明它了解咖啡机的原理。

另外,ChatGPT还可以识别屏幕上的内容。在演示中,OpenAI研究人员触发了屏幕共享,然后打开消息应用程序,请求ChatGPT帮助回复通过短信收到的照片。
这一期待已久的消息是在谷歌推出下一代旗舰模型Gemini 2.0的一天后发布的。新的Gemini 2.0可以处理视觉和音频输入,并具有更多代理功能,这意味着它可以代表用户执行多步骤任务。 Gemini 2.0的代理功能目前有三个不同名称的研究原型:用于通用AI助手的Project Astra、用于特定AI任务的Project Mariner ,以及用于开发人员的Project Jules。
另外,上周,微软也发布了Copilot Vision的预览版,它可以让Pro订阅者在浏览网页时打开Copilot聊天。 Copilot Vision可以查看屏幕上的照片,甚至可以帮忙玩地图猜谜游戏。谷歌的Project Astra也可以用同样的方式读取浏览器。
OpenAI也不甘示弱,其演示展示了ChatGPT的视觉模式如何准确识别物体,甚至是可中断的,其中还包括语音模式下的圣诞老人语音选项,声音低沉、欢快,还有很多“ho-ho-hos(呵呵呵)”。用户可以通过点击ChatGPT中的雪花图标与OpenAI版本的圣诞老人聊天。媒体开玩笑说道,目前尚不清楚到底是真正的圣诞老人为AI训练贡献了自己的声音,还是OpenAI在未经事先同意的情况下使用了他的声音。
此前,具有视觉功能的高级语音模式已被多次推迟。据报道,部分原因是OpenAI在准备好之前就早早宣布了该功能。今年4月,OpenAI承诺将在“几周内”向用户推出高级语音模式。几个月后,该公司仍表示需要更多时间。
上一篇: 人权组织怒批:以色列空袭黎巴嫩“非法”!应按战争罪进行调查 下一篇: 最后一篇
相关阅读
- 12-13 人权组织怒批:以色列空袭黎巴嫩“非法”!应按战争罪进行调查
- 12-13 美国股坛“明灯”:特朗普敲钟对投资者来说是一个积极信号
- 12-13 艾尔登法环续作《艾尔登法环:黑夜君临》截图曝光:将于2025年发布
- 12-13 《黑神话:悟空》TGA最佳游戏奖引发网友热议 冯骥未上台领奖原因揭秘
- 12-13 《Split Fiction》首次曝光!雾影工作室新作明年发售
- 12-13 《幻裂奇境》女双人合作游戏公布!2025年发售
- 12-13 贾跃亭再次交付一辆FF 91 这次车主是超模兼设计师
- 12-13 AMD Krackan Point APU曝光:5.05 GHz,单核比8845HS快14.3%、多核快6.37%
- 12-13 “智创世界 产驭未来” 2024雄安新区智能机器人产业发展大会圆满落幕
- 12-13 李开复周志华纵论AI大模型,万字梳理MEET'25大咖激辩,320万观众同见证
- 12-13 迎接AI挑战,联想携手英特尔构建新一代智算网络
- 12-13 显卡说涨价就涨价!英伟达全球GPU市场占比90%:AMD、英特尔没存在感