OpenAI又放大招!ChatGPT现在能听能说又能看了!
2024-12-13 12:13:14来源:www.luwei123.com发布:二蛋
OpenAI又放大招!ChatGPT最新的高级语音模式可以实时对视频和屏幕共享内容作出响应。圣诞将至,语音功能还新增了圣诞老人模式。
ChatGPT的高级语音模式(AVM)现在有视频和屏幕共享功能了!该功能将于周四开始向付费的ChatGPT Plus和Pro订阅者推出,企业和教育客户则将于一月份获得该功能。
在“12 Days of OpenAI”活动的第六天,这家人工智能初创公司宣布,ChatGPT可以识别摄像头拍摄到的或设备屏幕上显示的物体,并通过其高级语音模式功能进行响应。用户可以使用手机摄像头与ChatGPT聊天,模型将“看到”您所看到的内容。
此前,OpenAI在5月份推出GPT-4o模型时就预告了该功能。该初创公司表示,AVM由OpenAI的原生多模式4o模型提供支持,这意味着它可以处理音频输入,并以自然的对话方式做出响应。
OpenAI的视频模式感觉就像视频通话,因为ChatGPT会实时响应用户在视频中显示的内容。它可以看到用户周围的事物,识别物体,甚至记住自我介绍的人。在直播中,该公司首席产品官(CPO)Kevin Weil和其他团队成员演示了ChatGPT协助如何制作手冲咖啡。他们通过将摄像机对准冲咖啡的动作,AVM引导团队完成了冲泡过程,证明它了解咖啡机的原理。
图片来自视频截图
另外,ChatGPT还可以识别屏幕上的内容。在演示中,OpenAI研究人员触发了屏幕共享,然后打开消息应用程序,请求ChatGPT帮助回复通过短信收到的照片。
这一期待已久的消息是在谷歌推出下一代旗舰模型Gemini 2.0的一天后发布的。新的Gemini 2.0可以处理视觉和音频输入,并具有更多代理功能,这意味着它可以代表用户执行多步骤任务。 Gemini 2.0的代理功能目前有三个不同名称的研究原型:用于通用AI助手的Project Astra、用于特定AI任务的Project Mariner ,以及用于开发人员的Project Jules。
另外,上周,微软也发布了Copilot Vision的预览版,它可以让Pro订阅者在浏览网页时打开Copilot聊天。 Copilot Vision可以查看屏幕上的照片,甚至可以帮忙玩地图猜谜游戏。谷歌的Project Astra也可以用同样的方式读取浏览器。
OpenAI也不甘示弱,其演示展示了ChatGPT的视觉模式如何准确识别物体,甚至是可中断的,其中还包括语音模式下的圣诞老人语音选项,声音低沉、欢快,还有很多“ho-ho-hos(呵呵呵)”。用户可以通过点击ChatGPT中的雪花图标与OpenAI版本的圣诞老人聊天。媒体开玩笑说道,目前尚不清楚到底是真正的圣诞老人为AI训练贡献了自己的声音,还是OpenAI在未经事先同意的情况下使用了他的声音。
此前,具有视觉功能的高级语音模式已被多次推迟。据报道,部分原因是OpenAI在准备好之前就早早宣布了该功能。今年4月,OpenAI承诺将在“几周内”向用户推出高级语音模式。几个月后,该公司仍表示需要更多时间。
上一篇: 美联储中性利率成谜,华尔街押注严重分裂 下一篇: 最后一篇
相关阅读
- 12-13 美联储中性利率成谜,华尔街押注严重分裂
- 12-13 科大讯飞旗下讯飞医疗通过上市聆讯:上半年营收2.29亿,同比增17%
- 12-13 特朗普新动作!寻求缩减或取消银行监管机构,支持美国码头工人
- 12-13 美国股坛“明灯”:特朗普敲钟对投资者来说是一个积极信号
- 12-13 纳斯达克100指数年度调整在即!这11家公司或迎来股价飙升机会
- 12-13 AI业务放量!6万亿巨头盘后大涨15%
- 12-13 市场突变!港股、A股全线杀跌,发生了什么?
- 12-13 Crypto AI,方兴未艾还是泡沫时刻?
- 12-13 一鲸鱼2小时前从币安提取了841万枚PNUT,价值1068万美元
- 12-13 Greeks.live:本周行情以调整为主,临近圣诞节和年度交割,做市商开始调整头寸
- 12-13 ODOS 空投查询现已开放,空投申领将于 12 月 20 日开放
- 12-13 Coinbase国际站将上线Movement永续合约