ChatGPT近日爆出了2个王炸级技能,语音和图像功能,并提供了新的、更直观的交互界面,允许你直接跟ChatGPT进行语音对话,或将讨论内容以图像的形式与ChatGPT展开讨论。
以前的ChatGPT,顶多具备了文本的读、写能力,如今通过语音和图像功能,迅速具备了听、说、读图能力,通过简单的拓展,将能快速实现ChatGPT的视觉!
此次推出的语音和图像功能,为用户提供了更多在生活中使用ChatGPT的方法。例如,在旅行时拍一张地标的照片,并就它的有趣之处进行实时语音对话;当你下班回到家的时候,拍下你的冰箱和食品储藏室的照片,找出晚餐要吃什么,并问一些后续的问题,以获得更适合你的食谱;晚饭后,帮你的孩子做数学题,拍张照片,圈出问题,让它和你俩分享解题思路和知识点,并进行举一反三练习。
OpenAI将在近2周内,向Plus和企业用户推出ChatGPT的语音和图像功能。语音功能支持iOS和Android(你可以在你的设置中主动选择加入),图像功能支持所有平台。
接下来让我们一起来看看具体的功能。
1. 与ChatGPT进行多轮语音对话
你可以随时随地使用语音与ChatGPT进行来回对话,快速的获取ChatGPT的帮助。例如,你在开车回家的路上跟ChatGPT说话,让它为你的家人讲一个睡前故事,或者让某个预定角色与你展开一场激烈的辩论演练。
如果你想开始使用语音功能,可以打开移动端APP的“设置->新功能”菜单,并选择语音对话,然后,点击位于主屏幕右上角的耳机按钮,从五种不同的声音中选择您喜欢的声音。
新的语音功能,以文生语音模型和语音识别模型Whisper为技术底座,并采用专业的配音演员配音,同时能实时将你的话转换成文本,也能够根据文本和几秒钟的真实语音样本实时合成逼真的克隆音频。
细思极恐,现在的语音合成厂商还能活多久?
2. 与ChatGPT进行多轮图片对话
你可以使用一张或者多张图片与ChatGPT进行沟通交流。它可以帮你解决生活中遇到的难题,比如帮你排查烤架无法启动的原因,帮你用冰箱里剩余的菜准备一顿晚餐,或者帮你分析与工作相关的复杂报表。如果你想针对图片中的某部分进行沟通,你可以使用App中的绘图工具进行标注。
在开始前,请点击照片按钮来截屏或选择图像。如果你用的是iOS或Android,先点击加号键。你也可以同时针对多张图片进行对话,并且可以使用我们的绘图工具在图片中标注对话的焦点,从而去引导ChatGPT进行回复。
新的图像功能,以多模态模型GPT-3.5和GPT-4为技术底座,将图像的识别、理解与推理能力运用到使用场景中,能聚焦用户关注的点进行沟通对话,支持各种各样的图像或文档,例如照片、屏幕截图或同时包含文本和图像的文档。
这个能力,稍加拓展,就可以形成GPT的视觉能力,这意味着什么?AI已经具备了基本的与人交互的能力,再升级升级理解和推理能力,还有什么不能做的呢?
在如今经济低迷的情况下,还得面对AI带来的挑战,作为普通人的我们,你离失业还有多远?你有没有想过自己如何不被AI替代?
关注我们,带你一起突破瓶颈!