近日,9月25日,OpenAI在官网更新ChatGPT,宣称ChatGPT已具备“看”“听”“说”的能力,并在ChatGPT中推出新的语音和图像功能,新功能将于未来两周面向企业用户和开发人员推出。新功能由“多模态”模型GPT-3.5和GPT-4提供支持。这两大模型将其语言推理演算等技能应用于各种图像及文本文档中。
ChatGPT已有语音交互能力,用户可从已有的Juniper、Sky、Cove、Ember和Breeze等五种不同的声音中说出用户问题,ChatGPT可给出答案,ChatGPT也可使用开源语音识别系统Whisper将用户的语音信息转换成文本信息;ChatGPT也可以根据几秒钟的语音中制作出逼真的合成语音,但这功能也有风险,可以冒充公众人物声音或实施欺诈的可能。ChatGPT新的图像功能可以自行推理,可根据用户拍摄或上传的各种图像,根据用户提出的问题给出用户答案;例如用ChatGPT在家做饭时拍摄冰箱里面食材照片,可以确定晚餐菜单,还可以获取食谱;使用手机拍一下单车的照片,并且可以询问ChatGPT如何调节座椅,ChatGPT可以根据图片,给出相应步骤;ChatGPT可通过拍照、圈出问题集给您的孩子提示,帮助解决数学问题。
由此看出,新语音和图像功能的推出使ChatGPT的功能越来越强大,越来越完善;ChatGPT可根据个人及工作需求执行复杂任务,更好地协助人们工作,未来AI发展方向就是要做到通畅的人机交互,理解复杂的图像和语音世界,当然有好处也有坏处,官网也说明了人工智能AI可以冒充公众人物声音或实施欺诈的可能,也要注意这方面,未来可能会出现“T800”吗?期待人工智能往更好方向发展。