ChatGPT迎来大升级，已具备看、听、说能力，人工智能全方面进入人类世界

近日，9月25日，OpenAI在官网更新ChatGPT，宣称ChatGPT已具备“看”“听”“说”的能力，并在ChatGPT中推出新的语音和图像功能，新功能将于未来两周面向企业用户和开发人员推出。新功能由“多模态”模型GPT-3.5和GPT-4提供支持。这两大模型将其语言推理演算等技能应用于各种图像及文本文档中。

ChatGPT已有语音交互能力，用户可从已有的Juniper、Sky、Cove、Ember和Breeze等五种不同的声音中说出用户问题，ChatGPT可给出答案，ChatGPT也可使用开源语音识别系统Whisper将用户的语音信息转换成文本信息；ChatGPT也可以根据几秒钟的语音中制作出逼真的合成语音，但这功能也有风险，可以冒充公众人物声音或实施欺诈的可能。ChatGPT新的图像功能可以自行推理，可根据用户拍摄或上传的各种图像，根据用户提出的问题给出用户答案；例如用ChatGPT在家做饭时拍摄冰箱里面食材照片，可以确定晚餐菜单，还可以获取食谱；使用手机拍一下单车的照片，并且可以询问ChatGPT如何调节座椅，ChatGPT可以根据图片，给出相应步骤；ChatGPT可通过拍照、圈出问题集给您的孩子提示，帮助解决数学问题。

由此看出，新语音和图像功能的推出使ChatGPT的功能越来越强大，越来越完善；ChatGPT可根据个人及工作需求执行复杂任务，更好地协助人们工作，未来AI发展方向就是要做到通畅的人机交互，理解复杂的图像和语音世界，当然有好处也有坏处，官网也说明了人工智能AI可以冒充公众人物声音或实施欺诈的可能，也要注意这方面，未来可能会出现“T800”吗？期待人工智能往更好方向发展。

玩酷网

ChatGPT迎来大升级，已具备看、听、说能力，人工智能全方面进入人类世界

胜展