ChatGPT多模态升级,支持图片和语音,体验如何?

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6

一、前言

9 月 25 日ChatGPT 多模态增加了新的语音功能图像功能。这些功能提供了一种新的、更直观的界面允许我们与 ChatGPT 进行语音对话或展示我们正在谈论的内容。

ChatGPT 现在可以看、听、和说话了而不单单是一个文本驱动的工具了。

正值十一小长假很多人选择出去旅行。ChatGPT 新推出的这项功能能否用在旅行中呢一起来看看。

二、图像交互功能

ChatGPT 在 9 月 25 日新推出的这个版本中添加了图片交互能力。

图像理解由多模态 GPT-3.5 和 GPT-4 提供支持。这些模型将其语言推理技能应用于各种图像例如照片、屏幕截图以及包含文本和图像的文档。

如何使用呢

以网页版的 ChatGPT 为例。

点输入框左侧的「图片」按钮就可以上传图片。可以上传一张或多张图片。

上传后针对图片中的内容输入我们想问的问题即可。例如就像下面这样。

看看 ChatGPT 的回答。回答得还不错看来 ChatGPT 对图像内容的理解还是可以的。

在生活中有哪些应用呢

比如刚刚上面举的这个例子景点识别

现在正值十一小长假很多人外出旅行。

当我们看到一个不知名但很有趣的景点或地标时可以拍摄照片并展示给 ChatGPT它可以帮助我们识别并提供相关信息。

如果我们在旅行中遇到技术问题如相机设置等也可以向 ChatGPT 展示问题所在获取技术支持和建议。

再来看几个官方的示例。

这个例子中上传了两张图一张是使用说明另一个是工具箱。然后向 ChatGPT 提问「工具箱中是否有正确的工具」。

另外如果要聚焦图像的特定部分还可以使用手机版 ChatGPT 中的绘图工具圈出某个位置。

这个例子是询问「如何降低自行车座」。同时使用了 ChatGPT 中的绘图工具圈出某个位置然后再进行提问。

再比如在家中拍摄冰箱和食品储藏室的照片来确定晚餐菜单并询问详细的食谱。

也可以拍摄数学问题的照片、或者工作中数据的复杂图表圈出问题并与 ChatGPT 共同探讨解决方法。

此时脑海中飘过电视上之前经常播的一个广告哪里不会点哪里~

三、语音交互功能

ChatGPT 的多模态除了新增了「图像交互功能」外还增加了「语音交互功能」。

用户可以使用语音与 ChatGPT 进行双向对话。

其实以前也是支持语音的只不过是仅限于「听」

新的语音功能由新的「text-to-speech」模型驱动能够从简短的样本语音中生成类似人类的音频。

但语音交互功能目前只在手机端可以使用。

如何使用呢

在手机端应用中点「设置」→「新功能」选择加入语音对话。

点击位于主屏幕右上角的耳机按钮然后从 5 种不同的声音中选择喜欢的声音就可以开始进行对话了。

语音功能可以用来做什么呢

比如练习外语口语让它充当你的外教老师。

再比旅途中与它交谈让它充当我们的随身导游。

或者也可以用它来为家里小孩讲睡前故事等等。

四、模型的局限性和风险

  • 用户可能依赖 ChatGPT 处理专业话题例如研究领域。不鼓励在没有适当验证的情况下使用高风险用例。
  • 模型擅长转录英文文本但在处理某些其他语言时表现不佳。

五、目前可用范围

  • 目前 ChatGPT 多模态新增的图像和语音功能只在 Plus 用户企业用户下可以使用。开发者和其他用户群体将在此后不久获得这些功能。
  • 另外语音功能只在 iOS 和 Android 上可以使用而图像功能在网页和手机上均可使用。

六、结束语

随着技术的不断进步我们正见证着人工智能领域的一次次重大突破。ChatGPT 的多模态功能不仅为我们提供了与机器交流的新方式还为我们打开了无尽的可能性。

通过语音、图像和文字的结合我们可以更加直观、高效地与 AI 助手互动从而更好地满足我们的日常需求。

正如 OpenAI 所展示的未来的 AI 将不仅仅是文字和代码而是一个能「看见」、「听到」并「说话」的实体。

关于 ChatGPT 多模态的图片功能和语音功能感兴趣的可以移步官方进一步了解

https://openai.com/blog/chatgpt-can-now-see-hear-and-speak

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6
标签: ChatGPT