探索视听新纪元: ChatGPT的最新语音和图像功能全解析

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6

博主猫头虎带您 Go to New World✨

在这里插入图片描述

猫头虎建议程序员必备技术栈一览表

人工智能 AI:
Machine Learning | Deep Learning | ⚙️ TensorFlow | PyTorch | Keras | ️ NLP | ️ Computer Vision | Reinforcement Learning | Scikit-learn | GPT

博客首页——猫头虎的博客
《面试题大全专栏》 文章图文并茂生动形象简单易学欢迎大家来踩踩~
《IDEA开发秘籍专栏》 学会IDEA常用操作工作效率翻倍~
《100天精通Golang(基础入门篇》 学会Golang语言畅玩云原生走遍大小厂~


希望本文能够给您带来一定的帮助文章粗浅敬请批评指正


文章目录

探索视听新纪元: ChatGPT的最新语音和图像功能全解析


大家好我是猫头虎博主今天我要带领大家了解一下OpenAI的 #ChatGPT 刚刚更新了一些令人兴奋的视听功能 这些新增功能将使我们能够通过语音和图像与ChatGPT交流让交互变得更为直观和生动。现在让我们一起探究一下这些新功能吧
在这里插入图片描述

ChatGPT 的视听新技能

  • 发布日期: 2023年9月25日
  • 作者: OpenAI
  • 产品与公告: OpenAI刚刚为ChatGPT推出了全新的语音和图像功能让我们可以通过语音交谈或展示图像与ChatGPT交流为用户提供了一种更直观的交互方式。

这些新功能为ChatGPT的使用打开了无限可能比如在旅行时你可以拍摄一个地标然后实时交谈讨论它的历史在家里你可以拍摄冰箱和橱柜的内容确定晚餐吃什么还能得到逐步的食谱指导哦晚餐后通过拍照圈出数学题目让ChatGPT为你和你的孩子提供解题提示。

在接下来的两周内这些新功能将逐步推出给Plus和Enterprise用户。语音功能将在iOS和Android平台上推出而图像功能将在所有平台上提供。

在这里插入图片描述

与ChatGPT的语音交流

现在通过语音与你的数字助手进行往返交谈变得可能了无论是在外面还是在家里请求一个睡前故事或解决餐桌上的争论一切都变得轻而易举。

  • 如何启用语音: 只需转到移动应用的“设置”→“新功能”选择加入语音交谈。然后点击主屏幕右上角的耳机按钮并从五种不同的声音中选择你喜欢的声音。

新的语音功能由先进的文本转语音模型支持能够仅通过文本和几秒钟的样本语音生成逼真的人类音频。OpenAI与专业的配音演员合作创建了每种声音并使用开源的语音识别系统Whisper将你的话语转换成文本。

语音样例

故事
在一个宁静的树林里有一只名叫Lila的毛茸茸的妈妈猫。在一个阳光明媚的日子里她和她顽皮的小猫Milo在一棵老橡树的树荫下依偎着。

“Milo,” Lila说道她的声音柔和而温柔“你很快就会有一个新的玩伴了。”

Milo的耳朵竖了起来显得很好奇。“一个新玩伴”

Lila轻轻地呼噜着说“是的一个妹妹。”

Milo的眼睛亮了起来兴奋不已。“一个妹妹她会像我一样追逐尾巴吗”

Lila呵呵笑了。“哦她会有她自己的怪癖的。你会教她的对吧”

Milo急切地点了点头已经开始憧憬他们将来会共度的冒险时光。

选择声音
  • Juniper

图像交流

现在你可以向ChatGPT显示一张或多张图片无论是解决烧烤架无法启动的问题探索冰箱里的食物来计划一顿饭还是分析复杂的图表以处理工作相关的数据一切都变得轻而易举。

  • 如何启用图像: 点击照片按钮来捕捉或选择图像。如果你使用的是iOS或Android设备首先点击加号按钮。你还可以讨论多张图片或使用我们的绘图工具来指导你的助手。

图像理解功能由多模态 GPT-3.5 和 GPT-4 提供支持。这些模型将他们的语言推理技能应用于各种各样的图片如照片、截图和包含文本与图像的文档。

逐步推出图像和语音功能

OpenAI 的目标是建立安全、有益的通用人工智能AGI。我们相信逐步推出我们的工具这样可以使我们有时间进行改进完善风险缓解措施同时为未来更强大的系统做好准备。随着涉及声音和视觉的高级模型的出现这种策略变得更为重要。

语音

新的语音技术能够仅通过几秒钟的真实语音生成逼真的合成声音为许多创意和易用性应用打开了大门。然而这些功能也带来了新的风险比如可能被恶意行为者用来模仿公众人物或进行欺诈。

这就是为什么我们使用这项技术来支持特定的用例——语音聊天。语音聊天是与我们直接合作的声音演员创建的。我们也在与其他人以类似的方式合作。例如Spotify 正在利用这项技术的强大功能为他们的语音翻译功能的测试提供支持该功能帮助播客者通过将播客翻译成其他语言以播客者自己的声音扩展他们的故事讲述范围。

图像输入

基于视觉的模型也带来了新的挑战从关于人的幻觉到在高风险领域依赖模型的图像解释。在更广泛的部署之前我们在极端主义和科学熟练度等领域对模型进行了红队测试并与多样化的 alpha 测试者合作。我们的研究使我们能够在负责任使用的几个关键细节上达成一致。

探索视听新纪元 ChatGPT的最新语音和图像功能全解析

使视觉既有用又安全

与其他 ChatGPT 功能一样视觉功能旨在帮助你处理日常生活。它在可以看到你看到的东西时表现最好。

我们直接通过与 Be My Eyes一款为盲人和视力障碍人士提供服务的免费移动应用的合作了解了视觉功能的使用和限制。用户告诉我们他们发现在背景中恰好有人出现的图片上进行通用交谈是很有价值的比如当你试图弄清楚遥控器设置时有人出现在电视上。

我们还采取了技术措施大大限制了 ChatGPT 分析和直接陈述人的能力因为 ChatGPT 并不总是准确的而且这些系统应该尊重个人的隐私。

实际使用和反馈将帮助我们改善这些保障措施同时保持工具的实用性。

模型限制的透明度

用户可能会依赖 ChatGPT 处理一些专业话题比如研究领域。我们对模型的限制保持透明并且不鼓励在没有适当验证的情况下使用它来处理高风险的用例。此外该模型擅长转录英文文本但对一些其他语言特别是非罗马字母的语言表现不佳。我们建议非英语用户不要使用 ChatGPT 进行此类操作。

你可以在图像输入系统卡中了解更多关于我们的安全方法和与 Be My Eyes 的合作。

扩展访问权限

在接下来的两周内Plus 和 Enterprise 用户将有机会体验语音和图像功能。我们很高兴在此之后很快将这些功能推出给其他用户群体包括开发人员。

在这次更新中ChatGPT的视听功能无疑为我们提供了一个全新、直观和创意的交互方式。想象一下通过简单的语音和图像交互我们能够得到及时的帮助和信息这真是太令人兴奋了作为猫头虎博主我会继续关注ChatGPT的更新为大家带来更多的信息和使用技巧。记得保持关注哦

在这里插入图片描述

结论

通过本次的探索我们可以明显看出ChatGPT的新的视听功能为我们提供了一个更为直观和多元化的交互方式。不仅如此它还为我们打开了一个新世界的大门让我们能够通过语音和图像与数字助手进行更为丰富和实用的交流。这对于我们日常的学习、工作和生活都带来了很大的便利。随着技术的不断进步我们有理由相信ChatGPT将会持续为我们提供更为先进和人性化的功能使我们的数字生活变得更为丰富多彩。作为猫头虎博主我会继续关注ChatGPT的更新并在第一时间为大家带来最新的资讯和使用技巧。敬请期待

参考资料

  1. OpenAI. (2023, September 25). ChatGPT Can Now See, Hear, and Speak. Retrieved from https://openai.com/blog/chatgpt-can-now-see-hear-and-speak

希望你们喜欢这次的更新我们下次见

在这里插入图片描述

原创声明

======= ·

  • 原创作者 猫头虎

作者wx [ libin9iOak ]

学习复习

本文为原创文章版权归作者所有。未经许可禁止转载、复制或引用。

作者保证信息真实可靠但不对准确性和完整性承担责任

未经许可禁止商业用途。

如有疑问或建议请联系作者。

感谢您的支持与尊重。

点击下方名片加入IT技术核心学习团队。一起探索科技的未来共同成长。

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6
标签: ChatGPT