ChatGPT Vision初体验

阿里云国内75折回扣微信号：monov8

阿里云国际，腾讯云国际，低至75折。AWS 93折免费开户实名账号代冲值优惠多多微信号：monov8 飞机：@monov6

本周OpenAI为其广受欢迎的 ChatGPT 平台发布了一项突破性的补充。除了处理文本之外ChatGPT 现在还可以处理图像并聊天。

很难夸大这件事的重要性。目前多达70% 的内容是视觉内容而不是书面内容。人们每年会生成数千张照片而当今许多最大的平台YouTube、TikTok、Instagram很大程度上都是视觉化的。

人们越来越多地选择以视觉方式与机器交互。通过最新升级ChatGPT 现在可以参与该过程。

Visual ChatGPT 将在接下来的几周内向部分 ChatGPT Plus 用户推出。我是第一批获得访问权限的用户之一。以下是这个非凡的新型生成人工智能功能的初步介绍以及它可以做的一些事情。

与 ChatGPT 进行视觉交互

与 ChatGPT 的视觉交互非常简单。获得访问权限的用户现在可以在 ChatGPT 界面中的“发送消息”字段旁边看到一个小图像图标。

除了输入文本提示之外您现在还可以随文本一起上传图像。这允许您提出有关图像的问题或者让 ChatGPT 分析图像的视觉内容并与您讨论它。

编写替代文本

我使用 ChatGPT Vision 测试的第一个任务新功能没有正式名称所以我这么称呼它是为图像编写替代文本。

对于使用屏幕阅读器浏览互联网的视障人士来说替代文本至关重要。替代文本附加到博客或网站上的图像。文字描述了图像的视觉内容以便看不到图像的人仍然可以理解其含义。

编写好的替代文本既困难又昂贵。很多网站站长懒得去做或者做得不好。这使得视障用户更难访问互联网。它还会对网站的搜索引擎优化产生负面影响。

我决定看看 ChatGPT Vision 如何为图像编写替代文本。我上传了这张图片并要求它“为此图片编写高质量的替代文本”

这就是它给我的

标有“SIGNET”的壁挂式分配系统具有三个装有清洁溶液的半透明容器。从左到右容器上贴有红色标签“硬表面消毒剂”蓝色“玻璃和多表面清洁剂”以及绿色“重型无氯洗手间消毒剂”。分配器上方有说明贴纸上面有指示正确使用方法的图表。每个容器的侧面都有一个测量刻度并连接到用于分配的管道系统。

这太妙了替代文本不仅仅描述了图像的基本信息“墙上的管道和清洁溶液”。

相反它提供了足够详细的图像视觉细节每种清洁溶液的颜色、它们从左到右的相对位置以及每个图像上的文本以便视障人士可以轻松理解图像显示的内容。

ChatGPT Vision 在大约 10 秒内生成了替代文本速度也非常快。我可以看到新系统对于网络可访问性来说是一个巨大的福音。出版商可以使用 ChatGPT 视觉为自己的图像编写更好的替代文本视障用户可以使用它为缺乏实时替代文本的图像编写替代文本。

分析我的香料架

对于我的下一个实验我上传了一张香料架的照片。我要求 ChatGPT Vision 列出我拥有的香料。我还问它哪些香料快用完了。

令人惊讶的是ChatGPT Vision 不仅列出了香料还认可了它们的品牌名称

芝麻数量看起来不错

莫顿海盐无法从图像中确定数量

365 姜末数量看起来不错

365 肉桂数量看起来不错

味好美辣椒粉数量看起来不错

麦考密克粗黑胡椒粉无法从图像中确定数量

365 辣椒粉数量看起来不错

味考密克完美捏意大利无法从图像中确定数量

姜黄粉无法从图像中确定数量

365 白胡椒粉数量看起来不错

孜然粉无法从图像中确定数量