ChatGPT Vision初体验

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6

本周OpenAI为其广受欢迎的 ChatGPT 平台发布了一项突破性的补充。除了处理文本之外ChatGPT 现在还可以处理图像并聊天。

很难夸大这件事的重要性。目前多达70% 的内容是视觉内容而不是书面内容。人们每年会生成数千张照片而当今许多最大的平台YouTube、TikTok、Instagram很大程度上都是视觉化的。

人们越来越多地选择以视觉方式与机器交互。通过最新升级ChatGPT 现在可以参与该过程。

Visual ChatGPT 将在接下来的几周内向部分 ChatGPT Plus 用户推出。我是第一批获得访问权限的用户之一。以下是这个非凡的新型生成人工智能功能的初步介绍以及它可以做的一些事情。

与 ChatGPT 进行视觉交互

与 ChatGPT 的视觉交互非常简单。获得访问权限的用户现在可以在 ChatGPT 界面中的“发送消息”字段旁边看到一个小图像图标。

除了输入文本提示之外您现在还可以随文本一起上传图像。这允许您提出有关图像的问题或者让 ChatGPT 分析图像的视觉内容并与您讨论它。

编写替代文本

我使用 ChatGPT Vision 测试的第一个任务新功能没有正式名称所以我这么称呼它是为图像编写替代文本。

对于使用屏幕阅读器浏览互联网的视障人士来说替代文本至关重要。替代文本附加到博客或网站上的图像。文字描述了图像的视觉内容以便看不到图像的人仍然可以理解其含义。

编写好的替代文本既困难又昂贵。很多网站站长懒得去做或者做得不好。这使得视障用户更难访问互联网。它还会对网站的搜索引擎优化产生负面影响。

我决定看看 ChatGPT Vision 如何为图像编写替代文本。我上传了这张图片并要求它“为此图片编写高质量的替代文本”

这就是它给我的

标有“SIGNET”的壁挂式分配系统具有三个装有清洁溶液的半透明容器。从左到右容器上贴有红色标签“硬表面消毒剂”蓝色“玻璃和多表面清洁剂”以及绿色“重型无氯洗手间消毒剂”。分配器上方有说明贴纸上面有指示正确使用方法的图表。每个容器的侧面都有一个测量刻度并连接到用于分配的管道系统。

这太妙了替代文本不仅仅描述了图像的基本信息“墙上的管道和清洁溶液”。

相反它提供了足够详细的图像视觉细节每种清洁溶液的颜色、它们从左到右的相对位置以及每个图像上的文本以便视障人士可以轻松理解图像显示的内容。

ChatGPT Vision 在大约 10 秒内生成了替代文本速度也非常快。我可以看到新系统对于网络可访问性来说是一个巨大的福音。出版商可以使用 ChatGPT 视觉为自己的图像编写更好的替代文本视障用户可以使用它为缺乏实时替代文本的图像编写替代文本。

分析我的香料架

对于我的下一个实验我上传了一张香料架的照片。我要求 ChatGPT Vision 列出我拥有的香料。我还问它哪些香料快用完了。

令人惊讶的是ChatGPT Vision 不仅列出了香料还认可了它们的品牌名称

芝麻数量看起来不错

莫顿海盐无法从图像中确定数量

365 姜末数量看起来不错

365 肉桂 数量看起来不错

味好美辣椒粉数量看起来不错

麦考密克粗黑胡椒粉无法从图像中确定数量

365 辣椒粉数量看起来不错

味考密克完美捏意大利无法从图像中确定数量

姜黄粉无法从图像中确定数量

365 白胡椒粉数量看起来不错

孜然粉无法从图像中确定数量

它无法确定我拥有的数量。但作为后续它能够推荐一些我可以用这些烹饪的食谱

这是 ChatGPT 视觉能力强大功能的一个很好的例子。因为它仍然是一个聊天机器人所以它不仅仅是查看图像、提供输出并继续前进。您可以就图像进行对话提出具体的后续问题以进行更深入的挖掘并超越系统的初始响应。

分析图表

ChatGPT Vision 不仅限于处理照片。它还可以处理图表、信息图表等。

例如我向它提供了我的一个网站的流量 Google Seach 控制台图表。

从图像中它正确地提取了我的关键统计数据并分析了我网站的流量趋势。

它甚至根据所看到的内容提供了如何改进 SEO 的建议。

分析图形和其他视觉效果的能力对于想要更好地理解数据、验证科学研究结果、甚至只是更好地理解图形或聊天内容的用户非常有帮助。

确定拍摄照片所用的胶片

我是一名摄影师在工作中经常使用模拟胶片。我也经常处理历史照片但照片所用的胶片是未知的。

我上传了一张我自己的照片并询问 ChatGPT Vision 这是用什么类型的电影拍摄的。

这是结果。

我喜欢其分析的深度。也是对的这是在 Kodak Tri-X 上以 400 速度拍摄的这是它在列表中提到的第一部影片。

确定狗的品种

我有一只比熊犬名叫兰斯但我打断了他。大多数人误认为他是一个不同的品种。

我上传了兰斯的照片并询问 ChatGPT Vision 他是什么品种。

它的回应是

“根据提供的图像你的狗似乎具有卷毛品种的身体特征可能是比雄犬、贵宾犬或这些品种的混合体。”

系统仍然模棱两可地使用“P”这个词这是比熊人的一大禁忌但它的第一个猜测确实是比熊犬。

这凸显了 ChatGPT Vision 超越了单纯的物体识别。该系统在详细说明其反应时表示“卷曲的白色皮毛和面部特征让人想起这类狗。”

令人印象深刻的是ChatGPT Vision 正在观察诸如面部特征之类的东西而不仅仅是看到一只白色、毛茸茸的狗并自动说“贵宾犬”。

ChatGPT Vision 的局限性

ChatGPT 愿景是一个强大的平台。我刚刚开始测试它我已经可以看到其工具的大量实际用例。

也就是说系统设计时没有做一些事情。其一它不会处理或讨论人物图像。这很聪明。视觉人工智能系统存在偏见。最好完全避免分析以人为中心的图像而不是冒着对人的视觉分析产生偏见的风险。

该系统也不会提供医疗建议。我试图向它询问与图像相关的医学话题它断然拒绝回答。再说一遍目前来说这是一件好事。该系统是新的其输出可能不准确。

不过我可以看到 ChatGPT Vision 的专业版本被训练来执行诸如解释 X 射线结果或分析其他医学测试之类的事情。但就目前而言我们需要围绕这种应对措施采取防护措施。

多模态人工智能就在这里

ChatGPT 标志着生成人工智能领域迈出了一大步。这是第一次将真正的多模式人工智能交到日常用户手中。

Google Bard 确实有一些视觉功能。但这些似乎更严重地依赖谷歌现有的谷歌镜头系统。另一方面ChatGPT Vision 似乎真正理解图像的视觉内容和意义。

这使得它能够深入研究图像视觉内容的更深层意义而不仅仅是执行一些很酷但有限的技巧例如翻译图像中的文本或识别产品或地点

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6
标签: ChatGPT