我应该使用哪种AI工具来进行图像描述?

问题描述 投票:0回答:1

对于我的个人项目,我需要一个工具来描述图像的内容并使用从图像中提取的数据生成列表。

例如,图像可以是超市的“数字自我”,有 n 种不同的产品。每件产品都有图像、价格和名称。理想情况下,AI 工具将从包含每个产品相关数据的图像中提取 csv。

我每天需要处理数百张图片和数千种产品。我打算用Python来做。

实现这一点的有效方法是什么?

我尝试过使用谷歌吟游诗人,它似乎工作得很好。然而,Python 中没有实现官方 API。我还认为我不需要 LLM 来做到这一点。

我还尝试使用简单地从图像中提取文本的工具。当它们工作时,每个产品的相关信息的位置并不总是位于同一位置。我需要一个能够理解图像的工具,而不仅仅是从中提取文本。

python image-processing artificial-intelligence large-language-model
1个回答
0
投票

我建议实施 OpenAI ChatGPT / DALL-E API。我相信最新的型号是 Chat GPT 4.0 / DALL-E 3.0。他们有一个基于信用的 API 系统,允许您支付使用所需的费用。

© www.soinside.com 2019 - 2024. All rights reserved.