我正在使用这个脚本https://github.com/microsoft/sample-app-aoai-chatGPT/blob/main/scripts/data_preparation.py我想获取页码。我发现可以使用带有 imageAction=generateNormalizedImagePerPage 配置的索引器来完成此操作,但我不知道该怎么做。
Azure 人工智能搜索
我确实找到了使用上面的脚本创建索引时如何配置索引器的方法。
如this文档中所述,
imageAction
属性在索引器配置中进行配置,如下所示。
{
"parameters":
{
"configuration":
{
"dataToExtract": "contentAndMetadata",
"parsingMode": "default",
"imageAction": "generateNormalizedImagePerPage"
}
}
}
然后您将在
/document/normalized_images/*
中获得结果,并在您的图像分析、OCR 或自定义技能组中进一步使用它,如本 文档中所述
但是您引用的代码只是创建索引,因此使用上述配置更新索引器,您将获得如上所述的规范化成员here
如何使用 OCR 获取文本和布局,您可以将
/document/normalized_images/*
传递给自定义 Web api 以提取页码并返回索引。