如何使用Blob存储按需运行Azure搜索

问题描述 投票:0回答:1

我正在使用Azure搜索自动索引上传到Blob存储的word文档。我使用搜索的唯一原因是从Word或PDF文档(it's free and works well)中提取文本 - 从那时起我从索引中读取它并将其删除。

我遇到的问题是搜索索引只能每5分钟运行一次 - 我需要它在blob上传后尽快运行。所以我要么按需运行它(每次添加新的blob时触发)或者弄清楚如何将Word / PDF文档插入索引(或如何从中提取文本)

因此,流程如下:

  1. 将文档上载到blob(Azure功能)
  2. 索引运行并从文档中提取文本(搜索索引器)
  3. 定期读取索引并提取该文本以供其他地方使用(Azure功能)

所以我的问题是:

答:有没有更好的方法使用Azure从word / pdf文档本地提取文本? (在这种情况下,问题2无效)B。我如何使用.NET SDK调用运行索引(我找不到运行方法here)虽然有几个地方提到你可以使用SDK按需运行它。

azure azure-search azure-sdk-.net
1个回答
1
投票

如果您只需要Azure搜索文档破解,并且不需要其余的搜索和丰富功能,则直接在Azure功能中执行文档破解可能更简单。有许多用于文档解析的OSS和商业库,例如, Apache Tika

使用来自Azure功能的Tika的example,由我们的团队成员编写。

© www.soinside.com 2019 - 2024. All rights reserved.