我正在使用Azure搜索自动索引上传到Blob存储的word文档。我使用搜索的唯一原因是从Word或PDF文档(it's free and works well)中提取文本 - 从那时起我从索引中读取它并将其删除。
我遇到的问题是搜索索引只能每5分钟运行一次 - 我需要它在blob上传后尽快运行。所以我要么按需运行它(每次添加新的blob时触发)或者弄清楚如何将Word / PDF文档插入索引(或如何从中提取文本)
因此,流程如下:
所以我的问题是:
答:有没有更好的方法使用Azure从word / pdf文档本地提取文本? (在这种情况下,问题2无效)B。我如何使用.NET SDK调用运行索引(我找不到运行方法here)虽然有几个地方提到你可以使用SDK按需运行它。
如果您只需要Azure搜索文档破解,并且不需要其余的搜索和丰富功能,则直接在Azure功能中执行文档破解可能更简单。有许多用于文档解析的OSS和商业库,例如, Apache Tika。
使用来自Azure功能的Tika的example,由我们的团队成员编写。