搜索存储在Azure Data Lake中的数据

问题描述 投票:0回答:1

我有以下用于构建Data Lake的用例(例如在Azure中:]

我的组织与破产的公司打交道。公司破产后,需要将其所有数据交给我们,包括结构化数据(例如CSV)以及半结构化和非结构化数据(例如PDF,Word文档,图像,JSON,.txt文件等)。 )。拥有数据湖将对您有所帮助,因为数据量可能很大且无法预测,Azure Data Lake似乎是一种成本相对较低且可扩展的存储解决方案。

但是,除了存储所有这些数据外,我们还需要为业务用户提供一个工具,使他们能够搜索所有这些数据。我可以想象两种搜索类型:

  • 搜索特定文件(使用文件名或部分文件名作为搜索条件)
  • 搜索所有文本文件(word文档,.txt和PDF),并标识那些符合搜索条件(例如,要搜索的特定短语)的文件]

是否有任何可用的工具可以将Azure Data Lake用作使用户能够执行此类搜索的数据源?

azure bigdata full-text-search azure-data-lake data-lake
1个回答
0
投票

很遗憾,目前没有工具可以直接在Data Lake中过滤文件。

甚至Azure Storage Explorer仅支持按前缀搜索。

Data Factory支持我们过滤文件,但通常用于复制和传输数据。参考:Data Factory supports wildcard file filters for Copy Activity

希望这会有所帮助。

© www.soinside.com 2019 - 2024. All rights reserved.