我所追求的元数据类型包括文件大小,行数,文件名,文件是否已被处理等等,我想捕获从源到目标的数据流,包括从Azure数据湖和SQL捕获数据D B。
我还想将这些元数据存储到SQL表中作为控制表,并测试文件/表/数据在整个ETL / ELT过程中的变化。
我能想到的唯一方法是使用ADF中的存储过程来收集每个部分的元数据并存储在SQL表中,但我不知道如何从数据湖中的文件中读取元数据。
有没有人提出如何做到这一点甚至更好的解决方案的方法。
您可以通过GetMetaData Activity使用获取数据湖文件的元数据。基于official document,GetMetadata Activity的输出可用于条件表达式以执行验证。
它支持Azure数据湖连接器: