我们有Azure数据湖以三角洲湖格式将数据存储在拼花文件中。在每次合并新数据的运行之后,我们将保留0小时的真空称为删除旧文件并运行optimize命令。
但是由于某些原因,旧文件不会被删除。但是在databricks笔记本中没有错误。它说2删除的文件,但我仍然看到它们。我缺少明显的东西吗?谢谢!
sqlContext.sql(f"VACUUM '{adls_location}' RETAIN 0 HOURS")
time.sleep(60)
sqlContext.sql(f"VACUUM '{adls_location}' RETAIN 0 HOURS")
time.sleep(60)
sqlContext.sql(f"OPTIMIZE '{adls_location}'")
您不能直接在云存储上使用
VACUUM
。要进行真空存储,必须将其安装到DBFS并在已安装的目录上运行VACUUM。