Databricks dbutils.fs.mv 在 BDFS 中找不到解压文件

问题描述 投票:0回答:0

我正在尝试按照 Microsoft 教程 了解如何导入压缩文件、解压缩,然后使用数据块将文件内容加载到数据框中。

教程的第一部分进行得相当顺利,它是从 FTP 服务器获取文件然后解压缩文件的 bash 脚本:

%sh curl ftp://ftp.senture.com/Crash_2023Apr.zip --output /tmp/Crash_2023Apr.zip
unzip /tmp/Crash_2023Apr.zip

可以看到文件下载好了,解压出来,结果里面有两个文件。此文件是 FMCSA(联邦汽车运输安全管理局)提供并由其承包商 Senture 托管的公共记录集的一部分,因此请随时自行尝试。

不幸的是,当尝试移动解压缩的文件之一时,教程停止工作,

dbutils.fs.mv("file:/2023Apr_Crash.txt", "dbfs:/tmp/2023Apr_Crash.txt")

这给了我以下错误:

我假设自本教程发布以来发生了一些变化,或者本教程从未真正有效。我知道这是一个远景,但是否有一些我可以更改的语法可以使这项工作正常进行,或者我是否必须在完成此操作之前必须安装一个存储文件夹。

我尝试过的东西

  1. 将“file:/2023Apr_Crash.txt”部分的源文件更改为“/2023Apr_Crash.txt”,同样的错误。
  2. 将“file:/2023Apr_Crash.txt”部分的源文件更改为“2023Apr_Crash.txt”,同样的错误
  3. 在与下载和解压缩部分相同的命令窗口中运行 DBUtils 行失败,因为它认为它是 bash 语句,因此语法错误。即使我使用 python 魔术命令让它知道下面是 python 脚本,也会发生这种情况
  4. 跳过复制命令查看文件夹中是否已有txt文件,报错信息:[PATH_NOT_FOUND] Path does not exist: dbfs:/tmp/2023Apr_Crash.txt

感谢您花时间阅读本文。

python bash databricks azure-databricks
© www.soinside.com 2019 - 2024. All rights reserved.