将 CSV 转换为笔记本中的 Parquet

Question

我刚刚踏入数据世界，被要求创建一个自定义项目，我需要使用笔记本 (PySpark) 将 CSV 转换为镶木地板。到目前为止，我已经将其放在一起，似乎运行没有错误，但 ADLS 中的 Parquet 文件夹中没有任何内容。

def convert_csv_to_parquet(input_file_path, output_file_path):
# Read CSV file into a Pandas DataFrame
df = pd.read_csv(input_file_path)

# Convert Pandas DataFrame to PyArrow Table
table = pa.Table.from_pandas(df)

# Write PyArrow Table to Parquet file
pq.write_table(table, output_file_path)

# Open the Parquet file
table = pq.read_table(output_file_path)

# Convert the table to a Pandas DataFrame
df = table.to_pandas()

# Print the DataFrame
print(df.head(100))

input_file_path = 'abfss://[email protected]/MySQL_Project-Table_Courses.csv'
output_file_path = 'abfss://[email protected]/Parquet'

convert_csv_to_parquet(input_file_path, output_file_path)

Answer 1

你可以使用pyspark reader/writer内置方法吗？

这看起来很简单（我假设 Spark 会话是在代码中的某处声明的或者您使用 Databricks 笔记本）：

def convert_csv_to_parquet(
    input_file_path: str,
    output_file_path: str
    ):

    df = spark.read.format('csv').load(input_file_path)
    df.write.format('parquet').save(input_file_path)
    return 1

将 CSV 转换为笔记本中的 Parquet

问题描述投票：0回答：1

1个回答

最新问题

将 CSV 转换为笔记本中的 Parquet

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1