我刚刚踏入数据世界,被要求创建一个自定义项目,我需要使用笔记本 (PySpark) 将 CSV 转换为镶木地板。到目前为止,我已经将其放在一起,似乎运行没有错误,但 ADLS 中的 Parquet 文件夹中没有任何内容。
def convert_csv_to_parquet(input_file_path, output_file_path):
# Read CSV file into a Pandas DataFrame
df = pd.read_csv(input_file_path)
# Convert Pandas DataFrame to PyArrow Table
table = pa.Table.from_pandas(df)
# Write PyArrow Table to Parquet file
pq.write_table(table, output_file_path)
# Open the Parquet file
table = pq.read_table(output_file_path)
# Convert the table to a Pandas DataFrame
df = table.to_pandas()
# Print the DataFrame
print(df.head(100))
input_file_path = 'abfss://[email protected]/MySQL_Project-Table_Courses.csv'
output_file_path = 'abfss://[email protected]/Parquet'
convert_csv_to_parquet(input_file_path, output_file_path)
你可以使用pyspark reader/writer内置方法吗?
这看起来很简单(我假设 Spark 会话是在代码中的某处声明的或者您使用 Databricks 笔记本):
def convert_csv_to_parquet(
input_file_path: str,
output_file_path: str
):
df = spark.read.format('csv').load(input_file_path)
df.write.format('parquet').save(input_file_path)
return 1