将 CSV 转换为笔记本中的 Parquet

问题描述 投票:0回答:1

我刚刚踏入数据世界,被要求创建一个自定义项目,我需要使用笔记本 (PySpark) 将 CSV 转换为镶木地板。到目前为止,我已经将其放在一起,似乎运行没有错误,但 ADLS 中的 Parquet 文件夹中没有任何内容。

def convert_csv_to_parquet(input_file_path, output_file_path):
# Read CSV file into a Pandas DataFrame
df = pd.read_csv(input_file_path)

# Convert Pandas DataFrame to PyArrow Table
table = pa.Table.from_pandas(df)

# Write PyArrow Table to Parquet file
pq.write_table(table, output_file_path)

# Open the Parquet file
table = pq.read_table(output_file_path)

# Convert the table to a Pandas DataFrame
df = table.to_pandas()

# Print the DataFrame
print(df.head(100))

input_file_path = 'abfss://[email protected]/MySQL_Project-Table_Courses.csv'
output_file_path = 'abfss://[email protected]/Parquet'

convert_csv_to_parquet(input_file_path, output_file_path)
pyspark pipeline apache-synapse
1个回答
0
投票

你可以使用pyspark reader/writer内置方法吗?

这看起来很简单(我假设 Spark 会话是在代码中的某处声明的或者您使用 Databricks 笔记本):

def convert_csv_to_parquet(
    input_file_path: str,
    output_file_path: str
    ):

    df = spark.read.format('csv').load(input_file_path)
    df.write.format('parquet').save(input_file_path)
    return 1 

© www.soinside.com 2019 - 2024. All rights reserved.