我已经使用lxml.etree用Python编写了一个解析器,现在我试图在Hadoop集群上运行所述解析器。当我在本地运行该函数时,它可以按预期工作,但是当我尝试将其应用于集群上的文件时,我收到以下错误(我正在Pyspark shell中执行以下命令,python3)
xml_pathname = "hdfs://file_path/date_directory/example_one.xml"
xml_tree = etree.parse(xml_pathname)
OSError: Error reading file '/file_path/date_directory/example_one.xml': failed to load external entity
"/file_path/date_directory/example_one.xml"
在终端中运行hdfs dfs -ls /file_path/date_directory/example_one.xml
时可以看到文件。
[我需要帮助的两个领域-
#Same as above but with wildcards to parse millions of XML files
xml_pathname = "hdfs://file_path/*/*.xml"
xml_tree = etree.parse(xml_pathname)
从事此工作一段时间后,非常感谢您提供的所有帮助。谢谢大家
path_rdd = sc.parallelize(path_sample, numSlices=10000) # use only example path
parse_results_rdd = path_rdd.map(lambda x: Row(file_name=os.path.basename(x), **pp.parse_pubmed_xml(x)))
pubmed_oa_df = parse_results_rdd.toDF()
pubmed_oa_df_sel = pubmed_oa_df[['full_title', 'abstract', 'doi',
'file_name', 'pmc', 'pmid',
'publication_year', 'publisher_id',
'journal', 'subjects']]
pubmed_oa_df_sel.write.parquet(os.path.join(save_dir, 'pubmed_oa_%s.parquet' % date_update_str),
mode='overwrite')
https://github.com/titipata/pubmed_parser/blob/master/scripts/pubmed_oa_spark.py