清理非结构化 PDF 数据

问题描述 投票:0回答:0

[原始数据] (https://i.stack.imgur.com/CYBgB.png) 给出的是包含大学学生安置详细信息的 PDF 数据。 它是完全非结构化的形式,需要在处理之前进行清理。

此处给出预期结果: [预期CSV文件输出](https://i.stack.imgur.com/9fFxM.png)

我尝试从 Excel 电子表格中导入 pdf。 尝试将其转换为 .xlsx,然后进行清理。 他们仍然会产生非结构化数据。

我之前没有任何使用强力查询、网络查询或抓取数据的经验。

建议所有可能的方法来清理数据并将其放入CSV文件中。如果能获得需要完成的工作的分步过程、要使用的工具和框架以获得预期结果,那就太好了。

python web-scraping data-analysis data-cleaning pdf-scraping
© www.soinside.com 2019 - 2024. All rights reserved.