[原始数据] () 给出的是包含大学学生安置详细信息的 PDF 数据。 它是完全非结构化的形式,需要在处理之前进行清理。
此处给出预期结果: [预期CSV文件输出]()
我尝试从 Excel 电子表格中导入 pdf。 尝试将其转换为 .xlsx,然后进行清理。 他们仍然会产生非结构化数据。
我之前没有任何使用强力查询、网络查询或抓取数据的经验。
建议所有可能的方法来清理数据并将其放入CSV文件中。如果能获得需要完成的工作的分步过程、要使用的工具和框架以获得预期结果,那就太好了。