抓取 PDF 并制作 DataFrame

问题描述 投票:0回答:0

我对此很陌生,我正在尝试抓取 pdf 并使用该信息创建一个 DataFrame。我可以从 scrape 中得到一个 pandas 系列,我用下面的代码来做:

import pandas as pd
import tika
from tika import parser
tika.initVM()

file_name = "the_pdf_im_scraping"

def input_file_processing(file_name):
    parsedPDF = parser.from_file(file_name)
    content = parsedPDF['content']
    contentlist = content.split('\n')
    contentlist = list(filter(lambda a: a != '', contentlist))
    return contentlist

contentlist = input_file_processing(file_name)

这将创建一个如下所示的系列:

["John, Doe", '(803) 470-9419', "公司 1", '邮政信箱 23425', 'Columbia, SC 14550', '[email protected]', 'Aaron, Rust. ', '传真 (864) 751-5784', '1317 Waterfall, #2334', 'Orlando, FL 32804', '[email protected]', 'Betn, S. Raul', '传真 (864) 666-4484', 'S.劳尔 Baron, P.A.', '1456 Edgewater Drive, #2034', 'Orlando, FL 32804', '[email protected]', 'Abueno, Daniel George', '(444) 123-2633', '3456 Robert Drive', '#2316', '查尔斯顿, SC 29492', '[email protected]']

现在我一直在尝试创建一个包含以下列的 DataFrame:

last_name,first_name,company,phone_number,fax_number,address,city,state,zip_code,email

我不知道是不是很复杂还是什么,但主要问题似乎是有些人有公司名称而有些人没有,传真和其他元素也是如此。

还有一些地址分成 2 行或系列的 2 个元素。

pandas dataframe pdf web-scraping series
最新问题
© www.soinside.com 2019 - 2024. All rights reserved.