抓取 PDF 并制作 DataFrame

问题描述投票：0回答：0

我对此很陌生，我正在尝试抓取 pdf 并使用该信息创建一个 DataFrame。我可以从 scrape 中得到一个 pandas 系列，我用下面的代码来做：

import pandas as pd
import tika
from tika import parser
tika.initVM()

file_name = "the_pdf_im_scraping"

def input_file_processing(file_name):
    parsedPDF = parser.from_file(file_name)
    content = parsedPDF['content']
    contentlist = content.split('\n')
    contentlist = list(filter(lambda a: a != '', contentlist))
    return contentlist

contentlist = input_file_processing(file_name)

这将创建一个如下所示的系列：

["John, Doe", '(803) 470-9419', "公司 1", '邮政信箱 23425', 'Columbia, SC 14550', '[email protected]', 'Aaron, Rust. ', '传真 (864) 751-5784', '1317 Waterfall, #2334', 'Orlando, FL 32804', '[email protected]', 'Betn, S. Raul', '传真 (864) 666-4484', 'S.劳尔 Baron, P.A.', '1456 Edgewater Drive, #2034', 'Orlando, FL 32804', '[email protected]', 'Abueno, Daniel George', '(444) 123-2633', '3456 Robert Drive', '#2316', '查尔斯顿, SC 29492', '[email protected]']

现在我一直在尝试创建一个包含以下列的 DataFrame：

last_name,first_name,company,phone_number,fax_number,address,city,state,zip_code,email

我不知道是不是很复杂还是什么，但主要问题似乎是有些人有公司名称而有些人没有，传真和其他元素也是如此。

还有一些地址分成 2 行或系列的 2 个元素。

pandas

dataframe

pdf

web-scraping

series

抓取 PDF 并制作 DataFrame

问题描述 投票：0回答：0

最新问题

问题描述投票：0回答：0