如何在Python中刮取这个PDF？

Question

我想在python中刮取这个PDF的信息。我不知道从哪里开始，因为它根本没有组织。我习惯于刮取HTML。我试着把它转换为HTML，但没有什么帮助。

你会如何尝试刮取这个PDF？这里有一个PDF的链接（任何一个都可以，它们都是相似的）。http:/www.snco.usdocbooking(S(mgv3bhohvbweq0rj4wsq3puo))inmateDailyBookingArchive?Length=0

谢谢你的帮助：D

Answer 1

我是这样做的，然后根据需要从这里开始构建。

import PyPDF2 as p2
import xlsxwriter

pdfFileName = "NAME OF PDF HERE.pdf"
pdfFile = open(pdfFileName, 'rb')
pdfread = p2.PdfFileReader(pdfFile)


pageinfo = pdfread.getPage(0)
rawInfo = pageinfo.extractText().split('\n')

row = 0
column = 0

workbook = xlsxwriter.Workbook('Workbook_Name.xlsx')
worksheet = workbook.add_worksheet('Sheet1')

for line in rawInfo:
    worksheet.write(row, column, line)
    row += 1
workbook.close()

如何在Python中刮取这个PDF？

问题描述投票：0回答：1

1个回答

最新问题

如何在Python中刮取这个PDF？

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1