首先,到目前为止我似乎找不到任何相关代码。有很多将 Excel 数据转换为 pdf 的方法,但反之则不然。因此,对于缺少代码表示歉意。另外,我不是 pdf 专家,所以这可能是不可能的。
我的问题是,是否可以获取包含图表的 pdf 并将该图表转换回 Excel。具体来说就是数据。以下面这张图表为例,该图表包含在贝莱德英国基金的情况说明书中。可以使用 Python 将其转换回 Excel 吗?与日期匹配的数据点,即时间序列。
查看PDF内部,您选择的图形不是图像,而是一系列PDF绘制命令。从技术上讲,信息是存在的,但它存储在抽象上下文中,使得可用性非常低,无需进行大量工作。这是一瞥:
import pikepdf
doc = pikepdf.Pdf.open('blackrock.pdf')
page = doc.pages[1]
print(page.resources.XObject.Xf5.read_bytes().decode()[:217])
这将给出以下输出,这是 PDF 渲染器用于绘制图形的一系列命令。
q
0 151.2 m
0 0 l
542.23 0 l
542.23 151.2 l
h
W
n
1 w
2 J
0 j
10 M
[]0 d
q
0 151.2 m
541.51 151.2 l
541.51 0.19901 l
0 0.19901 l
0 151.2 l
h
W
n
0.86286 w
1 j
0.75294 0.75294 0.75294 RG
38.93 61.4 m
534.3 61.4 l
S
Q
q
看着他们,我们从以下开始:
通过解析此信息,您可以将图像中每条线的相对运动提取为子像素运动数组。但是,您仍然需要获取每条线的最终值来调整价格的变动。
可能吗?是的。值得你花时间吗?好吧,这取决于你。