如何获取具有特定文本的两行之间的行？

Question

我有这个数据框，我使用 PyTesseract 通过图像提取了它。但它提取了所有不相关的数据，如签名和图章。我只想要从“资产”行到“总负债”行的数据。我试过了

bs = bs[(bs['Purticulars'] == 'ASSETS') & (df['Purticulars'] == 'TOTAL LIABILITIES')

但似乎不起作用。

Answer 1

您可以先在“详细信息”列中找到值为“资产”和“总负债”的行的索引。

一旦你得到行索引，你就可以很容易地找到它们之间的所有行。

在这里：

assets_index = df.index[df['Purticulars'] == 'ASSETS'].tolist()[0]
liabilities_index = df.index[df['Purticulars'] == 'TOTAL LIABILITIES'].tolist()[0]
result = df.loc[assets_index:liabilities_index]
print(result)

Answer 2

df.loc[df['Purticulars'].isin(['ASSETS','TOTAL LIABILITIES']).cumsum().eq(1) | df.eq('TOTAL LIABILITES')]

或

d = {'ASSETS':True,'TOTAL LIABILITIES':False}

m = df['Purticulars'].map(d).ffill().fillna(False) | df.eq('TOTAL LIABILITES')

df.loc[m]

如何获取具有特定文本的两行之间的行？

问题描述投票：0回答：2

2个回答

最新问题

如何获取具有特定文本的两行之间的行？

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2