我有这个数据框,我使用 PyTesseract 通过图像提取了它。但它提取了所有不相关的数据,如签名和图章。我只想要从“资产”行到“总负债”行的数据。我试过了
bs = bs[(bs['Purticulars'] == 'ASSETS') & (df['Purticulars'] == 'TOTAL LIABILITIES')
但似乎不起作用。
您可以先在“详细信息”列中找到值为“资产”和“总负债”的行的索引。
一旦你得到行索引,你就可以很容易地找到它们之间的所有行。
在这里:
assets_index = df.index[df['Purticulars'] == 'ASSETS'].tolist()[0]
liabilities_index = df.index[df['Purticulars'] == 'TOTAL LIABILITIES'].tolist()[0]
result = df.loc[assets_index:liabilities_index]
print(result)
df.loc[df['Purticulars'].isin(['ASSETS','TOTAL LIABILITIES']).cumsum().eq(1) | df.eq('TOTAL LIABILITES')]
或
d = {'ASSETS':True,'TOTAL LIABILITIES':False}
m = df['Purticulars'].map(d).ffill().fillna(False) | df.eq('TOTAL LIABILITES')
df.loc[m]