如何通过文字的大块高效循环和解析几个项目?

问题描述 投票:-1回答:2

我通过文字的很多块可能有一个环,或find_all单行进行扫描,我想。下面是我在处理文本的一小部分。

<tr role="row" class="even">
<td>

<td style="padding:0px; width:200px; height:10px;"><svg height="37" width="180px" id="task-run" style="display: block;">

</td>

该'代表什么,在这种情况下:y="3"></text>

我有一些代码追加一切的大名单,然后写一个数据帧。

masterlist = []
etc.
masterlist.append(cols)
etc.
df = pd.DataFrame(masterlist)

我只是无法弄清楚如何做解析。

python python-3.x
2个回答
1
投票

1)如果你需要的所有信息以形成良好的内部HTML表格,我建议你尝试DataFrame.read_html。 https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_html.html

2)第二个选择是尝试美味的汤如@汤姆已经提到。

3)如果你正面临着大文件的挑战,你应该尝试:Lazy Method for Reading Big File in Python?,然后通过线分析它行。


2
投票

这看起来像一个很好的案例,其目的是提取文本,并从可能或可能无法很好地形成HTML文档属性Beautiful Soup

© www.soinside.com 2019 - 2024. All rights reserved.