我通过文字的很多块可能有一个环,或find_all单行进行扫描,我想。下面是我在处理文本的一小部分。
<tr role="row" class="even">
<td>
<td style="padding:0px; width:200px; height:10px;"><svg height="37" width="180px" id="task-run" style="display: block;">
</td>
该'代表什么,在这种情况下:y="3"></text>
我有一些代码追加一切的大名单,然后写一个数据帧。
masterlist = []
etc.
masterlist.append(cols)
etc.
df = pd.DataFrame(masterlist)
我只是无法弄清楚如何做解析。
1)如果你需要的所有信息以形成良好的内部HTML表格,我建议你尝试DataFrame.read_html。 https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_html.html
2)第二个选择是尝试美味的汤如@汤姆已经提到。
3)如果你正面临着大文件的挑战,你应该尝试:Lazy Method for Reading Big File in Python?,然后通过线分析它行。
这看起来像一个很好的案例,其目的是提取文本,并从可能或可能无法很好地形成HTML文档属性Beautiful Soup。