如何使用lxml从xpath获取所有文本

问题描述 投票:0回答:1

我目前有以下内容

u = 'https://www.cruiseplum.com/search#{%22numPax%22:2,%22geo%22:%22US%22,%22portsMatchAll%22:true,%22numOptionsShown%22:100,%22ppdIncludesTaxTips%22:true,%22uiVersion%22:%22split%22,%22sortTableByField%22:%22dd%22,%22sortTableOrderDesc%22:false,%22filter%22:null}'
driver = webdriver.Chrome()
driver.get(u)
driver.maximize_window()

time.sleep(.3)

driver.find_element_by_id('restoreSettingsYesEncl').click() # select 'yes' on the webpage to restore settings
time.sleep(7) # wait until the website downloads data so we get a return value

elem = driver.find_element_by_xpath("//*")
source_code = elem.get_attribute("innerHTML")

t = html.fromstring(source_code)    

for i in t.xpath('//td[@class="dc-table-column _2"]/text()'):
        print(i.strip())

目的是从代码中列出的网页中获取文本。我遇到的问题是“路由”列中是否列出了两个端口。我目前拥有的代码将在2条单独的行上打印。

这是我遇到问题的示例html:

<td class="dc-table-column _2">Fort Lauderdale <i class="fa fa-long-arrow-right"></i> Venice</td>

对于此示例,它将在第1行上打印“劳德代尔堡”,然后在第2行上打印“威尼斯”。我希望能够在一行上同时打印它们。

python html lxml
1个回答
0
投票

这只是您打印结果的方式的结果,如AMC in a comment所指出。

[print()向打印的每个字符串添加换行符。

替代打印方法

results = t.xpath('//td[@class="dc-table-column _2"]/text()')

print(" ".join([r.strip() for r in results]))

输出

Barcelona Martinique Martinique Doha Doha Fort Lauderdale Venice Miami Miami Miami Miami [...]
© www.soinside.com 2019 - 2024. All rights reserved.