$ domxpath-> query - 表内容

问题描述 投票:1回答:1

有两天我收到了使用DOM文件而不是正则表达式的建议

我仍然不知道如何正确使用查询

在下面的链接是会议“TERRITÓRIOEAMBIENTE”,我想获得下面4行的内容

https://cidades.ibge.gov.br/brasil/sp/sao-paulo/panorama

$html = file_get_contents( 'https://cidades.ibge.gov.br/brasil/sp/sao-paulo/panorama' );    
            $document = new DOMDocument();              
            $document->loadHTML(mb_convert_encoding($html, 'HTML-ENTITIES', 'UTF-8'));
            $domxpath = new DOMXPath($document);
            $paragraphs = $domxpath->query('
                //th[*[
                        contains(text(), "TERRITÓRIO E AMBIENTE")
                      ]
                    ]
                /following-sibling::tr[
                        position() = 12 
                    ]'
            );

我把12个<tr>的数量,因为这是源代码中出现的,但我不知道我是否正确地执行此查询,这对我来说是出现这些错误

Warning: DOMDocument::loadHTML(): Tag app invalid in Entity, line: 25 
Warning: DOMDocument::loadHTML(): Misplaced DOCTYPE declaration in Entity, line: 25
Warning: DOMDocument::loadHTML(): htmlParseStartTag: misplaced <html> tag in Entity, line: 25 

谢谢

php domdocument domxpath
1个回答
1
投票

您的代码中存在几个问题。

  • 您从该网站获得的HTML无效,因此您需要忽略错误(通常不建议这样做,但在这种情况下我认为没问题)。

@$document->loadHTML($html);
  • 您要查找的文本是小写的(由于其样式,它以大写形式显示),因此您需要将其标准化或将文本放在小写中
  • 你的方法(得到第12个孩子)太脆弱了。我对代码进行了一些检查,并且很难让它变得不那么脆弱,但我认为这很接近:

//th[contains(text(), "Território e Ambiente")]/parent::tr/following-sibling::tr[1]/td[3]

得到一个包含文本thTerritório e Ambiente元素,然后获取父tr标签,然后转到下一个tr兄弟,最后得到第三个td元素(其中值为)。仍然非常脆弱,但要密切注意网站的变化,它不太可能改变。

所以现在你需要重复那个XPath查询3次,更改第n个tr兄弟(添加两个,因为每个中间都有一个空元素)。它最终看起来像这样:

$document = new DOMDocument();
@$document->loadHTML($html);
$domxpath = new DOMXPath($document);
$paragraphs = $domxpath->query('//th[contains(text(), "Território e Ambiente")]/parent::tr/following-sibling::tr[1]/td[3]');
echo "First: ".preg_replace('/\s+/', ' ', $paragraphs[0]->nodeValue);
echo "<br>";
$paragraphs = $domxpath->query('//th[contains(text(), "Território e Ambiente")]/parent::tr/following-sibling::tr[3]/td[3]');
echo "Second: ".preg_replace('/\s+/', ' ', $paragraphs[0]->nodeValue);
echo "<br>";
$paragraphs = $domxpath->query('//th[contains(text(), "Território e Ambiente")]/parent::tr/following-sibling::tr[5]/td[3]');
echo "Third: ".preg_replace('/\s+/', ' ', $paragraphs[0]->nodeValue);
echo "<br>";
$paragraphs = $domxpath->query('//th[contains(text(), "Território e Ambiente")]/parent::tr/following-sibling::tr[7]/td[3]');
echo "Fourth: ".preg_replace('/\s+/', ' ', $paragraphs[0]->nodeValue);

第一:1.521,110平方公里 第二名:92.6% 第三名:74,8% 第四名:50,3%

注意使用preg_replace()来摆脱丰富的空白。

使用更多的XPath魔法我们可以让它只使用一个查询:

//th[contains(text(), "Território e Ambiente")]/parent::tr/following-sibling::tr[position() mod 2 = 1]/td[3]

与其他人一样工作,但不是获得特定的tr兄弟元素,而是获得其他所有元素。

$paragraphs = $domxpath->query('//th[contains(text(), "Território e Ambiente")]/parent::tr/following-sibling::tr[position() mod 2 = 1]/td[3]');
foreach ($paragraphs as $i => $p) {
    echo ($i + 1)." value: ".preg_replace('/\s+/', ' ', $p->nodeValue);
    echo "<br>";
}
© www.soinside.com 2019 - 2024. All rights reserved.