解析我的html,提取 使用jSoup

问题描述 投票:0回答:1

这是我的html文件。

<div id="document_268753">
    <p class="keywords">
        <strong>keywords</strong>
        <ol>
            <li>element 1</li>

        </ol>
    </p>
    <div id="brique_268754">
        <p class="keywords_HTAG">
            <strong>keywords</strong>
            <ol>
                <li>element 2</li>
            </ol>
        </p>
    </div>
    <div id="brique_268754">
        <p class="keywords_HTAG">
            <strong>keywords</strong>
            <ol>
                <li>element 3</li>
            </ol>
        </p>
    </div>
</div>

我想把所有的 "keywords "和 "keywords_HTAG "都放在一个文本文件中,作为fellow 。

element 1 
element 2
element 3

我是这样做的,但它没有返回任何东西给我。

        try{

Document doc = Jsoup.parse(input, "UTF-8", "");   
Elements li_keywords= doc.select("p.keywords ol li");
Elements li_HTAG = doc.select("p.keywords_HTAG ol li");

for(Element el: li_keywords) {
           keywords= keywords+ "\n" + el.text().toLowerCase();
              }
for(Element el: li_HTAG ) {
           keywords_htag= keywords_htag+ "\n" + el.text().toLowerCase();
              }
elements = keywords + keywords_htag
}

知道我哪里做错了吗?

jsoup html-parsing
1个回答
0
投票

您可以使用 doc.select("p[class^=keywords]"); 以获得所有的元素 pclass 字头的 keyword - 涵盖 keywordkeyword_htag 在你的情况下。您可以使用 doc.select("li") 以获得 li 元素。

© www.soinside.com 2019 - 2024. All rights reserved.