无法使用函数解析某些链接的标题

问题描述 投票:1回答:1

我使用从这个url填充的链接编写了一个脚本来解析每个页面的标题。为了更清楚:我的下面的脚本应该解析登录页面中的所有链接,然后重用这些链接以深入一层并从那里解析帖子的标题。

因为这是我第一次尝试在php写任何东西,我无法弄清楚我哪里出错了。

到目前为止,这是我的尝试:

<?php
include("simple_html_dom.php");
$baseurl = "https://stackoverflow.com";
function get_links($baseurl)
{
    $weburl = "https://stackoverflow.com/questions/tagged/web-scraping";
    $html   = file_get_html($weburl);
    $processed_links = array();
    foreach ($html->find(".summary h3 a") as $a) {
            $links           = $a->href . '<br>';
            $processed_links[] = $baseurl . $links;

        }
        return implode("\n",$processed_links);
}
function reuse_links($processed_links){
    $ihtml = file_get_html($processed_links);
    foreach ($ihtml -> find("h1 a") as $item) {
        echo $item->innertext;
    }
}
$pro_links = get_links($baseurl);
reuse_links($pro_links);
?>

当我执行脚本时,它会产生以下错误:

Warning: file_get_contents(https://stackoverflow.com/questions/52347029/getting-all-the-image-urls-from-a-given-instagram-user<br> https://stackoverflow.com/questions/52346719/unable-to-print-links-in-another-function<br> https://stackoverflow.com/questions/52346308/bypassing-technical-limitations-of-instagram-bulk-scraping<br> https://stackoverflow.com/questions/52346159/pulling-the-href-from-a-link-when-web-scraping-using-python<br> https://stackoverflow.com/questions/52346062/in-url-is-indicated-as-query-or-parameter-in-an-attempt-to-scrap-data-using<br> https://stackoverflow.com/questions/52345850/not-able-to-print-link-from-beautifulsoup-for-web-scrapping<br> https://stackoverflow.com/questions/52344564/web-scraping-data-that-was-shown-previously<br> https://stackoverflow.com/questions/52344305/trying-to-encode-decode-locations-when-scraping-a-website<br> https://stackoverflow.com/questions/52343297/cant-parse-the-titles-of-some-links-using-function<br> https: in C:\xampp\htdocs\differenttuts\simple_html_dom.php on line 75

Fatal error: Uncaught Error: Call to a member function find() on boolean in C:\xampp\htdocs\differenttuts\testfile.php:18 Stack trace: #0 C:\xampp\htdocs\differenttuts\testfile.php(23): reuse_links('https://stackov...') #1 {main} thrown in C:\xampp\htdocs\differenttuts\testfile.php on line 18

再一次:我希望我的脚本能够跟踪登录页面中的链接并从目标页面解析标题。

php web-scraping simple-html-dom
1个回答
2
投票

我对simple_html_dom不太熟悉,但我会尽力回答这个问题。此库使用file_get_contents来预先形成HTTP请求,但在PHP7中,file_get_contents在检索网络资源时不接受负偏移(这是此库的默认值)。

如果您使用的是PHP 7,则可以将偏移量设置为0。

$html = file_get_html($url, false, null, 0);

get_links函数中,您可以加入指向字符串的链接。我认为最好返回一个数组,因为在下一个函数中你需要这些链接来获取新的HTTP请求。出于同样的原因,您不应该为链接添加中断标记,您可以在打印时中断。

function get_links($url)
{
    $processed_links  = array();
    $base_url = implode("/", array_slice(explode("/", $url), 0, 3));
    $html = file_get_html($url, false, null, 0);
    foreach ($html->find(".summary h3 a") as $a) {
        $link = $base_url . $a->href;
        $processed_links[] = $link;
        echo $link . "<br>\n";
    }
    return $processed_links ;
}

function reuse_links($processed_links)
{
    foreach ($processed_links as $link) {
        $ihtml = file_get_html($link, false, null, 0);
        foreach ($ihtml -> find("h1 a") as $item) {
            echo $item->innertext . "<br>\n";
        }
    }
}

$url = "https://stackoverflow.com/questions/tagged/web-scraping";
$pro_links = get_links($url);
reuse_links($pro_links);

我认为在get_links中使用主url作为参数更有意义,我们可以从中获取基本URL。我已经使用了基本网址的数组函数,但你可以使用parse_url这是合适的函数。

© www.soinside.com 2019 - 2024. All rights reserved.