如何从c#获取网站标题

问题描述 投票:14回答:3

我正在重新审视我的旧代码,并且偶然发现了一种基于其网址获取网站标题的方法。这并不是你所谓的稳定方法,因为它经常无法产生结果,有时甚至会产生不正确的结果。此外,有时它无法显示标题中的某些字符,因为它们是替代编码。

有没有人对这个旧版本有改进建议?

public static string SuggestTitle(string url, int timeout)
{
    WebResponse response = null;
    string line = string.Empty;

    try
    {
        WebRequest request = WebRequest.Create(url);
        request.Timeout = timeout;

        response = request.GetResponse();
        Stream streamReceive = response.GetResponseStream();
        Encoding encoding = System.Text.Encoding.GetEncoding("utf-8");
        StreamReader streamRead = new System.IO.StreamReader(streamReceive, encoding);

        while(streamRead.EndOfStream != true)
        {
            line = streamRead.ReadLine();
            if (line.Contains("<title>"))
            {
                line = line.Split(new char[] { '<', '>' })[2];
                break;
            }
        }
    }
    catch (Exception) { }
    finally
    {
        if (response != null)
        {
            response.Close();
        }
    }

    return line;
}

最后一点 - 我希望代码运行得更快,因为它一直阻塞直到页面被提取,所以如果我只能得到网站标题而不是整个页面,那就太棒了。

c# webrequest
3个回答
41
投票

获取内容的更简单方法:

WebClient x = new WebClient();
string source = x.DownloadString("http://www.singingeels.com/");

获得标题的更简单,更可靠的方法:

string title = Regex.Match(source, @"\<title\b[^>]*\>\s*(?<Title>[\s\S]*?)\</title\>",
    RegexOptions.IgnoreCase).Groups["Title"].Value;

5
投票

也许有了这个建议,为你开启了一个新的世界,我也遇到了这个问题,并提出了这个问题

http://html-agility-pack.net/?z=codeplex下载“Html Agility Pack”

或者去nuget:https://www.nuget.org/packages/HtmlAgilityPack/并添加此参考。

在代码文件中添加folow:

using HtmlAgilityPack;

在您的方法中写下以下代码:

var webGet = new HtmlWeb();
var document = webGet.Load(url);    
var title = document.DocumentNode.SelectSingleNode("html/head/title").InnerText;

资料来源:

https://codeshare.co.uk/blog/how-to-scrape-meta-data-from-a-url-using-htmlagilitypack-in-c/ HtmlAgilityPack obtain Title and meta


-1
投票

为了实现这一目标,您需要做一些事情。

  • 使您的应用程序具有线程,以便您可以在此时处理多个请求并最大化正在进行的HTTP请求的数量。
  • 在异步请求期间,仅下载要撤回的数据量,您可能会在数据回溯时查找数据
  • 可能想用正则表达式来取出标题名称

我之前使用SEO机器人做过这个,我一次能够处理近10,000个请求。您只需要确保每个Web请求都可以自包含在一个线程中。

© www.soinside.com 2019 - 2024. All rights reserved.