如何在 C# 中获取网页的文本（并且只有文本，没有其他元素）？ [已关闭]

问题描述投票：0回答：1

我正在尝试让 GPT-3 从网页读取文本。为此，我需要从所述页面获取文本。我试图弄清楚是否有一种方法可以获得纯文本并且没有其他元素（图片等）。我知道我需要使用 HttpClient，但我不确定具体细节。

尝试使用 HttpClient，但我很确定它得到了除明文之外的其他内容，这使得请求超出了 GPT-3 的令牌限制。

c# dotnet-httpclient gpt-3

1个回答

0
投票

使用 HttpClient 获取 HTML 内容后，您可以尝试使用“HtmlAgilityPack”（您可以使用

using HtmlAgilityPack;

通过 NuGet 安装它）来解析它，它允许您以编程方式操作 HTML DOM（文档对象模型）。然后您应该能够轻松地从解析后的 HTML 中提取文本。希望这有帮助！

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.