如何在 C# 中获取网页的文本(并且只有文本,没有其他元素)? [已关闭]

问题描述 投票:0回答:1

我正在尝试让 GPT-3 从网页读取文本。为此,我需要从所述页面获取文本。我试图弄清楚是否有一种方法可以获得纯文本并且没有其他元素(图片等)。我知道我需要使用 HttpClient,但我不确定具体细节。

尝试使用 HttpClient,但我很确定它得到了除明文之外的其他内容,这使得请求超出了 GPT-3 的令牌限制。

c# dotnet-httpclient gpt-3
1个回答
0
投票

使用 HttpClient 获取 HTML 内容后,您可以尝试使用“HtmlAgilityPack”(您可以使用

using HtmlAgilityPack;
通过 NuGet 安装它)来解析它,它允许您以编程方式操作 HTML DOM(文档对象模型)。然后您应该能够轻松地从解析后的 HTML 中提取文本。希望这有帮助!

© www.soinside.com 2019 - 2024. All rights reserved.