我正在尝试让 GPT-3 从网页读取文本。为此,我需要从所述页面获取文本。我试图弄清楚是否有一种方法可以获得纯文本并且没有其他元素(图片等)。我知道我需要使用 HttpClient,但我不确定具体细节。
尝试使用 HttpClient,但我很确定它得到了除明文之外的其他内容,这使得请求超出了 GPT-3 的令牌限制。
使用 HttpClient 获取 HTML 内容后,您可以尝试使用“HtmlAgilityPack”(您可以使用
using HtmlAgilityPack;
通过 NuGet 安装它)来解析它,它允许您以编程方式操作 HTML DOM(文档对象模型)。然后您应该能够轻松地从解析后的 HTML 中提取文本。希望这有帮助!