我正在使用 BPE tokenizer 对 HTML 文本进行编码,以解决分类问题。大多数情况下,它的工作和预期的一样,但有几个网页的编码器需要很长时间才能对HTML进行编码。像you tube或google photos这样的网页没有任何问题,我遇到的问题是,像 https:/www.chainsawcarving.net 我的要求是从手机浏览器获取HTML。有什么办法可以解决这个慢的问题吗?
webText = str(request.text)
webText = webText.replace("\n", " ")
# Convert text into feature vector
output = tokenizer.encode(webText)```