BPE Tokenizer 对一些 html 文本进行编码需要很长时间。

问题描述 投票:-1回答:0

我正在使用 BPE tokenizer 对 HTML 文本进行编码,以解决分类问题。大多数情况下,它的工作和预期的一样,但有几个网页的编码器需要很长时间才能对HTML进行编码。像you tube或google photos这样的网页没有任何问题,我遇到的问题是,像 https:/www.chainsawcarving.net 我的要求是从手机浏览器获取HTML。有什么办法可以解决这个慢的问题吗?

webText = str(request.text)
webText = webText.replace("\n", " ")

# Convert text into feature vector
output = tokenizer.encode(webText)```
machine-learning random-forest tokenize
© www.soinside.com 2019 - 2024. All rights reserved.