Pickle Tfidfvectorizer 以及自定义分词器

Question

我正在使用服装标记器传递给 TfidfVectorizer。该标记生成器依赖于外部类 TermExtractor，该类位于另一个文件中。

我基本上想基于某些术语构建一个 TfidVectorizer，而不是所有单个单词/标记。

这是对其进行编码：

from sklearn.feature_extraction.text import TfidfVectorizer
from TermExtractor import TermExtractor

extractor = TermExtractor()

def tokenize_terms(text):
    terms = extractor.extract(text)
    tokens = []
    for t in terms:
        tokens.append('_'.join(t))
    return tokens


def main(): 
    vectorizer = TfidfVectorizer(lowercase=True, min_df=2, norm='l2', smooth_idf=True, stop_words=stop_words, tokenizer=tokenize_terms)
    vectorizer.fit(corpus)
    pickle.dump(vectorizer, open("models/terms_vectorizer", "wb"))

这运行得很好，但每当我想重新使用这个 TfidfVectorizer 并用 pickle 加载它时，我都会收到错误：

vectorizer = pickle.load(open("models/terms_vectorizer", "rb"))

Traceback (most recent call last):
  File "./train-nps-comments-classifier.py", line 427, in <module>
    main()
  File "./train-nps-comments-classifier.py", line 325, in main
    vectorizer = pickle.load(open("models/terms_vectorizer", "rb"))
  File "/usr/lib/python2.7/pickle.py", line 1378, in load
    return Unpickler(file).load()
  File "/usr/lib/python2.7/pickle.py", line 858, in load
    dispatch[key](self)
  File "/usr/lib/python2.7/pickle.py", line 1090, in load_global
    klass = self.find_class(module, name)
  File "/usr/lib/python2.7/pickle.py", line 1126, in find_class
    klass = getattr(mod, name)
AttributeError: 'module' object has no attribute 'tokenize_terms'

当存在依赖类时，Python pickle 如何工作？

Answer 1

只要弄清楚，我需要在加载pickled TfidVectorizer的同一代码中添加方法tokenize_terms()，导入TermExtractor，并创建一个提取器：

extractor = TermExtractor()

Answer 2

此外，您可以尝试使用名为

dill

的新的嵌入式替换库它是 pickel 库的扩展，支持更多序列化对象类型

Pickle Tfidfvectorizer 以及自定义分词器

问题描述投票：0回答：2

2个回答

最新问题

Pickle Tfidfvectorizer 以及自定义分词器

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2