自然语言处理(NLP)是人工智能的子领域,涉及从自然语言数据转换或提取有用信息。方法包括机器学习和基于规则的方法。
我刚开始学习NLP,我使用Gensim遇到了一些问题。 运行后:
pip install --upgrade gensim
具有Spacy的其他命名实体识别所需的培训数据量是多少? 我使用spacy模块查找输入文本的名称实体。我正在训练该模型以预测医学术语。我目前可以使用200万张医疗票据,我为此写了一个程序。
我想知道是否有人成功培训了一个新实体,可以使我对他们在至少具有某种可靠的实体认可所必需的培训中的个人经验有所了解。
是平均的子词编码一种合理的方法吗?如果没有,是否有更好的选择?
我想做什么 我想通过使用NLP库,将动词从现在的时态转换为过去时态。 当她离开厨房时,他的声音跟随她。 #输出 当她离开
如果文本超过max_seq_length,我可以如何使句子 - bert抛出一个例外,而最大可能的max_seq_length是全米尼l6-v2?
from sentence_transformers import SentenceTransformer model = SentenceTransformer('all-MiniLM-L6-v2') model.max_seq_length = 512 model.encode(text)
有一种方法可以找到整个数据集的最具代表性的样本集? 我正在研究文本分类,我有200.000条推文。 这个想法是手动标记一组简短的推文和火车分类器,以预测其余标签。监督学习...
该想法是手动标记一组简短的推文和火车分类器,以预测其余标签。监督学习
我需要对文本进行分类,我正在使用文本blob python模块来实现它。我可以使用幼稚的贝叶斯分类器/决策树。我担心以下提到的观点。
分类为参数/而不是参数。我正在使用两个分类器,并使用APT数据集训练模型。我的问题是我只需要用关键字训练模型吗?或者我可以使用所有可能的参数训练数据集,而非参数
from presidio_anonymizer import PresidioAnonymizer from presidio_reversible_anonymizer import PresidioReversibleAnonymizer config = { "nlp_engine_name": "spacy", "models": [{"lang_code": "pl", "model_name": "pl_core_news_lg"}], } anonymizer = PresidioAnonymizer(analyzed_fields=["PERSON", "PHONE_NUMBER", "EMAIL_ADDRESS"], languages_config=config) anonymizer_tool = PresidioReversibleAnonymizer(analyzed_fields=["PERSON", "PHONE_NUMBER", "EMAIL_ADDRESS"], languages_config=config) text = "Jan Kowalski mieszka w Warszawie i ma e-mail [email protected]." anonymized_result = anonymizer_tool.anonymize(text) anon_result = anonymizer.anonymize(text) deanonymized_result = anonymizer_tool.deanonymize(anonymized_result) print("Anonymized text:", anonymized_result) print("Deanonymized text:", deanonymized_result) print("Map:", anonymizer_tool.deanonymizer_mapping) print("Anonymized text:", anon_result)