斯坦福大学的自然语言处理Java库(NLP)套件。
我的 gpt2 代码生成了一些正确的单词,然后进入一个循环,一次又一次地生成相同的序列
以下用于句子补全的 gpt2 代码生成了一些好句子,然后以重复句子的循环结束。 从变压器导入 GPT2LMHeadModel,GPT2Tokenizer ...
我们想做一个 POC,使用基于 Java 的 NLP 库,如 Stanford Core NLP 和/或 Deeplearning4J 来训练/使用可以提取洞察力/意义/摘要并为用户提供答案的模型
我和我的朋友正在做一个关于歌曲推荐的NLP项目,我们最初的计划是根据随机输入的cor...给出一个歌词最相似的推荐歌曲播放列表...
我在从 Glove 导入语料库时尝试了所有可能的方法——我尝试了 Pip Install 和 Zip 文件中的 Pip3 Install。似乎没有任何效果。请帮忙。
导入spacy nlp = spacy.load("en_core_web_lg") # 如果失败则运行“python -m spacy download en_core_web_lg”来下载该模型 def preprocess_and_vectorize(文本): ...
我需要从文本中提取关键词。我有一个关键字字典,比方说 阿帕奇火花 爪哇 路径 亚马逊网络服务 阿帕奇卡夫卡 我有一个工作岗位,例如: 设计、开发和制造……
我正在用我自己的训练数据重新训练斯坦福 NER 模型以提取组织。但是,无论我使用 4GB RAM 机器还是 8GB RAM 机器,我都会遇到相同的 Java 堆空间错误。 可以
所以我有一个名为“活动”的列,每一行都由文本值组成,有些包含符号,例如“*、-、/n、...”,有些则没有。我尝试根据 &... 对活动进行细分
如何识别和纠正包含错误的问答数据集,例如错误答案或缺失信息,并确保数据集的准确性? 假设我有数千...
如何查看一个 Nokogiri::XML::Node 是否包含另一个 Nokogiri::XML::Node 的一部分?
使用 ruby Nokogiri 我有一个 Nokogiri::XML::Node 对象(ConstituencyXMLNode 继承自 Nokogiri::XML::Node),它是一个像这样的树对象: #(ConstituencyXMLNode:0xc3c8 { name = "PP&quo...
如何合并ID相同但其他列数据不同的数据行并删除重复的连续词?
我在熊猫数据框中有一组数据 |编号 |日期 |地点 |文本 | 123456 | 23 年 1 月 1 日 |巴黎 |报告的问题: | 123456 | 23 年 1 月 1 日 |巴黎 | 报告的概率...
StanfordCoreNLP中的解析树和Stanza中的解析树给出了不同的结果(表示结构)
我使用StanfordCoreNLP做了依赖性解析,使用下面的代码 from stanfordcorenlp import StanfordCoreNLP nlp = StanfordCoreNLP('stanford-corenlp-full-2018-10-05', lang='en') sentence = 'The ...
给定一个文本,我希望找到与文本中提到的命名实体相关的所有维基百科页面的链接。有没有一种可靠的方法可以做到这一点?例如,考虑文本,Mark Elliot ...
在我的研究中,我正在探索一组媒体与另一组媒体相比是否存在统计学意义上的意识形态偏差。我希望使用词嵌入的方法来探索这个问题。让...
如果有两个词的POS不同,但拼写相同,那么这种词是否有不同的词素呢?例如,作为名词的 "care "和作为动词的 "care "这两个词的词性相同或 ...
我有一个来自核心NLP的JSON响应,它是这样的:文本。"告诉我南澳的笔记是什么" sentence { token { word: "Tell" pos: "VB" value: "Tell" before: "" ...
英语NER Annotator for Stanford CoreNLP v 4.0.0与v 3.9.2相比缺少一些实体类型。
我最近从3.9.2版本升级到了Stanford CoreNLP v 4.0.0,并注意到它在NER方面的性能似乎有所下降。特别是,v4似乎没有识别出那么多的实体,没有 ...
我正在尝试托管CoreNLP服务器,但使用无壳模型,但我认为我没有成功,而且官方网站上没有托管这种模型的例子。我目前使用的主机是:java -...
stanfordnlp differences 3.9.2 -> 4.0.0 changelg。
改为UDv2标记化("新的 "LDC Treebank,用于英语);处理多词标记;改进基于UDv2的英语、法语、德语、西班牙语的标记器和解析器;新的法语NER;新的中文 ...