text-mining 相关问题

文本挖掘是从非结构化(文本)信息中获取高质量信息的过程。

提及人类的英语单词列表

我试图自动处理英语句子并检测可能指人类的单词。例如他,每个人,某个人,侄女,我,儿子,......我已经在使用NER了,并且......

回答 1 投票 -1

爬网

我想抓取特定的东西。特别是正在发生的事件,如音乐会,电影,艺术画廊开放等等。任何可能花时间去的东西。我该如何实现......

回答 10 投票 12

从字符向量创建自定义字典

我正在尝试使用dfm_lookup()在语料库中查找特定单词。我真的在努力学习dfm_loopup()所需的词典。我创建了一个名为“words”的字符向量...

回答 1 投票 1

来自VCorpus和DTM的术语频率不匹配

我从Corpus和DTM计算了测试文件的术语频率,如下所示。但他们并不相符。谁能告诉我不匹配的来源?是因为我用错了......

回答 1 投票 0

删除R中具有特定标点符号的特定单词

我正在研究R中包含俄语问询的语料库。在每个问题的开头都有写的人的名字。例如:总统。 - 你是Nikolaj ......

回答 3 投票 2

将单元格中的单词移动到各个列[关闭]

我有一个csv文件,每个单元格中有一个包含多个单词的列。我想知道是否有任何R函数将每个单元格中的单词移动到单个单元格。以下是......中两个单元格中的数据

回答 1 投票 0

在python中从字符串中搜索字词并将输出提供到CSV列中

一个程序,如果它包含单词列表,则逐行检查字符串,并在名为“Result”的下一列中写入1/0我正在寻找包含像'PNR'这样的单词的过滤文本消息...

回答 1 投票 0

如何用R中的特定字典对语料库进行词形变换?“

我正在尝试对语料库执行词形还原,使用函数lemmatize_strings()作为tm包的tm_map()的参数。但是我想用自己的字典(“lexico” - 第一列用...

回答 1 投票 0

Word嵌入,LookupTable,Word嵌入可视化

我需要问几个关于单词嵌入的问题.....可能是基本的。当我们将单词的一个热矢量例如king [0 0 0 1 0]转换为嵌入向量E = [0.2,0.4,0.2,0.2] ....

回答 1 投票 1

(R)关于DocumentTermMatrix中的停用词

我有一些关于DocumentTermMatrix()及其停用词的问题。我键入如下,但无法得到我想要的结果。文本

回答 1 投票 0

将R矩阵转换为text2vec dtm

我有一个R矩阵垫,我想在它上面执行LDA。当我运行lda_model $ fit_transform(mat,n_iter = 20)时,我收到一个错误:super $ check_convert_input(x)中的错误:不知道如何处理...

回答 1 投票 0

如何在R中输出一个字的固定距离值的所有可能的偏差?

我有一个词,并希望在R中输出所有可能的偏差(替换,替换,插入),将固定距离值输入到矢量中。例如,单词“Cat”和固定距离值......

回答 1 投票 1

如何从短文本文档中提取类别?

我的数据包含开放式问题的答案:推荐您所在组织的原因是什么?我想使用一种算法/技术,使用这些数据,学习...

回答 1 投票 -2

如何从R语料库中删除文本?

我正在使用tm包中的corpus_segment函数将长文档分成章节。运行模式后,我仍然留下了几个不需要的章节。我想以某种方式......

回答 1 投票 0

如何在大型文本语料库中“有效”地将字符串向量替换为另一对(成对)

我在一个字符串向量中有一大块文本(应用程序700.000字符串)。我正在尝试替换语料库中的特定单词/短语。也就是说,我有一个应用40.000短语的矢量和...

回答 3 投票 2

使用R基于第n次出现的子串有效地分解字符串

引言给定R中的字符串,是否有可能得到一个向量化解(即无循环),我们可以将字符串分解为块,其中每个块由第n次出现的...确定

回答 2 投票 1

tweepy Streaming API:全文

我正在使用tweepy流API来获取包含特定主题标签的推文。我面临的问题是我无法从Streaming API中提取推文的全文。只有140 ......

回答 4 投票 4

在R中计算带有for循环的单词

我使用R进行阿拉伯语文本挖掘,我想检查一下单词是否超过6个字符做了一些更改并且它正在工作但它只返回第一个单词...

回答 1 投票 1

将行字符串拆分为R中的多个列

我使用R并且我将此字符串作为一行,我需要将其拆分为列'id':1050442590754103297,'id_str':'1050442590754103297','name':'امرودينا','screen_name':'uclkGkQ5 ','......

回答 1 投票 0

回答 1 投票 3

© www.soinside.com 2019 - 2024. All rights reserved.