R中的文本挖掘/单词相关性

问题描述 投票:0回答:1

我正在尝试在R中进行文本挖掘或更确切地说是单词相关。

我想做的是,我要查询整个导出的OpenStreetMap数据库的所有要素,这些要素都在到各个经纬度位置特定距离内。到目前为止,这就像一种魅力,到现在为止,我已经拥有character类型的数据框列,其中包含该特定距离内的所有功能,其中一行代表一个经度-纬度位置。数据框列可以在this csv中找到,所有可能的功能的目录都可以在this csv中找到。

我的下一步是根据位置的周围特征对位置进行分类。为此,我想使用文本挖掘/单词相关算法,该算法能够基于经常出现在相同位置的特征来创建类别。

因此简而言之:我有一列类型为character(用逗号分隔的单词),其中一行包含位于经纬度位置附近的所有要素。基于这些周围的特征,我想根据相关特征对位置进行分类。

我已经尝试过tm包中的findAssocs,但不幸的是,它对于listdata.framecharacter类型都不起作用。我还发现了this wonderful documentation可以指导R中的基本文本挖掘。这里的问题是,似乎我必须将数据框列的每一行转换为文档,以准备语料库以进行进一步处理。尽管这对于我的61个位置的测试案例来说可能是可行的,但对于我对数万个位置的最终分析而言,并没有那么大。

有人可以在这里向正确的方向刺我吗?最好不要依赖“ rapidminer”之类的第三方软件。对于我的用例,将所有内容都放在一个R脚本中会更好。

谢谢你。如果您需要任何其他信息,请让我知道。

我正在尝试在R中使文本挖掘或更确切地说是单词相关性。我要尝试做的更大的事情是,我在整个导出的OpenStreetMap数据库中查询所有具有...的功能”]]

r correlation text-mining
1个回答
0
投票

我已经找到了逐步指南,可以将数据从我的格式转换为可用于文本挖掘的格式。可以找到该指南here。这确实回答了我的问题。我对此职位表示歉意。

© www.soinside.com 2019 - 2024. All rights reserved.