R中的文本挖掘/单词相关性

问题描述投票：0回答：1

我正在尝试在R中进行文本挖掘或更确切地说是单词相关。

我想做的是，我要查询整个导出的OpenStreetMap数据库的所有要素，这些要素都在到各个经纬度位置特定距离内。到目前为止，这就像一种魅力，到现在为止，我已经拥有character类型的数据框列，其中包含该特定距离内的所有功能，其中一行代表一个经度-纬度位置。数据框列可以在this csv中找到，所有可能的功能的目录都可以在this csv中找到。

我的下一步是根据位置的周围特征对位置进行分类。为此，我想使用文本挖掘/单词相关算法，该算法能够基于经常出现在相同位置的特征来创建类别。

因此简而言之：我有一列类型为character（用逗号分隔的单词），其中一行包含位于经纬度位置附近的所有要素。基于这些周围的特征，我想根据相关特征对位置进行分类。

我已经尝试过tm包中的findAssocs，但不幸的是，它对于list，data.frame和character类型都不起作用。我还发现了this wonderful documentation可以指导R中的基本文本挖掘。这里的问题是，似乎我必须将数据框列的每一行转换为文档，以准备语料库以进行进一步处理。尽管这对于我的61个位置的测试案例来说可能是可行的，但对于我对数万个位置的最终分析而言，并没有那么大。

有人可以在这里向正确的方向刺我吗？最好不要依赖“ rapidminer”之类的第三方软件。对于我的用例，将所有内容都放在一个R脚本中会更好。

谢谢你。如果您需要任何其他信息，请让我知道。

我正在尝试在R中使文本挖掘或更确切地说是单词相关性。我要尝试做的更大的事情是，我在整个导出的OpenStreetMap数据库中查询所有具有...的功能”]]

correlation

text-mining

1个回答

0
投票

我已经找到了逐步指南，可以将数据从我的格式转换为可用于文本挖掘的格式。可以找到该指南here。这确实回答了我的问题。我对此职位表示歉意。

R中的文本挖掘/单词相关性

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1