我对熊猫很陌生(几个月),我开始建立一个基于熊猫数据数组的项目。
此类熊猫数据数组将包含一个表,该表包含一组文本(大约10万个文档,大约200个关键字)中出现的不同种类的词。
例如,想象一下“汽车”一词和“摩托车”一词以及编号为doc1,doc2等的文件。>
我应该如何安排?a)每列的名称是文档编号,索引是单词“ car”和“ motorbike”,或者b)反过来;索引是docs数字,列是单词?
我对熊猫没有足够的见识,因此无法预见这种选择的后果。并且所有代码都将基于该决定。
附带说明,数组不是静态的,将会不时地有更多的文档和更多的单词被添加到数组中。
您会推荐什么? a还是b?以及为什么?
谢谢。
我对熊猫很陌生(几个月),我开始建立一个基于熊猫数据数组的项目。这样的大熊猫数据数组将包含一个包含不同的表...
[通常在大熊猫中,我们遵循这样的惯例:实例是列(此处是文档编号),特征是列(此处是单词)。因此,更喜欢使用方法“ b”。