我正在尝试分析几篇论文,想确定Word Cloud是否最适合.比如,word cloud没有考虑 "Not cheap"、"Expensive"、"Costly "这些类似的词,在云端遗漏的几率很高。这可能会转移分析的目的。
请告诉我是否有其他的替代方法? 或者是否有有效的方法来使用词云来避免这种情况?
事先多谢。
你可以生成一个新的数据框架,将同义词的单词结合起来,并将它们的计数相加。
要找到单词的同义词,你可以使用 PyDictionary.
然后你可以转换你的数据框架,将同义词俱乐部在一起。例如,如果你有:
"Not Cheap" = 4
"Costly" = 0
"Expensive" = 10
你可以将其转换为:
"Not Cheap/Costly/Expensive" = 14
很明显,这样会损失一些信息,但对于你的目的来说,这可能更适合。