如何在Python中分离数据集中的项目?

问题描述 投票:0回答:1

我从网上抓取了评论,各有优缺点。我把它们作为一个列表,因为它看起来是最好的解决方案,可以避免与用户、日期等进行相同的评论十次,只是为了区分优点/缺点。

现在,由于 pandas 库,我有了一个很好的数据集结构,但我不知道如何将正反两方面作为列表使用。以下预处理 - 删除标点符号等以开始使用语言模型 fastText 是这里的问题 - 我将删除 [] 作为优点/缺点和分隔项目的列表......我应该做什么?还是对以后的fastText没有影响?

例如:评论#1:产品 - 用户 - 日期 - 优点['有用','价格不错'] - 缺点['糟糕的设计']

我对 fastText 还不太熟悉,但我害怕“有用的好价格”带来不好的结果。如果您还有任何使用 fastText 的技巧,我将不胜感激。

谢谢!

list dataset data-preprocessing fasttext
1个回答
0
投票

我对你的问题到底是什么有点困惑。你是对的,你应该去掉任何括号。 fastText 可以将数据作为一个字符串来处理,因为它内置了子字处理功能。例如,您可以将专业人士视为“有用的好价格”,并且您应该能够获得您正在寻找的结果。或者,您可以自己分解它并在将数据传递给 fastText 之前对数据进行标记。

通过有关该项目的更多详细信息,我可以为您提供更多帮助。我认为这里的目标是训练一个模型来识别评论是正面还是负面。

fastText 一点也不难。由于您使用的是 python,请查看此链接,如果您熟悉该页面,您应该可以找到您正在寻找的任何内容。

再次让我了解您的更多细节或问题。祝你好运!

FastText + Python

© www.soinside.com 2019 - 2024. All rights reserved.