您能帮我划分文本列表吗？

您能帮我划分文本列表吗？

问题描述投票：0回答：1

我一直在研究神经网络教程，目前正在尝试对新闻文章进行分类。问题是，我需要将文本分为训练数据集和测试数据集，但我找不到解决方法。

例如，在我的示例网站中，文本的命名如下：cv100.txt, cv203.txt, cv900.txt，依此类推。因此，作者使用以下代码将这些测试分为9：1。

[if filename.startswith('cv9'):和if not filename.startswith('cv9'):

但是，对于我的文本，文件名列出如下：0000Data, 0001Data, ..., 0299Data。

我需要做的是将0000Data到0200Data的文本作为训练数据集，并将0200Data到0299Data的文本作为测试数据集。

但是我已经意识到这不适用于filename.startswith('')方法。必须有一种巧妙的方法来解决这个问题，但是尽管经过了很多搜索和思考，但我无法想到。

neural-network

listdir

1个回答

0
投票

如果您的书名为“自然语言处理的深度学习开发Python中自然语言的深度学习模型”和cover the same，则您只是缺少正确的数据集。

原始数据集可以通过链接http://www.cs.cornell.edu/people/pabo/movie-review-data/review_polarity.tar.gz下载，并且包含与您描述的内容完全相同的内容。

review_polarity树。├──poldata.README.2.0.md└──txt_sentoken├──负│├──cv000_29416.txt│├──cv001_19502.txt│├──cv002_17424.txt[...]│├──cv997_5152.txt│├──cv998_15691.txt│──└──cv999_14636.txt└──pos├──cv000_29590.txt├──cv001_18431.txt├──cv002_15918.txt[...]├──cv003_11664.txt├──cv004_11636.txt├──cv005_29443.txt

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1