我一直在研究神经网络教程,目前正在尝试对新闻文章进行分类。问题是,我需要将文本分为训练数据集和测试数据集,但我找不到解决方法。
例如,在我的示例网站中,文本的命名如下:cv100.txt, cv203.txt, cv900.txt
,依此类推。因此,作者使用以下代码将这些测试分为9:1。
[if filename.startswith('cv9'):
和if not filename.startswith('cv9'):
但是,对于我的文本,文件名列出如下:0000Data, 0001Data, ..., 0299Data
。
我需要做的是将0000Data
到0200Data
的文本作为训练数据集,并将0200Data
到0299Data
的文本作为测试数据集。
但是我已经意识到这不适用于filename.startswith('')
方法。必须有一种巧妙的方法来解决这个问题,但是尽管经过了很多搜索和思考,但我无法想到。
如果您的书名为“自然语言处理的深度学习开发Python中自然语言的深度学习模型”和cover the same,则您只是缺少正确的数据集。
原始数据集可以通过链接http://www.cs.cornell.edu/people/pabo/movie-review-data/review_polarity.tar.gz下载,并且包含与您描述的内容完全相同的内容。
review_polarity树。├──poldata.README.2.0.md└──txt_sentoken├──负│├──cv000_29416.txt│├──cv001_19502.txt│├──cv002_17424.txt[...]│├──cv997_5152.txt│├──cv998_15691.txt│──└──cv999_14636.txt└──pos├──cv000_29590.txt├──cv001_18431.txt├──cv002_15918.txt[...]├──cv003_11664.txt├──cv004_11636.txt├──cv005_29443.txt