我应使用哪种CSV,JSON或MySQL?

问题描述 投票:0回答:1

我正在制作一个AI聊天机器人,并已从Reddit下载数据。http://files.pushshift.io/reddit/comments/

这听起来像是一个非编程问题,但我认为值得。数据在文本文件中,它将是100 Gb。每行数据都是一个帖子/评论。忽略created_utc之类的不必要数据,并忽略小于5分的帖子,我将得到大约1/6的数据。

例如2015年7月的数据为36 GB,总共5840万行。按得分筛选后,我剩下800万行。 txt文件约为4.3 GB,没有过滤不必要的数据,例如created_utc

我的问题是,对于存储和性能而言,哪种CSV,JSON或MySQL最有效。我有10 GB的RAM,因此我并不完全担心性能。我主要关心的是空间。我有120 GB的SSD托管MySQL,并有1 TB的HDD可用于存储。我应该如何存储数据?

我正在寻找比较,但是他们所有人都只谈论性能而不是存储。预先感谢。

mysql json csv storage training-data
1个回答
0
投票

MySQL是一个数据库,而JSON和CSV不是,因此正确的答案是MySQL。 JSON只是一种语言,几乎没有。 JSON从未被设计来处理诸如并发连接或任何类型的数据操作之类的事情,因为它自己的功能是表示数据,而不是管理数据。

因此,请使用MySQL存储数据。然后,您应该使用某种编程语言来读取该数据库,并将该信息作为JSON发送,而不是将任何内容实际存储在JSON中。

如果您不需要数据操作/更改,我会选择CSV。但是我认为,如果您继续工作和扩展等等,可能会带来问题。并且比起您一开始不想要的更改。

不是很熟练,所以[[等待其他遮阳篷!但是我对此有看法吗;)

© www.soinside.com 2019 - 2024. All rights reserved.