如何将极大的json流文件解析为有效的JSON

问题描述 投票:0回答:1

我正在进行CS课程项目,在其中我必须在Ubuntu VM上对Twitter数据进行情感分析。我能够构建一个搜寻器来获取数据,但输出的格式为JSON流文件,这是一个非常大的文件,其样式为:

{
  "query": "#India_since_2019",
  "username": "user_1",
  "ID": "123455",
  "tweet": "This is the tweet",
  "datetime": "2019-04-05"
}
{
  "query": "#India_since_2019",
  "username": "user_1",
  "ID": "123455",
  "tweet": "This is the tweet",
  "datetime": "2019-04-05"
}

依此类推。

这会阻止我逐行读取文件,因为所有数据都已附加,因此不会创建任何新行。

我尝试使用jq解析数据,但是文件太大,因此产生了错误。

你们对我如何将其轻松转换为有效的JSON并写入另一个文件有什么建议?

我愿意在任何脚本中接受解决方案,因为我可以灵活地使用它们,尽管我更喜欢可以在Python / Shell中使用的想法。

谢谢!

python json bash jq large-files
1个回答
0
投票

jq的主要优点之一是它是面向流的,因此除非是目标,否则无需将JSON实体流转换为这些实体的数组。所有处理都应使用input和/或inputs完成,最有可能使用-n命令行选项。

© www.soinside.com 2019 - 2024. All rights reserved.