如何将极大的json流文件解析为有效的JSON

Question

我正在进行CS课程项目，在其中我必须在Ubuntu VM上对Twitter数据进行情感分析。我能够构建一个搜寻器来获取数据，但输出的格式为JSON流文件，这是一个非常大的文件，其样式为：

{
  "query": "#India_since_2019",
  "username": "user_1",
  "ID": "123455",
  "tweet": "This is the tweet",
  "datetime": "2019-04-05"
}
{
  "query": "#India_since_2019",
  "username": "user_1",
  "ID": "123455",
  "tweet": "This is the tweet",
  "datetime": "2019-04-05"
}

依此类推。

这会阻止我逐行读取文件，因为所有数据都已附加，因此不会创建任何新行。

我尝试使用jq解析数据，但是文件太大，因此产生了错误。

你们对我如何将其轻松转换为有效的JSON并写入另一个文件有什么建议？

我愿意在任何脚本中接受解决方案，因为我可以灵活地使用它们，尽管我更喜欢可以在Python / Shell中使用的想法。

谢谢！

Answer 1

jq的主要优点之一是它是面向流的，因此除非是目标，否则无需将JSON实体流转换为这些实体的数组。所有处理都应使用input和/或inputs完成，最有可能使用-n命令行选项。

如何将极大的json流文件解析为有效的JSON

问题描述投票：0回答：1

1个回答

最新问题

如何将极大的json流文件解析为有效的JSON

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1