我正在进行CS课程项目,在其中我必须在Ubuntu VM上对Twitter数据进行情感分析。我能够构建一个搜寻器来获取数据,但输出的格式为JSON流文件,这是一个非常大的文件,其样式为:
{
"query": "#India_since_2019",
"username": "user_1",
"ID": "123455",
"tweet": "This is the tweet",
"datetime": "2019-04-05"
}
{
"query": "#India_since_2019",
"username": "user_1",
"ID": "123455",
"tweet": "This is the tweet",
"datetime": "2019-04-05"
}
依此类推。
这会阻止我逐行读取文件,因为所有数据都已附加,因此不会创建任何新行。
我尝试使用jq解析数据,但是文件太大,因此产生了错误。
你们对我如何将其轻松转换为有效的JSON并写入另一个文件有什么建议?
我愿意在任何脚本中接受解决方案,因为我可以灵活地使用它们,尽管我更喜欢可以在Python / Shell中使用的想法。
谢谢!
jq的主要优点之一是它是面向流的,因此除非是目标,否则无需将JSON实体流转换为这些实体的数组。所有处理都应使用input
和/或inputs
完成,最有可能使用-n命令行选项。