使用 jq 展平嵌套 JSON

问题描述 投票:0回答:6

我想展平嵌套的 json 对象,例如

{"a":{"b":1}}
{"a.b":1}
,以便在 solr 中消化它。

我有 11 TB 的 json 文件,它们都是嵌套的,并且在字段名称中包含点,这意味着 elasticsearch(点)和 solr(没有

_childDocument_
符号的嵌套)都不能按原样消化它。

其他解决方案是将字段名称中的点替换为下划线并将其推送到elasticsearch,但我对 solr 有更好的经验,因此我更喜欢扁平化解决方案(除非 solr 可以按原样消化这些嵌套的 json??)。

只有当消化过程花费的时间比 solr 少得多时,我才会更喜欢 elasticsearch,因为我的首要任务是尽可能快地消化(因此我选择了 jq 而不是用 python 编写脚本)。

请帮忙。

编辑:

我认为示例 3 和 4 为我解决了这个问题: https://lucidworks.com/blog/2014/08/12/indexing-custom-json-data/

我很快就会尝试。

json elasticsearch solr jq flatten
6个回答
29
投票

您还可以使用以下 jq 命令以这种方式展平嵌套的 JSON 对象:

[paths(values) as $path | {"key": $path | join("."), "value": getpath($path)}] | from_entries

它的工作方式是:

leaf_paths
返回一个数组流,该数组表示给定 JSON 文档上出现“叶元素”的路径,即没有子元素的元素,例如数字、字符串和布尔值。我们将该流通过管道传输到具有
key
value
属性的对象中,其中
key
包含路径数组的元素,作为由点连接的字符串,而
value
包含该路径处的元素。最后,我们将整个内容放入一个数组中并对其运行
from_entries
,这会将
{key, value}
对象数组转换为包含这些键值对的对象。


19
投票

这只是圣地亚哥 jq 的一个变体:

. as $in 
| reduce leaf_paths as $path ({};
     . + { ($path | map(tostring) | join(".")): $in | getpath($path) })

它避免了键/值构建和销毁的开销。

(如果您可以访问jq 1.5之后的版本,则可以省略“map(tostring)”。)

关于这两个 jq 解决方案的两个要点:

  1. 数组也被展平。 例如。给定

    {"a": {"b": [0,1,2]}}
    作为输入,输出将是:

    {
      "a.b.0": 0,
      "a.b.1": 1,
      "a.b.2": 2
    }
    
  2. 如果原始 JSON 中的任何键包含句点,则可能发生键冲突;此类冲突通常会导致值丢失。例如,如果输入以下内容,就会发生这种情况:

    {"a.b":0, "a": {"b": 1}}
    

4
投票

这是一个使用 tostreamselectjoinreducesetpath

的解决方案
  reduce ( tostream | select(length==2) | .[0] |= [join(".")] ) as [$p,$v] (
     {}
     ; setpath($p; $v)
  )

3
投票

我最近编写了一个名为 jqg 的脚本,它可以展平任意复杂的 JSON 并使用正则表达式搜索结果;为了简单地展平 JSON,您的正则表达式将是“

.
”,它匹配所有内容。与上面的答案不同,脚本将处理嵌入数组、
false
null
值,并且可以选择将空数组和对象(
[]
{}
)视为叶节点。

$ jq . test/odd-values.json
{
  "one": {
    "start-string": "foo",
    "null-value": null,
    "integer-number": 101
  },
  "two": [
    {
      "two-a": {
        "non-integer-number": 101.75,
        "number-zero": 0
      },
      "true-boolean": true,
      "two-b": {
        "false-boolean": false
      }
    }
  ],
  "three": {
    "empty-string": "",
    "empty-object": {},
    "empty-array": []
  },
  "end-string": "bar"
}

$ jqg . test/odd-values.json
{
  "one.start-string": "foo",
  "one.null-value": null,
  "one.integer-number": 101,
  "two.0.two-a.non-integer-number": 101.75,
  "two.0.two-a.number-zero": 0,
  "two.0.true-boolean": true,
  "two.0.two-b.false-boolean": false,
  "three.empty-string": "",
  "three.empty-object": {},
  "three.empty-array": [],
  "end-string": "bar"
}

jqg
使用jq 1.6进行测试

注意: 我是

jqg
脚本的作者。


1
投票

事实证明,

curl -XPOST 'http://localhost:8983/solr/flat/update/json/docs' -d @json_file
就是这样做的:

{
    "a.b":[1],
    "id":"24e3e780-3a9e-4fa7-9159-fc5294e803cd",
    "_version_":1535841499921514496
}

编辑 1:solr 6.0.1 带有

bin/solr -e cloud
。集合名称为
flat
,其余均为默认(其中
data-driven-schema
也是默认)。

编辑2:我使用的最终脚本:

find . -name '*.json' -exec curl -XPOST 'http://localhost:8983/solr/collection1/update/json/docs' -d @{} \;

编辑3:也可以与 xargs 并行并使用 jq 添加 id 字段:

find . -name '*.json' -print0 | xargs -0 -n 1 -P 8 -I {} sh -c "cat {} | jq '. + {id: .a.b}' | curl -XPOST 'http://localhost:8983/solr/collection/update/json/docs' -d @-"
其中
-P
是并行系数。我使用 jq 设置一个 id,这样同一文档的多次上传不会在集合中创建重复项(当我搜索
-P
的最佳值时,它会在集合中创建重复项)


0
投票

正如 @hraban 提到的,

leaf_paths
无法按预期工作(此外,它已被弃用)。
leaf_paths
相当于
paths(scalars)
,它返回
scalars
返回真值的任何值的路径。如果输入值是标量,则
scalars
返回其输入值,否则返回
null
。问题在于
null
false
不是真值,因此它们将从输出中删除。通过直接检查值的类型,以下代码确实有效:

. as $in
     | reduce paths(type != "object" and type != "array") as $path ({};
          . + { ($path | map(tostring) | join(".")): $in | getpath($path) })
© www.soinside.com 2019 - 2024. All rights reserved.