带双引号的Logstash Grok模式

Question

我正在使用Logstash及其Grok过滤器解析代理日志。日志包含带引号的字符串：

1438120705 [.....] "SEF-EDP8" - "C"
"/GPM/1023/5745-7/456V/"

使用Grok Debugger，以下模式就像魅力一样：

%{NUMBER:ts} [......] (-|"%{USERNAME:token1}") (-|%{DATA:token2}) (-|"%{WORD:token3}") (-|"%{DATA:token4}")

这不适用于Logstash的Grok，因为grok模式中有双引号。 Logstash错误日志：

Error: Expected one of #, {, } at line 9, column 204 (byte 374) after
filter {
    grok {
        match => { "message" => "%{NUMBER:ts} [......] ("

所以我使用QuotedString grok模式代替：

%{NUMBER:ts} [......] (-|%{QS:token1}) (-|%{DATA:token2}) (-|%{QS:token3}) (-|%{QS:token4})

这也适用于Grok Debugger，但引号是用引号字符串提取的。它也不适用于Logstash：

token1 : ""SEF-EDP8"" token2 : null token3 : ""C"" token4 :
""/GPM/1023/5745-7/456V/""

如何使其与Logstash一起使用？如何删除这些不需要的额外双引号？

Answer 1

如果你逃避“反斜杠，那么它工作正常。

％{NUMBER：ts} [......]（ - |“％{USERNAME：token1}”）（ - |％{DATA：token2}）（ - |“％{WORD：token3}”）（ - | “％{DATA：token4}”）

你的新字符串看起来像

％{NUMBER：ts} [......]（ - | \“％{USERNAME：token1} \”）（ - |％{DATA：token2}）（ - | \“％{WORD：token3}” ）（ - | \“％{DATA：token4} \”）

Answer 2

将外部双引号更改为单引号代替了我的诀窍：

grok {
  match => { "message" => 'SOME "TEXT QUOTED"' }
}

希望能帮助到你。

Answer 3

使用引号提取字段后尝试gsub

filter {
  mutate {
    gsub => [

      "fieldname", "\"", ""
    ]
  }
}