为什么Parsec的sepBy停止并且不解析所有元素?

问题描述 投票:1回答:2

我试图解析一些逗号分隔的字符串,其中可能包含或不包含具有图像尺寸的字符串。例如"hello world, 300x300, good bye world"

我写了以下小程序:

import Text.Parsec
import qualified Text.Parsec.Text as PS

parseTestString :: Text -> [Maybe (Int, Int)]
parseTestString s = case parse dimensStringParser "" s of
                      Left _ -> [Nothing]
                      Right dimens -> dimens

dimensStringParser :: PS.Parser [Maybe (Int, Int)]
dimensStringParser = (optionMaybe dimensParser) `sepBy` (char ',')

dimensParser :: PS.Parser (Int, Int)
dimensParser = do
  w <- many1 digit
  char 'x'
  h <- many1 digit
  return (read w, read h)

main :: IO ()
main = do
  print $ parseTestString "300x300,40x40,5x5"
  print $ parseTestString "300x300,hello,5x5,6x6"

根据optionMaybe文档,它返回Nothing如果它无法解析,所以我希望得到这个输出:

[Just (300,300),Just (40,40),Just (5,5)]
[Just (300,300),Nothing, Just (5,5), Just (6,6)]

但相反,我得到:

[Just (300,300),Just (40,40),Just (5,5)]
[Just (300,300),Nothing]

即解析在第一次失败后停止。所以我有两个问题:

  1. 为什么它会这样?
  2. 如何为这种情况编写正确的解析器?
parsing haskell parsec
2个回答
1
投票

我猜optionMaybe dimensParser,当输入"hello,..."时,尝试dimensParser。那失败了,所以optionMaybeNothing返回成功,并且不消耗输入的任何部分。

最后一部分是关键的一部分:在返回Nothing之后,要解析的输入字符串仍然是"hello,..."

那时sepBy试图解析char ',',但失败了。因此,它推断列表已结束,并终止输出列表,而不再消耗任何输入。

如果你想跳过其他实体,你需要一个“消费”解析器,它返回Nothing而不是optionMaybe。但是,该解析器需要知道要消耗多少:在您的情况下,直到逗号。

也许你需要一些(未经测试)

(   try (Just <$> dimensParser) 
<|> (noneOf "," >> return Nothing))
    `sepBy` char ','

2
投票

为了回答这个问题,拿一张纸,记下输入,并作为一个愚蠢的解析器很方便。

我们从“300x300,你好,5x5,6x6”开始,我们当前的解析器是optionMaybe ...。我们的dimensParser是否正确解析了维度?让我们检查:

  w <- many1 digit   -- yes, "300"
  char 'x'           -- yes, "x"
  h <- many1 digit   -- yes, "300"
  return (read w, read h) -- never fails

我们已经成功解析了第一个维度。下一个标记是,,所以sepBy也成功地解析了它。接下来,我们尝试解析“hello”并失败:

 w <- many1 digit -- no. 'h' is not a digit. Stop

接下来,sepBy试图解析,,但这是不可能的,因为下一个标记是'h',而不是,。因此,sepBy停止。

我们还没有解析所有输入,但这实际上并不是必需的。如果你使用过,你会得到一个正确的错误信息

parse (dimensStringParser <* eof)

无论哪种方式,如果您想要丢弃列表中不是维度的任何内容,您可以使用

dimensStringParser1 :: Parser (Maybe (Int, Int))
dimensStringParser1 = (Just <$> dimensParser) <|> (skipMany (noneOf ",") >> Nothing)

dimensStringParser = dimensStringParser1  `sepBy` char ','
© www.soinside.com 2019 - 2024. All rights reserved.