我试图解析一些逗号分隔的字符串,其中可能包含或不包含具有图像尺寸的字符串。例如"hello world, 300x300, good bye world"
。
我写了以下小程序:
import Text.Parsec
import qualified Text.Parsec.Text as PS
parseTestString :: Text -> [Maybe (Int, Int)]
parseTestString s = case parse dimensStringParser "" s of
Left _ -> [Nothing]
Right dimens -> dimens
dimensStringParser :: PS.Parser [Maybe (Int, Int)]
dimensStringParser = (optionMaybe dimensParser) `sepBy` (char ',')
dimensParser :: PS.Parser (Int, Int)
dimensParser = do
w <- many1 digit
char 'x'
h <- many1 digit
return (read w, read h)
main :: IO ()
main = do
print $ parseTestString "300x300,40x40,5x5"
print $ parseTestString "300x300,hello,5x5,6x6"
根据optionMaybe
文档,它返回Nothing
如果它无法解析,所以我希望得到这个输出:
[Just (300,300),Just (40,40),Just (5,5)]
[Just (300,300),Nothing, Just (5,5), Just (6,6)]
但相反,我得到:
[Just (300,300),Just (40,40),Just (5,5)]
[Just (300,300),Nothing]
即解析在第一次失败后停止。所以我有两个问题:
我猜optionMaybe dimensParser
,当输入"hello,..."
时,尝试dimensParser
。那失败了,所以optionMaybe
用Nothing
返回成功,并且不消耗输入的任何部分。
最后一部分是关键的一部分:在返回Nothing
之后,要解析的输入字符串仍然是"hello,..."
。
那时sepBy
试图解析char ','
,但失败了。因此,它推断列表已结束,并终止输出列表,而不再消耗任何输入。
如果你想跳过其他实体,你需要一个“消费”解析器,它返回Nothing
而不是optionMaybe
。但是,该解析器需要知道要消耗多少:在您的情况下,直到逗号。
也许你需要一些(未经测试)
( try (Just <$> dimensParser)
<|> (noneOf "," >> return Nothing))
`sepBy` char ','
为了回答这个问题,拿一张纸,记下输入,并作为一个愚蠢的解析器很方便。
我们从“300x300,你好,5x5,6x6”开始,我们当前的解析器是optionMaybe ...
。我们的dimensParser
是否正确解析了维度?让我们检查:
w <- many1 digit -- yes, "300"
char 'x' -- yes, "x"
h <- many1 digit -- yes, "300"
return (read w, read h) -- never fails
我们已经成功解析了第一个维度。下一个标记是,
,所以sepBy
也成功地解析了它。接下来,我们尝试解析“hello”并失败:
w <- many1 digit -- no. 'h' is not a digit. Stop
接下来,sepBy
试图解析,
,但这是不可能的,因为下一个标记是'h'
,而不是,
。因此,sepBy
停止。
我们还没有解析所有输入,但这实际上并不是必需的。如果你使用过,你会得到一个正确的错误信息
parse (dimensStringParser <* eof)
无论哪种方式,如果您想要丢弃列表中不是维度的任何内容,您可以使用
dimensStringParser1 :: Parser (Maybe (Int, Int))
dimensStringParser1 = (Just <$> dimensParser) <|> (skipMany (noneOf ",") >> Nothing)
dimensStringParser = dimensStringParser1 `sepBy` char ','