基于pyparsing的分裂

Question

所以我想这样做（但使用pyparsing）

Package:numpy11 Package:scipy
will be split into
[["Package:", "numpy11"], ["Package:", "scipy"]]

到目前为止我的代码是

package_header = Literal("Package:")
single_package =  Word(printables + " ") + ~Literal("Package:")
full_parser  = OneOrMore( pp.Group( package_header + single_package ) )

目前的输出就是这个

([(['Package:', 'numpy11 Package:scipy'], {})], {})

我希望这样的事情

([(['Package:', 'numpy11'], {})], [(['Package:', 'scipy'], {})], {})

本质上，文本的其余部分与pp.printables相匹配

我知道我可以使用单词，但我想做

all printables but not the Literal

我该如何做到这一点？谢谢。

Answer 1

你不应该需要负面的前瞻，即。这个：

from pyparsing import *

package_header = Literal("Package:")
single_package =  Word(printables)
full_parser  = OneOrMore( Group( package_header + single_package ) )

print full_parser.parseString("Package:numpy11 Package:scipy")

打印：

[['Package:', 'numpy11'], ['Package:', 'scipy']]

更新：要解析由|分隔的包，您可以使用delimitedList()函数（现在您也可以在包名中包含空格）：

from pyparsing import *

package_header = Literal("Package:")
package_name = Regex(r'[^|]+')  # | is a printable, so create a regex that excludes it.
package = Group(package_header + package_name) 
full_parser = delimitedList(package, delim="|" )

print full_parser.parseString("Package:numpy11 foo|Package:scipy")

打印：

[['Package:', 'numpy11 foo'], ['Package:', 'scipy']]

基于pyparsing的分裂

问题描述投票：2回答：1

1个回答

最新问题

基于pyparsing的分裂

问题描述 投票：2回答：1

1个回答

最新问题

问题描述投票：2回答：1