使用 ruby 核心库解析 HTML? (即不需要宝石)

问题描述 投票:0回答:1

我和一些朋友一直在开发一组脚本,使在大学的机器上工作变得更容易。其中一个工具目前使用 Nokogiri,但为了使这些工具能够在尽可能少的设置的情况下在所有计算机上运行,我们一直在尝试找到一个“本机”html 解析器,而不是要求用户安装 RVM 和自定义 gem(由于大多数用户的磁盘空间限制)。

我们几乎仅限于 Nokogiri/Hpricot/ 吗?我们是否应该考虑编写自己的自定义解析器来满足我们的需求?

干杯。

编辑:如果我在搜索中错过了这里的帖子,请告诉我!所以。有时太大而无法有效地找到东西...

html ruby parsing rubygems
1个回答
2
投票

ruby stdlib 中没有 html 解析器
html 解析器必须比 xml 解析器更能容忍不良标记

你可以运行 html,尽管整洁(http://tidy.sourceforge.net)
整理 html 并生成有效的标记
现在可以通过 stdlib 中的 rexml 读取:-)

rexml 比 nokogiri 慢得多,上次检查是在 2009 年

Sam Ruby 一直致力于让 rexml 更快

更好的方法是更好的部署

查看
http://gembundler.com/bundle_package.html 并使用 capistrano (或类似的)来配置服务器

© www.soinside.com 2019 - 2024. All rights reserved.