从HTML中的script元素内部提取对象键的值

问题描述 投票:2回答:3
<div class="heading-dom view">
    <script type="application/javascript">
        window.realty = {"user_id":4243456};
        <!--window.agency = < %- JSON.stringify(agency) % >;-->
        <!--window.agency = < %- JSON.stringify({}) % >-->
     </script>
</div>

我想要的输出是4243456。我怎么能用lxml的beautifulsoup提取它?

python beautifulsoup html-parsing lxml
3个回答
5
投票

这总体上是一个有趣的问题 - 从HTML代码中的JavaScript代码中提取内容。

基本上,这意味着您首先需要进行HTML解析 - 找到所需的script元素并获取其文本。然后,第二步是从realty对象内部提取所需的数字。

如果你想采用正则表达式方法,你实际上可以重复使用正则表达式来定位所需的script元素,并提取所需的变量(BeautifulSoup allows to apply regular expression patterns来查找/过滤元素):

import re
from bs4 import BeautifulSoup


html = """
 <div class="heading-dom view">
     <script type="application/javascript">
        window.realty = {"user_id":4243456};
        <!--window.agency = < %- JSON.stringify(agency) % >;-->
        <!--window.agency = < %- JSON.stringify({}) % >-->
     </script>
</div>"""

pattern = re.compile(r'\{"user_id"\s*:\s*(\d+)\}')
soup = BeautifulSoup(html, "html.parser")
script = soup.find("script", text=pattern)

print(pattern.search(script.text).group(1))
# prints 4243456

我们在这里打破\{"user_id"\s*:\s*(\d+)\}

  • 反斜杠用于转义在正则表达式语法中具有特殊含义的字符
  • \s*的意思是 - 零个或多个空格字符(把它放在那里,以防你在对象定义中的:周围有额外的空格)
  • \d+的意思是“一个或多个数字”
  • 括号定义一个capturing group - 这是我们将字符串的特定部分提取到一个组中的一种方式,然后我们通过.group(1)访问该组

请注意,@ Evyatar建议的简单\d+表达式过于宽泛,您可能很容易得到误报。

以下是一些类似的主题,其中包含一些其他选项:


4
投票

你可以使用BeautifulSoup提取脚本标签的文本,但为了获得user_id你需要使用正则表达式

# Assuming it's the only number in the script's text
pattern = re.compile('\d+')
soup = BeautifulSoup(page, 'lxml')
for i in soup.select('script'):
    print(re.findall(pattern, i.text))

产量

['4243456']


1
投票

如果要避免使用regex,可以选择字符串操作:

from bs4 import BeautifulSoup

content='''
<div class="heading-dom view">
    <script type="application/javascript">
        window.realty = {"user_id":4243456};
        <!--window.agency = < %- JSON.stringify(agency) % >;-->
        <!--window.agency = < %- JSON.stringify({}) % >-->
     </script>
</div>
'''
soup = BeautifulSoup(content,'lxml')
item = soup.select('script')[0].text.split('user_id":')[1].split("}")[0]
print(item)

输出:

4243456
© www.soinside.com 2019 - 2024. All rights reserved.