替换 node js web scraper 返回的 html 中的 unicode 字符

问题描述 投票:0回答:1

我有一个使用 cheerio 的网络抓取工具。我的目标是获取页面上所有链接的列表,但是我注意到由于 unicode 大于和小于字符替换开始和结束标记,一些链接没有显示。

如何最好地替换这些 unicode 实例?我试过 normalize() 方法,但这似乎不起作用。

这是代码

import fetch from 'node-fetch'
import { load } from 'cheerio'

const response = await fetch('https://www.kapow.com/')
const html = await response.text()
const $ = load(html)

const links = $('a')
  .map((i, link) => link.attribs.href)
  .get()

console.log(links)

这是我试图替换的 unicode 字符的屏幕截图,以蓝色突出显示。理想情况下,我将能够替换所有 unicode,例如 \u003c 和 \u003e:

javascript unicode cheerio
1个回答
0
投票

替换为正则表达式范围:

"\u003c".replace(/[\u003a-\u003e]/g, '')

还有:

const links = $('a').get().map(a => $(a).attr('href'))
© www.soinside.com 2019 - 2024. All rights reserved.