我有一个使用 cheerio 的网络抓取工具。我的目标是获取页面上所有链接的列表,但是我注意到由于 unicode 大于和小于字符替换开始和结束标记,一些链接没有显示。
如何最好地替换这些 unicode 实例?我试过 normalize() 方法,但这似乎不起作用。
这是代码
import fetch from 'node-fetch'
import { load } from 'cheerio'
const response = await fetch('https://www.kapow.com/')
const html = await response.text()
const $ = load(html)
const links = $('a')
.map((i, link) => link.attribs.href)
.get()
console.log(links)
这是我试图替换的 unicode 字符的屏幕截图,以蓝色突出显示。理想情况下,我将能够替换所有 unicode,例如 \u003c 和 \u003e:
替换为正则表达式范围:
"\u003c".replace(/[\u003a-\u003e]/g, '')
还有:
const links = $('a').get().map(a => $(a).attr('href'))