使用 R 加载和清理 Europress 语料库的 xml2 包教程

问题描述 投票:0回答:0

我正在尝试帮助学生分析 Europress 以 HTML 页面形式提供的语料库。要清理语料库,我正在尝试遵循本教程:https://quanti.hypotheses.org/author/croquebert。我收取了所有 apckages 但代码在 R 中对我不起作用但最重要的是我试图了解它的构造。 有人可以告诉我在哪里可以得到关于他使用的功能的教程,以便能够阅读和清理 HTML 语料库? 我迷失在第一行

your text
里尔<- function(html) {

your text
医生<- htmlParse(html) # On parse le document

your text
文章<- getNodeSet(doc, "//article") # On récupère chaque article séparément

your text
杂志 <- sapply(articles, function(art) {
your text
杂志 <- xpathSApply(art, "./header/div[1]/span/text()", xmlValue)
your text
杂志[[1]]
your text
})*

开始他调用的第一个“函数(html)”是什么? 谢谢 洛朗

我尝试了 r markdown 中的代码,但缺少一些东西,因为绿色按钮没有出现

html xml-parsing xml2
© www.soinside.com 2019 - 2024. All rights reserved.