使用rvest读取.txt文件中包含的xml数据

Question

我正在尝试从以下链接读取xml数据：

https://www.sec.gov/Archives/edgar/data/1000275/000156761920010411/0001567619-20-010411.txt

当我使用rvest包中的read_xml时

link <- "https://www.sec.gov/Archives/edgar/data/1000275/000156761920010411/0001567619-20-010411.txt"
html_test <- read_xml(link)

我收到一个错误：

“ read_xml.raw（raw中的错误，raw =编码=编码，base_url = base_url，as_html = as_html ，：开头和结尾标签不匹配：ACCEPTANCE-DATETIME第3行和SEC-HEADER [76]“

是否可以读取此文本文件并提取某些xml标签？

谢谢！

Answer 1

您可能正在处理损坏的xml文件，如here所述。用read_html读取可以工作。然后，您可以将其放入列表中并使用该列表，但是根据实际需要提取的内容，可能并不可行。

library(xml2)
link <- "https://www.sec.gov/Archives/edgar/data/1000275/000156761920010411/0001567619-20-010411.txt"
html_test <- read_html(link)

html_list <- as_list(html_test)

使用rvest读取.txt文件中包含的xml数据

问题描述投票：0回答：1

1个回答

最新问题

使用rvest读取.txt文件中包含的xml数据

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1