有没有一种简单的方法可以从大学的UI页面识别课程代码和课程名称

问题描述 投票:0回答:1

我需要从大学课程目录中提取课程代码和课程名称。但是,我需要为所有大学执行此操作,并且为每所大学的每个页面编写代码是一项艰巨的任务。一种解决方案是从 html 页面获取原始文本,然后从该原始文本中提取课程代码和课程名称。然而,课程代码和课程名称的格式不断变化,这无法通过正则表达式来完成。我想过使用 NLP 来训练模型,但这又需要大量训练数据,我需要手动识别课程代码和课程名称。是否有一个包或方法可以用来从原始文本轻松获取这些课程代码和课程名称?

web-scraping nlp nltk
1个回答
0
投票

如果是动态 spa 或组件系统,您可能应该寻找加载数据的 xhr 请求。如果使用 api,我会寻找这些并找到相似之处,并且很可能它们的 json 数据键不会有太大变化。然而,这就是人。你正在抓取的数据并不是特别被视为最道德的事情,因此我认为应该接受一些跑腿工作的挑战。如果他们希望你轻松提取他们的数据,他们会提供一个你可以连接的 API,如果他们不这样做,你就处于灰色地带,期待银弹解决方案。但是,您可以尝试 nlp 或 ocr,但如果像您所说的那样,在检索训练数据之前,每个站点都不相似,那么它不会像使用正则表达式或 html 解析文本那样擅长猜测数据。

© www.soinside.com 2019 - 2024. All rights reserved.