# Column Non-Null Count Dtype
--- ------ -------------- -----
0 text 52 non-null object
1 product_name 49 non-null object
2 html_product_name 51 non-null object
3 image_url 50 non-null object
4 html_image_url 50 non-null object
5 description 32 non-null object
6 html_description 51 non-null object
7 part_number 35 non-null object
8 html_part_number 36 non-null object
9 html_specification 44 non-null object
10 datasheet_url 40 non-null object
11 html_datasheet_url 41 non-null object
12 specification 2 non-null object
文本列包含产品页面的清洁html,而其他列则代表目标字段 - 需要识别和提取的HTML的特定部分。
这个问题似乎与命名实体识别(NER)非常相似。如何训练机器学习模型以成功地从RAW HTML中提取这些字段?最好的方法是什么(例如,微调变压器模型,序列标签或其他方法)?
提前感谢!对此进行自己的模型将是一项非常艰巨的任务,并且可以超出实习范围。您需要大量的培训数据,因为结果取决于许多因素。不过,我阅读您的问题的一个想法是使用大型LLM,例如Chatgpt或Google Gemini,并在提示中提供您要刮擦的完整网页。这些LLM能够返回结构化输出(例如JSON),因此您基本上可以使用网页中的信息来描述它们所需的输出的结构及其应填充到每个字段中的结构。 coogle来自Google的链接显示如何使Gemini返回JSON:
Https://ai.google.dev/gemini-api/docs/structured-enput?hl = de&lang =python