如何理解简历中节名的样式?

问题描述 投票:3回答:1

Python 2.6

最近,我正在使用简历进行一些文本挖掘工作。目的是根据简历的标题和内容将简历分为几部分,然后将其分类为所需的jds。例如。我们知道,简历通常包含以下部分:

1)个人信息

2)摘要

3)技术技能

4)早期的项目和经验

5)教育。

现在我想要建立的数据库是我所有简历的每个类别下都有简历内容的地方。

结构是这样的:

    Personal Information   Summary  Technical Skills    Experience/Projects Education

恢复1相关信息相关信息相关信息相关信息相关信息相关信息

恢复2“”“”“

恢复3“”“”“

相关信息应为简历中特定部分的内容。

我做了一些研究,最后我的问题归结为确定节名。想法是找到部分名称的起始位置以及下一个部分名称的起始位置,以使此间隔中的文本位于第一个部分名称的下方。问题就在这里。

问题:假设在简历1中,我们的节名为“技术技能”和“经验”。我们将数据放在两者之间,并放在Resume1的“技术技能”列下。但是,当我们查看Resume2时,我们发现相同的部分名称分别为“软件专业知识”和“早期工作与项目概况”,并且我们无法通过之前使用的关键字来提取名称。因此,如果我必须为不同的简历提取部分,则每次必须用不同的部分名称来进行提取时,就无法为其概括代码。

我曾尝试使用相似词的词典,即“软技能”等词的同义词是“技术专长,软件专长,技术知识等。”相似之处是“学术”,“教育资格”,“教育”,对于经验,项目和其他部分。但是此列表并不详尽,因为这些部分的名称可以用其他字眼表达,因为人们可以在简历中写任何东西。在一个部分下也可以有不同名称的子部分。

通常,节的名称以冒号或分号结尾,我们也可以在此找到它。

这些只是方法,但对于构​​建我想要的数据库没有什么具体要求。现在大多数简历都是PDF格式,所以我先将它们转换为文本,然后再阅读。因此,节名称有时使用较大的字体,或者可能与简历的其余部分不同,因此它们与其余部分使用相同的字体,因此无法通过这些条件来识别它们。

这些是我面临的问题,如果我可以使用通用算法选择节名称,那么这将大大简化我的工作。我知道这是一个编码问题的论坛,自从我开始我的职业生涯以来,对我有很大帮助,但是如果有人可以对我进行任何深入的了解,我将在此发布。我使用Python进行编码,对其他一些语言(如R或SAS)的任何建议也将有所帮助。通常,选择部分名称的通用算法最适合我。如果您有任何想法,请提供帮助。通过标记条件随机字段。预先感谢。

PS:我已经尝试过NER方法并将所有格式转换为html以提取标头,但是所有的努力都是徒劳的...

python parsing nlp nltk information-extraction
1个回答
0
投票

我在文本挖掘中做同样的事情试图拆分简历的各个部分。我会

© www.soinside.com 2019 - 2024. All rights reserved.