我们正在实施NLP解决方案,其中有一堆段落文本和表格。我们已经将google burt用于NLP,并且在文本上效果很好。但是,如果我们提出的问题的答案在于表值,那么我们的nlp解决方案将无法正常工作。因为它仅适用于自然语言文本(句子,段落等)。
因此,为了从表(数据框)中获得答案,我们正在考虑将整个数据框转换为自然语言文本,以保留每个单元格与其对应的列名和行之间的关系。例如:
+------------+-----------+--------+--+
| First Name | Last Name | Gender | |
+------------+-----------+--------+--+
| Ali | Asad | Male | |
| Sara | Dell | Female | |
+------------+-----------+--------+--+
将成为:
这将帮助我们找到正确的答案,例如,如果我问'Ali的性别是什么,那么我们的NLP解决方案将给我们答案'男性'。
我想知道python中有没有可用的库可以将数据框转换为自然语言文本。还是我必须手动进行?
非常感谢