如何从具有印地语数据的字符串中提取文本

问题描述 投票:0回答:0
我正在努力从 pdf 页面中提取印地语文本。我能够得到如下所示的字符串形式的结果:-

विधानसभा निर्वाचन क्षेत्र की संख्या एवं नाम : 2-गंगानगर भाग संख्या : 4 अनुभाग संख्या एवं नाम : 1-देव नगर संस्कृत पाठशाला पुरानी आबादी,वार्ड नं० 1 1 WwEz1761006 2] WEZ1391713 3 WEZ1781897 नाम: भीमसेन नाम : पूजा कुमारी नाम : सोनू पितानाम : बच्चू सिंह पितानाम : विपिन सोनी पतिनाम : राजू मकान संख्याः देव नगर मकान संख्याः वार्ड नं1 मकान संख्याः वार्ड नं2 आयु : 33 लिंग : पुरुष आयु : 23 लिग : स्त्री आयु : 3 लिग : स्त्री अन WEZ1735174 3 WwEZ1766005 °] WEZ1755230 नाम : रागिणी कुमारी कामत नाम : पर्तीक सिंग चिडे नाम : रीता देवी पितानाम : संतोष कामत माता का नाम : कुलविंदर कौर पतिनाम : प्रेम यादव मकान संख्याः 31 मकान संख्याः देव नगर ,वार्ड नं. 2 मकान संख्याः हाऊस नं. 05 आयु : 19 लिग : स्त्री आयु : 20 लिग : पुरुष आयु : ॐ लिग : स्त्री i WEZ1758721 | [®] wEz1758739 ___9] WEZ1427087 नाम : विश्\u200dव जीत वर्मा नाम : हिम्मत वर्मा नाम : सोनू यादव पितानाम : राम चद्र पितानाम : राम चद्र पितानाम : ददन यादव मकान संख्या: हाऊस नं. 10, वार्ड नं. 2 मकान संख्या: हाऊस नं. 10, वार्ड नं. 2 मकान संख्याः हाऊस नं. 228 आयु : 25 लिग : पुरुष आयु : 23 लिग : पुरुष आयु : 23 लिग : पुरुष WEZ1764224 i WEZ1687433 2 WEZ1763200 नाम: तारा देवी नाम: श्रद्धा नाम: रेनू देवी पतिनाम : सत्यप्रकाश पितानाम : ओम प्रकाश तिवारी अन्य का नाम : बंटी मकान संख्याः वार्डन.1 मकान संख्या: हाऊस नं.23 मकान संख्याः वार्ड. नं. 1 देव नागर आयु : 34 लिंग : स्त्री आयु : 20 लिग : स्त्री आयु : 29 लिग : स्त्री 13 WEZO358366 14 WEZ1689140 15 WEZ1703586 नाम: सन्तोष कुमार नाम : जितेन्द्र भगत नाम : प्रतिमा कुमारी चौघरी पितानाम : राम चन्द पितानाम : जयकिशुन भगत पतिनाम : संदीप चौधरी मकान संख्याः गली नं. 2 मकान संख्याः गली न0. 03 मकान संख्याः एच न॑ 53 वार्ड नं1 आयु : 3 लिग : पुरुष आयु : ॐ लिग : पुरुष आयु : 39 लिंग : स्त्री [s-19] WEZ1688183 Ln WwEZ1687748 [|] WEZ1761311 नाम: प्रिया नाम: रजनी नाम : टीना कुमारी पतिनाम : अंकित cD th पतिनाम : राहुल cD ‘ पतिनाम : सिकंदर जवः ए NX SE रत मकान संख्याः 00 आयु: we आयु : आयु : 29 लिग : स्त्री 19 WEZ1764620 20 GJC1587591 21 WEZO0734897 नाम: शुभम नाम : संजीव कुमार नाम : रामचन्द्र पितानाम : आशा राम पितानाम : सरल सिंह पितानाम : राम दुलारे मकान संख्याः 00 मकान संख्याः 1 मकान संख्याः 1 आयु : 24 लिंग : पुरुष आयु : 37 लिंग : पुरुष आयु : 58 लिंग : पुरुष 2 WEZO734913 wEz0734921 [L224] WEZO0734939 नाम : पिन्दू नाम : सुनील कुमार नाम : राजेश कुमार पितानाम : रामचन्द्र पितानाम : रामचन्द्र पितानाम : रामचन्द्र मकान संख्याः 1 मकान संख्याः 1 मकान संख्याः 1 आयु : 3 लिंग : पुरुष आयु : 29 लिग : पुरुष आयु : 28 लिग : पुरुष 25 GJC1587609 26 WEZ0533810 27 WEZ0956888 नाम : ब्रिजेश कुमार नाम : सीमा बंगे नाम : अजय कुमार पितानाम : सरल सिंह पतिनाम : रोशनलाल बंगे पितानाम : कतवारू राम मकान संख्याः 1 मकान संख्याः 1 मकान संख्याः 1 आयु : 37 लिग: पुरुष आयु : ॐ लिग : स्त्री आयु : 44 लिंग : पुरुष 28 WEZO0958173 51-29 WEZ1550532 ns WEZ1764497 नाम : विमला देवी नाम : पुष्पा नाम : रूपा महतो पतिनाम : अजय कुमार पतिनाम : पिंटू cD b‘ पतिनाम : ज्ञान प्रकाश मकान संख्याः 1 ग्यः एअ \\E मकान संख्याः 001 आयु : ॐ लिग : स्त्री आयु : ye आयु : 21 लिग : स्त्री आयु 01.01.2023 के अनुसार प्रकाशन की दिनांक :-05-01-2023 कुल पृष्ठ 54 - पृष्ठ 3

विधानसभा निर्वाचन क्षेत्र की संख्या एवं नाम : 2-गंगानगर भाग संख्या : 4 अनुभाग संख्या एवं नाम : 1-देव नगर संस्कृत पाठशाला पुरानी आबादी,वार्ड नं० 1 3 RYJ/O01/006/657225 ट GJC1729979 ट RJ/O01/006/658081 नाम : चन्द्रा वतीदेवी नाम : संजय कुमार नाम : राजाराम पतिनाम : सरल सिंह पितानाम : निठुरी राम पितानाम : शिवघनी मकान संख्याः 2 मकान संख्याः 2 मकान संख्याः 2 आयु : 59 लिग : स्त्री आयु : 44 लिग : पुरुष आयु : 53 लिग : पुरुष [3] RJ/01/006/658126 35 GJC1693639 36 GJC1587013 नाम : सुमित्रा नाम : सदावृक्ष नाम : नीलम कुमारी पतिनाम : राजाराम पितानाम : राजाराम पितानाम : राजा राम मकान संख्याः 2 मकान संख्याः 2 मकान संख्याः 2 आयु : 50 लिंग : स्त्री आयु : 39 लिग : पुरुष आयु : ॐ लिग : स्त्री उ GTc1450806 [39] GJC1450790 39 GJC1840602 नाम : अशोक कुमार नाम: मन्जू देवी नाम : पवन शर्मा पितानाम : चन्द्र शाह पतिनाम : अशोक कुमार पितानाम : शंकरलाल शर्मा मकान संख्याः 2 मकान संख्याः 2 मकान संख्याः 2 आयु : 46 लिग : पुरुष आयु : 43 लिंग : स्त्री आयु : 37 लिंग : पुरुष 40 cJc1587856 1] WEZO053959 42 WEZO0053967 नाम : पंकज शर्मा नाम : रवि भूषण शर्मा नाम : भारत भूषण शर्मा पितानाम : शंकरलाल शर्मा पितानाम : लाल चन्द शर्मा पितानाम : लाल चन्द शर्मा मकान संख्याः 2 मकान संख्याः 2 मकान संख्याः 2 आयु : 38 लिंग : पुरुष आयु : 40 लिग : पुरुष आयु : 41 लिंग : पुरुष 4 WEZO053975 ज wEzo734962 |[[_*5] WEZO735001 नाम : लाल चन्द शर्मा नाम: रिपू सिंह नाम : दिनेशसिंह पितानाम : राम चन्द शर्मा पितानाम : दिनेश सिंह पितानाम : पारसनाथ मकान संख्याः 2 मकान संख्याः 2 मकान संख्याः 2 आयु : 70 लिग : पुरुष आयु : 32 लिग : पुरुष आयु : 62 लिग : पुरुष 46 WEZO0735027 शा GJC1840610 48 WEZ0053819 नाम: सुधा सिंह नाम: रजनी शर्मा नाम : बाल कृष्ण शर्मा पतिनाम : दिनेश सिंह पितानाम : शंकरलाल शर्मा पितानाम : सत्यनारायण मकान संख्याः 2 मकान संख्याः 2 मकान संख्याः 2 आयु : 55 लिग: स्त्री आयु : 39 लिंग : स्त्री आयु : 47 लिंग : पुरुष [+] WwEzo053827 [LL °9] wEzoo53835 [| 1] WEZO734970 नाम : कल्पना शर्मा नाम : भंवरलाल शर्मा नाम : रामनरेश पतिनाम : बालकृष्ण शर्मा पितानाम : सत्यनारायण शर्मा पितानाम : लालबिहारी मकान संख्याः 2 मकान संख्याः 2 मकान संख्याः 2 आयु: आ लिग: स्त्री आयु : 48 लिग : पुरुष॒ आयु : 64 लिग : पुरुष 52 WEZO0734988 53 wEzo734996 __s4] WEZO735019 नाम : राबडीदेवी नाम : गौरीशंकर नाम : शिवशंकर पतिनाम : रामनरेश पितानाम : रामनरेश पितानाम : रामनरेश मकान संख्याः 2 मकान संख्याः 2 मकान संख्याः 2 आयु : 58 लिग: स्त्री आयु : 33 लिग : पुरुष आयु : 28 लिग : पुरुष 55 wEzoo53843 ®] WEZO0053850 द WEZ1120328 नाम : रीटा शर्मा नाम : अरविन्द शर्मा नाम : मोनिका पतिनाम : भंवरलाल शर्मा पितानाम : रामकुमार जोशी पतिनाम : पवन शर्मा मकान संख्याः 2 मकान संख्याः 2 मकान संख्याः 2 आयु : 44 लिग : स्त्री आयु : 46 लिंग : पुरुष आयु : 34 लिंग : स्त्री [59] WwEz1120336 [[_—— 59] wEz1392364 [[_——— +°] WEZ1391721 नाम: नीतू नाम: सुरज प्रकाश नाम : प्रीति सिंह पतिनाम : पंकज शर्मा पितानाम : दिनेश सिंह पितानाम : दिनेश सिंह मकान संख्याः 2 मकान संख्याः 2 मकान संख्याः 2 आयु : 3 लिग: स्त्री आयु : 25 लिंग : पुरुष आयु : 24 लिग : स्त्री आयु 01.01.2023 के अनुसार प्रकाशन की दिनांक :-05-01-2023 कुल पृष्ठ 54 - पृष्ठ 4
这是文档的链接。 

链接 我想要从第 3 页到最后一页的数据。以上 2 个字符串是两个不同页面的输出。

问题陈述

我必须提取文本才能创建这样的数据框:-

与这三列一样,我想获取其他数据,如名称,其中包含:-नाम包含字符串中的所有名称,पतिकानाम/पिताकानाम:其中包含数据中显示的这些关键字之后的值。

为了获得年龄、门牌号和性别,我使用了以下正则表达式:-

regex_age1 = r"आयु : +.." regex_age2 = r"आयु: +.." regex_age_final = "|".join([regex_age1, regex_age2]) age = [] age.append(re.findall(regex_age_final,final)) regex2 = r"मकान संख्याः \d+" house = [] house.append(re.findall(regex2,final)) regex3 = r"लिग\s.\s+....." regex4 = r"लिंग\s.\s+....." regex5 = r"लिग.\s+....." regex_final = "|".join([regex3, regex4, regex5]) sex = [] sex.append(re.findall(regex_final,final)) import pandas as pd df = pd.DataFrame({}) df['Age'] = age[0] df['House No'] = house[0] df['Sex'] = sex[0] for i in range(len(df['Age'])): df['Age'][i] = df['Age'][i].split(':')[1].strip() df['House No'][i] = df['House No'][i].replace('मकान संख्याः ','') df['Sex'][i] = df['Sex'][i].split(':')[1].strip()
上面的代码给出了我上面粘贴的数据集。现在的问题是 regex2 = r"मकान संख्याः \d+" 的正则表达式不适用于另一个第二个字符串,因为它的值如下:-

मकानसंख्याःदेवनगर

मकानसंख्याःवार्डनं1
मकानसंख्याःवार्डनं2

所以,我想写一个正则表达式,可以在 : and till देव नगर 之后获取数据。同样对于值:

:बचचूसिंहसिंह:विपिनविपिनसिंहविपिनविपिन

这是我在正则表达式上尝试的,但没有得到确切的结果。

这是我希望得到的示例输出。

python regex string python-tesseract text-extraction
© www.soinside.com 2019 - 2024. All rights reserved.