希望从文本或pdf文件中提取文本作为不同的段落

问题描述 投票:-1回答:1

检查下面的文字

在艾哈迈达巴德古贾拉特的高级法院R /刑事上诉编号2009年第251页

[用于批准和签名:

尊敬的司法正义协会的医生

================================================ ==========1是否可以让本地报纸的记者看到判决?2是否转介给记者?3他们的君主是否希望看到判决的公正副本?4此案是否涉及印度宪法解释的实质性法律问题或据此作出的任何命令?================================================== ========古吉拉特邦,SM饶,食品检验员,DHARMESHBHAI NARHARIBHAI GANDHI的办公室========================= ================================外观:上诉人的MS HB PUNANI,APP(2)否1号对手/被申请人的MR DK MODI(1317)==================== ==============================CORAM:尊敬的MR.J.ICE。DHOLARIA

日期:12/03/2019

口头审判1.上诉古吉拉特邦有倾向于根据第378(1)条提出的本上诉1973年《刑事诉讼法》(3)反对过时的无罪判决和命令第1页,共12页R / CR.A / 251/2009判决2008年11月17日,由学习到的第二增补一级民事法官和司法裁判官,纳迪亚德(Nadiad)在2007年第1号食品案中。

  1. 引起人们注意的简短事实目前的上诉是2006年11月10日在18.00小时,申诉人访问了被告被告位于朱纳Makhanpura,Rabarivad,Nadiad和Panch目击者,被告被发现从事临时物品。申诉人确定自己当食品检验员并给予表格6中的暗示暗示已购买存在的芥菜籽样品Panchas,以进行分析。此后,投诉人的食品检查员将所述样本分为三等份完成包装和密封的手续获得供应商和panchas的签名,以及在上述三部分中,有一部分被发送到瓦杜达拉公共分析师进行分析和其余两部分被送到当地卫生部门权威,甘地纳加尔。此后,公众分析师转发了他的报告。在上述报告中,据说芥末的泥泞样品种子贴错标签,这违反了1954年《食品掺假法》的规定(以下简称“该法”)和本规则的框架据此。因此,据称芥菜籽样本被贴错标签,并且因此,被告已犯罪。**第2页,共12页R / CR.A / 251/2009 *判决*因此,投诉被提起被告被指控。

我希望能够编写一个程序,使其遵循给定的约束。请注意,这只是一个文件,我有40k个文件,它应该在所有文件上运行。所有文件都有一些区别,但是每个文件的基本格式都相同。

约束。

  1. 它应该从“元数据”之后开始文本提取过程。元数据是指从文件开头(即“古吉拉特邦高级法院”开始)到口头审判的有关文件的数据。在我拥有的所有文件中,字符串结束后有各种要点。所以我需要将所有这些要点作为一个单独的段落(请参见文本中的2个要点,在不同的段落中需要它)。

  2. 检查斜体行,这些是text / pdf文件中的窗格。我需要删除这些内容,因为这些内容对我想要的文本内容没有任何意义。

  3. 这些文件都可以使用TEXT或PDF格式,因此我可以使用其中任何一个。但是我是python的新手,所以我不知道如何以及从哪里开始。我只是具有python的基本知识。

  4. 此数据将被构建成一个“语料库”,以用于构建庞大的专家系统的进一步过程,因此您知道我希望做些什么。

python text-extraction corpus expert-system
1个回答
0
投票
  1. 阅读官方python docs
  2. 以python的基本str type and its methods开始。它的一种方法str将在您的文本中找到子字符串。
  3. 例如,使用python切片符号提取您需要的文本部分
find
  1. 之后,您可以继续将提取的文本保存到数据库中。

当然,更好和更复杂的解决方案是使用text = """YOUR TEXT HERE...""" meta_start = 'In the high court of gujarat' meta_end = 'ORAL JUDGMENT' pos1 = text.find(meta_start) pos2 = text.find(meta_end) if pos2 > pos1 and pos1 > -1: # text is found, extract it text1 = text[meta_start + len(meta_start):meta_end - 1] ,但这是另一个故事-尝试为自己找到正确的方法!

关于斜体和其他文本格式,您将永远无法以纯文本对其进行标记(除非您具有一些“元”标记,例如[i]标记)。

© www.soinside.com 2019 - 2024. All rights reserved.