text-extraction 相关问题

文本提取是从非结构化和/或半结构化机器可读文档(文本)中自动提取结构化信息的任务。

从路径名中提取信息

我想在Matlab中制作一个skript,将我的输出数据用一个特定的名字保存起来。这个名字的所有信息都在输入数据的路径中,就像这里所示: path = 'C:\projektions100\... ...

回答 1 投票 0

使用Scikit-Learn CountVectorizer,根据文本语料库中的出现率,列出词汇中的单词。

我在scikit-learn的一些文档中安装了一个CountVectorizer。我想看到文本语料库中所有的术语和它们对应的频率,以便选择停顿词。例如'...

回答 2 投票 14

[使用python从文本文件中提取数据

我有一个文本文件,其中包含如下行:组件尺寸调整信息,AirTerminal:SingleDuct:VAV:Reheat,SPACE2-1 VAV REHEAT,设计尺寸再加热期间每个区域地板面积的最大流量[...]

回答 2 投票 0

如何从R中的部分非结构化txt文件中提取表?

我有一个txt文件的URL列表。 txt文件的结构使得某些部分为纯文本,而某些部分为表格。我想提取表并将其导出到数据框。下面是...

回答 1 投票 0

Google表格中的正则表达式,用于提取字符串,直到subString1或subString2 [duplicate]

我想提取subString1之前的所有字符。我使用它,它可以正常工作:= REGEXEXTRACT(A1,“(。*?)subString1”)但是,当我尝试添加一个or来搜索第二个subString时,它不起作用。 = ...

回答 1 投票 0

如何使用正则表达式和python在文本文件中用bar替换foo?

用sed简单替换文本,效果很好:[nsaunders @ rolly sed] $ [nsaunders @ rolly sed] $ ll总计8 -rwxrwxr-x。 1 nsaunders nsaunders 28 Jun 9 03:33 cmd -rw-rw-r--。 1 nsaunders nsaunders 4 ...

回答 1 投票 0

C#从字符串行中提取字符串和双精度字符

我有一行需要从中提取名称和该名称的结果(双精度)。这行代码如下:詹姆斯:8,约翰:8,茉莉:12,伊戈尔:1.54,加里:0,加布:0.12,劳伦:0,格蕾丝:...

回答 2 投票 -3

如何从html表单下拉选项中提取文本?

最近,我正在建立一个网站,在这里我需要所有车型和型号的数据,此类数据类型的示例是sellanycar.com。我需要来自“选择品牌”和相应的“选择...”的所有数据

回答 1 投票 0

如何从此压缩的PDF / A中提取文本?

出于机器学习的目的(sckit-learn),我需要从许多PDF文件中提取原始文本。首先,我使用xpdf pdftotext执行此任务:exe = r'“'+ os.path.join(xpdf_path,” pdftotext ....

回答 2 投票 3

无法使用pytesseract从.jpg图像中提取全文,只提取了部分具有拼写错误的文本

我正在尝试使用pytesseract从.jpg文件中提取数据,但只提取了部分具有拼写错误的文本。任何人都可以帮助建议我如何提取全文。我有...

回答 1 投票 0

如何使用python从此PDF / A中提取文本?

出于机器学习的目的(sckit-learn),我需要从许多PDF文件中提取原始文本。首先,我使用xpdf pdftotext执行此任务:exe = r'“'+ os.path.join(xpdf_path,” pdftotext ....

回答 1 投票 1

我如何提取python中html div id标记下的文本

我想知道如何从这个网站的此标签中提取文本:https://ru.thefreedictionary.com/%d1%88%d1%87%d0%be

回答 2 投票 1

Apache PDFBox删除字符之间的空格

我们正在使用PDFBox从PDF提取文本。某些PDF的文本无法正确提取。下图以PDF格式显示了PDF的一部分:提取文本后,我们得到以下文本:...

回答 1 投票 6

在R中的单词模式后获取数字

我需要在数据表列中的单词后获取数字,例如:y = data.table(status = c(“客户评级01已批准”,“约翰评级:2已认证”,“客户评级9”) )然后,我需要获取...

回答 1 投票 1

使用正则表达式从文本中提取嵌入字符串的句子

我想从文本中提取(以字符串变量的形式提供),其中嵌入了属于子字符串列表的子字符串的句子。如果我无法提取句子,我会...

回答 1 投票 1

模式后将字符串提取到未知的停止点

在数据框中,我有一个名为buckets的列,其中包含符合以下模式的行:{“ 21-45”:1,“ 541-600”:2,“ 46-60”:2,“ 721-840” :2,“ 1201-1320”:1} {“ 21-45”:7,“ 481-540”:10,“ 541-600”:6,“ 46-60” ...

回答 1 投票 2

OCR并提取遵循特定子字符串的文本-使用Python的正则表达式

我对Regex还是很陌生,所以我确定我缺少明显的东西,但是需要以下问题的帮助。我想从特定的子字符串中提取字符串。我是...

回答 1 投票 0

在第一次出现符号之前从字符串中提取文本

我具有如下所示的数据-输入A_URL B_URL C_URL A 123.com/123abc?....123.com/123abc?....123.com/123abc?....B pqr.com/ ...

回答 2 投票 0

在Google Data Studio中的最后一个/后提取字符串(REGEXP问题)

我目前正在使用Google Data Studio,并且希望对目标网页进行格式化,因此它仅显示字符串的最后一部分(在最后一个/之后)。所以'https://stackoverflow.com/questions/ask/submit'...

回答 2 投票 1

LOGIC APPS-从Outlook电子邮件触发器中获取所有URL并创建一个数组

在逻辑应用程序中,将从触发电子邮件块中提取主体并将其存储为HTML格式的变量。电子邮件将包含一个或多个图像URL。任务是提取所有图像URL,然后...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.