text-processing 相关问题

机制化电子文本的创建或操作。

AWS Textract OCR 将 PDF 读取为单行,而不是保留换行符

您好,我是 AWS Textract 新手。 我正在使用 Amazon Textract 从 PDF 文件中提取文本。但是,输出不会保留原始 PDF 中的换行符。 例如,在 PDF 中有...

回答 1 投票 0

转换数据以执行逻辑回归

我有一个数据集,其中包含2010年至2023年的板球比赛数据。我附上了数据样本以供参考: 团队_1 团队_2 地面 比赛日期 孟加拉国 斯里兰卡 米尔普尔 2010-0...

回答 1 投票 0

计算第二列中对应于文件第一列的字符串出现次数

我有这个输入文本文件: CD196_RS15035 正常等位基因 CD196_RS15035 正常等位基因 CD196_RS15035 等位基因截断 CD196_RS15035 等位基因截断 CD196_RS...

回答 2 投票 0

如何使用正则表达式或通配符将多行压缩为单行/更少行?

我想通过用通配符替换更改的值,将具有一些公共元素的多行字符串压缩为单行或更少的行。 例子 输入: Lorem ipsum dolor 坐在我...

回答 1 投票 0

找不到型号“en_core_web_lg”。它似乎不是 Python 包或数据目录的有效路径。即使它们在同一目录中

我正在尝试不同的文本处理模型。我正在尝试使用 spacy,它的模型是 en_core_web_lg。 导入spacy 导入 spacy. 语言 从 spacy_langDetect 导入 LanguageDetector 来自 spacy.lang...

回答 1 投票 0

使用 awk 替换固定位置文件中的字段值

这里的要求是将位置9-12替换为空白,例如,在所有固定大小的记录中。 我用了 猫文件| awk '{sub(substr($0,9,12)," ",$0);print}' 有效,除非有空格

回答 3 投票 0

使用 awk 将文件中的固定位置替换为值

这里的要求是将位置9-12替换为空白。 我用了 猫文件| awk '{sub(substr($0,9,12)," ",$0);print}' 有效,除非前面有空白 9. 试图表明...

回答 2 投票 0

用一些常见的字符串标准化 pandas 列中的文本

我有以下 DataFrame df id1 id2 文本列 key1 220 ABC公司 key1 220 ABC私人有限公司 key2 300 PQR有限公司 密钥 2 300 PQR key2 300 PQR 其他 客...

回答 1 投票 0

使用 python 自然语言工具包阅读孟加拉语

我想在 NLTK 的 CategorizedPlainCorpusReader 中阅读孟加拉语文本。对于我在 gedit 文本编辑器中的孟加拉文本文件的快照: sublime 文本编辑器中的文件快照: 从快照哟...

回答 2 投票 0

如何从源文件中提取单个函数

我正在做一个关于 Linux 内核中非常长和复杂的函数的小型学术研究。我想弄清楚是否有充分的理由编写 600 或 800 行长的函数......

回答 6 投票 0

从 Spark 中的文本数据中删除 html 代码

我正在处理 Stack Exchange 数据转储,我想从经常出现的代码中清理问题的主体。 我尝试使用 BeautifulSoup 但它留下了出现在鳕鱼内部的文本......

回答 1 投票 0

如何在读取文本文件时保留空行 Python

读取带有空行的通用文本文件,即没有制表符,某些行没有空格。我想用这些空行作为分隔符来处理程序中的文件,但我无法阻止它们......

回答 1 投票 0

当 <a> 标签中有带有 href 属性的 <p> 标签时,如何拆分段落中的单词

我正在做一个网络抓取项目,当 标签中有一个带有 href 属性的 标签时,我想拆分段落中的单词。 这是我尝试抓取的网页:... 我正在做一个网络抓取项目,当 标签中有一个带有 href 属性的 标签时,我想拆分段落中的单词。 这是我尝试抓取的网页: https://witcher.fandom.com/wiki/Of_Banquets,_Bastards_and_Burials 我和 beautifulsoup 一起工作 如果 标签中有一个带有 href 属性的 标签,我当前的代码将返回连接在一起的单词。 只是提一下,我是一般的抓取和编程新手 例如: 这里是 html: <p> <br/> <a href="/wiki/Dandelion/Netflix_series" title="Dandelion/Netflix series"> Jaskier </a> is in a tavern, writing down the excited account of a merchant who hired <a href="/wiki/Geralt_of_Rivia/Netflix_series" title="Geralt of Rivia/Netflix series"> Geralt </a> to slay a <a href="/wiki/Selkiemore" title="Selkiemore"> selkiemore </a> plaguing his shipments, only to watch in horror as the monster swallowed the Witcher whole. The merchant insists that Geralt could not have survived, but Jaskier knows better, and is proven right when Geralt himself walks into the tavern, covered head to toe in selkiemore guts, explaining that he had to slay it from the inside. The merchant hurriedly pays Geralt the agreed-upon fee, and the bar patrons clear a path for the reeking Witcher as he orders a tankard of beer to wash out his mouth. </p> 这是我的代码: 从保存的文件中读取 HTML 内容 with open("yahoo_data.html", "r", encoding="utf-8") as file: html_content = file.read() 使用 BeautifulSoup 解析 HTML soup = BeautifulSoup(html_content, 'html.parser') 杰洛特的时间线 摘录第一段 div_tag = soup.find('div', {'style': 'float:right; width:33%; margin: 0 10px;'}) p_tag = div_tag.find_next('p') text = p_tag.get_text(strip=True) print(text+"\n") 输出为: Jaskieris 在一家酒馆里,写下了一位商人的兴奋记述,这位商人雇用了 Geraltto 杀死了一个困扰着他的货物的 elkiemore,结果却惊恐地看着这个怪物吞噬了整个猎魔人。商人坚持认为杰洛特不可能活下来,但贾斯基尔知道得更多,当杰洛特自己走进酒馆时,事实证明他是对的,杰洛特从头到脚都沾满了塞尔基莫尔的内脏,解释说他必须从内部杀死它。商人匆忙向 Geralt 支付了商定的费用,酒吧顾客为散发着恶臭的巫师让路,因为他点了一大杯啤酒来漱口。 你可以看到组合词: aselkiemore困扰 由 3 个不同的词组合而成: selkiemore 困扰 我需要更系统的方法 和更多的“pythonic”方法 谢谢 我尝试使用BeautifulSoup的get_text方法从网页的第一段中提取文本,但是当<a>标签中有一个带有href属性的<p>标签时,结果是一个组合词。我原以为这些词是分开的,而不是合并的。我需要一个更系统的方法和一个更“pythonic”的解决方案来解决这个问题。

回答 0 投票 0

如何正确地将流式文本拆分成段落?

说我可以为方法 realtimeSplitStream 提供 3 个参数,即 stream、minSplitLength、maxSplitLength 流一个一个地发出字符,字符可以是任何主流语言,例如en-US, zh-CN,

回答 0 投票 0

查找在 2 列文件中出现次数最少的值

我有一个这种结构的动态生成的txt文件->代码[空格]链接 这是一个简单的 15210 https://test1.com 4 https://test2.com 1020 https://testc.com 152 https://testz.com 152 https://t...

回答 3 投票 0

按原样复制 1 个 docx 文件的标题并使用 Python docx 将其粘贴到其他 docx(包括字体样式和徽标/图像等)

如何使用 python docx 复制一个文件的标题并将其粘贴到其他文件?我已经写了一些代码,但它给出了一个错误。 ---------------------------------------------- --------...

回答 0 投票 0

如何仅使用 grep、awk 和/或 sed,使用 bash 过滤文本文件中的多行模式?

我有一个大文件集合(大约 500 万字),每个文件都是通过 xgrepping 从 PubMed 的一些 XML 文件中提取一些模式而制成的。我用 xgrep -tx "//PMID|//ArticleTitle|//Abstract|//MeshHeadi...

回答 1 投票 0

如何在将连续日志文件复制和处理到另一个文件时停止将行附加到上一行

我正在尝试将用户名附加到正在连续写入的日志文件中的相应 ip 地址。但是新行被附加到之前呈现日志文件的行

回答 1 投票 0

如何写一个逐个接收字符并以书页的形式显示的算法?

我的代码目前是逐个接收一本书的字符,并对其进行预处理,使其以如下形式显示。我去图书馆拿我最喜欢的棒球帽 而不是我去... ...

回答 1 投票 0

如何在bash中使用sed替换一个字符串的第mth到nth次出现?

我一直在寻找一种简单的方法来屏蔽(即用*替换)每行中给定模式的第1到3次出现,使用sed。输入文本的格式是:$ cat input 1234 4321 2356 7890 3456 ....

回答 3 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.