text-processing 相关问题

机制化电子文本的创建或操作。

AWS Textract OCR 将 PDF 读取为单行，而不是保留换行符

您好，我是 AWS Textract 新手。我正在使用 Amazon Textract 从 PDF 文件中提取文本。但是，输出不会保留原始 PDF 中的换行符。例如，在 PDF 中有...

pdf ocr text-processing amazon-textract

回答 1 投票 0

转换数据以执行逻辑回归

我有一个数据集，其中包含2010年至2023年的板球比赛数据。我附上了数据样本以供参考：团队_1 团队_2 地面比赛日期孟加拉国斯里兰卡米尔普尔 2010-0...

python scikit-learn text-processing

回答 1 投票 0

计算第二列中对应于文件第一列的字符串出现次数

我有这个输入文本文件： CD196_RS15035 正常等位基因 CD196_RS15035 正常等位基因 CD196_RS15035 等位基因截断 CD196_RS15035 等位基因截断 CD196_RS...

linux awk text-processing

回答 2 投票 0

如何使用正则表达式或通配符将多行压缩为单行/更少行？

我想通过用通配符替换更改的值，将具有一些公共元素的多行字符串压缩为单行或更少的行。例子输入： Lorem ipsum dolor 坐在我...

regex wildcard text-processing pattern-recognition

回答 1 投票 0

找不到型号“en_core_web_lg”。它似乎不是 Python 包或数据目录的有效路径。即使它们在同一目录中

我正在尝试不同的文本处理模型。我正在尝试使用 spacy，它的模型是 en_core_web_lg。导入spacy 导入 spacy. 语言从 spacy_langDetect 导入 LanguageDetector 来自 spacy.lang...

python nlp spacy tokenize text-processing

回答 1 投票 0

使用 awk 替换固定位置文件中的字段值

这里的要求是将位置9-12替换为空白，例如，在所有固定大小的记录中。我用了猫文件| awk '{sub(substr($0,9,12)," ",$0);print}' 有效，除非有空格

awk text-processing

回答 3 投票 0

使用 awk 将文件中的固定位置替换为值

这里的要求是将位置9-12替换为空白。我用了猫文件| awk '{sub(substr($0,9,12)," ",$0);print}' 有效，除非前面有空白 9. 试图表明...

awk text-processing

回答 2 投票 0

用一些常见的字符串标准化 pandas 列中的文本

我有以下 DataFrame df id1 id2 文本列 key1 220 ABC公司 key1 220 ABC私人有限公司 key2 300 PQR有限公司密钥 2 300 PQR key2 300 PQR 其他客...

python pandas nlp text-processing

回答 1 投票 0

使用 python 自然语言工具包阅读孟加拉语

我想在 NLTK 的 CategorizedPlainCorpusReader 中阅读孟加拉语文本。对于我在 gedit 文本编辑器中的孟加拉文本文件的快照： sublime 文本编辑器中的文件快照：从快照哟...

python nlp text-processing

回答 2 投票 0

如何从源文件中提取单个函数

我正在做一个关于 Linux 内核中非常长和复杂的函数的小型学术研究。我想弄清楚是否有充分的理由编写 600 或 800 行长的函数......

c regex text-processing code-metrics mcc

回答 6 投票 0

从 Spark 中的文本数据中删除 html 代码

我正在处理 Stack Exchange 数据转储，我想从经常出现的代码中清理问题的主体。我尝试使用 BeautifulSoup 但它留下了出现在鳕鱼内部的文本......

pyspark nlp text-processing

回答 1 投票 0

如何在读取文本文件时保留空行 Python

读取带有空行的通用文本文件，即没有制表符，某些行没有空格。我想用这些空行作为分隔符来处理程序中的文件，但我无法阻止它们......

python text text-processing

回答 1 投票 0

当 <a> 标签中有带有 href 属性的 标签时，如何拆分段落中的单词

我正在做一个网络抓取项目，当标签中有一个带有 href 属性的标签时，我想拆分段落中的单词。这是我尝试抓取的网页：... 我正在做一个网络抓取项目，当标签中有一个带有 href 属性的标签时，我想拆分段落中的单词。这是我尝试抓取的网页： https://witcher.fandom.com/wiki/Of_Banquets,_Bastards_and_Burials 我和 beautifulsoup 一起工作如果标签中有一个带有 href 属性的标签，我当前的代码将返回连接在一起的单词。只是提一下，我是一般的抓取和编程新手例如：这里是 html: <a href="/wiki/Dandelion/Netflix_series" title="Dandelion/Netflix series"> Jaskier </a> is in a tavern, writing down the excited account of a merchant who hired <a href="/wiki/Geralt_of_Rivia/Netflix_series" title="Geralt of Rivia/Netflix series"> Geralt </a> to slay a <a href="/wiki/Selkiemore" title="Selkiemore"> selkiemore </a> plaguing his shipments, only to watch in horror as the monster swallowed the Witcher whole. The merchant insists that Geralt could not have survived, but Jaskier knows better, and is proven right when Geralt himself walks into the tavern, covered head to toe in selkiemore guts, explaining that he had to slay it from the inside. The merchant hurriedly pays Geralt the agreed-upon fee, and the bar patrons clear a path for the reeking Witcher as he orders a tankard of beer to wash out his mouth. 这是我的代码：从保存的文件中读取 HTML 内容 with open("yahoo_data.html", "r", encoding="utf-8") as file: html_content = file.read() 使用 BeautifulSoup 解析 HTML soup = BeautifulSoup(html_content, 'html.parser') 杰洛特的时间线摘录第一段 div_tag = soup.find('div', {'style': 'float:right; width:33%; margin: 0 10px;'}) p_tag = div_tag.find_next('p') text = p_tag.get_text(strip=True) print(text+"\n") 输出为： Jaskieris 在一家酒馆里，写下了一位商人的兴奋记述，这位商人雇用了 Geraltto 杀死了一个困扰着他的货物的 elkiemore，结果却惊恐地看着这个怪物吞噬了整个猎魔人。商人坚持认为杰洛特不可能活下来，但贾斯基尔知道得更多，当杰洛特自己走进酒馆时，事实证明他是对的，杰洛特从头到脚都沾满了塞尔基莫尔的内脏，解释说他必须从内部杀死它。商人匆忙向 Geralt 支付了商定的费用，酒吧顾客为散发着恶臭的巫师让路，因为他点了一大杯啤酒来漱口。你可以看到组合词： aselkiemore困扰由 3 个不同的词组合而成： selkiemore 困扰我需要更系统的方法和更多的“pythonic”方法谢谢我尝试使用BeautifulSoup的get_text方法从网页的第一段中提取文本，但是当<a>标签中有一个带有href属性的标签时，结果是一个组合词。我原以为这些词是分开的，而不是合并的。我需要一个更系统的方法和一个更“pythonic”的解决方案来解决这个问题。

python web-scraping beautifulsoup split text-processing

回答 0 投票 0

如何正确地将流式文本拆分成段落？

说我可以为方法 realtimeSplitStream 提供 3 个参数，即 stream、minSplitLength、maxSplitLength 流一个一个地发出字符，字符可以是任何主流语言，例如en-US, zh-CN,

java string text-processing

回答 0 投票 0

查找在 2 列文件中出现次数最少的值

我有一个这种结构的动态生成的txt文件->代码[空格]链接这是一个简单的 15210 https://test1.com 4 https://test2.com 1020 https://testc.com 152 https://testz.com 152 https://t...

shell text-processing

回答 3 投票 0

按原样复制 1 个 docx 文件的标题并使用 Python docx 将其粘贴到其他 docx（包括字体样式和徽标/图像等）

如何使用 python docx 复制一个文件的标题并将其粘贴到其他文件？我已经写了一些代码，但它给出了一个错误。 ---------------------------------------------- --------...