无法使用R中来自readtext包的readtext()从PDF文件提取的文本中替换“ \ r \ n-”

问题描述 投票:0回答:1

我正在尝试从R Studio的readtext包中使用readtext()从PDF文件中提取的文本中删除“ \ r \ n-”。下面是我在R中的代码:

    library(readtext)
    jd <- readtext("C:/Users/HomeUser/Documents/Sales Manager.pdf")
    jd_text <- jd$text
    jd_text2 <- gsub(pattern = "\r\n-?|•", replacement = " ", jd_text)

下面是原始提取的文本jd_text

“ Sales Manager \ r \ nCFB Bots是一家专注于智能自动化(IA)的技术服务提供商。我们与\ r \ n大型企业合作进行数字化转型,并帮助他们和他们的员工在未来的发展中蓬勃发展工作:我们的使命是共同创造未来的数字劳动力,我们的愿景\ r \ nis使工作变得愉快。有关更多信息,请访问www.cfb-bots.com。\ r \ n我们正在寻找高绩效的领跑者,开拓创新,为不断增长的业务建立新的联系。作为销售经理,您将通过实现我们的客户获取和收入增长目标,在保持公司竞争力方面发挥至关重要的作用。 \ r \ n在销售过程的每个阶段(从计划到结束销售)都是关键。\ r \ n如果您对技术充满热情并且渴望解决客户的挑战,请继续阅读了解更多信息。\ r \ n您可以获得:\ r \ n−实现销售目标的奖励措施\ r \ n− Ex把握最新的行业趋势和技术\ r \ n−不断学习和增长的机会\ r \ n−增强销售计划,分析和管理技能\ r \ n−灵活的工作和生活福利 \ r \ n您将做:\ r \ n销售策略\ r \ n-开发...“

我能够使用jd_text删除gsub()中的许多“ \ r \ n-”。以下jd_text2的输出:

“ Sales Manager CFB Bots是一家专注于智能自动化(IA)的技术服务提供商。我们与大型企业合作进行数字化转型,并帮助他们和他们的员工在工作的未来中蓬勃发展。我们的使命是共同创造未来的数字劳动力,我们的愿景是使工作变得愉快。有关更多信息,请访问www.cfb-bots.com。我们正在寻找高性能的领先者,以开拓创新并为我们不断发展的业务建立新的联系。作为销售经理,您将通过实现客户获取和收入增长目标来保持公司竞争力,在从计划到完成销售的销售过程的每个阶段,您都是关键联络人。对技术充满热情并渴望解决客户的挑战,请继续阅读以了解更多信息。您可以获得:-达到销售目标的动力-接触最新行业趋势d技术-无限的学习和增长机会-增强销售计划,分析和管理技能-灵活的工作和生活福利您将要做:开发销售策略...“

如您所见,我能够删除“灵活的工作和生活津贴”之后出现的“ \ r \ n-”,而前几个“ \ r \ n-”中的“-”仍然存在。但是,当我将原始文本摘录直接从R Studio控制台中的jd_text显示粘贴到新变量jd_test中并再次应用gsub()时,我能够实现我的目标:

jd_test <- "Sales Manager\r\nCFB Bots is a technology service provider specializing in Intelligent Automation (IA). We partner with\r\nlarge enterprises in their Digital Transformation journey and help them and their employees thrive\r\nin the Future of Work. Our mission is to co-create the Digital Workforce of the Future, and our vision\r\nis to make work enjoyable. For more information, please visit www.cfb-bots.com.\r\nWe are looking for a high performing frontrunner to blaze the trail and make new connections for\r\nour growing business. As a Sales Manager, you will play a vital role in keeping the Company\r\ncompetitive by achieving our customer acquisition and revenue growth targets. You will be the key\r\nliaison in every stage of the sales process, from planning to closing the sales.\r\nIf you are passionate about technology and are motivated by a hunger to solve our clients’\r\nchallenges, read on to find out more.\r\nYou can gain:\r\n− Incentive for achieving sales targets\r\n− Exposure to the latest industry trends and technologies\r\n− Endless learning and growth opportunities\r\n− Sharpen sales planning, analytical and management skills\r\n− Flexible work-life benefits\r\nYou will do:\r\nSales Strategy\r\n-    Develop ..."

jd_test2 <- gsub(pattern = "\r\n-?|•", replacement = " ", jd_test)

jd_test2的输出:

Sales Manager CFB Bots是一家专门从事智能自动化(IA)的技术服务提供商。我们与大型企业合作进行数字化转型,并帮助他们及其员工在“未来工作”中蓬勃发展。我们的使命是共同创造未来的数字劳动力,我们的愿景是使工作变得愉快。有关更多信息,请访问www.cfb-bots.com。我们正在寻找一位高绩效的领跑者,以开拓创新并为我们不断发展的业务建立新的联系。作为销售经理,您将通过实现客户获取和收入增长目标,在保持公司竞争力方面发挥至关重要的作用。从计划到完成销售,您将成为销售过程每个阶段的关键联络人。如果您对技术充满热情并且渴望解决客户的挑战,请继续阅读以了解更多信息。您可以获得:实现销售目标的激励措施接触最新的行业趋势和技术无限的学习和增长机会提高销售计划,分析和管理技能灵活的工作和生活福利您将要做:开发销售策略...“

任何人都知道问题出在哪里,我该如何解决?我尝试使用pdftools包中的另一个函数pdf_text(),但它产生了同样令人沮丧的结果。起初,我认为前几个“ \ r \ n-”的“-”要比后一个稍长,但是直接复制粘贴的尝试似乎与这种观察相矛盾。对象中是否存在某些“隐藏”的东西,在复制粘贴操作期间没有迁移?任何建议,不胜感激!

r pdf gsub character-replacement
1个回答
0
投票

我找到了可能的答案。从PDF文档中提取的原始文本似乎没有R Studio可以识别的编码。这可以解释为什么前几个“-”没有被删除。应用jd_text <-iconv(jd_text,"UTF-8")将编码强制转换为UTF-8后,我的问题已解决,并且可以完全删除“ \ r \ n-”。

© www.soinside.com 2019 - 2024. All rights reserved.