如何在sparknlp中为文本文件使用注释器

问题描述投票：0回答：1

由于我是初学者，所以我开始使用johnsnowlabs中显示的功能进行一些练习。>

我正在使用数据块中的SCALA，但从https://www.gutenberg.org/中得到了一个大文本文件>

因此，我首先按如下所示导入必要的库和数据，>

import com.johnsnowlabs.nlp.base._
import com.johnsnowlabs.nlp.annotator._

import com.johnsnowlabs.nlp.pretrained.PretrainedPipeline
val book = sc.textFile("/FileStore/tables/84_0-5b1ef.txt").collect()
val words=bookRDD.filter(x=>x.length>0).flatMap(line => line.split("""\W+"""))
val rddD = words.toDF("text")
如何根据我的目的使用在johnsnowlabs中可用的不同注释器？
例如，如果我想查找停用词，则可以使用
val stopWordsCleaner = new StopWordsCleaner()
      .setInputCols("token")
      .setOutputCol("cleanTokens")
      .setStopWords(Array("this", "is", "and"))
      .setCaseSensitive(false)
但是我不知道如何使用它并查找文本文件的停用词。我需要使用带有注释器的预训练模型吗？ 
我发现很难找到一个很好的教程。因此，如果有人可以提供一些有用的提示，我们将不胜感激。

由于我是NLP的初学者，我开始使用johnsnowlabs中显示的功能进行一些练习，我正在使用数据砖中的SCALA，并且从...获得了很大的文本文件。] >>> < [

StopWordsCleaner是用于删除停用词的注释器。

参考：Annotators

根据上下文，您的文本中的停用词可能有所不同，但是通常所有NLP引擎都有一组停用词，可以将它们匹配并删除。

在JSL spark-nlp中，也可以在使用StopWordsCleaner时使用setStopWords设置停用词。

scala apache-spark johnsnowlabs-spark-nlp

1个回答

0
投票

StopWordsCleaner是用于删除停用词的注释器。

参考：Annotators

根据上下文，您的文本中的停用词可能有所不同，但是通常所有NLP引擎都有一组停用词，可以将它们匹配并删除。

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.