如何获取/构建 JavaRDD[DataSet]?

问题描述 投票:0回答:2

当我使用 deeplearning4j 并尝试在 Spark 中训练模型时

public MultiLayerNetwork fit(JavaRDD<DataSet> trainingData) 

fit() 需要一个 JavaRDD 参数, 我试着像这样建造

    val totalDaset = csv.map(row => {
      val features = Array(
        row.getAs[String](0).toDouble, row.getAs[String](1).toDouble
      )
      val labels = Array(row.getAs[String](21).toDouble)
      val featuresINDA = Nd4j.create(features)
      val labelsINDA = Nd4j.create(labels)
      new DataSet(featuresINDA, labelsINDA)
    })

但是 IDEA 的提示是 No implicit arguments of type:Encode[DataSet]
这是一个错误,我不知道如何解决这个问题,
我知道 SparkRDD 可以转换为 JavaRDD,但我不知道如何构建 Spark RDD[DataSet]
数据集在

import org.nd4j.linalg.dataset.DataSet

它的构造方法是

    public DataSet(INDArray first, INDArray second) {
        this(first, second, (INDArray)null, (INDArray)null);
    }

这是我的代码

val spark:SparkSession = {SparkSession
      .builder()
      .master("local")
      .appName("Spark LSTM Emotion Analysis")
      .getOrCreate()
    }
    import spark.implicits._
    val JavaSC = JavaSparkContext.fromSparkContext(spark.sparkContext)

    val csv=spark.read.format("csv")
      .option("header","true")
      .option("sep",",")
      .load("/home/hadoop/sparkjobs/LReg/data.csv")

    val totalDataset = csv.map(row => {
      val features = Array(
        row.getAs[String](0).toDouble, row.getAs[String](1).toDouble
      )
      val labels = Array(row.getAs[String](21).toDouble)
      val featuresINDA = Nd4j.create(features)
      val labelsINDA = Nd4j.create(labels)
      new DataSet(featuresINDA, labelsINDA)
    })

    val data = totalDataset.toJavaRDD

deeplearning4j官方指南中Java创建JavaRDD[DataSet]:

String filePath = "hdfs:///your/path/some_csv_file.csv";
JavaSparkContext sc = new JavaSparkContext();
JavaRDD<String> rddString = sc.textFile(filePath);
RecordReader recordReader = new CSVRecordReader(',');
JavaRDD<List<Writable>> rddWritables = rddString.map(new StringToWritablesFunction(recordReader));

int labelIndex = 5;         //Labels: a single integer representing the class index in column number 5
int numLabelClasses = 10;   //10 classes for the label
JavaRDD<DataSet> rddDataSetClassification = rddWritables.map(new DataVecDataSetFunction(labelIndex, numLabelClasses, false));

我尝试用scala创建:

    val JavaSC: JavaSparkContext = new JavaSparkContext()
    val rddString: JavaRDD[String] = JavaSC.textFile("/home/hadoop/sparkjobs/LReg/hf-data.csv")
    val recordReader: CSVRecordReader = new CSVRecordReader(',')
    val rddWritables: JavaRDD[List[Writable]] = rddString.map(new StringToWritablesFunction(recordReader))
    val featureColnum = 3
    val labelColnum = 1
    val d = new DataVecDataSetFunction(featureColnum,labelColnum,true,null,null)
//    val rddDataSet: JavaRDD[DataSet] = rddWritables.map(new DataVecDataSetFunction(featureColnum,labelColnum, true,null,null))
// can not reslove overloaded method 'map'

调试错误信息:

rdd apache-spark-dataset nd4j
2个回答
1
投票

DataSet 只是一对 INDArray。 (输入和标签) 我们的文档对此进行了深入介绍: https://deeplearning4j.konduit.ai/distributed-deep-learning/data-howto

为了堆栈溢出,我将总结这里的内容,因为没有“1”的方法来创建数据管道。这与你的问题有关。这与您在本地创建数据集的方式非常相似,通常您希望获取您在本地所做的任何事情并将其放入函数中。

例如 CSV 和图像将会非常不同。但通常你使用 datavec 库来做到这一点。文档总结了每种方法。


0
投票

Heelo,我也遇到了这个问题。你是怎么解决的?

© www.soinside.com 2019 - 2024. All rights reserved.