apache-spark-dataset 相关问题

Spark Dataset是映射到关系模式的强类型对象集合。它支持Spark DataFrames的类似优化，同时提供类型安全的编程接口。

从数据集中的地图按键排序

我想通过时间戳订购一些我从HDFS检索的avro文件。我的avro文件的架构是：headers：Map [String，String]，body：String现在棘手的部分是时间戳是......

scala apache-spark apache-spark-dataset

回答 3 投票 1

何使用spark DF或DS读取“.gz”压缩文件？

我有一个.gz格式的压缩文件，是否可以使用spark DF / DS直接读取文件？详细信息：文件是带有制表符分隔符的csv。

apache-spark apache-spark-sql spark-dataframe gzip apache-spark-dataset

回答 1 投票 1

我应该如何将org.apache.spark.ml.linalg.Vector的RDD转换为Dataset？

我很难理解RDD，DataSet和DataFrame之间的转换是如何工作的。我对Spark很陌生，每当我需要从数据模型传递到另一个时，我就会陷入困境（特别是...

apache-spark apache-spark-sql rdd apache-spark-mllib apache-spark-dataset

回答 2 投票 2

如何使用java api在Apache Spark Dataset中使用desc进行排序？

我正在使用spark会话读取文件，然后拆分单词并计算单词的迭代次数。我需要以描述顺序显示数据SparkSession sparkSession = SparkSession ....

java apache-spark apache-spark-sql apache-spark-dataset

回答 3 投票 3

如何从SparkSQL DataFrame中的MapType列获取键和值

我有一个镶木地板文件中的数据有两个字段：object_id：String和alpha：Map <>。它被读入sparkSQL中的数据框，模式如下所示：scala> alphaDF.printSchema（）...

scala apache-spark dataframe apache-spark-sql apache-spark-dataset

回答 2 投票 11

有没有办法禁止用'，'分隔，并在scala中用'，'分隔csv文件

我正在使用scala读取一个csv文件来填充数据集，在那里我面临分隔符问题，这是因为我的一些字段中有'，'。数据类似于A，B，C（temp，temp1，temp3），......

scala apache-spark apache-spark-dataset

回答 1 投票 0

数据集未显示任何列

我是新手，想要学习它。我正在尝试使用类从textFile创建数据集。当我执行dataset.show（）时，它显示所有空白和列长度显示为0.代码：import org ....

apache-spark apache-spark-dataset

回答 1 投票 0

Spark CSV与各种分隔符到DataSet

我有两个CSV文件，我使用spark与Java聚合。这些文件具有不同的分隔符。 file1.dat：011！345！Ireland files2.dat：022Ç486ÇBrazil我用的代码：Dataset ...

java csv apache-spark apache-spark-sql apache-spark-dataset

回答 1 投票 3

spark Java中多列的聚合

我有列列表priceColumns是动态的。我正在尝试聚合数据集中的那些列，公共数据集getAgg（RelationalGroupedDataset rlDataset）{Dataset selectedDS = null;对于（...

java apache-spark group-by aggregate apache-spark-dataset

回答 1 投票 0

如何将spark数据帧列嵌入到地图列？

我有一个包含许多列的spark数据帧。现在，我想将它们组合到一个地图中并构建一个新列。例如col1：String col2：String col3：String ... coln：String => col：Map（colname - ＆...

scala apache-spark spark-dataframe apache-spark-dataset

回答 2 投票 1

Spark 2.x数据集的Kryo序列化

使用Dataset API时是否仍需要Kryo序列化？因为数据集使用编码器进行序列化和反序列化：Kyro序列化是否适用于数据集？（...

kryo apache-spark-dataset apache-spark-2.0

回答 1 投票 7

了解Spark SQL的一些基础知识

我正在关注http://spark.apache.org/docs/latest/sql-programming-guide.html输入后：val df = spark.read.json（“examples / src / main / resources / people.json” ）//显示...的内容

scala apache-spark apache-spark-sql apache-spark-dataset

回答 2 投票 -1

将字段附加到JSON数据集Java-Spark

我正在使用Java-Spark将JSON加载到Dataset中，如下所示：Dataset df = spark.read（）。json（jsonFile）;假设我的JSON看起来像：{“field1”：{“key1”：“value1”} ...

apache-spark apache-spark-dataset

回答 1 投票 -1

在Spark Structured Streaming中处理二进制数据

我正在使用Kafka和Spark Structured Streaming。我收到以下格式的kafka消息。 {“deviceId”：“001”，“sNo”：1，“data”：“aaaaa”} {“deviceId”：“002”，“sNo”：1，“data”：“bbbbb”} {“deviceId” ：” ...

java apache-spark spark-streaming apache-spark-dataset

回答 1 投票 1

Spark CSV - 找不到实际参数的适用构造函数/方法

我在使用过滤器上的lambda函数和java spark应用程序中的类型化数据集的映射时遇到了问题。我收到此运行时错误错误CodeGenerator：无法编译：org.codehaus ....

java apache-spark apache-spark-sql apache-spark-dataset

回答 1 投票 1

Spark 2.2.0数据集中的输出不是可读格式

以下是我试图在intellij IDE上使用spark2.2.0执行的代码。但我得到的输出并不是以可读格式显示的。 val spark = SparkSession .builder（）....

apache-spark apache-spark-dataset apache-spark-2.0

回答 1 投票 0

Spark：数据集序列化

如果我有一个数据集，每个记录都是一个案例类，我将如下所示保持该数据集，以便使用序列化：myDS.persist（StorageLevel.MERORY_ONLY_SER）Spark是否使用java / kyro ...

scala apache-spark serialization apache-spark-dataset

回答 3 投票 2

如何通过避免apache spark中的flatmap操作来提高性能

我正在针对我的java数据对象运行一组规则。对于每个项目，我正在处理规则列表。通常我有100万件物品和100条规则。目前正在运行此程序...

java apache-spark apache-spark-dataset

回答 1 投票 0

Spark从MongoDB读取并按objectId索引字段过滤

我正在尝试使用mongo-spark-connector 2.2.0从MongoDB读取数据集，并在_id字段上使用过滤器。例如：MongoSpark.loadAndInferSchema（session，ReadConfig.create（session））。filter（col（...

mongodb apache-spark apache-spark-dataset

回答 1 投票 0

Spark能否直接将数据读入嵌套的案例类？

假设您有一个包含三列的CSV：item，username和userid。使用Spark的数据集API来读取它是一个相当简单的事情：case class Flat（item：String，username：String，userid：...

scala apache-spark apache-spark-dataset

回答 1 投票 3

apache-spark-dataset 相关问题

最新问题