apache-spark-dataset 相关问题

Spark Dataset是映射到关系模式的强类型对象集合。它支持Spark DataFrames的类似优化,同时提供类型安全的编程接口。

从数据集中的地图按键排序

我想通过时间戳订购一些我从HDFS检索的avro文件。我的avro文件的架构是:headers:Map [String,String],body:String现在棘手的部分是时间戳是......

回答 3 投票 1

何使用spark DF或DS读取“.gz”压缩文件?

我有一个.gz格式的压缩文件,是否可以使用spark DF / DS直接读取文件?详细信息:文件是带有制表符分隔符的csv。

回答 1 投票 1

我应该如何将org.apache.spark.ml.linalg.Vector的RDD转换为Dataset?

我很难理解RDD,DataSet和DataFrame之间的转换是如何工作的。我对Spark很陌生,每当我需要从数据模型传递到另一个时,我就会陷入困境(特别是...

回答 2 投票 2

如何使用java api在Apache Spark Dataset中使用desc进行排序?

我正在使用spark会话读取文件,然后拆分单词并计算单词的迭代次数。我需要以描述顺序显示数据SparkSession sparkSession = SparkSession ....

回答 3 投票 3

如何从SparkSQL DataFrame中的MapType列获取键和值

我有一个镶木地板文件中的数据有两个字段:object_id:String和alpha:Map <>。它被读入sparkSQL中的数据框,模式如下所示:scala> alphaDF.printSchema()...

回答 2 投票 11

有没有办法禁止用','分隔,并在scala中用','分隔csv文件

我正在使用scala读取一个csv文件来填充数据集,在那里我面临分隔符问题,这是因为我的一些字段中有','。数据类似于A,B,C(temp,temp1,temp3),......

回答 1 投票 0

数据集未显示任何列

我是新手,想要学习它。我正在尝试使用类从textFile创建数据集。当我执行dataset.show()时,它显示所有空白和列长度显示为0.代码:import org ....

回答 1 投票 0

Spark CSV与各种分隔符到DataSet

我有两个CSV文件,我使用spark与Java聚合。这些文件具有不同的分隔符。 file1.dat:011!345!Ireland files2.dat:022Ç486ÇBrazil我用的代码:Dataset ...

回答 1 投票 3

spark Java中多列的聚合

我有列列表priceColumns是动态的。我正在尝试聚合数据集中的那些列,公共数据集getAgg(RelationalGroupedDataset rlDataset){Dataset selectedDS = null;对于(...

回答 1 投票 0

如何将spark数据帧列嵌入到地图列?

我有一个包含许多列的spark数据帧。现在,我想将它们组合到一个地图中并构建一个新列。例如col1:String col2:String col3:String ... coln:String => col:Map(colname - &...

回答 2 投票 1

Spark 2.x数据集的Kryo序列化

使用Dataset API时是否仍需要Kryo序列化?因为数据集使用编码器进行序列化和反序列化:Kyro序列化是否适用于数据集? (...

回答 1 投票 7

了解Spark SQL的一些基础知识

我正在关注http://spark.apache.org/docs/latest/sql-programming-guide.html输入后:val df = spark.read.json(“examples / src / main / resources / people.json” )//显示...的内容

回答 2 投票 -1

将字段附加到JSON数据集Java-Spark

我正在使用Java-Spark将JSON加载到Dataset中,如下所示:Dataset df = spark.read()。json(jsonFile);假设我的JSON看起来像:{“field1”:{“key1”:“value1”} ...

回答 1 投票 -1

在Spark Structured Streaming中处理二进制数据

我正在使用Kafka和Spark Structured Streaming。我收到以下格式的kafka消息。 {“deviceId”:“001”,“sNo”:1,“data”:“aaaaa”} {“deviceId”:“002”,“sNo”:1,“data”:“bbbbb”} {“deviceId” :” ...

回答 1 投票 1

Spark CSV - 找不到实际参数的适用构造函数/方法

我在使用过滤器上的lambda函数和java spark应用程序中的类型化数据集的映射时遇到了问题。我收到此运行时错误错误CodeGenerator:无法编译:org.codehaus ....

回答 1 投票 1

Spark 2.2.0数据集中的输出不是可读格式

以下是我试图在intellij IDE上使用spark2.2.0执行的代码。但我得到的输出并不是以可读格式显示的。 val spark = SparkSession .builder()....

回答 1 投票 0

Spark:数据集序列化

如果我有一个数据集,每个记录都是一个案例类,我将如下所示保持该数据集,以便使用序列化:myDS.persist(StorageLevel.MERORY_ONLY_SER)Spark是否使用java / kyro ...

回答 3 投票 2

如何通过避免apache spark中的flatmap操作来提高性能

我正在针对我的java数据对象运行一组规则。对于每个项目,我正在处理规则列表。通常我有100万件物品和100条规则。目前正在运行此程序...

回答 1 投票 0

Spark从MongoDB读取并按objectId索引字段过滤

我正在尝试使用mongo-spark-connector 2.2.0从MongoDB读取数据集,并在_id字段上使用过滤器。例如:MongoSpark.loadAndInferSchema(session,ReadConfig.create(session))。filter(col(...

回答 1 投票 0

Spark能否直接将数据读入嵌套的案例类?

假设您有一个包含三列的CSV:item,username和userid。使用Spark的数据集API来读取它是一个相当简单的事情:case class Flat(item:String,username:String,userid:...

回答 1 投票 3

© www.soinside.com 2019 - 2024. All rights reserved.