apache-spark-sql 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。

如何使用Spark-Xml生成复杂的XML

我正在尝试从我的JavaRDd <Book>和JavaRdd <Reviews>生成一个复杂的xml如何将这两个生成为xml以下生成?

回答 1 投票 4

将数据帧保存为外部配置单元表

我已经使用一种方法将数据帧保存为使用镶木地板文件格式的外部表,但是还有其他方法可以将数据帧直接保存为配置单元中的外部表,就像我们有saveAsTable for managed ...

回答 3 投票 5

按列分组和排序csv文件spark [duplicate]

下面是我正在处理的csv文件示例:生活ID,政策ID,福利ID,评论日期,状态xx_0,0,0,11 / 11/2017,有效xx_0,0,0,12 / 12 / 2017年,活跃axb_0,1,0,10 / 01/2015,活跃axb_0,1,0,11 / ...

回答 1 投票 0

如何在Apache Spark Java中将数组类型的数据集转换为字符串类型

我的数据集中有一个数组类型需要转换为字符串类型。我以传统的方式尝试过。我觉得我们可以更好地做到这一点。你能指导我吗?输入数据集1 + ---------------...

回答 1 投票 2

如何用值“Undefined”替换值“Unknown”?

如何在DataFrame中将值“Undefined”替换为“Unknown”值?我发现下面的命令可以用于withColumn(“col1”,when(...)。否则(...),但在我的情况下,我想......

回答 1 投票 -1

在Spark中如何使用UDO作为参数调用UDF以避免二进制错误

我用UDO作为参数定义了一个UDF。但是当我试图在数据帧中调用它时,我收到错误消息“org.apache.spark.SparkException:无法执行用户定义的函数($ anonfun $ 1:(array)= ...

回答 1 投票 0

删除Spark数据帧中具有句点的列名称

我在使用具有句点的Spark数据帧中删除列时遇到问题。我知道你需要使用反引号(`)来转义列名。当我尝试选择列时,这确实有用......

回答 1 投票 1

Spark&Scala:saveAsTextFile()异常

我是Spark&Scala的新手,在调用saveAsTextFile()后我得到了异常。希望有人可以帮忙...这是我的input.txt:Hello World,我是程序员Hello World,我是程序员这是......

回答 2 投票 5

Pyspark在使用大量列保存数据框时遇到问题

在Hortonworks集群上通过Jupyter笔记本使用Pyspark 1.6.2处理以下步骤时,我们遇到了一个奇怪的情况:从pyspark数据框中的ORC表读取数据透视此表...

回答 1 投票 1

spark数据帧分组不计算空值

我有一个spark DataFrame,它由一个用count聚合的列分组:df.groupBy('a')。agg(count(“a”))。show + --------- + --- ------------- + | a | count(a)| + --------- + -------------...

回答 2 投票 1

如何将shell脚本中定义的变量用于Scala文件? [重复]

我有一个脚本文件,我在其中定义一些日期变量,在同一个文件中,我使用spark-shell命令调用Scala代码。 shell文件中定义的变量用作...

回答 1 投票 -3

从数据集中获取值 到.txt文件(使用Java)[重复]

我是新来的,所以我希望能帮助你并在可能的情况下得到帮助。我在Java中使用Spark SQL和ML Spark创建了一个Apache Spark项目。我已经完成了这个项目,但我有一些问题......

回答 1 投票 0

TypeError:type Column没有定义__round__方法[duplicate]

我的数据如下所示:+ ------- + ------- + ------ + ---------- + | book_id | user_id | rating |预测| + ------- + ------- + ------ + ---------- + | 148 | 588 | 4 | 3.953999 | | 148 | 28767 | 3 | ...

回答 1 投票 0

正则表达式 - 替换多次出现

我有一个字符串,可以是以下任何一种情况:test1 / test2 / test3 / test4 / test5 / test1 / test2 / test3 / test4 // test1 / test2 / test3 /// test1 / test2 //// test1 // ///我的预期结果是test1 / test2 / test3 / ...

回答 2 投票 0

Scala Spark用NULL替换空String

我想要的是将特定列中的值替换为null,如果它是空String。原因是我正在使用org.apache.spark.sql.functions.coalesce来填充Dataframe的一个列...

回答 1 投票 0

使用字符串表达式列表作为连接条件

我有一个列表,其中包含字符串作为其元素。 list_elem = ['df1.x1 == df2.p1','df1.x2 == df2.p2']我想将该列表更改为这样的内容。 list_new = [df1.x1 == df2.p1,df1.x2 == ...

回答 1 投票 1

在spark中查找数据的最佳选择

我有一个要求,我需要从kafka主题中读取消息,对数据集进行查找,然后根据查找数据的结果发送消息。以下示例...

回答 1 投票 1

如何在单个查询中计算不同类型列的流数据帧的统计信息?

我有一个流数据帧有三列时间col1,col2。 + ----------------------- + ------------------- + ----- --------------- + | time | col1 | col2 | ...

回答 1 投票 6

Spark SCALA - 连接两个数据帧,其中一个数据帧中的连接值位于第二个数据帧中的两个字段之间

我有两个数据帧(删除与问题无关的字段):df1:org.apache.spark.sql.DataFrame = [rawValue:bigint] df2:org.apache.spark.sql.DataFrame = [startLong:bigint ,...

回答 1 投票 0

Spark SQL Java GenericRowWithSchema无法强制转换为java.lang.String

我有一个应用程序试图从集群目录中读取一组csv并使用Spark将它们写为镶木地板文件。 SparkSession sparkSession = createSession(); JavaRDD ...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.