apache-spark-sql 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。

如何在使用普通map / reduce函数时访问SparkDataset Api中的json模式信息?

给定一个消息数据集,由以下代码定义:case class Message(id:Int,value:String)var messages = Seq((0,“”“{”action“:”update“,”timestamp“:” 2017-10-05T23:01:19Z“}”“”),...

回答 1 投票 0

如何以自定义格式加载带时间戳的CSV?

我在csv文件中有一个时间戳字段,我使用spark csv库加载到数据帧。同一段代码在我的本地机器上使用Spark 2.0版本,但在Azure上抛出错误...

回答 2 投票 7

Spark SQL DataFrame - 异常处理

在我们的应用程序中,我们的大部分代码只是在DataFrame上应用filter,group by和aggregate操作,并将DF保存到Cassandra数据库。像下面的代码一样,我们有几种方法......

回答 2 投票 0

使用Spark SQL数据帧写入方法附加MySQL表行

我是Apache Spark SQL的新手。下面是Spark SQL应用程序的代码和查询结果。 SparkSession spark = SparkSession.builder()。appName(“Spark SQL Test”)。master(“...

回答 1 投票 0

pyspark,比较数据帧中的两行

我试图将数据帧中的一行与下一行进行比较以查看时间戳的差异。目前数据看起来像:itemid | eventid |时间戳---------------------------- 134 | ...

回答 2 投票 4

使用Spark SQL中的regex函数从字符串中提取特定数字

我在mysql中有一个表,它有POST_ID和相应的INTEREST:我使用下面的正则表达式查询来选择包含1,2,3的兴趣。 SELECT * FROM INTEREST_POST其中INTEREST REGEXP ...

回答 2 投票 1

如何根据Pyspark中数据框中的条件设置新的列表值?

我有一个像下面这样的DataFrame。 + --- + ------------------------------------------ + | id |特征| + --- + ------------------------------------------ + | 1 | [6.629056,0 ....

回答 2 投票 0

Spark saveAsTextFile写入空文件 - _ $ folder $到S3

rdd.saveAsTextFile(“s3n:// bucket-name / path”)正在创建一个文件夹名为空文件 - [folder-name] _ $ folder $好像这个空文件被hadoop-aws jar使用(org。 apache.hadoop)模仿......

回答 1 投票 1

Spark数据集和scala.ScalaReflectionException:类型V不是类

我有以下类:case class S1(value:String,ws:Map [Int,String])case class S2(value:String,ws:Map [Int,String],dep:BS)如上图所示,这两个有一个不同的领域......

回答 1 投票 1

使用Spark解析多个JSON模式

我需要从大量有些复杂的嵌套JSON消息中收集一些关键信息,这些消息随着时间的推移而不断发展。每条消息都指的是同一类型的事件,但......

回答 1 投票 0

ArrayIndexOutOfBoundsException保存Dataframe保存到Hive

我在使用以下API代码将数据帧保存到配置单元表时遇到问题。 df.write.mode(SaveMode.Append).format(“parquet”)。partitionBy(“ord_deal_year”,“ord_deal_month”,“ord_deal_day”...

回答 2 投票 0

获取Apache Spark Java中的整个数据集或仅列的摘要

对于下面的数据集,要获取Col1的总摘要值,我确实导入了org.apache.spark.sql.functions._ val totaldf = df.groupBy(“Col1”)。agg(lit(“Total”)。as(“ Col2“),sum(”price“)。as(”price“),sum(”...

回答 1 投票 -2

通过在spark中使用scala加载csv文件来创建数据帧

但csv文件添加了额外的双引号,导致所有列成为单列,有四列,标题和2行“”“SlNo”“,”“名称”“,”“年龄”“,”“联系人”“” “1”, “普里亚””,78 “” ...

回答 1 投票 0

在spark sql中对窗口函数使用having子句的语义是什么?

我正在学习spark sql,并注意到这是可能的:SELECT a,b,Row_number()OVER(分区BY a,b ORDER BY start_time DESC)AS r,Count(*)OVER(分区BY a,b)...

回答 1 投票 0

Apache Spark SQL数据集groupBy具有max函数和另一列中的不同值

我有一个通过以下操作转换的数据集:dataset.groupBy(“userID”,“itemID”,“related”).agg(functions.max(“value”)。as(“value”));结果我得到这样的数据集:+ -...

回答 1 投票 0

从Apache Spark加载PrestoDB表

我在将Presto数据库中的表/视图数据加载到Spark时遇到问题。 val prestoDriver =“com.teradata.presto.jdbc42.Driver”val df = spark.read.format(“jdbc”)。option(“url”,prestoURL).option(“...

回答 1 投票 0

apache spark sql中的等效percentile_cont函数

我是新兴的环境。我有列名的数据集如下:user_id,Date_time,order_quantity我想计算每个user_id的order_quantity的第90个百分位数。如果是......

回答 1 投票 4

SparkSQL - 与多重比较相比,isIn()的性能

在运行大约6亿行的SparkSQL程序中,我需要根据在其中一列上运行UDF的输出来过滤结果。以下哪项会表现更好? ...

回答 1 投票 0

列摘要(在Spark数据集上实现多维数据集功能)

对于下面的数据集,我需要根据选定的列获取摘要数据样本数据集包含以下数据。 + --------- + ---------- + -------- + --------- + | Column1 | Column2 |支出| ...

回答 1 投票 0

如何在spark中添加条件连接

我有一个数据帧连接条件,如df1.as(“main_data”)。join(df2.as(“mcp”),df1.col(“id”)。equalTo(df2.col(“id”))和df1。 col(“name”)。equalTo(df2.col(“name”))在此加入...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.