apache-spark-sql 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具，Spark是一种快速通用的集群计算系统。

如何在使用普通map / reduce函数时访问SparkDataset Api中的json模式信息？

给定一个消息数据集，由以下代码定义：case class Message（id：Int，value：String）var messages = Seq（（0，“”“{”action“：”update“，”timestamp“：” 2017-10-05T23：01：19Z“}”“”），...

json apache-spark apache-spark-sql

回答 1 投票 0

如何以自定义格式加载带时间戳的CSV？

我在csv文件中有一个时间戳字段，我使用spark csv库加载到数据帧。同一段代码在我的本地机器上使用Spark 2.0版本，但在Azure上抛出错误...

apache-spark apache-spark-sql hortonworks-data-platform hdinsight

回答 2 投票 7

Spark SQL DataFrame - 异常处理

在我们的应用程序中，我们的大部分代码只是在DataFrame上应用filter，group by和aggregate操作，并将DF保存到Cassandra数据库。像下面的代码一样，我们有几种方法......

scala exception-handling apache-spark-sql

回答 2 投票 0

使用Spark SQL数据帧写入方法附加MySQL表行

我是Apache Spark SQL的新手。下面是Spark SQL应用程序的代码和查询结果。 SparkSession spark = SparkSession.builder（）。appName（“Spark SQL Test”）。master（“...

apache-spark-sql

回答 1 投票 0

pyspark，比较数据帧中的两行

我试图将数据帧中的一行与下一行进行比较以查看时间戳的差异。目前数据看起来像：itemid | eventid |时间戳---------------------------- 134 | ...

python apache-spark pyspark apache-spark-sql pyspark-sql

回答 2 投票 4

使用Spark SQL中的regex函数从字符串中提取特定数字

我在mysql中有一个表，它有POST_ID和相应的INTEREST：我使用下面的正则表达式查询来选择包含1,2,3的兴趣。 SELECT * FROM INTEREST_POST其中INTEREST REGEXP ...

hadoop apache-spark-sql

回答 2 投票 1

如何根据Pyspark中数据框中的条件设置新的列表值？

我有一个像下面这样的DataFrame。 + --- + ------------------------------------------ + | id |特征| + --- + ------------------------------------------ + | 1 | [6.629056,0 ....

apache-spark pyspark apache-spark-sql spark-dataframe pyspark-sql

回答 2 投票 0

Spark saveAsTextFile写入空文件 - _ $ folder $到S3

rdd.saveAsTextFile（“s3n：// bucket-name / path”）正在创建一个文件夹名为空文件 - [folder-name] _ $ folder $好像这个空文件被hadoop-aws jar使用（org。 apache.hadoop）模仿......

hadoop apache-spark amazon-s3 apache-spark-sql

回答 1 投票 1

Spark数据集和scala.ScalaReflectionException：类型V不是类

我有以下类：case class S1（value：String，ws：Map [Int，String]）case class S2（value：String，ws：Map [Int，String]，dep：BS）如上图所示，这两个有一个不同的领域......

scala apache-spark apache-spark-sql apache-spark-dataset

回答 1 投票 1

使用Spark解析多个JSON模式

我需要从大量有些复杂的嵌套JSON消息中收集一些关键信息，这些消息随着时间的推移而不断发展。每条消息都指的是同一类型的事件，但......

json hadoop apache-spark apache-spark-sql

回答 1 投票 0

ArrayIndexOutOfBoundsException保存Dataframe保存到Hive

我在使用以下API代码将数据帧保存到配置单元表时遇到问题。 df.write.mode（SaveMode.Append）.format（“parquet”）。partitionBy（“ord_deal_year”，“ord_deal_month”，“ord_deal_day”...

apache-spark hive apache-spark-sql

回答 2 投票 0

获取Apache Spark Java中的整个数据集或仅列的摘要

对于下面的数据集，要获取Col1的总摘要值，我确实导入了org.apache.spark.sql.functions._ val totaldf = df.groupBy（“Col1”）。agg（lit（“Total”）。as（“ Col2“），sum（”price“）。as（”price“），sum（”...

apache-spark apache-spark-sql apache-spark-dataset

回答 1 投票 -2

通过在spark中使用scala加载csv文件来创建数据帧

但csv文件添加了额外的双引号，导致所有列成为单列，有四列，标题和2行“”“SlNo”“，”“名称”“，”“年龄”“，”“联系人”“” “1”， “普里亚””，78 “” ...

scala csv apache-spark dataframe apache-spark-sql

回答 1 投票 0

在spark sql中对窗口函数使用having子句的语义是什么？

我正在学习spark sql，并注意到这是可能的：SELECT a，b，Row_number（）OVER（分区BY a，b ORDER BY start_time DESC）AS r，Count（*）OVER（分区BY a，b）...

apache-spark apache-spark-sql having having-clause

回答 1 投票 0

Apache Spark SQL数据集groupBy具有max函数和另一列中的不同值

我有一个通过以下操作转换的数据集：dataset.groupBy（“userID”，“itemID”，“related”）.agg（functions.max（“value”）。as（“value”））;结果我得到这样的数据集：+ -...

java apache-spark-sql

回答 1 投票 0

从Apache Spark加载PrestoDB表

我在将Presto数据库中的表/视图数据加载到Spark时遇到问题。 val prestoDriver =“com.teradata.presto.jdbc42.Driver”val df = spark.read.format（“jdbc”）。option（“url”，prestoURL）.option（“...

apache-spark apache-spark-sql teradata prestodb

回答 1 投票 0

apache spark sql中的等效percentile_cont函数

我是新兴的环境。我有列名的数据集如下：user_id，Date_time，order_quantity我想计算每个user_id的order_quantity的第90个百分位数。如果是......

apache-spark apache-spark-sql spark-dataframe

回答 1 投票 4

SparkSQL - 与多重比较相比，isIn（）的性能

在运行大约6亿行的SparkSQL程序中，我需要根据在其中一列上运行UDF的输出来过滤结果。以下哪项会表现更好？ ...

performance apache-spark apache-spark-sql

回答 1 投票 0

列摘要（在Spark数据集上实现多维数据集功能）

对于下面的数据集，我需要根据选定的列获取摘要数据样本数据集包含以下数据。 + --------- + ---------- + -------- + --------- + | Column1 | Column2 |支出| ...