spark-dataframe 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。

比较两个数据帧pyspark中的列名称

我在pyspark df和data中有两个数据帧。模式如下>>> df.printSchema()root | - id:integer(nullable = false)| - name:string(nullable = true)| - address:...

回答 2 投票 0

AbstractJavaRDDLike << >>类型中的方法.map不适用于参数

我在talend收到错误。 PFA。请查看映射的更多详细信息。你能帮帮我吗?谢谢汤姆

回答 1 投票 0

Apache spark java条件替换列

我试图将数据集中的列替换为值Y,如果它包含X. import org.apache.spark.sql.functions。*; public static void main(String [] args){Dataset DS; //已经......

回答 1 投票 1

Spark将单个数据帧加入到Dataframe集合中

我正在努力找出一个优雅的解决方案,将单个数据帧连接到1到N个相关数据帧的单独序列。初始尝试:val sources = program.attributes.map(attr => {...

回答 1 投票 1

将具有字符串列的数据集写入teradata时获取SQLException

当我在数据集中有一些字符串数据的同时尝试将数据集从spark写入teradata时,我遇到了错误:2018-01-02 15:49:05 [pool-2-thread-2] ERROR ciitspark2.algo ... 。

回答 2 投票 0

pyspark数据帧比较,根据关键字段查找列差异

我必须比较两个数据帧,以最有效的方法使用pyspark找出基于一个或多个关键字段的列差异,因为我必须处理庞大的数据帧我...

回答 1 投票 0

为什么过滤器在spark数据帧上默认删除空值?

对包含空值的基本scala集合进行过滤具有以下(并且非常直观)行为:scala> List(“a”,“b”,null).filter(_!=“a”)res0:List [String] = List (b,null)但是,......

回答 1 投票 4

得到像需要结构类型的错误,但在简单的结构类型的spark scala中得到了字符串

这是我的架构根| - DataPartition:string(nullable = true)| - TimeStamp:string(nullable = true)| - PeriodId:long(nullable = true)| - FinancialAsReportedLineItemName:struct(...

回答 1 投票 0

循环遍历数据帧并同时更新查找表:spark scala

我有一个像以下一样的DataFrame。 + --- + ------------- + ----- + | ID |账户号码|规模| + --- + ------------- + ----- + | 1 | 1500847 | 6 | | 2 | 1501199 | 7 | | 3 | 1119024 | 3 | + --- + ...

回答 1 投票 1

如果在pyspark数据帧中后续连续5'0,则获得第一个'1'条件

我有一个pyspark数据框,在user_id上每个月的事件列为0和1。我需要选择1的事件,它必须具有完全透明的行为5 0。如果这种情况......

回答 1 投票 0

Scala:如何在循环中组合数据帧

我想在递归方法中做数据帧的联合。我在递归方法中进行一些计算并过滤数据并存储在一个变量中。在第二次迭代中,我将...

回答 1 投票 -3

如何用Cassandra连接火花

我正在使用Ubuntu,我正在尝试用Cassandra连接spark我使用了以下步骤。 git clone https://github.com/datastax/spark-cassandra-connector.git cd spark-cassandra-connector ./sbt / ...

回答 1 投票 0

以编程方式将列名添加到从RDD构建的Spark DataFrame

我有一个没有标题的管道分隔的文本文件,并且行具有不同的列数(一些行是类型A,有400列,其他行为类型B有200,所以我需要先将它们分开):...

回答 1 投票 1

apache spark sql中的等效percentile_cont函数

我是新兴的环境。我有列名的数据集如下:user_id,Date_time,order_quantity我想计算每个user_id的order_quantity的第90个百分位数。如果是......

回答 1 投票 4

Sparksession错误是关于蜂巢的

我的操作系统是来自pyspark.conf的windows 10导入SparkConf sc = SparkContext.getOrCreate()spark = SparkSession.builder.enableHiveSupport()。getOrCreate()这段代码给出了我下面的错误Py4JJavaError ...

回答 1 投票 0

Pyspark数据帧丢弃列问题

我试图从数据框中删除两列,但我面临一个错误**错误:** drop()需要2个位置参数,但有3个被给出***代码:*** excl_columns = row ['exclude_columns'] 。分裂(',...

回答 1 投票 1

使用数据类型映射将数据帧写入csv 在Spark中

我有一个文件是file1snappy.parquet。它有一个复杂的数据结构,如地图,里面的数组。经过处理,我得到了最终的结果。当写入结果到csv我得到...

回答 2 投票 0

跨越分区的SparkSQL DataFrame顺序

我正在使用spark sql对我的数据集运行查询。查询的结果非常小但仍然是分区的。我想合并生成的DataFrame并按列排序行。一世 ...

回答 2 投票 5

Python / PySpark并行处理示例

我无法理解如何在我的python脚本中利用并行处理的强大功能。我有十亿行食品数据库,例如:日期,项目,类别,number_sold 2017-01-01,...

回答 1 投票 0

使用spark处理地图结构

我有一个文件,其中包含需要处理的地图结构。我使用了下面的代码。我得到了RDD [ROW] .Data的中间结果如下所示。 val conf = new SparkConf()。setAppName(“student -...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.