spark-dataframe 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具，Spark是一种快速通用的集群计算系统。

我在pyspark df和data中有两个数据帧。模式如下>>> df.printSchema（）root | - id：integer（nullable = false）| - name：string（nullable = true）| - address：...

python pyspark spark-dataframe

回答 2 投票 0

AbstractJavaRDDLike << >>类型中的方法.map不适用于参数

我在talend收到错误。 PFA。请查看映射的更多详细信息。你能帮帮我吗？谢谢汤姆

tsql bigdata spark-dataframe rdd talend

回答 1 投票 0

Apache spark java条件替换列

我试图将数据集中的列替换为值Y，如果它包含X. import org.apache.spark.sql.functions。*; public static void main（String [] args）{Dataset DS; //已经......

java apache-spark spark-dataframe

回答 1 投票 1

Spark将单个数据帧加入到Dataframe集合中

我正在努力找出一个优雅的解决方案，将单个数据帧连接到1到N个相关数据帧的单独序列。初始尝试：val sources = program.attributes.map（attr => {...

scala spark-dataframe

回答 1 投票 1

将具有字符串列的数据集写入teradata时获取SQLException

当我在数据集中有一些字符串数据的同时尝试将数据集从spark写入teradata时，我遇到了错误：2018-01-02 15:49:05 [pool-2-thread-2] ERROR ciitspark2.algo ... 。

apache-spark spark-dataframe teradata

回答 2 投票 0

pyspark数据帧比较，根据关键字段查找列差异

我必须比较两个数据帧，以最有效的方法使用pyspark找出基于一个或多个关键字段的列差异，因为我必须处理庞大的数据帧我...

python-3.x apache-spark pyspark comparison spark-dataframe

回答 1 投票 0

为什么过滤器在spark数据帧上默认删除空值？

对包含空值的基本scala集合进行过滤具有以下（并且非常直观）行为：scala> List（“a”，“b”，null）.filter（_！=“a”）res0：List [String] = List （b，null）但是，......

sql apache-spark null spark-dataframe

回答 1 投票 4

得到像需要结构类型的错误，但在简单的结构类型的spark scala中得到了字符串

这是我的架构根| - DataPartition：string（nullable = true）| - TimeStamp：string（nullable = true）| - PeriodId：long（nullable = true）| - FinancialAsReportedLineItemName：struct（...

scala apache-spark spark-dataframe

回答 1 投票 0

循环遍历数据帧并同时更新查找表：spark scala

我有一个像以下一样的DataFrame。 + --- + ------------- + ----- + | ID |账户号码|规模| + --- + ------------- + ----- + | 1 | 1500847 | 6 | | 2 | 1501199 | 7 | | 3 | 1119024 | 3 | + --- + ...

scala apache-spark spark-dataframe

回答 1 投票 1

如果在pyspark数据帧中后续连续5'0，则获得第一个'1'条件

我有一个pyspark数据框，在user_id上每个月的事件列为0和1。我需要选择1的事件，它必须具有完全透明的行为5 0。如果这种情况......

python pandas pyspark spark-dataframe pyspark-sql

回答 1 投票 0

Scala：如何在循环中组合数据帧

我想在递归方法中做数据帧的联合。我在递归方法中进行一些计算并过滤数据并存储在一个变量中。在第二次迭代中，我将...

scala apache-spark spark-dataframe

回答 1 投票 -3

如何用Cassandra连接火花

我正在使用Ubuntu，我正在尝试用Cassandra连接spark我使用了以下步骤。 git clone https://github.com/datastax/spark-cassandra-connector.git cd spark-cassandra-connector ./sbt / ...

scala apache-spark cassandra spark-dataframe

回答 1 投票 0

以编程方式将列名添加到从RDD构建的Spark DataFrame

我有一个没有标题的管道分隔的文本文件，并且行具有不同的列数（一些行是类型A，有400列，其他行为类型B有200，所以我需要先将它们分开）：...

scala apache-spark spark-dataframe

回答 1 投票 1

apache spark sql中的等效percentile_cont函数

我是新兴的环境。我有列名的数据集如下：user_id，Date_time，order_quantity我想计算每个user_id的order_quantity的第90个百分位数。如果是......

apache-spark apache-spark-sql spark-dataframe

回答 1 投票 4

Sparksession错误是关于蜂巢的

我的操作系统是来自pyspark.conf的windows 10导入SparkConf sc = SparkContext.getOrCreate（）spark = SparkSession.builder.enableHiveSupport（）。getOrCreate（）这段代码给出了我下面的错误Py4JJavaError ...

hadoop apache-spark hive pyspark spark-dataframe

回答 1 投票 0

Pyspark数据帧丢弃列问题

我试图从数据框中删除两列，但我面临一个错误**错误：** drop（）需要2个位置参数，但有3个被给出***代码：*** excl_columns = row ['exclude_columns'] 。分裂（'，...

python python-3.x pyspark spark-dataframe

回答 1 投票 1

使用数据类型映射将数据帧写入csv 在Spark中

我有一个文件是file1snappy.parquet。它有一个复杂的数据结构，如地图，里面的数组。经过处理，我得到了最终的结果。当写入结果到csv我得到...

apache-spark spark-dataframe rdd

回答 2 投票 0

跨越分区的SparkSQL DataFrame顺序

我正在使用spark sql对我的数据集运行查询。查询的结果非常小但仍然是分区的。我想合并生成的DataFrame并按列排序行。一世 ...