spark-dataframe 相关问题

我有以下两个pySpark数据帧：> df_lag_pre.columns ['date'，'sku'，'name'，'country'，'ccy_code'，'quantity'，'usd_price'，'usd_lag'，'lag_quantity']> df_unmatched.columns ['alt_sku'，'...

apache-spark pyspark spark-dataframe

回答 1 投票 13

将Spark数据帧保存为Hive中的动态分区表

我有一个示例应用程序正在从csv文件读取数据帧。可以使用方法df.saveAsTable（tablename，mode）将数据帧以镶木地板格式存储到Hive表中。以上 ...

hadoop apache-spark hive apache-spark-sql spark-dataframe

回答 5 投票 25

NULL指针异常，在foreach（）中创建DF时

我必须从S3读取某些文件，因此我在S3上创建了一个包含这些文件路径的CSV。我正在使用以下代码阅读创建的CSV文件：val listofFilesRDD = sparkSession.read.textFile（“s3：//”+ ...

scala apache-spark amazon-s3 spark-dataframe bigdata

回答 3 投票 2

如何删除csv文件中的最后一行

我是新来的火花我想从csv文件中删除标题和最后一行注释xyz“id”，“member_id”“60045257”，“63989975”，“60981766”，“65023535”，总金额：4444228900 ...

apache-spark spark-dataframe rdd

回答 1 投票 0

pyspark group by sum

我有一个包含4列的pyspark数据帧。 id / number / value / x我想组合列id，数字，然后添加一个新的列，其中包含每个id和number的值之和。我想保留colunms x ...

pyspark apache-spark-sql spark-dataframe pyspark-sql

回答 2 投票 -1

如何将spark数据帧列嵌入到地图列？

我有一个包含许多列的spark数据帧。现在，我想将它们组合到一个地图中并构建一个新列。例如col1：String col2：String col3：String ... coln：String => col：Map（colname - ＆...

scala apache-spark spark-dataframe apache-spark-dataset

回答 2 投票 1

从spark数据帧中取n行并传递给toPandas（）

我有这个代码：l = [（'Alice'，1），（'Jim'，2），（'Sandra'，3）] df = sqlContext.createDataFrame（l，['name'，'age']） df.withColumn（'age2'，df.age + 2）.toPandas（）工作正常，做它需要的东西。 ...

python apache-spark-sql spark-dataframe

回答 2 投票 30

如何将通用rdd转换为数据帧？

我正在编写一个方法，它采用rdd并将其保存为avro文件。问题是，如果我使用特定类型而不是我可以做.toDF（）但我不能在通用rdd上调用.toDF（）！这是......

generics apache-spark spark-dataframe

回答 2 投票 0

DF insertInto不会为混合结构化数据（json，string）保留所有列

DataFrame saveAsTable正确地保存所有列值，但insertInto函数不存储所有列，特别是json数据被截断，后续列未存储的hive ...

scala apache-spark apache-spark-sql spark-dataframe

回答 2 投票 1

多次迭代引发内存不足

我有一个火花作业（在Spark 1.3.1中运行）必须迭代几个键（大约42个）并处理作业。这是程序的结构从地图获取密钥从蜂巢中获取数据（...