spark-dataframe 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。

如何使用pyspark计算apache spark数据框的大小?

有没有办法使用pyspark计算Apache spark数据框的大小(以字节为单位)?

回答 1 投票 7

16个任务(1048.5 MB)的序列化结果总大小大于spark.driver.maxResultSize(1024.0 MB)

当我将--conf spark.driver.maxResultSize = 2050添加到我的spark-submit命令时,我收到以下错误。 17/12/27 18:33:19错误TransportResponseHandler:还有1个未完成的请求...

回答 1 投票 6

Spark中的各种连接类型有哪些?

我查看了文档,并说它支持以下连接类型:要执行的连接类型。默认内心。必须是以下之一:内部,十字架,外部,完整,full_outer,左,左,外,右......

回答 3 投票 24

火花数据帧中滤波的多个条件

我有一个包含四个字段的数据框。其中一个字段名称是Status,我试图在.filter中使用OR条件来表示数据帧。我试过下面的查询,但没有运气。 df2 = df1.filter((“状态= 2”......

回答 7 投票 25

何使用spark DF或DS读取“.gz”压缩文件?

我有一个.gz格式的压缩文件,是否可以使用spark DF / DS直接读取文件?详细信息:文件是带有制表符分隔符的csv。

回答 1 投票 1

pyspark:ValueError:推断后无法确定某些类型

我有一个pandas数据框my_df,my_df.dtypes给我们:ts int64 fieldA object fieldB object fieldC object fieldD object fieldE object dtype:...

回答 3 投票 13

检查Pyspark Dataframe中的重复项

有没有一种简单有效的方法来检查python数据帧只是为了重复(而不是删除它们)基于列?我想检查一个数据框是否有基于列和...的组合的重复...

回答 1 投票 1

Pyspark - 如何处理不区分大小写的数据帧连接?

是否有任何漂亮的代码在Pyspark中执行不区分大小写的连接?类似于:df3 = df1.join(df2,[“col1”,“col2”,“col3”],“left_outer”,“......

回答 4 投票 3

在pySpark上执行连接时“已解决的属性缺失”

我有以下两个pySpark数据帧:> df_lag_pre.columns ['date','sku','name','country','ccy_code','quantity','usd_price','usd_lag','lag_quantity']> df_unmatched.columns ['alt_sku','...

回答 1 投票 13

将Spark数据帧保存为Hive中的动态分区表

我有一个示例应用程序正在从csv文件读取数据帧。可以使用方法df.saveAsTable(tablename,mode)将数据帧以镶木地板格式存储到Hive表中。以上 ...

回答 5 投票 25

NULL指针异常,在foreach()中创建DF时

我必须从S3读取某些文件,因此我在S3上创建了一个包含这些文件路径的CSV。我正在使用以下代码阅读创建的CSV文件:val listofFilesRDD = sparkSession.read.textFile(“s3://”+ ...

回答 3 投票 2

如何删除csv文件中的最后一行

我是新来的火花我想从csv文件中删除标题和最后一行注释xyz“id”,“member_id”“60045257”,“63989975”,“60981766”,“65023535”,总金额:4444228900 ...

回答 1 投票 0

pyspark group by sum

我有一个包含4列的pyspark数据帧。 id / number / value / x我想组合列id,数字,然后添加一个新的列,其中包含每个id和number的值之和。我想保留colunms x ...

回答 2 投票 -1

如何将spark数据帧列嵌入到地图列?

我有一个包含许多列的spark数据帧。现在,我想将它们组合到一个地图中并构建一个新列。例如col1:String col2:String col3:String ... coln:String => col:Map(colname - &...

回答 2 投票 1

从spark数据帧中取n行并传递给toPandas()

我有这个代码:l = [('Alice',1),('Jim',2),('Sandra',3)] df = sqlContext.createDataFrame(l,['name','age']) df.withColumn('age2',df.age + 2).toPandas()工作正常,做它需要的东西。 ...

回答 2 投票 30

如何将通用rdd转换为数据帧?

我正在编写一个方法,它采用rdd并将其保存为avro文件。问题是,如果我使用特定类型而不是我可以做.toDF()但我不能在通用rdd上调用.toDF()!这是......

回答 2 投票 0

DF insertInto不会为混合结构化数据(json,string)保留所有列

DataFrame saveAsTable正确地保存所有列值,但insertInto函数不存储所有列,特别是json数据被截断,后续列未存储的hive ...

回答 2 投票 1

多次迭代引发内存不足

我有一个火花作业(在Spark 1.3.1中运行)必须迭代几个键(大约42个)并处理作业。这是程序的结构从地图获取密钥从蜂巢中获取数据(...

回答 1 投票 2

我可以在Spark数据帧中更改列的可为空性吗?

我在一个不可为空的数据帧中有一个StructField。简单示例:从pyspark.sql.types导入pyspark.sql.functions为F导入* l = [('Alice',1)] df = sqlContext.createDataFrame(l,['...

回答 3 投票 4

Pyspark圆形功能的麻烦

在pyspark中使用round函数时遇到一些麻烦 - 我有下面的代码块,我试图将new_bid列舍入到2个小数位,并将列重命名为bid ...

回答 1 投票 7

© www.soinside.com 2019 - 2024. All rights reserved.