Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。
如何使用pyspark计算apache spark数据框的大小?
有没有办法使用pyspark计算Apache spark数据框的大小(以字节为单位)?
16个任务(1048.5 MB)的序列化结果总大小大于spark.driver.maxResultSize(1024.0 MB)
当我将--conf spark.driver.maxResultSize = 2050添加到我的spark-submit命令时,我收到以下错误。 17/12/27 18:33:19错误TransportResponseHandler:还有1个未完成的请求...
我查看了文档,并说它支持以下连接类型:要执行的连接类型。默认内心。必须是以下之一:内部,十字架,外部,完整,full_outer,左,左,外,右......
我有一个包含四个字段的数据框。其中一个字段名称是Status,我试图在.filter中使用OR条件来表示数据帧。我试过下面的查询,但没有运气。 df2 = df1.filter((“状态= 2”......
我有一个.gz格式的压缩文件,是否可以使用spark DF / DS直接读取文件?详细信息:文件是带有制表符分隔符的csv。
pyspark:ValueError:推断后无法确定某些类型
我有一个pandas数据框my_df,my_df.dtypes给我们:ts int64 fieldA object fieldB object fieldC object fieldD object fieldE object dtype:...
有没有一种简单有效的方法来检查python数据帧只是为了重复(而不是删除它们)基于列?我想检查一个数据框是否有基于列和...的组合的重复...
是否有任何漂亮的代码在Pyspark中执行不区分大小写的连接?类似于:df3 = df1.join(df2,[“col1”,“col2”,“col3”],“left_outer”,“......
我有以下两个pySpark数据帧:> df_lag_pre.columns ['date','sku','name','country','ccy_code','quantity','usd_price','usd_lag','lag_quantity']> df_unmatched.columns ['alt_sku','...
我有一个示例应用程序正在从csv文件读取数据帧。可以使用方法df.saveAsTable(tablename,mode)将数据帧以镶木地板格式存储到Hive表中。以上 ...
我必须从S3读取某些文件,因此我在S3上创建了一个包含这些文件路径的CSV。我正在使用以下代码阅读创建的CSV文件:val listofFilesRDD = sparkSession.read.textFile(“s3://”+ ...
我是新来的火花我想从csv文件中删除标题和最后一行注释xyz“id”,“member_id”“60045257”,“63989975”,“60981766”,“65023535”,总金额:4444228900 ...
我有一个包含4列的pyspark数据帧。 id / number / value / x我想组合列id,数字,然后添加一个新的列,其中包含每个id和number的值之和。我想保留colunms x ...
我有一个包含许多列的spark数据帧。现在,我想将它们组合到一个地图中并构建一个新列。例如col1:String col2:String col3:String ... coln:String => col:Map(colname - &...
我有这个代码:l = [('Alice',1),('Jim',2),('Sandra',3)] df = sqlContext.createDataFrame(l,['name','age']) df.withColumn('age2',df.age + 2).toPandas()工作正常,做它需要的东西。 ...
我正在编写一个方法,它采用rdd并将其保存为avro文件。问题是,如果我使用特定类型而不是我可以做.toDF()但我不能在通用rdd上调用.toDF()!这是......
DF insertInto不会为混合结构化数据(json,string)保留所有列
DataFrame saveAsTable正确地保存所有列值,但insertInto函数不存储所有列,特别是json数据被截断,后续列未存储的hive ...
我有一个火花作业(在Spark 1.3.1中运行)必须迭代几个键(大约42个)并处理作业。这是程序的结构从地图获取密钥从蜂巢中获取数据(...
我在一个不可为空的数据帧中有一个StructField。简单示例:从pyspark.sql.types导入pyspark.sql.functions为F导入* l = [('Alice',1)] df = sqlContext.createDataFrame(l,['...
在pyspark中使用round函数时遇到一些麻烦 - 我有下面的代码块,我试图将new_bid列舍入到2个小数位,并将列重命名为bid ...