pyspark 相关问题

Spark Python API(PySpark)将apache-spark编程模型暴露给Python。

如何在不使用for循环的情况下从pyspark中的列表创建数据框?

我有如下列表:rrr = [[(1,(3,1)),(2,(3,2)),(3,(3,2)),(1,(4,1)), (2,(4,2))]] df_input = []然后我定义了如下所示的标题:df_header = ['sid','tid','srank']使用for循环...

回答 2 投票 -4

通过Spark将csv文件加载到现有的HIVE表

下面是我编写的用于连接到RDBMS的代码,然后创建临时表,在该临时表上执行SQL查询,通过databricks模块将SQL查询输出保存为.csv格式。 ...

回答 2 投票 0

在Pyspark中保存随机森林分类器模型时出错

rf = RandomForestClassifier()。setFeaturesCol(“features”)。setLabelCol(“label”)pipeline = Pipeline(stages = [tokenizer,hashingTF,idf,rf])model = pipeline.fit(training)model.save(sc,'

回答 1 投票 0

PySpark - 在UDF中调用函数

我创建了一个UDF但是我需要在UDF中调用一个函数。它目前返回空值。有人可以解释为什么我收到此错误。 a = spark.createDataFrame([(“A”,20),(“B”,...

回答 1 投票 1

PySpark HiveContext错误

我正在尝试使用PySpark使用以下命令刷新表分区。我可以发出任何其他SQL命令,但MSCK REPAIR TABLE导致我出现问题代码:conf = SparkConf()。setAppName(“...

回答 2 投票 2

获取IllegalArgumentException

我在提交火花作业时收到IllegalArgumentException C:\ spark \ spark-2.2.1-bin-hadoop2.7 \ hadoop \ bin> pyspark Python 2.7.14(v2.7.14:84471935ed,2017年9月16日,20:25:58 )[MSC v.1500 ...

回答 1 投票 -2

究竟是什么.select()呢?

使用.select()时遇到了令人惊讶的行为:>>> my_df.show()+ --- + --- + --- + | A | C | ç| + --- + --- + --- + | 1 | 3 | 5 | | 2 | 4 | 6 | + --- + --- + --- + >>> a_c = s_df.select(...

回答 2 投票 7

在intellij上设置pySpark

如何在intellij上设置pySpark。即使在设置环境变量spark_home和pythonpath之后,导入pySpark也会出错 - 导入错误:没有名为pySpark的模块

回答 3 投票 0

无法序列化对象:AttributeError:'builtin_function_or_method'对象没有属性'__code__'

我在python中通过tensorflow训练了一个DNN分类器模型。现在我想在pyspark中加载它并使用该模型来预测每个RDD记录的性别。首先,我构建张量流图,如...

回答 2 投票 1

Spark(pyspark)如何仅在3元素元组的2个元素上reduceByKey

我有地图的结果,看起来像这样[('成功','',1),('成功','',1),('错误','something_random',1),('错误', 'something_random',1),('error','something_random',1)]是......

回答 1 投票 0

如果没有可用的指定分区路径,SPARK SQL将失败

我在EMR中使用Hive Metastore。我可以通过HiveSQL手动查询表。但是当我在Spark Job中使用相同的表时,它表示输入路径不存在:s3://引起:org.apache ....

回答 1 投票 0

火花作业中不存在hive表

我在EMR中使用Hive Metastore。我可以通过HiveSQL或SparkSQL手动查询表。但是当我在Spark Job中使用相同的表时,它会显示表或视图未找到文件“/ usr / lib / spark / ...

回答 2 投票 2

如何在群集上保存文件

我使用ssh连接到集群,我使用spark-submit --master yarn myProgram.py将程序发送到集群我想将结果保存在文本文件中,我尝试使用以下内容...

回答 4 投票 11

PySpark - 从UDF获取行的索引

我有一个数据帧,我需要获取特定行的行号/索引。我想添加一个新行,使其包含Letter以及行号/索引,例如。 “A - 1”,“B - 2”#...

回答 2 投票 0

Pyspark检查hdfs文件夹修改日期

我是pyspark的新手。从pyspark想知道是否有一些功能可以获得HDFS折叠修改日期?例如在HDFS中:在pyspark中:def get_user_folder_update_date():magic()返回update_time ...

回答 1 投票 0

updatestatebykey - Pyspark - Spark流媒体

我是新手来激发流媒体。试图了解UpdateStateByKey操作的重要性?有什么用?存储仲裁国家的必要性是什么?这个怎么运作?

回答 1 投票 0

将数据帧的每一行转换为字符串

我正在尝试使用pyspark中的hashlib.md5为数据帧生成哈希码。它只接受一个字符串来生成哈希码。我需要将数据帧的每一行转换为字符串。我试过concat_ws ......

回答 1 投票 0

StructType不能接受对象?

我该如何解决这个问题? rdd.collect()// ['3e866d48b59e8ac8aece79597df9fb4c'...] rdd.toDF()//无法推断类型的模式: myschema = StructType([StructField(“col1”,...

回答 1 投票 0

如何使用regex_replace替换pyspark数据帧中列的特殊字符

数据框中有一个列批处理。它有'9%','$ 5'等值。我需要使用regex_replace,它会从上面的例子中删除特殊字符,只保留数字......

回答 3 投票 0

将Pyspark Dataframe列从数组转换为新列

我有一个具有这种结构的Pyspark Dataframe:root | - Id:string(nullable = true)| - Q:array(nullable = true)| | - element:struct(containsNull = true)| | | - pr:string(...

回答 2 投票 3

© www.soinside.com 2019 - 2024. All rights reserved.