pyspark 相关问题

Spark Python API（PySpark）将apache-spark编程模型暴露给Python。

我有如下列表：rrr = [[（1，（3,1）），（2，（3,2）），（3，（3,2）），（1，（4,1）），（2，（4,2））]] df_input = []然后我定义了如下所示的标题：df_header = ['sid'，'tid'，'srank']使用for循环...

apache-spark pyspark apache-spark-sql spark-dataframe pyspark-sql

回答 2 投票 -4

通过Spark将csv文件加载到现有的HIVE表

下面是我编写的用于连接到RDBMS的代码，然后创建临时表，在该临时表上执行SQL查询，通过databricks模块将SQL查询输出保存为.csv格式。 ...

sql-server hadoop hive pyspark databricks

回答 2 投票 0

在Pyspark中保存随机森林分类器模型时出错

rf = RandomForestClassifier（）。setFeaturesCol（“features”）。setLabelCol（“label”）pipeline = Pipeline（stages = [tokenizer，hashingTF，idf，rf]）model = pipeline.fit（training）model.save（sc，'

pyspark random-forest apache-spark-ml

回答 1 投票 0

PySpark - 在UDF中调用函数

我创建了一个UDF但是我需要在UDF中调用一个函数。它目前返回空值。有人可以解释为什么我收到此错误。 a = spark.createDataFrame（[（“A”，20），（“B”，...

python dataframe pyspark

回答 1 投票 1

PySpark HiveContext错误

我正在尝试使用PySpark使用以下命令刷新表分区。我可以发出任何其他SQL命令，但MSCK REPAIR TABLE导致我出现问题代码：conf = SparkConf（）。setAppName（“...

apache-spark hive hiveql pyspark

回答 2 投票 2

获取IllegalArgumentException

我在提交火花作业时收到IllegalArgumentException C：\ spark \ spark-2.2.1-bin-hadoop2.7 \ hadoop \ bin> pyspark Python 2.7.14（v2.7.14：84471935ed，2017年9月16日，20：25：58 ）[MSC v.1500 ...

pyspark

回答 1 投票 -2

究竟是什么.select（）呢？

使用.select（）时遇到了令人惊讶的行为：>>> my_df.show（）+ --- + --- + --- + | A | C | ç| + --- + --- + --- + | 1 | 3 | 5 | | 2 | 4 | 6 | + --- + --- + --- + >>> a_c = s_df.select（...

apache-spark pyspark

回答 2 投票 7

在intellij上设置pySpark

如何在intellij上设置pySpark。即使在设置环境变量spark_home和pythonpath之后，导入pySpark也会出错 - 导入错误：没有名为pySpark的模块

python-2.7 intellij-idea pyspark

回答 3 投票 0

无法序列化对象：AttributeError：'builtin_function_or_method'对象没有属性'__code__'

我在python中通过tensorflow训练了一个DNN分类器模型。现在我想在pyspark中加载它并使用该模型来预测每个RDD记录的性别。首先，我构建张量流图，如...

python apache-spark tensorflow pyspark deep-learning

回答 2 投票 1

Spark（pyspark）如何仅在3元素元组的2个元素上reduceByKey

我有地图的结果，看起来像这样[（'成功'，''，1），（'成功'，''，1），（'错误'，'something_random'，1），（'错误'， 'something_random'，1），（'error'，'something_random'，1）]是......

apache-spark mapreduce pyspark tuples

回答 1 投票 0

如果没有可用的指定分区路径，SPARK SQL将失败

我在EMR中使用Hive Metastore。我可以通过HiveSQL手动查询表。但是当我在Spark Job中使用相同的表时，它表示输入路径不存在：s3：//引起：org.apache ....

python hadoop apache-spark hive pyspark

回答 1 投票 0

火花作业中不存在hive表

我在EMR中使用Hive Metastore。我可以通过HiveSQL或SparkSQL手动查询表。但是当我在Spark Job中使用相同的表时，它会显示表或视图未找到文件“/ usr / lib / spark / ...

python hadoop apache-spark hive pyspark

回答 2 投票 2

如何在群集上保存文件

我使用ssh连接到集群，我使用spark-submit --master yarn myProgram.py将程序发送到集群我想将结果保存在文本文件中，我尝试使用以下内容...

python apache-spark pyspark hdfs spark-submit

回答 4 投票 11

PySpark - 从UDF获取行的索引

我有一个数据帧，我需要获取特定行的行号/索引。我想添加一个新行，使其包含Letter以及行号/索引，例如。 “A - 1”，“B - 2”＃...

dataframe pyspark user-defined-functions row-number

回答 2 投票 0

Pyspark检查hdfs文件夹修改日期

我是pyspark的新手。从pyspark想知道是否有一些功能可以获得HDFS折叠修改日期？例如在HDFS中：在pyspark中：def get_user_folder_update_date（）：magic（）返回update_time ...

pyspark hdfs

回答 1 投票 0

updatestatebykey - Pyspark - Spark流媒体

我是新手来激发流媒体。试图了解UpdateStateByKey操作的重要性？有什么用？存储仲裁国家的必要性是什么？这个怎么运作？

pyspark spark-streaming

回答 1 投票 0

将数据帧的每一行转换为字符串

我正在尝试使用pyspark中的hashlib.md5为数据帧生成哈希码。它只接受一个字符串来生成哈希码。我需要将数据帧的每一行转换为字符串。我试过concat_ws ......

apache-spark pyspark apache-spark-sql pyspark-sql

回答 1 投票 0

StructType不能接受对象？

我该如何解决这个问题？ rdd.collect（）// ['3e866d48b59e8ac8aece79597df9fb4c'...] rdd.toDF（）//无法推断类型的模式： myschema = StructType（[StructField（“col1”，...

pyspark

回答 1 投票 0

如何使用regex_replace替换pyspark数据帧中列的特殊字符

数据框中有一个列批处理。它有'9％'，'$ 5'等值。我需要使用regex_replace，它会从上面的例子中删除特殊字符，只保留数字......

regex apache-spark dataframe pyspark

回答 3 投票 0

将Pyspark Dataframe列从数组转换为新列

dataframe pyspark

回答 2 投票 3

pyspark 相关问题

最新问题