pyspark 相关问题

Spark Python API（PySpark）将apache-spark编程模型暴露给Python。

我正在使用sql.functions.unix_timestamp成功转换为spark中的日期（y-m-d，yyyyMMdd等）的数字格式的时间戳。问题是当日期使用缩写名称...

apache-spark pyspark pyspark-sql

回答 1 投票 0

我在Spark ML中尝试PCA（主成分分析）。 data = [（Vectors.dense（[1.0,1.0]），），（Vectors.dense（[1.0,2.0]），），（Vectors.dense（[4.0,4.0]），），（Vectors.dense（ [5.0,4.0]），）] ...

python apache-spark pyspark pca apache-spark-ml

回答 1 投票 6

来自HDFS的图像数据帧用于图像分类

我正在尝试使用Python和Spark编写图像分类算法。我遵循本教程，该教程取自官方数据库文档，在运行时运行良好...

python hadoop apache-spark pyspark hdfs

回答 1 投票 0

读隐含小数点的固定长度文件？

假设我有一个这样的数据文件：foo12345 bar45612我想将其解析为：+ ---- + ------- + | ID | AMT | + ---- + ------- + | FOO | 123.45 | |酒吧| 456.12 | + ---- + ------- +这就是说，我需要......

pyspark spark-dataframe

回答 1 投票 0

将Jupyter笔记本连接到Spark

我有一台安装了Hadoop和Spark的机器。以下是我目前的环境。 python3.6 spark1.5.2 Hadoop 2.7.1.2.3.6.0-3796我试图连接jupyter笔记本连接到spark ...

apache-spark pyspark ipython-notebook jupyter ssh-tunnel

回答 3 投票 1

火花作业的外部依赖

我是大数据技术的新手。我必须在EMR上以集群模式运行spark工作。这个工作是用python编写的，它依赖于几个库和一些其他工具。我已经 ...

pyspark yarn emr

回答 2 投票 0

我们如何使用从pyspark.ml获得的RandomForestClassifier进行预测

我正在进行文本分类，并使用管道方法构建了一个模型。我创建了RF分类器对象，并设置了我在我的...中获得的features列和标签列。

python machine-learning pyspark random-forest prediction

回答 2 投票 0

如何一次运行多个Spark 2.0实例（在多个Jupyter笔记本中）？

我有一个脚本，方便我在Jupyter笔记本中使用Spark。这很棒，除非我在第二个笔记本中运行spark命令（例如测试一些临时工作）。一世 ...

pyspark derby jupyter-notebook apache-spark-2.0

回答 1 投票 2

Pyspark - 根据语言过滤行

这个问题与Pyspark有关。我正在读一个列数很少的TSV文件。一个特定的列是注释列。我的任务是根据语言过滤掉行。例如，如果......

python apache-spark pyspark spark-dataframe pyspark-sql

回答 2 投票 -1

rfModel.toDebugString出错

我正在使用带有Spark 2.2和Python 2.7.11的pyspark，我试图使用.toDebugString方法从随机森林分类器的决策树中提取规则。我成功了但是......

python-2.7 apache-spark pyspark spark-dataframe

回答 1 投票 1

Spark将pandas日期时间数据类型转换为bigint

我有一个名为pd_df的pandas数据框。以下是数据类型。 pd_df.dtypes id int64 TEST_TIME datetime64 [ns] status object Pkg ...

python pandas pyspark

回答 1 投票 0

为什么PySpark会随机出现“Socket is closed”错误？

我刚刚参加了一个PySpark培训课程，我正在编写一个示例代码行的脚本（这解释了为什么代码块什么都不做）。每次运行此代码时，我都会收到此错误...

apache-spark pyspark

回答 1 投票 11

在PyCharm IDE中添加Spark包

我已经设置了我的PyCharm链接到我的本地spark安装，按照此链接从pyspark导入SparkContext，SQLContext，SparkConf从运营商导入添加conf = SparkConf（）conf ....

python pycharm pyspark pyspark-sql

回答 1 投票 1

带有Window功能的Spark 12 GB数据加载性能问题

我正在使用sparksql来转换12 GB数据。我的转换是在一个字段上应用行号和分区，然后将数据分成两组第一组，其中行号为1和第二...

apache-spark pyspark hadoop2

回答 2 投票 0

火花读json卡在加载文件上1G

当我尝试从1G加载JSON文件时，该进程将永远运行而不会抛出任何异常。转储= spark.read.json（“HDFS：//ip-000-00-0-000.aws.foobar.com：8020 /用户/ hadoop的/ mixpanel-event2017-12 -...

pyspark

回答 1 投票 0

从Scala注册UDF到SqlContext以在PySpark中使用

是否可以注册用Scala编写的UDF（或函数）在PySpark中使用？例如：val mytable = sc.parallelize（1到2）.toDF（“spam”）mytable.registerTempTable（“mytable”）def addOne（m：Integer）...

scala apache-spark pyspark user-defined-functions apache-zeppelin

回答 2 投票 5

Pyspark：将不同表格中的列相乘

我有这两个数据帧：df1 = sc.parallelize（[['u1'，0.5]，['u2'，0.2]，['u3'，0.1]，['u4'，0.9]，['u5'， 0.7]]）。toDF（（'person'，'score'））df2 = sc.parallelize（[['d1'，0.0]，['d2'，0.5]，['d3'...

python sql apache-spark dataframe pyspark

回答 1 投票 3

PySpark sqlContext JSON查询数组的所有值

我目前有一个json文件，我试图用sqlContext.sql（）查询如下所示：{“sample”：{“persons”：[{“id”：“123”，}，{“id” ...

python sql json apache-spark pyspark

回答 1 投票 0

是否始终在同一逻辑计划中给出相同的ID？

在下面你看到我正在尝试做的简化版本。我从存储在S3中的150个parquets（> 10TB）加载一个Dataframe，然后我给这个数据帧一个带有func.monotonically_increasing_id（）的id列....

apache-spark pyspark

回答 1 投票 1

PySpark：将输入文件写入单独的输出文件而不进行重新分区

我有一系列非常大的每日gzip压缩文件。我正在尝试使用PySpark以Parquet格式重新保存S3中的所有文件供以后使用。如果对于单个文件（例如，2012-06-01）我做：...

apache-spark pyspark parquet

回答 1 投票 0

pyspark 相关问题

最新问题