pyspark 相关问题

Spark Python API(PySpark)将apache-spark编程模型暴露给Python。

时间戳在Spark中原生缩写日期格式

我正在使用sql.functions.unix_timestamp成功转换为spark中的日期(y-m-d,yyyyMMdd等)的数字格式的时间戳。问题是当日期使用缩写名称...

回答 1 投票 0

Spark中的PCA输出与scikit-learn不匹配

我在Spark ML中尝试PCA(主成分分析)。 data = [(Vectors.dense([1.0,1.0]),),(Vectors.dense([1.0,2.0]),),(Vectors.dense([4.0,4.0]),),(Vectors.dense( [5.0,4.0]),)] ...

回答 1 投票 6

来自HDFS的图像数据帧用于图像分类

我正在尝试使用Python和Spark编写图像分类算法。我遵循本教程,该教程取自官方数据库文档,在运行时运行良好...

回答 1 投票 0

读隐含小数点的固定长度文件?

假设我有一个这样的数据文件:foo12345 bar45612我想将其解析为:+ ---- + ------- + | ID | AMT | + ---- + ------- + | FOO | 123.45 | |酒吧| 456.12 | + ---- + ------- +这就是说,我需要......

回答 1 投票 0

将Jupyter笔记本连接到Spark

我有一台安装了Hadoop和Spark的机器。以下是我目前的环境。 python3.6 spark1.5.2 Hadoop 2.7.1.2.3.6.0-3796我试图连接jupyter笔记本连接到spark ...

回答 3 投票 1

火花作业的外部依赖

我是大数据技术的新手。我必须在EMR上以集群模式运行spark工作。这个工作是用python编写的,它依赖于几个库和一些其他工具。我已经 ...

回答 2 投票 0

我们如何使用从pyspark.ml获得的RandomForestClassifier进行预测

我正在进行文本分类,并使用管道方法构建了一个模型。我创建了RF分类器对象,并设置了我在我的...中获得的features列和标签列。

回答 2 投票 0

如何一次运行多个Spark 2.0实例(在多个Jupyter笔记本中)?

我有一个脚本,方便我在Jupyter笔记本中使用Spark。这很棒,除非我在第二个笔记本中运行spark命令(例如测试一些临时工作)。一世 ...

回答 1 投票 2

Pyspark - 根据语言过滤行

这个问题与Pyspark有关。我正在读一个列数很少的TSV文件。一个特定的列是注释列。我的任务是根据语言过滤掉行。例如,如果......

回答 2 投票 -1

rfModel.toDebugString出错

我正在使用带有Spark 2.2和Python 2.7.11的pyspark,我试图使用.toDebugString方法从随机森林分类器的决策树中提取规则。我成功了但是......

回答 1 投票 1

Spark将pandas日期时间数据类型转换为bigint

我有一个名为pd_df的pandas数据框。以下是数据类型。 pd_df.dtypes id int64 TEST_TIME datetime64 [ns] status object Pkg ...

回答 1 投票 0

为什么PySpark会随机出现“Socket is closed”错误?

我刚刚参加了一个PySpark培训课程,我正在编写一个示例代码行的脚本(这解释了为什么代码块什么都不做)。每次运行此代码时,我都会收到此错误...

回答 1 投票 11

在PyCharm IDE中添加Spark包

我已经设置了我的PyCharm链接到我的本地spark安装,按照此链接从pyspark导入SparkContext,SQLContext,SparkConf从运营商导入添加conf = SparkConf()conf ....

回答 1 投票 1

带有Window功能的Spark 12 GB数据加载性能问题

我正在使用sparksql来转换12 GB数据。我的转换是在一个字段上应用行号和分区,然后将数据分成两组第一组,其中行号为1和第二...

回答 2 投票 0

火花读json卡在加载文件上1G

当我尝试从1G加载JSON文件时,该进程将永远运行而不会抛出任何异常。转储= spark.read.json(“HDFS://ip-000-00-0-000.aws.foobar.com:8020 /用户/ hadoop的/ mixpanel-event2017-12 -...

回答 1 投票 0

从Scala注册UDF到SqlContext以在PySpark中使用

是否可以注册用Scala编写的UDF(或函数)在PySpark中使用?例如:val mytable = sc.parallelize(1到2).toDF(“spam”)mytable.registerTempTable(“mytable”)def addOne(m:Integer)...

回答 2 投票 5

Pyspark:将不同表格中的列相乘

我有这两个数据帧:df1 = sc.parallelize([['u1',0.5],['u2',0.2],['u3',0.1],['u4',0.9],['u5', 0.7]])。toDF(('person','score'))df2 = sc.parallelize([['d1',0.0],['d2',0.5],['d3'...

回答 1 投票 3

PySpark sqlContext JSON查询数组的所有值

我目前有一个json文件,我试图用sqlContext.sql()查询如下所示:{“sample”:{“persons”:[{“id”:“123”,},{“id” ...

回答 1 投票 0

是否始终在同一逻辑计划中给出相同的ID?

在下面你看到我正在尝试做的简化版本。我从存储在S3中的150个parquets(> 10TB)加载一个Dataframe,然后我给这个数据帧一个带有func.monotonically_increasing_id()的id列....

回答 1 投票 1

PySpark:将输入文件写入单独的输出文件而不进行重新分区

我有一系列非常大的每日gzip压缩文件。我正在尝试使用PySpark以Parquet格式重新保存S3中的所有文件供以后使用。如果对于单个文件(例如,2012-06-01)我做:...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.