pyspark 相关问题

Spark Python API(PySpark)将apache-spark编程模型暴露给Python。

将数据帧的每一行转换为字符串

我正在尝试使用pyspark中的hashlib.md5为数据帧生成哈希码。它只接受一个字符串来生成哈希码。我需要将数据帧的每一行转换为字符串。我试过concat_ws ......

回答 1 投票 0

StructType不能接受对象?

我该如何解决这个问题? rdd.collect()// ['3e866d48b59e8ac8aece79597df9fb4c'...] rdd.toDF()//无法推断类型的模式: myschema = StructType([StructField(“col1”,...

回答 1 投票 0

如何使用regex_replace替换pyspark数据帧中列的特殊字符

数据框中有一个列批处理。它有'9%','$ 5'等值。我需要使用regex_replace,它会从上面的例子中删除特殊字符,只保留数字......

回答 3 投票 0

将Pyspark Dataframe列从数组转换为新列

我有一个具有这种结构的Pyspark Dataframe:root | - Id:string(nullable = true)| - Q:array(nullable = true)| | - element:struct(containsNull = true)| | | - pr:string(...

回答 2 投票 3

如何将CSV文件转换为SVM以进行ML培训

我有这个数据集,我希望在Apache Spark 2.1.1中训练多个ML模型。它由10列组成,其中2列包含字符串。删除这些列不是一种选择,因为它们对于...而言至关重要。

回答 1 投票 -1

当您使用Pyspark时,您是否受益于Kryo序列化程序?

我读到Kryo序列化程序在Apache Spark中使用时可以提供更快的序列化。但是,我通过Python使用Spark。转换到Kryo后,我仍然可以获得显着的好处......

回答 2 投票 9

如何比较pyspark中两个不同数据帧中的两列

我想比较一个dataframe1中的“pitid”和另一个dataframe2的“pitid”,并想要提取dataframe1中缺少的行。 dataframe1:| ID |标记|名称| pitid | + --- + ----- + ---- + -...

回答 1 投票 0

pyspark从integertypes中拆分stringtype进行探索性分析

我想从PySpark中的整数中分离出我的df的字符类型,并对integertypes执行一些描述性分析。我写了这个函数,有没有更有效的方法?对于...的项目

回答 1 投票 0

在Pyspark数据框中为时间戳列添加额外的小时数

我在Pyspark有一个数据框。在这个数据框中,我有一个时间戳数据类型的列。现在我想为timestamp列的每一行添加额外的2小时而不创建任何新的...

回答 2 投票 5

PySpark DataFrame的逐行聚合

我有一个Pyspark DataFrame,我想使用一个逐行操作的函数进行聚合。我有4列,对于A列中的每个唯一值,我必须进行逐行聚合...

回答 1 投票 0

在HdInsight上使用PySpark3中的其他库

我正在尝试安装Shapely库但是当我导入它时,我收到错误消息:> from shapely.geometry import Point没有名为'shapely'的模块Traceback(最近调用最后一次):ImportError:...

回答 1 投票 0

TypeError:数据应该是LabeledPoint的RDD,但得到了

我得到错误:TypeError:数据应该是LabeledPoint的RDD,但得到了 当我执行:import sys import numpy as np from pyspark import SparkConf,SparkContext ...

回答 1 投票 0

Pyspark G1垃圾收集器

我的pyspark出错,说GC收集器内存不足。我读了一篇关于G1垃圾收集器的文章,所以我想尝试一下。如何在pyspark应用程序中设置它?我找不到任何......

回答 1 投票 -1

pyspark中的哈希码生成

我正在尝试为我的数据帧中的每一行生成哈希码,并且需要将哈希码附加为数据帧的新列“pitid”。我试过下面的代码,但在这里得到错误h = hashlib.md5(c)...

回答 1 投票 -1

创建一个映射以为Spark Dataframe的每一行调用POJO

我在R中构建了一个H2O模型并保存了POJO代码。我想使用POJO在hdfs中对镶木地板文件进行评分,但我不知道如何去做。我打算将镶木地板文件读成spark(scala / ...

回答 2 投票 2

随机森林分类器 - 将索引标签标签转换回字符串值

我正在进行文本分类,并使用管道方法构建了一个模型。我正在拟合我使用数据框创建的训练数据,它有“标签”和“......”列。

回答 1 投票 1

PySpark - 通过多个密钥聚合或减少?

我有一个带有以下元组格式的RDD :((a,(b,c)),(d,f,g))我想要按(a,(b,c))分组,并且只用d作为和:如何在pySpark中完成多个键的组合以及...

回答 1 投票 0

pyspark在lambda中使用正则表达式拆分字符串

我正在尝试基于lambda函数内的正则表达式拆分字符串,字符串不会被拆分。我确定正则表达式工作正常。检查正则表达式测试链接https:// ...

回答 1 投票 1

Pyspark - 将mmddyy转换为YYYY-MM-DD

我正在处理一个大文件,其中有一个mmddyy格式的字段,其字符串为数据类型,我需要将其转换为YYYY-MM-DD。我确实试过创建UDF并转换为引用其中一个...

回答 2 投票 2

pyspark中的Rdd乘法?

我有两个数据框,如下:数据帧1:(df1)+ --- + ---------- + | id | features | + --- + ---------- + | 8 | [5,4,5] | | 9 | [4,5,2] | + --- + ---------- +数据框2:(df2)+ --- + ---------- + | id | ...

回答 1 投票 -1

© www.soinside.com 2019 - 2024. All rights reserved.