pyspark 相关问题

Spark Python API（PySpark）将apache-spark编程模型暴露给Python。

我正在尝试使用pyspark中的hashlib.md5为数据帧生成哈希码。它只接受一个字符串来生成哈希码。我需要将数据帧的每一行转换为字符串。我试过concat_ws ......

apache-spark pyspark apache-spark-sql pyspark-sql

回答 1 投票 0

我该如何解决这个问题？ rdd.collect（）// ['3e866d48b59e8ac8aece79597df9fb4c'...] rdd.toDF（）//无法推断类型的模式： myschema = StructType（[StructField（“col1”，...

pyspark

回答 1 投票 0

如何使用regex_replace替换pyspark数据帧中列的特殊字符

数据框中有一个列批处理。它有'9％'，'$ 5'等值。我需要使用regex_replace，它会从上面的例子中删除特殊字符，只保留数字......

regex apache-spark dataframe pyspark

回答 3 投票 0

将Pyspark Dataframe列从数组转换为新列

dataframe pyspark

回答 2 投票 3

如何将CSV文件转换为SVM以进行ML培训

我有这个数据集，我希望在Apache Spark 2.1.1中训练多个ML模型。它由10列组成，其中2列包含字符串。删除这些列不是一种选择，因为它们对于...而言至关重要。

python csv pyspark svm naivebayes

回答 1 投票 -1

当您使用Pyspark时，您是否受益于Kryo序列化程序？

我读到Kryo序列化程序在Apache Spark中使用时可以提供更快的序列化。但是，我通过Python使用Spark。转换到Kryo后，我仍然可以获得显着的好处......

apache-spark pyspark kryo

回答 2 投票 9

如何比较pyspark中两个不同数据帧中的两列

我想比较一个dataframe1中的“pitid”和另一个dataframe2的“pitid”，并想要提取dataframe1中缺少的行。 dataframe1：| ID |标记|名称| pitid | + --- + ----- + ---- + -...

python apache-spark pyspark apache-spark-sql pyspark-sql

回答 1 投票 0

pyspark从integertypes中拆分stringtype进行探索性分析

我想从PySpark中的整数中分离出我的df的字符类型，并对integertypes执行一些描述性分析。我写了这个函数，有没有更有效的方法？对于...的项目

string types split pyspark

回答 1 投票 0

在Pyspark数据框中为时间戳列添加额外的小时数

我在Pyspark有一个数据框。在这个数据框中，我有一个时间戳数据类型的列。现在我想为timestamp列的每一行添加额外的2小时而不创建任何新的...

python pyspark

回答 2 投票 5

PySpark DataFrame的逐行聚合

我有一个Pyspark DataFrame，我想使用一个逐行操作的函数进行聚合。我有4列，对于A列中的每个唯一值，我必须进行逐行聚合...

python numpy dataframe parallel-processing pyspark

回答 1 投票 0

在HdInsight上使用PySpark3中的其他库

我正在尝试安装Shapely库但是当我导入它时，我收到错误消息：> from shapely.geometry import Point没有名为'shapely'的模块Traceback（最近调用最后一次）：ImportError：...

python azure pyspark hdinsight shapely

回答 1 投票 0

TypeError：数据应该是LabeledPoint的RDD，但得到了

我得到错误：TypeError：数据应该是LabeledPoint的RDD，但得到了当我执行：import sys import numpy as np from pyspark import SparkConf，SparkContext ...

python numpy apache-spark pyspark

回答 1 投票 0

Pyspark G1垃圾收集器

我的pyspark出错，说GC收集器内存不足。我读了一篇关于G1垃圾收集器的文章，所以我想尝试一下。如何在pyspark应用程序中设置它？我找不到任何......

garbage-collection pyspark

回答 1 投票 -1

pyspark中的哈希码生成

我正在尝试为我的数据帧中的每一行生成哈希码，并且需要将哈希码附加为数据帧的新列“pitid”。我试过下面的代码，但在这里得到错误h = hashlib.md5（c）...

apache-spark pyspark pyspark-sql

回答 1 投票 -1

创建一个映射以为Spark Dataframe的每一行调用POJO

我在R中构建了一个H2O模型并保存了POJO代码。我想使用POJO在hdfs中对镶木地板文件进行评分，但我不知道如何去做。我打算将镶木地板文件读成spark（scala / ...

scala apache-spark pyspark pojo h2o

回答 2 投票 2

随机森林分类器 - 将索引标签标签转换回字符串值

我正在进行文本分类，并使用管道方法构建了一个模型。我正在拟合我使用数据框创建的训练数据，它有“标签”和“......”列。

python pyspark spark-dataframe apache-spark-ml

回答 1 投票 1

PySpark - 通过多个密钥聚合或减少？

我有一个带有以下元组格式的RDD :(（a，（b，c）），（d，f，g））我想要按（a，（b，c））分组，并且只用d作为和：如何在pySpark中完成多个键的组合以及...

apache-spark pyspark

回答 1 投票 0

pyspark在lambda中使用正则表达式拆分字符串

我正在尝试基于lambda函数内的正则表达式拆分字符串，字符串不会被拆分。我确定正则表达式工作正常。检查正则表达式测试链接https：// ...

python apache-spark lambda pyspark pyspark-sql

回答 1 投票 1

Pyspark - 将mmddyy转换为YYYY-MM-DD

我正在处理一个大文件，其中有一个mmddyy格式的字段，其字符串为数据类型，我需要将其转换为YYYY-MM-DD。我确实试过创建UDF并转换为引用其中一个...

python datetime apache-spark pyspark pyspark-sql

回答 2 投票 2

pyspark中的Rdd乘法？

我有两个数据框，如下：数据帧1：（df1）+ --- + ---------- + | id | features | + --- + ---------- + | 8 | [5,4,5] | | 9 | [4,5,2] | + --- + ---------- +数据框2：（df2）+ --- + ---------- + | id | ...

apache-spark pyspark apache-spark-sql spark-dataframe pyspark-sql

回答 1 投票 -1

pyspark 相关问题

最新问题