pyspark 相关问题

Spark Python API（PySpark）将apache-spark编程模型暴露给Python。

pyspark在lambda中使用正则表达式拆分字符串

我正在尝试基于lambda函数内的正则表达式拆分字符串，字符串不会被拆分。我确定正则表达式工作正常。检查正则表达式测试链接https：// ...

python apache-spark lambda pyspark pyspark-sql

回答 1 投票 1

Pyspark - 将mmddyy转换为YYYY-MM-DD

我正在处理一个大文件，其中有一个mmddyy格式的字段，其字符串为数据类型，我需要将其转换为YYYY-MM-DD。我确实试过创建UDF并转换为引用其中一个...

python datetime apache-spark pyspark pyspark-sql

回答 2 投票 2

pyspark中的Rdd乘法？

我有两个数据框，如下：数据帧1：（df1）+ --- + ---------- + | id | features | + --- + ---------- + | 8 | [5,4,5] | | 9 | [4,5,2] | + --- + ---------- +数据框2：（df2）+ --- + ---------- + | id | ...

apache-spark pyspark apache-spark-sql spark-dataframe pyspark-sql

回答 1 投票 -1

如何将pyspark脚本拆分为多个文件

我有一个大的Pyspark程序，它执行以下步骤：常规导入和Spark对象初始化从目录中读取category1的数据。文件采用压缩格式。我正在使用sc ....

python apache-spark pyspark

回答 1 投票 -1

有没有办法在不使用列表的情况下使用Dataframe的isin（）？

有没有办法在不使用列表的情况下使用Dataframe的isin（）？我正在查看pyspark文档，看起来它需要字符串或列表。如果字符串或列表绝对庞大会怎么样？...

python sql apache-spark dataframe pyspark

回答 1 投票 0

nTypeError：无法合并类型和 \ n”

我正在使用spark 1.6，我正在运行以下代码：def load（self，filename）：print“正在加载输入文件”+ filename inputpd = pd.read_csv（'input /'+ filename，dtype = str）...

pandas pyspark databricks

回答 1 投票 0

如何忽略$ sign in value和sum

这就是我的csv数据的样子：TagNumber，DatePaid，TotalPaid ABCD，11/5/2017，$ 101 EFGH，12/5/2017，$ 201 ABCD，15/5/2017，$ 501我正在创建一个数据框，将分组TagNumber的数据，得到Min ...

python-3.x apache-spark dataframe pyspark

回答 1 投票 0

使用Pyspark导入数据：数据类型错误

我遇到了Pyspark的问题：当我用Pyspark导入我的数据集时，我的所有列都被认为是一个字符串，即使我的列是数字的。我用...导入数据时没有这个问题

python pyspark

回答 1 投票 0

为什么集群模式比Spark中的客户端模式慢得多？

我有使用GraphFrame创建的15k图形对象。这些图非常小（每个图10-100个节点，10-100个边）。我只需要在每个上应用最短路径和某些其他算法......

apache-spark graph pyspark cluster-computing

回答 1 投票 1

时间戳在Spark中原生缩写日期格式

我正在使用sql.functions.unix_timestamp成功转换为spark中的日期（y-m-d，yyyyMMdd等）的数字格式的时间戳。问题是当日期使用缩写名称...

apache-spark pyspark pyspark-sql

回答 1 投票 0

Spark中的PCA输出与scikit-learn不匹配

我在Spark ML中尝试PCA（主成分分析）。 data = [（Vectors.dense（[1.0,1.0]），），（Vectors.dense（[1.0,2.0]），），（Vectors.dense（[4.0,4.0]），），（Vectors.dense（ [5.0,4.0]），）] ...

python apache-spark pyspark pca apache-spark-ml

回答 1 投票 6

来自HDFS的图像数据帧用于图像分类

我正在尝试使用Python和Spark编写图像分类算法。我遵循本教程，该教程取自官方数据库文档，在运行时运行良好...

python hadoop apache-spark pyspark hdfs

回答 1 投票 0

读隐含小数点的固定长度文件？

假设我有一个这样的数据文件：foo12345 bar45612我想将其解析为：+ ---- + ------- + | ID | AMT | + ---- + ------- + | FOO | 123.45 | |酒吧| 456.12 | + ---- + ------- +这就是说，我需要......

pyspark spark-dataframe

回答 1 投票 0

将Jupyter笔记本连接到Spark

我有一台安装了Hadoop和Spark的机器。以下是我目前的环境。 python3.6 spark1.5.2 Hadoop 2.7.1.2.3.6.0-3796我试图连接jupyter笔记本连接到spark ...

apache-spark pyspark ipython-notebook jupyter ssh-tunnel

回答 3 投票 1

火花作业的外部依赖

我是大数据技术的新手。我必须在EMR上以集群模式运行spark工作。这个工作是用python编写的，它依赖于几个库和一些其他工具。我已经 ...

pyspark yarn emr

回答 2 投票 0

我们如何使用从pyspark.ml获得的RandomForestClassifier进行预测

我正在进行文本分类，并使用管道方法构建了一个模型。我创建了RF分类器对象，并设置了我在我的...中获得的features列和标签列。