pyspark 相关问题

Spark Python API（PySpark）将apache-spark编程模型暴露给Python。

spark magic - 输入sql context作为字符串

连接到livy上的spark可以在Jupyter中正常工作，以下是火花魔法：%% spark -c sql select * from some_table现在我如何使用字符串变量来查询表？以下是......

python-3.x apache-spark pyspark jupyter-notebook

回答 1 投票 0

如何在pyspark中读取和写入coordinateMatrix到文件

我在pyspark中有一个非常稀疏的数据帧，我将这个数据帧转换为CoordinatedMatrix。现在我想在hdfs上保存这个矩阵，以便稍后重用它来训练我的模型。不幸的是，我没有......

apache-spark pyspark

回答 1 投票 0

在pyspark中使用整数对列进行编码

我必须在pyspark（spark 2.0）的大型DataFrame中对列进行编码。所有值几乎都是唯一的（约1000mln值）。最好的选择可能是StringIndexer，但由于某种原因它始终......

python apache-spark pyspark apache-spark-mllib

回答 1 投票 0

Pyspark数据帧：根据另一列的值提取列

我有一个包含以下列和相应值的数据帧（原谅我的格式但不知道如何以表格格式）：Src_ip dst_ip V1 V2 V3 top“A”“...

apache-spark pyspark

回答 1 投票 1

如何扫描列以在Pyspark DataFrame中获取新列

我有一个Pyspark DataFrame有两列：sendtime和charge_state，如果charge_state从“off”变为“on”，则新的充电周期开始。现在我想标记每个充电周期给我...

apache-spark pyspark

回答 1 投票 0

当列表值与Pyspark数据帧中的列值的子字符串匹配时，填充新列

我在Pyspark有一个数据框，如下面的df.show（）+ --- + ---------------------- + | ID |精读| + --- + ---------------------- + | 3 | mac，mac pro | | 1 | iphone5的，iphone | | ...

python apache-spark pyspark

回答 2 投票 2

Dataframe Spark 2.2.1上的可调用列对象

在Spark版本2.2.1中相当于此调用的是什么：df.column_name.eqNullSafe（df2.column_2）（df.column_name不可调用。它在2.3.0中工作但在2.2.1中我得到错误：TypeError ：'...

python apache-spark dataframe pyspark

回答 1 投票 1

如何在PySpark中调用python函数？

我有多个文件（CSV和XML），我想做一些过滤器。我定义了一个functoin做所有这些过滤器，我想知道如何将其称为适用于我的CSV文件？ PS：类型......

python pyspark

回答 1 投票 -1

在Pyspark中使用时，具有静态文件依赖性的python包无法读取静态文件

我试图解决python包PySpark的问题。我开发了一个python包，它具有以下结构。 sample_package / | -config / | -sample.ini | -main.py | -__ init __....

python python-2.7 pyspark

回答 1 投票 0

PySpark - 从Numpy Matrix创建DataFrame

我有一个numpy矩阵：arr = np.array（[[2,3]，[2,8]，[2,3]，[4,5]]）我需要从arr创建一个PySpark Dataframe。我无法手动输入值，因为arr的长度/值将是......

python arrays numpy pyspark spark-dataframe

回答 2 投票 2

将pyspark列连接到pyspark DataFrame

我正在使用python，目前有几个类pyspark.sql.column.Column的实例，并希望连接它们，以便我得到一个pyspark.sql.dataframe.DataFrame对象...

python apache-spark pyspark

回答 1 投票 -1

用一对特征序列计算Spark上的Chi Square

实际上，有几天我坚持这个挑战，我想知道你的想法。我在pyspark中有一个大数据框，有大约150个功能。每行属于一个人而且......

apache-spark pyspark chi-squared

回答 1 投票 1

删除Spark数据帧中具有句点的列名称

我在使用具有句点的Spark数据帧中删除列时遇到问题。我知道你需要使用反引号（`）来转义列名。当我尝试选择列时，这确实有用......

python apache-spark pyspark apache-spark-sql

回答 1 投票 1

Spark设备上没有剩余空间

我有一个EMR作业，读取大约1TB数据，过滤它并对其进行重新分区（重新分区后有一些连接），但我的作业在重新分区时失败，错误“设备上没有剩余空间”。 ...

apache-spark pyspark

回答 1 投票 0

在pyspark中聚合One-Hot编码功能

我在python方面很有经验但对pyspark来说却是全新的。我的数据框包含大约50M行，具有几个分类功能。对于每个功能，我都有One-Hot编码。这是......

pyspark

回答 1 投票 2

如果不使用spark-ml中的管道，交叉验证会更快吗？

假设我的功能工程中有很多步骤：我的管道中会有很多变换器。我想知道Spark在管道的交叉验证过程中如何处理这些变压器：...

pyspark pipeline cross-validation apache-spark-ml

回答 1 投票 1

批量从Dataframe插入到DB，忽略Pyspark中的失败行

我试图使用JDBC写入向Postgres插入spark DF。 postgres表对其中一列有唯一约束，当要插入的df违反约束时，整批是......

postgresql jdbc pyspark

回答 2 投票 1

Pyspark在使用大量列保存数据框时遇到问题

在Hortonworks集群上通过Jupyter笔记本使用Pyspark 1.6.2处理以下步骤时，我们遇到了一个奇怪的情况：从pyspark数据框中的ORC表读取数据透视此表...

apache-spark pyspark apache-spark-sql pivot stack-overflow

回答 1 投票 1

Spark：内存繁重的连接操作的最佳实践

我有一个火花程序，涉及大型Hive表的连接操作（数百万行，数百列）。在这些连接期间使用的内存非常高。我想了解......

scala apache-spark hadoop pyspark yarn

回答 1 投票 0

PySpark 2 - 正则表达式取代之前的一切

我有一个像“_row”的记录\ n“ 日期时间：2018.06.30 ^名称：ABC ^ Se：4 ^机器：XXXXXXX ^ InnerTrace：^ AdditionalInfo：^ 我想在每个之前删除所有内容......

python apache-spark pyspark apache-spark-2.0

回答 1 投票 1

pyspark 相关问题

最新问题