pyspark 相关问题

Spark Python API（PySpark）将apache-spark编程模型暴露给Python。

PySpark MLLib Zeppelin Logistic回归度量标准错误：AssertionError：维度不匹配

我正在尝试使用MLLib在Pyspark中运行逻辑回归。该模型运行但我无法获得任何指标。我的数据采用csv格式，我将其转换如下：def load（prefix）：...

pyspark logistic-regression apache-zeppelin

回答 1 投票 0

找不到'cairo.Context'的外来struct转换器

又是我。这是一个与我正在做的项目相关的代码，称为Twitter数据上的情感分析。以下代码主要用于显示正负推文的数量...

python pyspark pycairo

回答 2 投票 0

火花中的共享状态？

我正在阅读防火墙日志数据，其中包括以下内容：（UniqueID，start_or_stop，timestamp）在某些时候，每个“start”后面都是stop，当它出现时我想输出（UniqueID，...

apache-spark pyspark

回答 1 投票 0

仅在关闭应用程序后才能在套接字中发送DStream的rdds

我正在尝试Spark Streaming设置，其中应用程序接收文本（行），对其进行计数，然后将结果发送回服务器。这就是我现在正在尝试的：sc = ...

sockets apache-spark pyspark spark-streaming

回答 1 投票 0

RDD沿袭/ Spark操作员图的良好输出

我对用于教育目的的Spark RDD谱系或运算符图表的清晰表达感兴趣。我试过.toDebugString（）但是我很难把它打印得很漂亮（...

python apache-spark pyspark

回答 1 投票 1

使用负索引从pyspark字符串列的最后一个索引中对多个字符进行子字符串

与以下内容密切相关：Spark Dataframe列，其他列的最后一个字符，但我想从-1索引中提取多个字符。我有以下pyspark数据帧df + ---------- + ----...

python apache-spark pyspark

回答 1 投票 2

在PySpark中尽力重试

假设我有一个RDD，我需要映射一个可能失败的任务rdd = sc.parallelize（[1,2,3]）rdd.map（a_task_that_can_fail）有没有办法设置spark以最好地运行任务努力的基础。我......

python apache-spark pyspark

回答 1 投票 0

将值传递给来自python的livy

我想将值传递给python中的livy代码。但是我传递的值在每次调用后都会发生变化，但是传给livy的值仍然相同。 data_while_loop = {'code'：textwrap.dedent（“”“...

python apache-spark pyspark livy

回答 1 投票 1

PySpark：我们应该迭代更新数据帧吗？

我的问题有两个部分。第一个是理解Spark的工作方式，第二个是优化。我有一个火花数据框，它有多个分类变量。对于每一个......

python apache-spark optimization pyspark

回答 1 投票 2

spark magic - 输入sql context作为字符串

连接到livy上的spark可以在Jupyter中正常工作，以下是火花魔法：%% spark -c sql select * from some_table现在我如何使用字符串变量来查询表？以下是......

python-3.x apache-spark pyspark jupyter-notebook

回答 1 投票 0

如何在pyspark中读取和写入coordinateMatrix到文件

我在pyspark中有一个非常稀疏的数据帧，我将这个数据帧转换为CoordinatedMatrix。现在我想在hdfs上保存这个矩阵，以便稍后重用它来训练我的模型。不幸的是，我没有......

apache-spark pyspark

回答 1 投票 0

在pyspark中使用整数对列进行编码

我必须在pyspark（spark 2.0）的大型DataFrame中对列进行编码。所有值几乎都是唯一的（约1000mln值）。最好的选择可能是StringIndexer，但由于某种原因它始终......

python apache-spark pyspark apache-spark-mllib

回答 1 投票 0

Pyspark数据帧：根据另一列的值提取列

我有一个包含以下列和相应值的数据帧（原谅我的格式但不知道如何以表格格式）：Src_ip dst_ip V1 V2 V3 top“A”“...

apache-spark pyspark

回答 1 投票 1

如何扫描列以在Pyspark DataFrame中获取新列

我有一个Pyspark DataFrame有两列：sendtime和charge_state，如果charge_state从“off”变为“on”，则新的充电周期开始。现在我想标记每个充电周期给我...

apache-spark pyspark

回答 1 投票 0

当列表值与Pyspark数据帧中的列值的子字符串匹配时，填充新列

我在Pyspark有一个数据框，如下面的df.show（）+ --- + ---------------------- + | ID |精读| + --- + ---------------------- + | 3 | mac，mac pro | | 1 | iphone5的，iphone | | ...

python apache-spark pyspark

回答 2 投票 2

Dataframe Spark 2.2.1上的可调用列对象

在Spark版本2.2.1中相当于此调用的是什么：df.column_name.eqNullSafe（df2.column_2）（df.column_name不可调用。它在2.3.0中工作但在2.2.1中我得到错误：TypeError ：'...

python apache-spark dataframe pyspark

回答 1 投票 1

如何在PySpark中调用python函数？

我有多个文件（CSV和XML），我想做一些过滤器。我定义了一个functoin做所有这些过滤器，我想知道如何将其称为适用于我的CSV文件？ PS：类型......

python pyspark

回答 1 投票 -1

在Pyspark中使用时，具有静态文件依赖性的python包无法读取静态文件

我试图解决python包PySpark的问题。我开发了一个python包，它具有以下结构。 sample_package / | -config / | -sample.ini | -main.py | -__ init __....

python python-2.7 pyspark

回答 1 投票 0

PySpark - 从Numpy Matrix创建DataFrame

我有一个numpy矩阵：arr = np.array（[[2,3]，[2,8]，[2,3]，[4,5]]）我需要从arr创建一个PySpark Dataframe。我无法手动输入值，因为arr的长度/值将是......

python arrays numpy pyspark spark-dataframe

回答 2 投票 2

将pyspark列连接到pyspark DataFrame

我正在使用python，目前有几个类pyspark.sql.column.Column的实例，并希望连接它们，以便我得到一个pyspark.sql.dataframe.DataFrame对象...

python apache-spark pyspark

回答 1 投票 -1

pyspark 相关问题

最新问题