pyspark 相关问题

Spark Python API(PySpark)将apache-spark编程模型暴露给Python。

如何根据2列比较PySpark中的2个数据帧?

在PySpark中,我试图比较两个常见列的数据帧。 Tha数据帧看起来像这样:df1 ...... aa1 ...... bb2 ...... ab3 ...... ...... cc4 ...... df2 ...... ...... 。

回答 1 投票 0

在pyspark中替换循环到并行进程

我在我的脚本中使用for循环来为size_DF(数据框)的每个元素调用一个函数,但这需要花费很多时间。我尝试通过地图删除for循环,但我没有得到任何输出。 ...

回答 1 投票 0

感谢网页使用python或pyspark抓取多个页面

我正在尝试第一次网站抓一个网站,我想从网页抓取日本动画网站创建一个csv文件与标题,性别,工作室和动画的持续时间。我只是 ...

回答 3 投票 0

在Apache Spark中使用Bigquery Connector时如何设置分区数?

我正在阅读Google Cloud Dataproc和Apache Spark的文档,我无法弄清楚在使用Bigquery连接器时如何手动设置分区数。 ...

回答 1 投票 0

Spark ALS转换性能

我是一个火花新手。我正在使用pyspark进行ALS推荐。装配需要几分钟,运行相当快。然而,model.transform函数需要很长时间并且需要很大...

回答 1 投票 1

使用Pyspark读取S3上随机的文件样本

我在S3上有一个包含1000个文件的存储桶。每个约1GB。我想阅读这些文件的随机样本。让我们说5%的文件。这是我怎么做的fileDF = sqlContext.jsonRDD(self.sc ....

回答 1 投票 6

从Spark limit()函数重新分区数据帧

我需要使用limit函数从数据帧中获取n个条目/行。我知道这是不可取的,但这是一个预处理步骤,在实际实施时不需要......

回答 1 投票 2

如何使用嵌套列表和字典加载JSON对象?

我正在使用以下形式的JSON对象:{“docId”:“1”,“links”:{“一个链接”:[“端点1”,“端点2”],“另一个链接”:[“端点3“]},”......

回答 1 投票 1

SQLException上的sqlContext HiveDriver错误:不支持方法

我一直在尝试使用sqlContext.read.format(“jdbc”)。options(driver =“org.apache.hive.jdbc.HiveDriver”)将Hive表放入Spark而没有任何成功。我做过研究并阅读如下:如何......

回答 2 投票 21

Zeppelin - 动态表单中默认值的动态更新

我一直在寻找一种动态更新selectForm默认值的方法。我的代码如下:%spark2.pyspark d_var = {} d_var ['one'] = [“0”] d_var ['two'] = [“1”] keys = [] values = [('...

回答 1 投票 0

PySpark MLLib Zeppelin Logistic回归度量标准错误:AssertionError:维度不匹配

我正在尝试使用MLLib在Pyspark中运行逻辑回归。该模型运行但我无法获得任何指标。我的数据采用csv格式,我将其转换如下:def load(prefix):...

回答 1 投票 0

找不到'cairo.Context'的外来struct转换器

又是我。这是一个与我正在做的项目相关的代码,称为Twitter数据上的情感分析。以下代码主要用于显示正负推文的数量...

回答 2 投票 0

火花中的共享状态?

我正在阅读防火墙日志数据,其中包括以下内容:(UniqueID,start_or_stop,timestamp)在某些时候,每个“start”后面都是stop,当它出现时我想输出(UniqueID,...

回答 1 投票 0

仅在关闭应用程序后才能在套接字中发送DStream的rdds

我正在尝试Spark Streaming设置,其中应用程序接收文本(行),对其进行计数,然后将结果发送回服务器。这就是我现在正在尝试的:sc = ...

回答 1 投票 0

RDD沿袭/ Spark操作员图的良好输出

我对用于教育目的的Spark RDD谱系或运算符图表的清晰表达感兴趣。我试过.toDebugString()但是我很难把它打印得很漂亮(...

回答 1 投票 1

使用负索引从pyspark字符串列的最后一个索引中对多个字符进行子字符串

与以下内容密切相关:Spark Dataframe列,其他列的最后一个字符,但我想从-1索引中提取多个字符。我有以下pyspark数据帧df + ---------- + ----...

回答 1 投票 2

在PySpark中尽力重试

假设我有一个RDD,我需要映射一个可能失败的任务rdd = sc.parallelize([1,2,3])rdd.map(a_task_that_can_fail)有没有办法设置spark以最好地运行任务努力的基础。我......

回答 1 投票 0

将值传递给来自python的livy

我想将值传递给python中的livy代码。但是我传递的值在每次调用后都会发生变化,但是传给livy的值仍然相同。 data_while_loop = {'code':textwrap.dedent(“”“...

回答 1 投票 1

PySpark:我们应该迭代更新数据帧吗?

我的问题有两个部分。第一个是理解Spark的工作方式,第二个是优化。我有一个火花数据框,它有多个分类变量。对于每一个......

回答 1 投票 2

spark magic - 输入sql context作为字符串

连接到livy上的spark可以在Jupyter中正常工作,以下是火花魔法:%% spark -c sql select * from some_table现在我如何使用字符串变量来查询表?以下是......

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.