spark-dataframe 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。

PySpark:使用Tokenizer映射单词

我正在使用PySpark开始我的旅程,并且我已经坚持了一点:我有这样的代码:(我从https://spark.apache.org/docs/2.1.0/ml-features.html获取它)来自pyspark.ml.feature ...

回答 1 投票 0

当我调用rdd.join(rdd)时发生了什么

我正在开发一个应用程序,我需要在RDD中使用相同的键对每对行执行计算,这里是RDD结构:List

回答 1 投票 1

在Apache Spark中查找数据框的中值[复制]

我正在解决我将数据库表导入Apache Spark的问题。我已将其转换为DataFrame。然后我执行了一个RegisterTempTable,以便我可以使用Hive查询。我能......

回答 2 投票 0

如何将每个DStream保存/插入永久表

我一直面临着关于将输出Dstream插入永久SQL表的“Spark Streaming”的问题。我想插入每个输出DStream(来自单个批处理,引发...

回答 2 投票 4

在spark-sql中使用SELECT WHEN选择多个列

如何从select中获取多列?例如,我可以得到1列:df1.alias(“l”)。join(df2.alias(“r”),Seq(“id”))。select(when($“l.score”> $“r.score”,$“l.name”)。否则(...

回答 1 投票 0

Spark窗口函数按行中最频繁的值聚合

我希望在给定的窗口中连续获取最常出现的String,并将此值放在新行中。 (我正在使用Pyspark)这就是我的表格。窗口标签值123 ...

回答 1 投票 1

在PySpark中的分区中连接DataFrame

我有两个数据帧,其行数很大(数百万到数千万)。我想在他们之间加入。在我正在使用的BI系统中,你通过首先分区来快速实现这一点......

回答 1 投票 0

Spark Window函数需要HiveContext吗?

我在这篇博客http://xinhstechblog.blogspot.in/2016/04/spark-window-functions-for-dataframes.html上尝试了一个关于窗口函数的例子。运行程序时出现以下错误....

回答 1 投票 0

Apache Spark:查询成功率

我刚开始学习SQL和Apache Spark。我在Spark中导入了一个SQL表。现在我需要根据需要“是”的字段找到成功率。所以我需要找到总...

回答 2 投票 0

为什么使用案例类在DataFrame上进行映射会失败,并且“无法找到存储在数据集中的类型的编码器”?

我已经导入了spark.implicits._但是我仍然得到错误错误:(27,33)无法找到存储在数据集中的类型的编码器。原始类型(Int,String等)和产品类型(案例......

回答 1 投票 1

如何计算数组列中的元素?

我正在尝试计算以下DataFrame中FavouriteCities列中的元素数量。 + ----------------- + | FavouriteCities | + ----------------- + | [纽约,加拿大] | + ----------------- + ...

回答 1 投票 0

替代递归运行Spark-submit作业

下面是我需要建议的场景,场景:数据摄取是通过Nifi进入Hive表。 Spark程序必须对数据执行ETL操作和复杂连接...

回答 1 投票 -2

pyspark:是否可以向空数据框或rdd添加行

我有一个数据框(从hive表创建)。我已将数据帧转换为RDD,我正在逐行检索。在每一行上,我正在解析每个列值,如果某个列无效...

回答 1 投票 1

如何在不使用databricks csv api的情况下直接将CSV文件读入spark DataFrame?

如何在不使用databricks csv api的情况下直接将CSV文件读入spark DataFrame?我知道有databricks csv api但我不能使用它api ..我知道有案例类使用和映射...

回答 2 投票 1

如何在不使用for循环的情况下从pyspark中的列表创建数据框?

我有如下列表:rrr = [[(1,(3,1)),(2,(3,2)),(3,(3,2)),(1,(4,1)), (2,(4,2))]] df_input = []然后我定义了如下所示的标题:df_header = ['sid','tid','srank']使用for循环...

回答 2 投票 -4

如何使用Scala在Spark中聚合数据?

我有一个数据集test1.txt。它包含的数据如下2 :: 1 :: 3 1 :: 1 :: 2 1 :: 2 :: 2 2 :: 1 :: 5 2 :: 1 :: 4 3 :: 1 :: 2 3 :: 1:1 3 :: 2 :: 2我使用下面的代码创建了数据帧。 case class Test(userId:Int,...

回答 2 投票 -2

使用spark数据帧生成包含唯一字段和XML组合的CSV文件

我正在使用com.databricks.spark.xml将XML读入spark Dataframe并尝试生成csv文件作为输出。我的输入如下 1234 ...

回答 1 投票 1

重命名在hadoop中创建的文件 - Spark [复制]

通过write在HDFS中创建的文件有自己的命名约定。要将其更改为自定义名称,有一个选项通过脚本使用hadoop fs -mv oldname newname是否还有其他选项可用...

回答 1 投票 0

Spark:DataFrame如何在groupBy结果上使用Sum

基于以下数据帧:+ --- + ----- + ---- + | ID | CATEG | Amnt | + --- + ----- + ---- + | 1 | A | 10 | | 1 | A | 5 | | 2 | A | 56 | | 2 | C | 13 | + --- + ----- + ---- +我想获得......

回答 1 投票 1

我应该避免在数据集/数据帧中使用groupby()吗? [重复]

我知道在RDD中我们不鼓励使用groupByKey,并且鼓励使用诸如reduceByKey()和aggregateByKey()之类的替代方法,因为这些其他方法会先减少每个...

回答 1 投票 2

© www.soinside.com 2019 - 2024. All rights reserved.