spark-dataframe 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具，Spark是一种快速通用的集群计算系统。

PySpark：使用Tokenizer映射单词

我正在使用PySpark开始我的旅程，并且我已经坚持了一点：我有这样的代码:(我从https://spark.apache.org/docs/2.1.0/ml-features.html获取它）来自pyspark.ml.feature ...

python-3.x apache-spark pyspark apache-spark-sql spark-dataframe

回答 1 投票 0

当我调用rdd.join（rdd）时发生了什么

我正在开发一个应用程序，我需要在RDD中使用相同的键对每对行执行计算，这里是RDD结构：List

java apache-spark join apache-spark-sql spark-dataframe

回答 1 投票 1

在Apache Spark中查找数据框的中值[复制]

我正在解决我将数据库表导入Apache Spark的问题。我已将其转换为DataFrame。然后我执行了一个RegisterTempTable，以便我可以使用Hive查询。我能......

scala apache-spark spark-dataframe

回答 2 投票 0

如何将每个DStream保存/插入永久表

我一直面临着关于将输出Dstream插入永久SQL表的“Spark Streaming”的问题。我想插入每个输出DStream（来自单个批处理，引发...

apache-spark pyspark apache-spark-sql spark-streaming spark-dataframe

回答 2 投票 4

在spark-sql中使用SELECT WHEN选择多个列

如何从select中获取多列？例如，我可以得到1列：df1.alias（“l”）。join（df2.alias（“r”），Seq（“id”））。select（when（$“l.score”> $“r.score”，$“l.name”）。否则（...

apache-spark apache-spark-sql spark-dataframe

回答 1 投票 0

Spark窗口函数按行中最频繁的值聚合

我希望在给定的窗口中连续获取最常出现的String，并将此值放在新行中。（我正在使用Pyspark）这就是我的表格。窗口标签值123 ...

apache-spark pyspark apache-spark-sql spark-dataframe window-functions

回答 1 投票 1

在PySpark中的分区中连接DataFrame

我有两个数据帧，其行数很大（数百万到数千万）。我想在他们之间加入。在我正在使用的BI系统中，你通过首先分区来快速实现这一点......

apache-spark pyspark spark-dataframe

回答 1 投票 0

Spark Window函数需要HiveContext吗？

我在这篇博客http://xinhstechblog.blogspot.in/2016/04/spark-window-functions-for-dataframes.html上尝试了一个关于窗口函数的例子。运行程序时出现以下错误....

apache-spark apache-spark-sql spark-dataframe window-functions

回答 1 投票 0

Apache Spark：查询成功率

我刚开始学习SQL和Apache Spark。我在Spark中导入了一个SQL表。现在我需要根据需要“是”的字段找到成功率。所以我需要找到总...

sql scala apache-spark spark-dataframe

回答 2 投票 0

为什么使用案例类在DataFrame上进行映射会失败，并且“无法找到存储在数据集中的类型的编码器”？

我已经导入了spark.implicits._但是我仍然得到错误错误：（27,33）无法找到存储在数据集中的类型的编码器。原始类型（Int，String等）和产品类型（案例......

apache-spark apache-spark-sql spark-dataframe

回答 1 投票 1

如何计算数组列中的元素？

我正在尝试计算以下DataFrame中FavouriteCities列中的元素数量。 + ----------------- + | FavouriteCities | + ----------------- + | [纽约，加拿大] | + ----------------- + ...

scala apache-spark apache-spark-sql spark-dataframe

回答 1 投票 0

替代递归运行Spark-submit作业

下面是我需要建议的场景，场景：数据摄取是通过Nifi进入Hive表。 Spark程序必须对数据执行ETL操作和复杂连接...

apache-spark apache-spark-sql spark-dataframe spark-streaming

回答 1 投票 -2

pyspark：是否可以向空数据框或rdd添加行

我有一个数据框（从hive表创建）。我已将数据帧转换为RDD，我正在逐行检索。在每一行上，我正在解析每个列值，如果某个列无效...

pyspark spark-dataframe

回答 1 投票 1

如何在不使用databricks csv api的情况下直接将CSV文件读入spark DataFrame？

如何在不使用databricks csv api的情况下直接将CSV文件读入spark DataFrame？我知道有databricks csv api但我不能使用它api ..我知道有案例类使用和映射...

scala apache-spark apache-spark-sql spark-dataframe

回答 2 投票 1

如何在不使用for循环的情况下从pyspark中的列表创建数据框？

我有如下列表：rrr = [[（1，（3,1）），（2，（3,2）），（3，（3,2）），（1，（4,1）），（2，（4,2））]] df_input = []然后我定义了如下所示的标题：df_header = ['sid'，'tid'，'srank']使用for循环...

apache-spark pyspark apache-spark-sql spark-dataframe pyspark-sql

回答 2 投票 -4

如何使用Scala在Spark中聚合数据？

我有一个数据集test1.txt。它包含的数据如下2 :: 1 :: 3 1 :: 1 :: 2 1 :: 2 :: 2 2 :: 1 :: 5 2 :: 1 :: 4 3 :: 1 :: 2 3 :: 1：1 3 :: 2 :: 2我使用下面的代码创建了数据帧。 case class Test（userId：Int，...

scala apache-spark apache-spark-sql spark-dataframe scala-collections

回答 2 投票 -2

使用spark数据帧生成包含唯一字段和XML组合的CSV文件

我正在使用com.databricks.spark.xml将XML读入spark Dataframe并尝试生成csv文件作为输出。我的输入如下 1234 ...

scala apache-spark spark-dataframe

回答 1 投票 1

重命名在hadoop中创建的文件 - Spark [复制]

通过write在HDFS中创建的文件有自己的命名约定。要将其更改为自定义名称，有一个选项通过脚本使用hadoop fs -mv oldname newname是否还有其他选项可用...

hadoop apache-spark spark-dataframe

回答 1 投票 0

Spark：DataFrame如何在groupBy结果上使用Sum

基于以下数据帧：+ --- + ----- + ---- + | ID | CATEG | Amnt | + --- + ----- + ---- + | 1 | A | 10 | | 1 | A | 5 | | 2 | A | 56 | | 2 | C | 13 | + --- + ----- + ---- +我想获得......

scala apache-spark spark-dataframe

回答 1 投票 1

我应该避免在数据集/数据帧中使用groupby（）吗？ [重复]

我知道在RDD中我们不鼓励使用groupByKey，并且鼓励使用诸如reduceByKey（）和aggregateByKey（）之类的替代方法，因为这些其他方法会先减少每个...

apache-spark optimization group-by dataset spark-dataframe

回答 1 投票 2

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.