apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。

如何在单个查询中计算不同类型列的流数据帧的统计信息?

我有一个流数据帧有三列时间col1,col2。 + ----------------------- + ------------------- + ----- --------------- + | time | col1 | col2 | ...

回答 1 投票 6

pyspark.sql.utils.AnalysisException:u'无法推断Parquet的模式。必须手动指定。

这与上面帖子中给出的答案有不同我得到的错误是读取pyspark.sql.utils.AnalysisException:u'无法推断Parquet的模式。必须手动指定....

回答 1 投票 1

Spark流式传输作业不会删除随机播放文件

我有一个在EMR上运行的火花流工作,从Kafka读取消息并输出到S3。我使用emr-5.17.0,即hadoop 2.8.4,spark 2.3.1问题是shuffle文件正在积累:/ ...

回答 1 投票 2

Spark SCALA - 连接两个数据帧,其中一个数据帧中的连接值位于第二个数据帧中的两个字段之间

我有两个数据帧(删除与问题无关的字段):df1:org.apache.spark.sql.DataFrame = [rawValue:bigint] df2:org.apache.spark.sql.DataFrame = [startLong:bigint ,...

回答 1 投票 0

Sqoop命令 - 缺少选项的参数:merge-key

使用cloudera中sqoop命令中的lastmodified和--merget-key选项进行表导入。它在执行命令时抛出缺少的参数异常。这是我的命令[cloudera @ quickstart~] ...

回答 1 投票 0

Spark中的迭代RDD / Dataframe处理

我的ADLA解决方案正在转变为Spark。我正在尝试找到正确的替代U-SQL REDUCE表达式来启用:读取逻辑分区并将信息存储在列表/字典/中...

回答 1 投票 0

Spark SQL Java GenericRowWithSchema无法强制转换为java.lang.String

我有一个应用程序试图从集群目录中读取一组csv并使用Spark将它们写为镶木地板文件。 SparkSession sparkSession = createSession(); JavaRDD ...

回答 2 投票 0

使用DataFrame类型在scala中定义函数

我会有一个简单的问题......我尝试使用一个以数据帧作为参数的函数并返回另一个数据帧:val get_nb_previous_offre:((DataFrame)=>(DataFrame))=(arg1:...

回答 1 投票 0

Scala要么[type1,type2]

下面是使用Either的一个工作示例:val a:[Int,String] = {if(true)Left(42)//返回Int else Right(“Hello,world”)//返回一个String}但是下面没有......

回答 1 投票 1

火花中的Java 8流开销

我不是Spark的专家,我正在使用Spark进行一些计算。 // [userId,lastPurchaseLevel] JavaPairRDD lastPurchaseLevels = levels.groupByKey()...

回答 1 投票 1

Spark Structured Streaming error读取字段'topic_metadata'时出错

我试图运行一个非常简单的例子。我有一个Kafka readStream,它从Kafka主题中读取。我正在运行spark 2.4.0和Kafka 0.10.2 var streamingInputDF = spark.readStream .format(“...

回答 1 投票 0

计算Spark DataFrame中每列的内核密度

有没有办法计算DataFrame每列的KDE?我有一个DataFrame,其中每列代表一个功能的值。 Spark MLLib的KDE功能需要一个RDD [Double] ...

回答 1 投票 0

Apache Spark和Livy集群

场景:我有火花集群,我也想使用Livy。我是关于Livy问题的新手:我使用docker swarm构建了我的spark集群,我还将为Livy创建一个服务。可利维......

回答 1 投票 1

Python相当于Spark rangeBetween for window?

我试图找到在python中是否有一种方法可以在滚动聚合中执行相当于rangeBetween的操作。在Spark中,您可以使用rangeBetween使窗口不必是对称的...

回答 1 投票 2

如何正确使用mapPartitions函数

我正在做一个包含大数据的程序,这就是我使用Spark和Scala的原因。我需要对数据库进行分区,为此我使用var data0 = conf.dataBase.repartition(8).persist(StorageLevel ....

回答 1 投票 0

如何在pyspark中对数组中的标签进行编码

例如,我有名称中具有分类功能的DataFrame:来自pyspark.sql import SparkSession spark = SparkSession.builder.master(“local”)。appName(“example”)。config(“spark.some.config ....

回答 2 投票 2

来自EMR / Spark的S3写入速度非常慢

我正在写,看看是否有人知道如何加速从EMR中运行的Spark的S3写入时间?我的Spark Job需要4个多小时才能完成,但是群集只在第一个1.5 ...

回答 6 投票 21

不同匹配级别的spark加入

我有两个火花数据帧:df1 = sc.parallelize([['a','1','value1'],['b','1','value2'],['c','2', 'value3'],['d','4','value4'],['e','2','value5'],['f','4','...

回答 1 投票 0

pyspark - kafka整合:缺少lib

我正在遵循Databricks在此地址中的指示,以便与Kafka开始一个项目:Structured Streaming + Kafka Integration Guide(Kafka broker版本0.10.0或更高版本代码:#...

回答 1 投票 0

从Spark SQL与RDD api编写数据

我最近在EMR 5.19中使用spark 2.3.0在数据集上执行了ETL,其中我包含了一个新的排序列。我使用以下方法做到这一点,并注意到输出比原来大得多......

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.