apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎，为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习，图形处理有关。

我有一个流数据帧有三列时间col1，col2。 + ----------------------- + ------------------- + ----- --------------- + | time | col1 | col2 | ...

scala apache-spark apache-spark-sql spark-structured-streaming

回答 1 投票 6

pyspark.sql.utils.AnalysisException：u'无法推断Parquet的模式。必须手动指定。

这与上面帖子中给出的答案有不同我得到的错误是读取pyspark.sql.utils.AnalysisException：u'无法推断Parquet的模式。必须手动指定....

apache-spark pyspark parquet

回答 1 投票 1

Spark流式传输作业不会删除随机播放文件

我有一个在EMR上运行的火花流工作，从Kafka读取消息并输出到S3。我使用emr-5.17.0，即hadoop 2.8.4，spark 2.3.1问题是shuffle文件正在积累：/ ...

apache-spark apache-kafka spark-streaming

回答 1 投票 2

Spark SCALA - 连接两个数据帧，其中一个数据帧中的连接值位于第二个数据帧中的两个字段之间

我有两个数据帧（删除与问题无关的字段）：df1：org.apache.spark.sql.DataFrame = [rawValue：bigint] df2：org.apache.spark.sql.DataFrame = [startLong：bigint ，...

apache-spark apache-spark-sql spark-streaming

回答 1 投票 0

Sqoop命令 - 缺少选项的参数：merge-key

使用cloudera中sqoop命令中的lastmodified和--merget-key选项进行表导入。它在执行命令时抛出缺少的参数异常。这是我的命令[cloudera @ quickstart~] ...

apache-spark hadoop sqoop sqoop2

回答 1 投票 0

Spark中的迭代RDD / Dataframe处理

我的ADLA解决方案正在转变为Spark。我正在尝试找到正确的替代U-SQL REDUCE表达式来启用：读取逻辑分区并将信息存储在列表/字典/中...

apache-spark

回答 1 投票 0

Spark SQL Java GenericRowWithSchema无法强制转换为java.lang.String

我有一个应用程序试图从集群目录中读取一组csv并使用Spark将它们写为镶木地板文件。 SparkSession sparkSession = createSession（）; JavaRDD ...

java apache-spark apache-spark-sql parquet mapr

回答 2 投票 0

使用DataFrame类型在scala中定义函数

我会有一个简单的问题......我尝试使用一个以数据帧作为参数的函数并返回另一个数据帧：val get_nb_previous_offre：（（DataFrame）=>（DataFrame））=（arg1：...

scala apache-spark

回答 1 投票 0

Scala要么[type1，type2]

下面是使用Either的一个工作示例：val a：[Int，String] = {if（true）Left（42）//返回Int else Right（“Hello，world”）//返回一个String}但是下面没有......

scala apache-spark

回答 1 投票 1

火花中的Java 8流开销

我不是Spark的专家，我正在使用Spark进行一些计算。 // [userId，lastPurchaseLevel] JavaPairRDD lastPurchaseLevels = levels.groupByKey（）...

java apache-spark java-8 java-stream

回答 1 投票 1

Spark Structured Streaming error读取字段'topic_metadata'时出错

我试图运行一个非常简单的例子。我有一个Kafka readStream，它从Kafka主题中读取。我正在运行spark 2.4.0和Kafka 0.10.2 var streamingInputDF = spark.readStream .format（“...

apache-spark apache-kafka spark-structured-streaming

回答 1 投票 0

计算Spark DataFrame中每列的内核密度

有没有办法计算DataFrame每列的KDE？我有一个DataFrame，其中每列代表一个功能的值。 Spark MLLib的KDE功能需要一个RDD [Double] ...

apache-spark apache-spark-mllib

回答 1 投票 0

Apache Spark和Livy集群

场景：我有火花集群，我也想使用Livy。我是关于Livy问题的新手：我使用docker swarm构建了我的spark集群，我还将为Livy创建一个服务。可利维......

apache-spark docker-swarm livy

回答 1 投票 1

Python相当于Spark rangeBetween for window？

我试图找到在python中是否有一种方法可以在滚动聚合中执行相当于rangeBetween的操作。在Spark中，您可以使用rangeBetween使窗口不必是对称的...

python apache-spark pyspark

回答 1 投票 2

如何正确使用mapPartitions函数

我正在做一个包含大数据的程序，这就是我使用Spark和Scala的原因。我需要对数据库进行分区，为此我使用var data0 = conf.dataBase.repartition（8）.persist（StorageLevel ....

scala apache-spark intellij-idea-2016

回答 1 投票 0

如何在pyspark中对数组中的标签进行编码

例如，我有名称中具有分类功能的DataFrame：来自pyspark.sql import SparkSession spark = SparkSession.builder.master（“local”）。appName（“example”）。config（“spark.some.config ....

python apache-spark pyspark pyspark-sql

回答 2 投票 2

来自EMR / Spark的S3写入速度非常慢

我正在写，看看是否有人知道如何加速从EMR中运行的Spark的S3写入时间？我的Spark Job需要4个多小时才能完成，但是群集只在第一个1.5 ...

amazon-web-services apache-spark amazon-s3 amazon-emr

回答 6 投票 21

不同匹配级别的spark加入

我有两个火花数据帧：df1 = sc.parallelize（[['a'，'1'，'value1']，['b'，'1'，'value2']，['c'，'2'， 'value3']，['d'，'4'，'value4']，['e'，'2'，'value5']，['f'，'4'，'...

apache-spark join pyspark bigdata data-analysis

回答 1 投票 0

pyspark - kafka整合：缺少lib

我正在遵循Databricks在此地址中的指示，以便与Kafka开始一个项目：Structured Streaming + Kafka Integration Guide（Kafka broker版本0.10.0或更高版本代码：＃...

python apache-spark pyspark apache-kafka

回答 1 投票 0

从Spark SQL与RDD api编写数据

我最近在EMR 5.19中使用spark 2.3.0在数据集上执行了ETL，其中我包含了一个新的排序列。我使用以下方法做到这一点，并注意到输出比原来大得多......

apache-spark

回答 1 投票 0

apache-spark 相关问题

最新问题