apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。

保存ML模型以备将来使用

我正在将一些机器学习算法(如线性回归,Logistic回归和Naive Bayes)应用于某些数据,但我试图避免使用RDD并开始使用DataFrame,因为......

回答 2 投票 23

使用字符串表达式列表作为连接条件

我有一个列表,其中包含字符串作为其元素。 list_elem = ['df1.x1 == df2.p1','df1.x2 == df2.p2']我想将该列表更改为这样的内容。 list_new = [df1.x1 == df2.p1,df1.x2 == ...

回答 1 投票 1

如何在Spark提交中使用s3a和Apache spark 2.2(hadoop 2.8)?

我正在尝试使用使用hadoop 2.8版本构建的spark 2.2.0从spark访问S3数据,我使用的是/jars/hadoop-aws-2.8.3.jar,/ jars / aws-java-sdk-s3- 1.10.6.jar和/ jars / aws-java-sdk -...

回答 1 投票 0

在spark中查找数据的最佳选择

我有一个要求,我需要从kafka主题中读取消息,对数据集进行查找,然后根据查找数据的结果发送消息。以下示例...

回答 1 投票 1

当数据集在sparklyr中时,为什么我不能对dplyr使用双冒号运算符?

一个可重复的例子(改编自@ forestfanjoe的答案):library(dplyr)library(sparklyr)sc

回答 1 投票 2

无法使用Spark Structured Streaming在Parquet文件中写入数据

我有一个Spark结构流:val df = spark .readStream .format(“kafka”)。option(“kafka.bootstrap.servers”,“localhost:9092”)。option(“startingOffsets”,“earliest”).. 。

回答 2 投票 2

结构化流 - 消费每条消息

什么是“推荐”的方式来处理每个消息,因为它来自结构化流媒体管道(我在Spark 2.1.1上,源是Kafka 0.10.2.1)?到目前为止,我正在寻找数据帧....

回答 1 投票 1

结构化流 - Foreach接收器

我基本上是从Kafka源代码中读取,并将每条消息转发给我的foreach处理器(感谢Jacek的简单示例页面)。如果这确实有效,我将实际执行......

回答 1 投票 5

如何使用Spark Structured Streaming连续监视目录

我希望spark能够持续监视目录并在文件出现在该目录中时使用spark.readStream读取CSV文件。请不要包含Spark Streaming的解决方案。一世 ...

回答 2 投票 7

如何在单个查询中计算不同类型列的流数据帧的统计信息?

我有一个流数据帧有三列时间col1,col2。 + ----------------------- + ------------------- + ----- --------------- + | time | col1 | col2 | ...

回答 1 投票 6

pyspark.sql.utils.AnalysisException:u'无法推断Parquet的模式。必须手动指定。

这与上面帖子中给出的答案有不同我得到的错误是读取pyspark.sql.utils.AnalysisException:u'无法推断Parquet的模式。必须手动指定....

回答 1 投票 1

Spark流式传输作业不会删除随机播放文件

我有一个在EMR上运行的火花流工作,从Kafka读取消息并输出到S3。我使用emr-5.17.0,即hadoop 2.8.4,spark 2.3.1问题是shuffle文件正在积累:/ ...

回答 1 投票 2

Spark SCALA - 连接两个数据帧,其中一个数据帧中的连接值位于第二个数据帧中的两个字段之间

我有两个数据帧(删除与问题无关的字段):df1:org.apache.spark.sql.DataFrame = [rawValue:bigint] df2:org.apache.spark.sql.DataFrame = [startLong:bigint ,...

回答 1 投票 0

Sqoop命令 - 缺少选项的参数:merge-key

使用cloudera中sqoop命令中的lastmodified和--merget-key选项进行表导入。它在执行命令时抛出缺少的参数异常。这是我的命令[cloudera @ quickstart~] ...

回答 1 投票 0

Spark中的迭代RDD / Dataframe处理

我的ADLA解决方案正在转变为Spark。我正在尝试找到正确的替代U-SQL REDUCE表达式来启用:读取逻辑分区并将信息存储在列表/字典/中...

回答 1 投票 0

Spark SQL Java GenericRowWithSchema无法强制转换为java.lang.String

我有一个应用程序试图从集群目录中读取一组csv并使用Spark将它们写为镶木地板文件。 SparkSession sparkSession = createSession(); JavaRDD ...

回答 2 投票 0

使用DataFrame类型在scala中定义函数

我会有一个简单的问题......我尝试使用一个以数据帧作为参数的函数并返回另一个数据帧:val get_nb_previous_offre:((DataFrame)=>(DataFrame))=(arg1:...

回答 1 投票 0

Scala要么[type1,type2]

下面是使用Either的一个工作示例:val a:[Int,String] = {if(true)Left(42)//返回Int else Right(“Hello,world”)//返回一个String}但是下面没有......

回答 1 投票 1

火花中的Java 8流开销

我不是Spark的专家,我正在使用Spark进行一些计算。 // [userId,lastPurchaseLevel] JavaPairRDD lastPurchaseLevels = levels.groupByKey()...

回答 1 投票 1

Spark Structured Streaming error读取字段'topic_metadata'时出错

我试图运行一个非常简单的例子。我有一个Kafka readStream,它从Kafka主题中读取。我正在运行spark 2.4.0和Kafka 0.10.2 var streamingInputDF = spark.readStream .format(“...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.