Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。
我正在将一些机器学习算法(如线性回归,Logistic回归和Naive Bayes)应用于某些数据,但我试图避免使用RDD并开始使用DataFrame,因为......
我有一个列表,其中包含字符串作为其元素。 list_elem = ['df1.x1 == df2.p1','df1.x2 == df2.p2']我想将该列表更改为这样的内容。 list_new = [df1.x1 == df2.p1,df1.x2 == ...
如何在Spark提交中使用s3a和Apache spark 2.2(hadoop 2.8)?
我正在尝试使用使用hadoop 2.8版本构建的spark 2.2.0从spark访问S3数据,我使用的是/jars/hadoop-aws-2.8.3.jar,/ jars / aws-java-sdk-s3- 1.10.6.jar和/ jars / aws-java-sdk -...
我有一个要求,我需要从kafka主题中读取消息,对数据集进行查找,然后根据查找数据的结果发送消息。以下示例...
当数据集在sparklyr中时,为什么我不能对dplyr使用双冒号运算符?
一个可重复的例子(改编自@ forestfanjoe的答案):library(dplyr)library(sparklyr)sc
无法使用Spark Structured Streaming在Parquet文件中写入数据
我有一个Spark结构流:val df = spark .readStream .format(“kafka”)。option(“kafka.bootstrap.servers”,“localhost:9092”)。option(“startingOffsets”,“earliest”).. 。
什么是“推荐”的方式来处理每个消息,因为它来自结构化流媒体管道(我在Spark 2.1.1上,源是Kafka 0.10.2.1)?到目前为止,我正在寻找数据帧....
我基本上是从Kafka源代码中读取,并将每条消息转发给我的foreach处理器(感谢Jacek的简单示例页面)。如果这确实有效,我将实际执行......
如何使用Spark Structured Streaming连续监视目录
我希望spark能够持续监视目录并在文件出现在该目录中时使用spark.readStream读取CSV文件。请不要包含Spark Streaming的解决方案。一世 ...
我有一个流数据帧有三列时间col1,col2。 + ----------------------- + ------------------- + ----- --------------- + | time | col1 | col2 | ...
pyspark.sql.utils.AnalysisException:u'无法推断Parquet的模式。必须手动指定。
这与上面帖子中给出的答案有不同我得到的错误是读取pyspark.sql.utils.AnalysisException:u'无法推断Parquet的模式。必须手动指定....
我有一个在EMR上运行的火花流工作,从Kafka读取消息并输出到S3。我使用emr-5.17.0,即hadoop 2.8.4,spark 2.3.1问题是shuffle文件正在积累:/ ...
Spark SCALA - 连接两个数据帧,其中一个数据帧中的连接值位于第二个数据帧中的两个字段之间
我有两个数据帧(删除与问题无关的字段):df1:org.apache.spark.sql.DataFrame = [rawValue:bigint] df2:org.apache.spark.sql.DataFrame = [startLong:bigint ,...
使用cloudera中sqoop命令中的lastmodified和--merget-key选项进行表导入。它在执行命令时抛出缺少的参数异常。这是我的命令[cloudera @ quickstart~] ...
我的ADLA解决方案正在转变为Spark。我正在尝试找到正确的替代U-SQL REDUCE表达式来启用:读取逻辑分区并将信息存储在列表/字典/中...
Spark SQL Java GenericRowWithSchema无法强制转换为java.lang.String
我有一个应用程序试图从集群目录中读取一组csv并使用Spark将它们写为镶木地板文件。 SparkSession sparkSession = createSession(); JavaRDD ...
我会有一个简单的问题......我尝试使用一个以数据帧作为参数的函数并返回另一个数据帧:val get_nb_previous_offre:((DataFrame)=>(DataFrame))=(arg1:...
下面是使用Either的一个工作示例:val a:[Int,String] = {if(true)Left(42)//返回Int else Right(“Hello,world”)//返回一个String}但是下面没有......
我不是Spark的专家,我正在使用Spark进行一些计算。 // [userId,lastPurchaseLevel] JavaPairRDD lastPurchaseLevels = levels.groupByKey()...
Spark Structured Streaming error读取字段'topic_metadata'时出错
我试图运行一个非常简单的例子。我有一个Kafka readStream,它从Kafka主题中读取。我正在运行spark 2.4.0和Kafka 0.10.2 var streamingInputDF = spark.readStream .format(“...