spark-dataframe 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。

Spark 1.6:java.lang.IllegalArgumentException:spark.sql.execution.id已设置

当我运行以下代码时,我正在使用spark 1.6并遇到上述问题:// Imports import org.apache.spark.sql.hive.HiveContext import org.apache.spark。{SparkConf,SparkContext} import org .. ..

回答 3 投票 15

如何在SparkR中使用AND和OR编写逻辑列表达式?

我需要根据几个其他列的一些逻辑标准将列添加到SparkR(spark版本2.1.1)数据集。但明显的解决方案(使用&&或||)不起作用,我得到“无效'x'类型...

回答 1 投票 0

随机森林分类器 - 将索引标签标签转换回字符串值

我正在进行文本分类,并使用管道方法构建了一个模型。我正在拟合我使用数据框创建的训练数据,它有“标签”和“......”列。

回答 1 投票 1

pyspark中的Rdd乘法?

我有两个数据框,如下:数据帧1:(df1)+ --- + ---------- + | id | features | + --- + ---------- + | 8 | [5,4,5] | | 9 | [4,5,2] | + --- + ---------- +数据框2:(df2)+ --- + ---------- + | id | ...

回答 1 投票 -1

从行中读取列时出现NullPointerException

当值为null时,以下用于从行读取值的Scala(Spark 1.6)代码失败并显示NullPointerException。 val test = row.getAs [Int](“ColumnName”)。toString虽然这个工作正常...

回答 2 投票 2

Spark中的查找表

我在Spark中有一个数据框,没有明确定义的模式,我想用作查找表。例如,下面的数据框:+ ------------------------------------------ --------------------------...

回答 1 投票 2

获取分组PySpark数据框的第一行(或最后一行)[重复]

数据只是一组id及其登录日期,如下所示:data = pd.DataFrame({'id':['a','b','c','b','c'],'date ':['2017/12/10','2017/12/10','2017/12/11','...

回答 2 投票 2

如何在R中选择具有公共标记的所有列?

我有一个包含数百列的SparkDataFrame,我想只选择那些带有“time”字样的列。而不是做这样的事情必须写出列的所有名称......

回答 1 投票 0

使用Spark Testing Base库创建Spark DataFrame的最佳方法是什么?

我正在为一个Spark方法编写单元测试,该方法将多个数据帧作为输入参数并返回一个数据帧。 spark方法的代码如下所示:class processor {def ...

回答 1 投票 0

命名Spark上的转换并在“解释计划”和“Spark UI”中观察它们

在Spark中,我们可以通过setName命名RDD并在Spark UI上查看它们。当我们使用Dataset / DataFrame API时,有什么办法可以做同样的事情吗?我们可以命名转换吗?我们可以在...中看到这个名字

回答 1 投票 0

通过Spark中不同列的值索引映射

我有一个具有以下模式的数据帧:| - A:map(nullable = true)| | - key:string | | - value:array(valueContainsNull = true)| | | - element:struct(containsNull = true)| ...

回答 1 投票 0

计算向量与K均值聚类中心的距离

我有训练数据集,我在K = 4上运行了K-means,得到了四个集群中心。对于新的数据点,我不仅想知道预测的集群,还想知道它的距离......

回答 2 投票 2

读隐含小数点的固定长度文件?

假设我有一个这样的数据文件:foo12345 bar45612我想将其解析为:+ ---- + ------- + | ID | AMT | + ---- + ------- + | FOO | 123.45 | |酒吧| 456.12 | + ---- + ------- +这就是说,我需要......

回答 1 投票 0

Pyspark - 根据语言过滤行

这个问题与Pyspark有关。我正在读一个列数很少的TSV文件。一个特定的列是注释列。我的任务是根据语言过滤掉行。例如,如果......

回答 2 投票 -1

rfModel.toDebugString出错

我正在使用带有Spark 2.2和Python 2.7.11的pyspark,我试图使用.toDebugString方法从随机森林分类器的决策树中提取规则。我成功了但是......

回答 1 投票 1

如何从多个文件夹读取到单个Dataframe

我在每天创建的文件夹中有数据。例如:以下是AWS S3中全年(2017年)的数据文件夹格式,即365个文件夹student_id = 20170415 student_id = 20170416 ...

回答 1 投票 0

在将spark数据帧写入csv时,在值内部转义逗号

我正在使用df.write(“csv”)在Apache Spark中编写我的值集。默认情况下,它会写入如下值:1,abcded,“qwe,rr”,即在值内部有逗号时用双引号括起来。 ...

回答 2 投票 3

Spark数据帧:使用第二个数据帧查找数组的元素

我有一个spark数据帧,其中包含每行的id列表:ident list_of_ids 1 [3,4,5] 2 [5,6] 3 [2] 4 []以及将id映射到某些文本描述的第二个spark数据帧:...

回答 2 投票 2

如何根据Pyspark中数据框中的条件设置新的列表值?

我有一个像下面这样的DataFrame。 + --- + ------------------------------------------ + | id |特征| + --- + ------------------------------------------ + | 1 | [6.629056,0 ....

回答 2 投票 0

Spark写镶木地板不写任何文件,只有_SUCCESS

该应用程序包括val stats = sqlContext.sql(“select id,n from myTable”)stats.write.parquet(“myTable.parquet”)这创建了dir myTable.parquet,除了空的内容之外没有其他内容...

回答 2 投票 3

© www.soinside.com 2019 - 2024. All rights reserved.