spark-dataframe 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。

从RDD创建DF时pyspark错误:类型错误:无法推断架构类型:

我使用下面的代码我RDD到数据帧转换:time_df = time_rdd.toDF([“my_time”]),并收到以下错误:TypeErrorTraceback(最新最后调用)

回答 2 投票 1

如何写斯卡拉单元测试来比较火花dataframes?

目的 - 如果由火花产生的数据帧和手动创建的数据帧是相同的检查。此前执行其工作 - 如果(da.except(DS).Count中()= 0 && ds.except(DA)....!

回答 3 投票 3

Spark Dataframe验证实木复合地板写入(标量)的列名称

我正在使用从JSON事件流转换而来的数据帧处理事件,这些事件最终以Parquet格式写出。但是,某些JSON事件在键中包含空格...

回答 4 投票 7

PySpark Dataframe递归列

我在我的算法中计算了这个PySpark Dataframe:+ ------ + -------------------- + | A | b | + ------ + -------------------- + | 1 | 1.000540895285929161 | | 2 | 1 ....

回答 1 投票 1

Pyspark dataframe LIKE运算符

Pyspark for LIKE运算符的等效项是什么?例如,我想这样做:SELECT * FROM table WHERE column LIKE“ * somestring *”;寻找类似这样的简单内容(但这不是...

回答 8 投票 14

如何更新Apache Spark DataFrame中的行/列值?

嗨,我有一个有序的Spark DataFrame,我想在使用下面的代码迭代它时改变几行,但似乎没有任何方法来更新Row对象orderedDataFrame.foreach(new ...

回答 2 投票 6

如何在一列pyspark中删除带空值的行

我有一个数据帧,我想在其中一列(字符串)中删除所有具有NULL值的行。我可以很容易地计算出来:df.filter(df.col_X.isNull())。count()我试过把它丢掉......

回答 4 投票 7

如何在spark SQL中为表添加增量列ID

我正在研究一个spark mllib算法。我拥有的数据集是公司“:”XXXX“,”CurrentTitle“:”XYZ“,”Edu_Title“:”ABC“,”Exp_mnth“:.(有更多类似于这些的值)我试图... 。

回答 1 投票 6

如何强制Spark来内联评估DataFrame操作

根据Spark RDD文档:Spark中的所有转换都是懒惰的,因为它们不会立即计算它们的结果......这种设计使Spark能够更有效地运行。有时候......

回答 2 投票 6

Spark 2.2非法模式组件:XXX java.lang.IllegalArgumentException:非法模式组件:XXX

我正在尝试从Spark 2.1升级到2.2。当我尝试将数据帧读取或写入位置(CSV或JSON)时,出现此错误:非法模式组件:XXX java.lang ....

回答 4 投票 8

如何通过pandas或spark数据帧删除所有行中具有相同值的列?

假设我的数据类似于以下内容:index id name value value2 value3 data1 val5 0 345 name1 1 99 23 3 66 1 12 name2 1 99 23 2 66 ...

回答 2 投票 20

spark在elasticsearch中写入时间戳

我正在从jdbc源读取数据并将其直接写入弹性搜索索引。当我查询ES中的数据时,我看到我的数据帧中的所有时间戳字段都转换为长时间查看下面的代码...

回答 3 投票 2

Pyspark - 将list / tuple传递给toDF函数

我有一个数据框,并希望通过传递列表中的列名称使用toDF重命名它,这里列列表是动态的,当我这样做得到错误,我怎么能实现这一点? >>> df ....

回答 2 投票 5

从Apache Spark中的模式获取数据类型列表

我在Spark-Python中有以下代码来从DataFrame的模式中获取名称列表,这可以正常工作,但是如何获取数据类型列表? columnNames = df.schema.names For ...

回答 3 投票 14

将csv读入spark sql数据帧时删除列的常用字符串

我使用databricks spark-csv模块作为sqlContext读入csv文件。我自定义了我的架构,如下例所示。但是,我在我的数据中注意到第3列,这是......

回答 1 投票 1

Spark SQL中的数组交集

我有一个名为writer的数组类型列的表,其值为array [value1,value2],array [value2,value3] ....等。我正在进行自联接以获得具有共同值的结果...

回答 2 投票 2

在Spark sql中按二进制类型过滤

我有一个字段代表我的架构中的IP地址。我想使用二进制类型来存储数据。我想象的方式是,如果我的IP是:50.100.150.200我将它保存为[50,100,150,200] ...

回答 2 投票 0

无法将Spark SQL DataFrame写入S3

我已经在EC2上安装了spark 2.0并且我使用Scala来使用Scala从DB2中检索记录并且我想写入S3,在那里我将访问密钥传递给Spark上下文。以下是我...

回答 3 投票 1

调用z时发生错误:org.apache.spark.api.python.PythonRDD.collectAndServe

我是新手,在将.csv文件转换为数据帧时遇到错误。我使用pyspark_csv模块进行转换但是给出了错误,这里是错误的堆栈跟踪,可以任何一个...

回答 1 投票 0

LazyStruct:在行的末尾检测到额外的字节!忽略类似的问题

我正在开发Hive(HDFS)中的SQL spark读取表中的代码。问题是,当我在spark的shell中加载我的代码时,递归地传递以下消息:“WARN LazyStruct:额外的字节......

回答 1 投票 4

© www.soinside.com 2019 - 2024. All rights reserved.