pyspark-sql 相关问题

将此标记用于与PySpark中的SQL模块相关的问题。

使用Pyspark更新“数据框”中的分钟和秒值

我有DF,如下所示:名称开始时间结束时间user1 2019-08-02 03:34:45 2019-08-02 03:52:03 user2 2019-08-13 13:34:10 2019-08-13 14: 02:10我想检查结束时间...

回答 1 投票 0

如何在pyspark 2.2和python 2.7中使用_repr_html _

我在终端上运行以下行,但出现错误,但在jupyter笔记本电脑中工作正常。 df._repr_html_()追溯(最近一次调用为最新):文件“”,行1,在文件“ / usr / lib / spark / ...

回答 1 投票 0

检查电子邮件列中是否包含@和。使用pyspark

我有一个包含8M数据的数据框。有一个列名称EMAIL包含我必须检查的电子邮件地址:电子邮件值必须为_@_._形式。电子邮件值只能包含字母数字...

回答 2 投票 0

pyspark数据框,使用sql获取前5行

我正在尝试根据rate_increase获取每个地区的前5个项目。我正在尝试使用spark.sql,如下所示:输入:地区项目rate_increase(%)Arba线圈500 Arba ...

回答 2 投票 0

Spark SQL到熊猫发行

我在以下代码中出错:txn = spark.sql('从临时视图中选择*'。toPandas()我得到Py4JavaError:调用o420.collectToPython时发生错误。 :org.apache.spark ....

回答 1 投票 0

如何在创建pyspark数据框时将小数作为值传递?

我想创建一个虚拟数据帧,其中一行包含十进制值。但是这样做时,它将自动将其转换为双精度型。我希望数据类型为Decimal(18,2)或其他。dummy_row = ...

回答 1 投票 0

更改表时如何解决Spark sql错误不匹配的输入

我正在尝试使用以下sql命令从配置单元表中删除一些分区:alter table db.t1如果存在分区(日期更改...],则将其删除]

回答 1 投票 0

如何从Python有效地动态注册Spark UDF

我需要实现一个动态的“自带代码”功能,以注册从我自己的代码外部创建的UDF。这是容器化的,入口点是标准的python解释器(...

回答 1 投票 1

无法在Spark独立集群上完成Spark作业

我是个非常新手,只花了一周的时间。这是我在pyspark中的代码,该代码在具有单个主设备和两个从设备的独立Spark集群上运行。试图运行作业时会读取01。...

回答 1 投票 -1

Pyspark-遍历字符串以提取多个键值对

我目前有一个用&号分隔的文本字符串,我需要使用PySpark进行解析以将键/值对提取到数组/字典中。我可以使用大多数标签执行此操作...

回答 1 投票 2

Pyspark:有一种方法可以通过将多行合并为一个来创建摘要表(或数据框)?

我已经通过解析Spark中的多个CSV创建了以下数据框。我需要对每个城市每个SKU每年每个月的平均销售额进行分组。 ... [

回答 1 投票 0

查找连续行的子集的最小值和最大值

下面是表格CID,PID,CHECK_IN,Check_out 1,p1,2020-01-01,2020-01-09 1,p1,2020-01-09,2020-01-16 1,p1,2020-01 -16,2020-01-18 1,p1,2020-02-01,2020-02-09 ----与ro 1,p1,2020-02-06以下重叠,...

回答 1 投票 -1

在pyspark数据框中加载较少的列是否有任何性能(或其他优点)?

在pyspark数据框中加载较少的列是否有任何性能(或其他)好处?基本上,我的用例是我有一个大表(很多行,很多列)要以...

回答 1 投票 0

Databricks文件系统下的文件路径/名称

我使用glob函数glob在常规Python下获取目录/文件名。例如:glob.glob(“ / dbfs / mnt /.../*/ A * .txt”)但是,仅在DBFS下实现时,完整路径名以/ mnt开头。 ...

回答 1 投票 0

[使用Python Spark从Hadoop表中提取Json对象的所有键

我有一个名为table_with_json_string的Hadoop表,例如:+ ----------------------------------- + --- ------------------------------ + | creation_date | json_string_colum | ...

回答 1 投票 2

使用自定义模式读取数据

我有没有标题的管道分隔文件,并且想读入Spark。数据看起来像:100005072756 | R | OTHER | 8 | 125000 | 360 | 11/2000 | 01/2001 | 95 | 95 | 1 | 29 | 694 | N | P | SF | 1 | P | MI | 492 | 30 | FRM || 1 | N ...

回答 2 投票 1

比较并删除Spark / PySpark中不一致数组的数据框列中的元素

我是Spark的新手,我无法为自己的问题找到解决方案,我们非常感谢您提供任何建议或帮助。我有一个带有两个数组列的Pyspark.sql.dataframe,其中包含字符串。两列...

回答 1 投票 0

我如何为以下步骤编写等效的pyspark代码?

X_train [var] = np.where(X_train [var] .isin(frequent_ls),X_train [var],'Rare'))如何用pyspark sql函数替换numpy?

回答 1 投票 0

Spark sql regexp_extract选择数字错误

StackOverflow的大家好,我试图从门牌号码中提取一个号码,但由于某种原因,我无法。我有一个尝试从Teradata转换为pyspark的工作代码:--Original ...

回答 2 投票 0

SparkSQL查询数据框

我将一个熊猫数据帧转换为spark sql表。我是SQL新手,想从表中选择键“代码”。查询sqlContext.sql(“”“从psyc”“选择SELECT分类”“”。show()...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.