将此标记用于与PySpark中的SQL模块相关的问题。
我有DF,如下所示:名称开始时间结束时间user1 2019-08-02 03:34:45 2019-08-02 03:52:03 user2 2019-08-13 13:34:10 2019-08-13 14: 02:10我想检查结束时间...
如何在pyspark 2.2和python 2.7中使用_repr_html _
我在终端上运行以下行,但出现错误,但在jupyter笔记本电脑中工作正常。 df._repr_html_()追溯(最近一次调用为最新):文件“”,行1,在文件“ / usr / lib / spark / ...
我有一个包含8M数据的数据框。有一个列名称EMAIL包含我必须检查的电子邮件地址:电子邮件值必须为_@_._形式。电子邮件值只能包含字母数字...
我正在尝试根据rate_increase获取每个地区的前5个项目。我正在尝试使用spark.sql,如下所示:输入:地区项目rate_increase(%)Arba线圈500 Arba ...
我在以下代码中出错:txn = spark.sql('从临时视图中选择*'。toPandas()我得到Py4JavaError:调用o420.collectToPython时发生错误。 :org.apache.spark ....
我想创建一个虚拟数据帧,其中一行包含十进制值。但是这样做时,它将自动将其转换为双精度型。我希望数据类型为Decimal(18,2)或其他。dummy_row = ...
我正在尝试使用以下sql命令从配置单元表中删除一些分区:alter table db.t1如果存在分区(日期更改...],则将其删除]
我需要实现一个动态的“自带代码”功能,以注册从我自己的代码外部创建的UDF。这是容器化的,入口点是标准的python解释器(...
我是个非常新手,只花了一周的时间。这是我在pyspark中的代码,该代码在具有单个主设备和两个从设备的独立Spark集群上运行。试图运行作业时会读取01。...
我目前有一个用&号分隔的文本字符串,我需要使用PySpark进行解析以将键/值对提取到数组/字典中。我可以使用大多数标签执行此操作...
Pyspark:有一种方法可以通过将多行合并为一个来创建摘要表(或数据框)?
我已经通过解析Spark中的多个CSV创建了以下数据框。我需要对每个城市每个SKU每年每个月的平均销售额进行分组。 ... [
下面是表格CID,PID,CHECK_IN,Check_out 1,p1,2020-01-01,2020-01-09 1,p1,2020-01-09,2020-01-16 1,p1,2020-01 -16,2020-01-18 1,p1,2020-02-01,2020-02-09 ----与ro 1,p1,2020-02-06以下重叠,...
在pyspark数据框中加载较少的列是否有任何性能(或其他优点)?
在pyspark数据框中加载较少的列是否有任何性能(或其他)好处?基本上,我的用例是我有一个大表(很多行,很多列)要以...
我使用glob函数glob在常规Python下获取目录/文件名。例如:glob.glob(“ / dbfs / mnt /.../*/ A * .txt”)但是,仅在DBFS下实现时,完整路径名以/ mnt开头。 ...
[使用Python Spark从Hadoop表中提取Json对象的所有键
我有一个名为table_with_json_string的Hadoop表,例如:+ ----------------------------------- + --- ------------------------------ + | creation_date | json_string_colum | ...
我有没有标题的管道分隔文件,并且想读入Spark。数据看起来像:100005072756 | R | OTHER | 8 | 125000 | 360 | 11/2000 | 01/2001 | 95 | 95 | 1 | 29 | 694 | N | P | SF | 1 | P | MI | 492 | 30 | FRM || 1 | N ...
比较并删除Spark / PySpark中不一致数组的数据框列中的元素
我是Spark的新手,我无法为自己的问题找到解决方案,我们非常感谢您提供任何建议或帮助。我有一个带有两个数组列的Pyspark.sql.dataframe,其中包含字符串。两列...
X_train [var] = np.where(X_train [var] .isin(frequent_ls),X_train [var],'Rare'))如何用pyspark sql函数替换numpy?
Spark sql regexp_extract选择数字错误
StackOverflow的大家好,我试图从门牌号码中提取一个号码,但由于某种原因,我无法。我有一个尝试从Teradata转换为pyspark的工作代码:--Original ...
我将一个熊猫数据帧转换为spark sql表。我是SQL新手,想从表中选择键“代码”。查询sqlContext.sql(“”“从psyc”“选择SELECT分类”“”。show()...