pyspark-sql 相关问题

下面是表格CID，PID，CHECK_IN，Check_out 1，p1,2020-01-01,2020-01-09 1，p1,2020-01-09,2020-01-16 1，p1,2020-01 -16,2020-01-18 1，p1,2020-02-01,2020-02-09 ----与ro 1，p1,2020-02-06以下重叠，...

sql apache-spark hive apache-spark-sql pyspark-sql

回答 1 投票 -1

在pyspark数据框中加载较少的列是否有任何性能（或其他优点）？

在pyspark数据框中加载较少的列是否有任何性能（或其他）好处？基本上，我的用例是我有一个大表（很多行，很多列）要以...

apache-spark pyspark-sql

回答 1 投票 0

Databricks文件系统下的文件路径/名称

我使用glob函数glob在常规Python下获取目录/文件名。例如：glob.glob（“ / dbfs / mnt /.../*/ A * .txt”）但是，仅在DBFS下实现时，完整路径名以/ mnt开头。 ...

python pyspark pyspark-sql

回答 1 投票 0

[使用Python Spark从Hadoop表中提取Json对象的所有键

我有一个名为table_with_json_string的Hadoop表，例如：+ ----------------------------------- + --- ------------------------------ + | creation_date | json_string_colum | ...

python hadoop pyspark apache-spark-sql pyspark-sql

回答 1 投票 2

使用自定义模式读取数据

我有没有标题的管道分隔文件，并且想读入Spark。数据看起来像：100005072756 | R | OTHER | 8 | 125000 | 360 | 11/2000 | 01/2001 | 95 | 95 | 1 | 29 | 694 | N | P | SF | 1 | P | MI | 492 | 30 | FRM || 1 | N ...

apache-spark apache-spark-sql pyspark-sql

回答 2 投票 1

比较并删除Spark / PySpark中不一致数组的数据框列中的元素

我是Spark的新手，我无法为自己的问题找到解决方案，我们非常感谢您提供任何建议或帮助。我有一个带有两个数组列的Pyspark.sql.dataframe，其中包含字符串。两列...

python pyspark apache-spark-sql pyspark-sql higher-order-functions

回答 1 投票 0

我如何为以下步骤编写等效的pyspark代码？

X_train [var] = np.where（X_train [var] .isin（frequent_ls），X_train [var]，'Rare'））如何用pyspark sql函数替换numpy？

python pyspark pyspark-sql

回答 1 投票 0

Spark sql regexp_extract选择数字错误

StackOverflow的大家好，我试图从门牌号码中提取一个号码，但由于某种原因，我无法。我有一个尝试从Teradata转换为pyspark的工作代码：--Original ...

regex pyspark pyspark-sql

回答 2 投票 0

SparkSQL查询数据框

我将一个熊猫数据帧转换为spark sql表。我是SQL新手，想从表中选择键“代码”。查询sqlContext.sql（“”“从psyc”“选择SELECT分类”“”。show（）...

sql python-3.x pyspark apache-spark-sql pyspark-sql

回答 2 投票 0

pyspark-sql 相关问题

最新问题