pyspark-sql 相关问题

将此标记用于与PySpark中的SQL模块相关的问题。

在PyCharm IDE中添加Spark包

我已经设置了我的PyCharm链接到我的本地spark安装，按照此链接从pyspark导入SparkContext，SQLContext，SparkConf从运营商导入添加conf = SparkConf（）conf ....

python pycharm pyspark pyspark-sql

回答 1 投票 1

pyspark，比较数据帧中的两行

我试图将数据帧中的一行与下一行进行比较以查看时间戳的差异。目前数据看起来像：itemid | eventid |时间戳---------------------------- 134 | ...

python apache-spark pyspark apache-spark-sql pyspark-sql

回答 2 投票 4

如何根据Pyspark中数据框中的条件设置新的列表值？

我有一个像下面这样的DataFrame。 + --- + ------------------------------------------ + | id |特征| + --- + ------------------------------------------ + | 1 | [6.629056,0 ....

apache-spark pyspark apache-spark-sql spark-dataframe pyspark-sql

回答 2 投票 0

如何从Pyspark的DataFrame中获取数字列并计算z得分

sparkSession = SparkSession.builder.appName（“example”）。getOrCreate（）df = sparkSession.read.json（'hdfs：// localhost / abc / zscore /'）我能够从hdfs读取数据，我想要计算......

pyspark hdfs pyspark-sql

回答 1 投票 0

而不是使用pyspark获取多个表，我们如何使用jdbc执行连接查询

customer - c_id，c_name，c_address product - p_id，p_name，price supplier - s_id，s_name，s_address orders - o_id，c_id，p_id，quantity，time SELECT o.o_id，c.c_id，c.c_name，p ....

pyspark pyspark-sql

回答 1 投票 2

如果在pyspark数据帧中后续连续5'0，则获得第一个'1'条件

我有一个pyspark数据框，在user_id上每个月的事件列为0和1。我需要选择1的事件，它必须具有完全透明的行为5 0。如果这种情况......

python pandas pyspark spark-dataframe pyspark-sql

回答 1 投票 0

迭代列表的每个元素并传递给函数

我想迭代列表中的每个元素并将其传递给函数。这是我尝试但低于错误。 import call_functions newObject = call_functions.call_functions_class（）size_DF ...

python apache-spark pyspark pyspark-sql databricks

回答 1 投票 0

在pyspark中替换循环到并行进程

我在我的脚本中使用for循环来为size_DF（数据框）的每个元素调用一个函数，但这需要花费很多时间。我尝试通过地图删除for循环，但我没有得到任何输出。 ...

python apache-spark pyspark pyspark-sql

回答 1 投票 0

在PySpark 2上加入DataFrame时出错

我在使用Spark 2.3.1和PySpark时遇到了麻烦。 Firstable我试图做很多不同的操作，如连接和列选择，最后收集它或将其保存到csv文件但是......

apache-spark pyspark pyspark-sql

回答 1 投票 0

使用字符串表达式列表作为连接条件

我有一个列表，其中包含字符串作为其元素。 list_elem = ['df1.x1 == df2.p1'，'df1.x2 == df2.p2']我想将该列表更改为这样的内容。 list_new = [df1.x1 == df2.p1，df1.x2 == ...

apache-spark pyspark apache-spark-sql pyspark-sql

回答 1 投票 1

如何在Spark提交中使用s3a和Apache spark 2.2（hadoop 2.8）？

我正在尝试使用使用hadoop 2.8版本构建的spark 2.2.0从spark访问S3数据，我使用的是/jars/hadoop-aws-2.8.3.jar,/ jars / aws-java-sdk-s3- 1.10.6.jar和/ jars / aws-java-sdk -...

scala apache-spark hadoop amazon-s3 pyspark-sql

回答 1 投票 0

如何在pyspark中对数组中的标签进行编码

例如，我有名称中具有分类功能的DataFrame：来自pyspark.sql import SparkSession spark = SparkSession.builder.master（“local”）。appName（“example”）。config（“spark.some.config ....

python apache-spark pyspark pyspark-sql

回答 2 投票 2

SparkSQL在第一次爆炸后第二次爆炸

我在第一次爆炸后使用以下命令进行第二次爆炸：myExplode = sqlContext.sql（“从myTable中选择爆炸（名称）作为name_x”）myExplode = sqlContext.sql（“select explode（...

apache-spark dataframe apache-spark-sql pyspark-sql

回答 1 投票 0

PySpark列表中的项目

以下是我正在尝试实现的操作：types = [“200”，“300”] def Count（ID）：cnd = F.when（（** F.col（“type”）类型**），1）.otherwise（F.lit（0））返回F.sum（cnd）.alias（“CountTypes”）...

apache-spark pyspark pyspark-sql

回答 1 投票 1

转发新行填写缺失日期的帐户

我目前有一个数据集，按变量“聚合器”分组为每小时增量。这个小时数据中存在差距，我理想的做法是向前填充前一行的行...