pyspark-sql 相关问题

在pysparkSQL中，我有一个名为bmd2的DataFrame，如下所示：DataFrame [genres：string，id：int，tagline：string，title：string，vote_average：double，vote_count：int]数据bmd2 ['genres']去... 。

python apache-spark pyspark apache-spark-sql pyspark-sql

回答 2 投票 0

从pySpark获取新的行id SQL写入远程mysql db（JDBC）

我正在使用pyspark-sql使用JDBC在远程mysql数据库中创建行。我有两个表，parent_table（id，value）和child_table（id，value，parent_id），所以parent_id的每一行可能有多个......

mysql jdbc pyspark pyspark-sql

回答 1 投票 0

PySpark数据帧：在自联接后使用重复的列名

我有一个像这样的数据框（灵感来自这个问题略有不同的设置）：df3 = hive_context.createDataFrame（[Row（a = 107831，f = 3），Row（a = 107531，f = 2），Row（a = 125231，f = 2）]）...

pyspark pyspark-sql

回答 1 投票 1

Spark从PostgreSQL表读取单列

问题有没有办法从（PostgreSQL）数据库表中加载特定列作为Spark DataFrame？以下是我尝试过的。预期的行为：下面的代码应该只导致......

apache-spark pyspark apache-spark-sql pyspark-sql

回答 1 投票 1

使用逗号的PySpark值不包含逗号？（试图转换为ArrayType（StringType（）））

我正在运行PySpark v1.6.0，我有一列字符串值（根据.printSchema），但是当我尝试根据列值以“[”开头的情况过滤行时...

python apache-spark pyspark apache-spark-sql pyspark-sql

回答 1 投票 1

将PySpark Dataframe作为批处理写入SQL DB

我在PySpark中有一个数据框（使用Databricks），我想将这个数据帧写入SQL DB（在我的例子中是Azure SQL数据库）。这工作正常，但似乎这会逐行触发......

apache-spark pyspark apache-spark-sql pyspark-sql databricks

回答 1 投票 3

Pyspark（Dataframes）按行读取文件（将行转换为字符串）

我需要明确地读取文件并将每行分成单词并对单词执行操作。我怎么做？我写了下面的代码：logFile =“/ home / hadoop / spark2.3.1-bin-hadoop2.7 / README.md”...

apache-spark pyspark pyspark-sql

回答 1 投票 0

在pyspark数据帧中删除连续的重复项

有一个数据框，如：## + --- + --- + ## | ID |数字| ## + --- + --- + ## | 2 | 3.0 | ## | 3 | 6.0 | ## | 3 | 2.0 | ## | 3 | 1.0 | ## | 2 | 9.0 | ## | 4 | 7.0 | ## + --- + --- +我希望删除连续...

apache-spark pyspark pyspark-sql

回答 1 投票 2

通过`pyspark.sql.functions.greatest`函数对缺失数据进行不同的处理

我正在使用Spark 2.2.0，并希望了解最大功能如何处理丢失的数据。然而，我有两个矛盾的情况。导入pandas为pd导入pyspark.sql.functions为F ...

pandas pyspark-sql

回答 1 投票 0

具有混合值类型的MapType的PySpark UDF

我有一个JSON输入，如{“1”：{“id”：1，“value”：5}，“2”：{“id”：2，“list”：{“10”：{“id” ：10}，......

pyspark pyspark-sql

回答 2 投票 1

sql使用spark sql dataframe查询分区

我有这样的SQL查询：WITH cte AS（SELECT *，ROW_NUMBER（）OVER（PARTITION BY [date] ORDER BY TradedVolumSum DESC）AS rn FROM tempTrades）SELECT * FROM cte WHERE rn = 1 and I ...

sql apache-spark-sql bigdata pyspark-sql with-statement

回答 1 投票 1

pyspark选择具有更多匹配列字段的特定行

我有下面的示例表（我有100万个这样的行），我需要根据以下条件选择新数据帧的行，我必须选择参加更多课程的前1000名学生...

apache-spark pyspark pyspark-sql

回答 1 投票 0

PySpark sql每天比较记录并报告差异

所以我遇到的问题是我有这个数据集：它表明企业在特定的日子里开展业务。我想要实现的是报告在哪一天添加了哪些商家。也许 ...

python sql dataframe pyspark pyspark-sql

回答 1 投票 1

Pyspark圆形功能的麻烦

在pyspark中使用round函数时遇到一些麻烦 - 我有下面的代码块，我试图将new_bid列舍入到2个小数位，并将列重命名为bid ...