pyspark 相关问题

Spark Python API(PySpark)将apache-spark编程模型暴露给Python。

拆分值 - 列名称和其余值

我有一个名为“段”的列表,其中包含列名称列表。每个列值还包含列名称。例如:genre_list 是一列,它可以具有值genre_list_comedy /genre_list_drama_val...

回答 1 投票 0

如何解决pyspark 2.2中的java.sql.SQLException:无法打开到给定数据库的测试连接

我正在 pyspark 中开发 Spark-Flask 应用程序。我正在使用 pyspark 2.20 这是我的代码 进口再 从 tkinter 导入* 导入 json 从 pyspark.sql 导入 HiveContext #来自 pyspark.sql 我...

回答 3 投票 0

如何将 pyarrow.Table 转换为 PySpark Dataframe?

我有一个 pyarrow.Table 对象,我想将其传递给 PySpark (并保存为 Spark 表)。 如何将 pyarrow.Table 转换为 pyspark.sql.DataFrame? 我能看到它的唯一方法是将其转换为熊猫。

回答 1 投票 0

如何优雅地停止 Spark foreachBatch 回调中的线程

我正在使用线程包中的线程来启动执行火花流的函数。我想在满足条件时停止进程函数内的线程。 导入线程 小鬼...

回答 1 投票 0

在 Pyspark 中读取文本文件,分隔符包含在双引号中

我有类似于以下示例的文本文件 我使用编码器 ISO-8859-1 作为分隔符作为 þ 原始数据类似于名称“test.txt” idþ名称þ角色þexpþtask_descþ...

回答 2 投票 0

使用 saveAsPickleFile 和 pyspark 将文本文件保存为二进制格式

我在第二代 Azure Data Lake 中存储了大约 613 个文本文件,例如“/rawdata/no=/.txt”。我想读取所有文本文件并将所有文本文件取消 Base 64,因为它们是 Base64 编码的。但是...

回答 1 投票 0

不能将每个元素放在反引号中

我试图将字典中的每个属性放入一个backstick中以从中创建一个查询,但是我得到的只是它以一个backstick开始并以一个backstick结束,尽管我尽了全力...

回答 1 投票 0

pyspark 数据框到 excel

我有一个来自数据质量结果表的 pyspark 数据框,如下所示。 +--------------------+----------------------------+--------+--- ------------+-------------+--------------------+ |表名 |key_m...

回答 1 投票 0

从嵌套 JSON 创建数据框

我有以下json [{"姓名":"汤姆","年龄":"40","账户":"储蓄","地址": { "city": "纽约&q...

回答 1 投票 0

Palantir Foundry 中的部分输出更新/动态分区覆盖

如果有人可以提供帮助并提供建议,我将非常感激。我的情况有点复杂,但让我们考虑一个更简单的例子。 假设我们有一个大数据集需要

回答 1 投票 0

在pyspark中,dlt.read_stream()和spark.readstream()有什么区别?

我试图理解在pyspark中,dlt.read_stream()和spark.readstream()之间有什么区别?我们可以用spark.readstream()替换dlt.read_stream()而不影响数据吗?

回答 2 投票 0

pyspark.sql 读取 csv 文件时出错:警告 FileStreamSink:假设没有元数据目录。在路径中查找元数据目录时出错

我从 pyspark.sql 开始,尝试使用 jupyter-notebook 读取一个简单的 csv 文件。请参阅下面的代码 从 pyspark.sql 导入 SparkSession 火花 = SparkSession \ .builder \ .

回答 1 投票 0

替换 ADLS gen 2 中 csv 文件中的某些值

我 ADLS gen 2 位置 我有一些 csv 文件。在该 csv 文件中,有一些值类似于 03-01-24 9:47:45 PM,所以我只想要 03-01-24 值。所以我想要一个可以运行的 pyspark 代码

回答 1 投票 0

定义 JSON 结构 - 来自 pyspark Dataframe 值的层次结构

我想知道是否可以在我的数据框中定义 JSON 类型类型值的结构。 所以我有一个数据框,其中每行都有嵌套的 JSON 类型值。如下图所示...

回答 1 投票 0

在databricks中解压多个zip文件

我有一个 zip 文件,其中又包含多个 zip 文件。我尝试在 databricks 笔记本中编写代码来一次解压缩所有这些文件,但遇到了错误。所以我开始解压缩...

回答 1 投票 0

如何在 for 循环中创建具有动态值的 Pandas 数据框

我对数据工程来说确实是个新手,我正在使用Python、PySpark和Pandas来创建数据框架,但很长一段时间以来我一直受阻,无法理解它。这是一个简单的

回答 1 投票 0

AWS Glue -- 将 jar 文件正确传递给 Glue 作业

我有一个正在尝试优化的有效 AWS Glue pyspark 脚本。该脚本读取大型文本 gz 文件,进行一些简单转换,然后按分区将它们加载到 parquet 数据库中。 但是,

回答 1 投票 0

增量中的身份列功能在 Spark SQL 中不起作用(不使用 Databricks)

我目前正在使用没有 Databricks 的 Spark SQL。我正在尝试利用 Spark SQL 中的身份列功能。但这对我不起作用。 可以在没有 Databricks 的情况下使用它吗?我目前...

回答 1 投票 0

在 pyspark 中将许多二进制列折叠为单个列

在我的pyspark工作中,我有一个巨大的数据框架,有超过6000列,格式如下: id_ a1 a2 a3 a4 a5 .... a6250 u1827s 真假真假假......

回答 1 投票 0

Spark中coalesce + orderBy可交换吗?

我想运行以下代码: df = df.coalesce(1).orderBy(["my_col"]) 但它的执行显然会在执行所有排序工作的单个任务上遇到瓶颈。 我知道有可能...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.