Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。
从这篇博客中,我了解到每个执行器内都有保留的内存,相当于恒定的 300MB。在 Spark 1.6 的文章中,这个保留内存的值据说是可变的......
我正在寻找一种在 pyspark 字符串中以特定字符数插入特殊字符的方法: “M202876QC0581AADMM01” 到 “M-202876-QC0581-AA-DMM01” (1-6-6-2-) 插入
存在 Spark Dataframes Write Option 可能值列表吗?
我是 Spark 的初学者,当我使用“Dataframe.write”时,我试图找到一个包含“.option”可能的键/值的列表。 所以我需要一个包含我可以在“.
Pyspark 在连接后选择会引起歧义,但列应该只出现在其中一个数据帧中
我正在对来自同一原始数据帧的两个数据帧进行连接。然后,这些会遭受一些聚合,并且除了用于连接的列之外,所选的列不相等。 ...
我想知道是否可以申请。 例如我有这张表: new_feed_dt regex_to_apply expr_to_apply 053021 | _(\d+) |日期格式(to_date(new_feed_dt,'
PYSPARK - 如何在 SQLCONTEXT 结果中获取唯一值
我试图在列表中返回此 Sqlcontext 结果,但返回很多东西,而我只想要值。 Pyspark代码: rdd = sqlcontext.sql('从 Dicionario 中选择 *,其中 CD_PROC="{}"'.format(proce...
使用 parquet 格式附加 Apache Spark 中列的描述
我读了一张镶木地板: df = Spark.read.parquet(文件名) 并获取列: df.列 并返回列的列表 ['col1', 'col2', 'col3'] 我读到镶木地板格式能够...
有没有办法在describe()函数中设置小数点?我希望结果只显示 2 位小数。
我有一个数据框 日期、字符串、字符串 我想选择某个时间段之前的日期。我尝试过以下方法但没有成功 数据.过滤器(数据(“日期”)< new java.sql.Date(format.parse(...
Pyspark saveasTable 在覆盖 pyspark 数据帧时出现错误
在我的 Pyspark 代码中,我执行了 10 多个连接操作以及其间的多个 groupBy。我想避免使用大型 DAG,因此我决定将数据帧保存为表格以避免重新计算...
当 pyspark 中的值低于最小阈值时,如何找到最大和最小时间戳?
我有一张如下表- 时间是秒 价值 1 4.5 2 4 3 3 4 5 5 6 6 7 7 6 8 5 9 4.5 10 4.2 11 3 12 3.5 我想找到该值低于 5 时的最短时间和最长时间。 预计...
错误:在 azuredatabricks 免费试用版上创建数据框并在 ADLS 中另存为表时找不到父外部位置
使用我的免费试用 Azure 帐户,我尝试将 csv 文件复制到 ADLS Gen2 并将数据帧保存为 adls silver 层中的表。 代码: DForderItems = Spark.read.csv("abfss://bronze@ca...
我想为 DataSet 中的 Row 类型编写一个编码器,用于我正在执行的映射操作。本质上,我不明白如何编写编码器。 下面是一个地图操作的例子: 在...
我有一个存储在 Azure 存储中的现有数据帧。 如何在其上启用液体聚类? 我尝试做这样的事情: df.write.format("delta") \ .option("覆盖Schema...
Spark HashAggregate 在 SparkSQL 中交换列
我有一个 AWS Glue 作业,它使用 Spark SQL 连接两个数据帧。该作业连续 6 个月每周正确运行,没有出现任何问题,然后连接突然开始交换结果中的值
如何将 Dataframe 类型的函数参数传递给 SparkSQL 查询
我有一个包含在函数内的spark.sql 查询。我想向查询传递一个函数参数,该参数是一个数据帧,但出现一些错误。谁能看看我是否做错了什么? 福...
我正在使用 Spark 2.4.7 从 Kafka 提取一些 Avro 记录。不幸的是,有时可能会出现格式错误的数据,这会导致我的工作失败。我正在使用 Scala API。
通过连接约 15 个表(约 2 亿行)进行 Databricks 性能调整
作为 Databricks 笔记本的一部分,我们正在尝试运行 sql,将大约 15 个增量表与 1 个事实和大约 14 个维度表连接起来。 连接产生的数据约为 2 亿条记录。 ...
在 databricks 上使用 MLFlow 和 Spark 时出现运行时错误
这是我创建的一些模型: 类 SomeModel(mlflow.pyfunc.PythonModel): def 预测(自身、上下文、输入): # 做一些奇特的 ML 事情 # 记录结果 pandas_df = pd.DataFrame(...
我正在尝试使用预定义的架构读取 Spark 中的 csv 文件。为此我使用: df = (spark.read.format("csv") .schema(架构) .option("sep", ";")...