apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。

通过开放方法(abfss)访问数据湖中的文件

过去使用挂载点使用open从数据湖读取文件。现在我们不想再这样做了,而是使用外部位置路径 abfss 下面的代码不起作用。没有这样的文件或

回答 1 投票 0

如果在 scala 中找不到列,如何使用模式文件读取输入 json 并填充默认值?

输入数据框 val input_json="""[{"orderid":"111","customers":{"customerId":"123"},"Offers":[{"Offerid":"...

回答 1 投票 0

Databricks:来自 Kafka 的 Spark 结构化流卡在“流初始化”

我想使用kafka源在databricks中创建一个结构化流。 我按照此处所述的说明进行操作。我的脚本似乎已启动,但是我无法在

回答 1 投票 0

通过 PartitionBy 数据帧将 Pyspark 数据帧写入镶木地板变得非常慢

我有一个 pyspark 数据帧,它执行多个 groupby、pivot 类型的转换,当我在应用所有提到的转换后获得最终数据帧时。通过

回答 1 投票 0

Apache Spark 命令列表

我在 Youtube 上学习了一些 Apache Spark 和 Databricks 的教程。还一直在审查这本书 - Spark 权威指南。 有没有一个网站可以获取所有 Apache Spark 命令...

回答 1 投票 0

如何在 BigQuery PySpark 存储过程中运行标准 SQL 查询

我在 Bigquery 中运行以下 PySpark 存储过程; 从 pyspark.sql 导入 SparkSession Spark = SparkSession.builder.appName("work_with_sql").getOrCreate() df = Spark.sql( ''' 选择...

回答 2 投票 0

如何将字符串 json 转换为 scala 数据帧?

我有一个字符串 json,我正在尝试创建一个数据框。使用下面的代码我可以实现,但是我正在构建jar的环境,它抱怨toDS。有没有其他方法可以...

回答 1 投票 0

如何在 Scala Dataframe 中的 Json 中填充缺失键的默认值?

我正在我的scala配置文件中读取json数据。我正在尝试提取客户 ID、位置、城市、州和状态(状态应位于地址键内)。由于状态是可选键,因此可能无法...

回答 1 投票 0

如何在一个字符串中读取整个文件

我想读取 pyspark.lf 中的 json 或 xml 文件,如果我的文件被分成多行 rdd= sc.textFile(json 或 xml) 输入 { “ 雇员”: [ { "firstName":"约翰", ”

回答 6 投票 0

我使用pyspark创建了一个数据框,但无法查看创建的数据

我使用 pyspark 创建了一个数据框,但无法查看使用 .show() 创建的数据。 我遇到了 Py4JJavaError 我安装了findspark,在使用findspark.init()时出现以下错误 索引错误...

回答 1 投票 0

如何使用 pandas_udf 在 pyspark 中对分组/分区数据帧进行迭代

spark版本:3.2 我定义了 pandas_udf defcalculate_shap(迭代器:迭代器[pd.DataFrame]) -> 迭代器[pd.DataFrame]: 对于迭代器中的 X: 产量 pd.DataFrame( 解释一下...

回答 1 投票 0

将 Dataframe 转换为 scala 中的嵌套 Json

我有一个数据框,如下所示,用*1,*2这样构造每个级别的json..并且“->”显示父节点的子节点 数据框.show 编号*1 姓名*1 电源*1 类型*1 配料1->id2 打顶...

回答 1 投票 0

spark 数据帧中两列中两个向量之间的欧几里德距离

我正在尝试获取 Spark 数据框中不同列中两个向量之间的欧氏距离。我需要在 Spark 上完成此操作。我花了很多时间尝试做到这一点,但无法想象......

回答 1 投票 0

Spark Left Outer Join 会在不应该生成Optional.empty 时生成Optional.empty

我有一个包含节点对的 RDD,我需要为它们分配唯一的 id。 但我遇到了 NPE,我不知道如何解决它。 我基本上将所有节点放入一个不同的列表中......

回答 1 投票 0

如何在没有 UDF 的情况下计算 PySpark 数据帧中数组列中的尾随零数

我有一个数据框,其中有一列具有固定数量的整数的数组。 如何向 df 添加包含数组中尾随零数量的列? 我想避免使用...

回答 5 投票 0

如何按列表顺序对 PySpark 数据帧行进行排序?

我有一个包含多个列的 pySpark 数据框和一个包含其中一个列项目的列表。我想按给定列表的顺序对行进行排序。 可乐 列_B 列_c a1 b1 c1 a2 b2 c2 ...

回答 1 投票 0

对每个数据帧列应用不同的转换

我有一个以下格式的 PySpark 数据框(records_002_df),并且将来会添加更多列 - +------------+----------------+-------------+ |记录类型| CLAIM_NUMBER|收到日期| +----...

回答 1 投票 0

PySpark:连接第二个数据帧中的 NULL 值应该匹配

我有一个要求,如果匹配的 df2 具有空值,则它应该匹配。默认情况下,Spark 不匹配带有 null 的行。 df1- ID 姓名 城市 电子邮件 1 约翰城 A [email protected] 2 雾慈...

回答 1 投票 0

queryExecution.analyzed.stats.sizeInBytes 始终返回 9223372036854775807

我正在尝试检查我们在数据仓库中生成的不同表的大小,以便我们可以有一种自动方法来计算下次运行中的分区大小。 为了得到桌子的尺寸...

回答 1 投票 0

ParseException:输入时没有可行的替代方案

我尝试在 Azure 数据块中运行以下查询。 查询=s"""WITH pre_file_user AS( 选择 ID, 类型ID, 当 dttm 为 null 或 dttm='' 时的情况...

回答 3 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.