apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。

在 PySpark 中保留 parquet 文件名

我正在使用 Spark 读取一个包含 2 个分区的镶木地板文件,以便应用一些处理,让我们以这个例子为例 ├── 用户数据 │ ├── 地区=欧盟 ├── 国家=法国 ├─-

回答 1 投票 0

PySpark:数据帧到 .rdd 抛出错误

我正在尝试将 DF 转换为 RDD,但它抛出错误:JavaObject 不可调用。 我遵循了这方面的教程,并尝试了几种不同的方法来尝试让它发挥作用。我相信...

回答 1 投票 0

根据JSON字段将大JSON文件拆分为多个小JSON文件

我有一个 gzip JSON 文件,它具有复杂的 JSON 结构,并且是多行错误。 它有大约 500 万条记录,每条记录都是它自己的 JSON。 我有一个名为 event.event_name 的字段...

回答 1 投票 0

如何创建presto资源计算器

嗨想要为我组织的不同团队创建一个 presto 资源计算器来计算集群 CPU 核心和内存需求 根据我的理解,以下是德...

回答 1 投票 0

在 build.sbt 中提供依赖项的项目的 sbtpublishLocal 不会使这些依赖项对使用该项目作为库的项目可见

假设我有一个带有此 build.sbt 的项目“内部库”: 组织 := "com.foo" name := "内部库" 版本:=“1.0.0” scalaVersion := "2....

回答 1 投票 0

如何设置 Apache Iceberg 访问权限以允许用户写入表分支(或带有前缀的分支)?

Apache Iceberg 中有一个表 my_table。我想允许某些用户组写入此表,但仅限于以 analytic_ 前缀开头的分支。例如。用户可以创建analytic_task_12...

回答 1 投票 0

未找到检查点块 rdd_2058_3,单独运行时运行成功,但在 for 循环中时,它会随机崩溃几个数据帧

我正在尝试使用 pyspark.pandas 编写增量表,但面临以下错误。 无法弄清楚这里出了什么问题,因为具有更大行数的数据帧正在成功处理......

回答 1 投票 0

通过开放方法(abfss)访问数据湖中的文件

过去使用挂载点使用open从数据湖读取文件。现在我们不想再这样做了,而是使用外部位置路径 abfss 下面的代码不起作用。没有这样的文件或

回答 1 投票 0

如果在 scala 中找不到列,如何使用模式文件读取输入 json 并填充默认值?

输入数据框 val input_json="""[{"orderid":"111","customers":{"customerId":"123"},"Offers":[{"Offerid":"...

回答 1 投票 0

Databricks:来自 Kafka 的 Spark 结构化流卡在“流初始化”

我想使用kafka源在databricks中创建一个结构化流。 我按照此处所述的说明进行操作。我的脚本似乎已启动,但是我无法在

回答 1 投票 0

通过 PartitionBy 数据帧将 Pyspark 数据帧写入镶木地板变得非常慢

我有一个 pyspark 数据帧,它执行多个 groupby、pivot 类型的转换,当我在应用所有提到的转换后获得最终数据帧时。通过

回答 1 投票 0

Apache Spark 命令列表

我在 Youtube 上学习了一些 Apache Spark 和 Databricks 的教程。还一直在审查这本书 - Spark 权威指南。 有没有一个网站可以获取所有 Apache Spark 命令...

回答 1 投票 0

如何在 BigQuery PySpark 存储过程中运行标准 SQL 查询

我在 Bigquery 中运行以下 PySpark 存储过程; 从 pyspark.sql 导入 SparkSession Spark = SparkSession.builder.appName("work_with_sql").getOrCreate() df = Spark.sql( ''' 选择...

回答 2 投票 0

如何将字符串 json 转换为 scala 数据帧?

我有一个字符串 json,我正在尝试创建一个数据框。使用下面的代码我可以实现,但是我正在构建jar的环境,它抱怨toDS。有没有其他方法可以...

回答 1 投票 0

如何在 Scala Dataframe 中的 Json 中填充缺失键的默认值?

我正在我的scala配置文件中读取json数据。我正在尝试提取客户 ID、位置、城市、州和状态(状态应位于地址键内)。由于状态是可选键,因此可能无法...

回答 1 投票 0

如何在一个字符串中读取整个文件

我想读取 pyspark.lf 中的 json 或 xml 文件,如果我的文件被分成多行 rdd= sc.textFile(json 或 xml) 输入 { “ 雇员”: [ { "firstName":"约翰", ”

回答 6 投票 0

我使用pyspark创建了一个数据框,但无法查看创建的数据

我使用 pyspark 创建了一个数据框,但无法查看使用 .show() 创建的数据。 我遇到了 Py4JJavaError 我安装了findspark,在使用findspark.init()时出现以下错误 索引错误...

回答 1 投票 0

如何使用 pandas_udf 在 pyspark 中对分组/分区数据帧进行迭代

spark版本:3.2 我定义了 pandas_udf defcalculate_shap(迭代器:迭代器[pd.DataFrame]) -> 迭代器[pd.DataFrame]: 对于迭代器中的 X: 产量 pd.DataFrame( 解释一下...

回答 1 投票 0

将 Dataframe 转换为 scala 中的嵌套 Json

我有一个数据框,如下所示,用*1,*2这样构造每个级别的json..并且“->”显示父节点的子节点 数据框.show 编号*1 姓名*1 电源*1 类型*1 配料1->id2 打顶...

回答 1 投票 0

spark 数据帧中两列中两个向量之间的欧几里德距离

我正在尝试获取 Spark 数据框中不同列中两个向量之间的欧氏距离。我需要在 Spark 上完成此操作。我花了很多时间尝试做到这一点,但无法想象......

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.