apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎，为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习，图形处理有关。

在 PySpark 中保留 parquet 文件名

我正在使用 Spark 读取一个包含 2 个分区的镶木地板文件，以便应用一些处理，让我们以这个例子为例 ├── 用户数据 │ ├── 地区=欧盟 ├── 国家=法国 ├─-

apache-spark pyspark apache-spark-sql databricks parquet

回答 1 投票 0

PySpark：数据帧到 .rdd 抛出错误

我正在尝试将 DF 转换为 RDD，但它抛出错误：JavaObject 不可调用。我遵循了这方面的教程，并尝试了几种不同的方法来尝试让它发挥作用。我相信...

apache-spark pyspark apache-spark-sql

回答 1 投票 0

根据JSON字段将大JSON文件拆分为多个小JSON文件

我有一个 gzip JSON 文件，它具有复杂的 JSON 结构，并且是多行错误。它有大约 500 万条记录，每条记录都是它自己的 JSON。我有一个名为 event.event_name 的字段...

json apache-spark pyspark

回答 1 投票 0

如何创建presto资源计算器

嗨想要为我组织的不同团队创建一个 presto 资源计算器来计算集群 CPU 核心和内存需求根据我的理解，以下是德...

apache-spark bigdata presto presto-jdbc

回答 1 投票 0

在 build.sbt 中提供依赖项的项目的 sbtpublishLocal 不会使这些依赖项对使用该项目作为库的项目可见

假设我有一个带有此 build.sbt 的项目“内部库”：组织 := "com.foo" name := "内部库" 版本：=“1.0.0” scalaVersion := "2....

scala apache-spark sbt

回答 1 投票 0

如何设置 Apache Iceberg 访问权限以允许用户写入表分支（或带有前缀的分支）？

Apache Iceberg 中有一个表 my_table。我想允许某些用户组写入此表，但仅限于以 analytic_ 前缀开头的分支。例如。用户可以创建analytic_task_12...

scala apache-spark apache-iceberg nessie

回答 1 投票 0

未找到检查点块 rdd_2058_3，单独运行时运行成功，但在 for 循环中时，它会随机崩溃几个数据帧

我正在尝试使用 pyspark.pandas 编写增量表，但面临以下错误。无法弄清楚这里出了什么问题，因为具有更大行数的数据帧正在成功处理......

pandas apache-spark pyspark azure-databricks

回答 1 投票 0

通过开放方法（abfss）访问数据湖中的文件

过去使用挂载点使用open从数据湖读取文件。现在我们不想再这样做了，而是使用外部位置路径 abfss 下面的代码不起作用。没有这样的文件或

azure apache-spark pyspark azure-databricks azure-data-lake-gen2

回答 1 投票 0

如果在 scala 中找不到列，如何使用模式文件读取输入 json 并填充默认值？

输入数据框 val input_json="""[{"orderid":"111","customers":{"customerId":"123"},"Offers":[{"Offerid":"...

scala apache-spark

回答 1 投票 0

Databricks：来自 Kafka 的 Spark 结构化流卡在“流初始化”

我想使用kafka源在databricks中创建一个结构化流。我按照此处所述的说明进行操作。我的脚本似乎已启动，但是我无法在

python apache-spark streaming databricks

回答 1 投票 0

通过 PartitionBy 数据帧将 Pyspark 数据帧写入镶木地板变得非常慢

我有一个 pyspark 数据帧，它执行多个 groupby、pivot 类型的转换，当我在应用所有提到的转换后获得最终数据帧时。通过

python apache-spark pyspark apache-spark-sql pyspark-pandas

回答 1 投票 0

Apache Spark 命令列表

我在 Youtube 上学习了一些 Apache Spark 和 Databricks 的教程。还一直在审查这本书 - Spark 权威指南。有没有一个网站可以获取所有 Apache Spark 命令...

apache-spark

回答 1 投票 0

如何在 BigQuery PySpark 存储过程中运行标准 SQL 查询

我在 Bigquery 中运行以下 PySpark 存储过程；从 pyspark.sql 导入 SparkSession Spark = SparkSession.builder.appName("work_with_sql").getOrCreate() df = Spark.sql( ''' 选择...

apache-spark pyspark stored-procedures apache-spark-sql google-bigquery

回答 2 投票 0

如何将字符串 json 转换为 scala 数据帧？

我有一个字符串 json，我正在尝试创建一个数据框。使用下面的代码我可以实现，但是我正在构建jar的环境，它抱怨toDS。有没有其他方法可以...

json scala apache-spark

回答 1 投票 0

如何在 Scala Dataframe 中的 Json 中填充缺失键的默认值？

我正在我的scala配置文件中读取json数据。我正在尝试提取客户 ID、位置、城市、州和状态（状态应位于地址键内）。由于状态是可选键，因此可能无法...

scala apache-spark

回答 1 投票 0

如何在一个字符串中读取整个文件

我想读取 pyspark.lf 中的 json 或 xml 文件，如果我的文件被分成多行 rdd= sc.textFile(json 或 xml) 输入 { “ 雇员”： [ { "firstName":"约翰", ”

json apache-spark apache-spark-sql

回答 6 投票 0

我使用pyspark创建了一个数据框，但无法查看创建的数据

我使用 pyspark 创建了一个数据框，但无法查看使用 .show() 创建的数据。我遇到了 Py4JJavaError 我安装了findspark，在使用findspark.init()时出现以下错误索引错误...

python java apache-spark pyspark

回答 1 投票 0

如何使用 pandas_udf 在 pyspark 中对分组/分区数据帧进行迭代

spark版本：3.2 我定义了 pandas_udf defcalculate_shap(迭代器：迭代器[pd.DataFrame]) -> 迭代器[pd.DataFrame]: 对于迭代器中的 X：产量 pd.DataFrame( 解释一下...

python apache-spark pyspark user-defined-functions pandas-udf

回答 1 投票 0

将 Dataframe 转换为 scala 中的嵌套 Json

我有一个数据框，如下所示，用*1，*2这样构造每个级别的json..并且“->”显示父节点的子节点数据框.show 编号*1 姓名*1 电源*1 类型*1 配料1->id2 打顶...

json dataframe scala apache-spark

回答 1 投票 0

spark 数据帧中两列中两个向量之间的欧几里德距离

我正在尝试获取 Spark 数据框中不同列中两个向量之间的欧氏距离。我需要在 Spark 上完成此操作。我花了很多时间尝试做到这一点，但无法想象......

apache-spark pyspark vector user-defined-functions euclidean-distance

回答 1 投票 0

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.