apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎，为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习，图形处理有关。

我正在使用单节点 Spark 设置将大量 JSON 文件（总大小：11GB）转换为 Parquet 文件。目前，我已经分配了 6GB 给驱动程序，4GB 给执行程序，但我

java apache-spark out-of-memory parquet

回答 1 投票 0

PySpark StreamingQueryException：Elasticsearch Spark 连接器的 java.lang.NoSuchMethodError

我正在从事 PySpark 流作业，需要将流数据从 Kafka 写入 Elasticsearch。我正在使用：火花版本：3.5.2 Elasticsearch Spark 连接器：org.elasticsearch:elasticsea...

scala apache-spark elasticsearch pyspark spark-streaming

回答 1 投票 0

线程“主”java.lang.UnsatisfiedLinkError中出现异常：org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z未解决

我查看了类似问题的答案，但没有一个解决了我遇到的问题。一些 hadoop 命令似乎可以工作（例如 hadoop fs -cat），而其他命令则不能（hadoop fs -ls，这会引发......

java windows apache-spark hadoop

回答 1 投票 0

如何使用在本机 Python (scikit-learn) 中训练的 XGBoost 模型在 Spark 中执行推理

我发现了一个 xgboost 模型，它是在原生 python 中使用 sklearn 进行训练的。我如何使用该模型对 pyspark 中的新数据集进行推理。除了使用 UDF 之外，我还有哪些其他选择...

apache-spark pyspark xgboost apache-spark-mllib apache-spark-ml

回答 1 投票 0

Spark SQL 中的 CROSS APPLY 替代方案

我正在将 SQL 存储过程从 SQL Server 迁移到 Spark SQL。 SP中的语句之一使用了CROSS APPLY，但spark没有CROSS APPLY。我研究了一下，发现INNER JOIN可以用...

sql sql-server apache-spark apache-spark-sql bigdata

回答 1 投票 0

将 Dataproc Serverless 版本从 2.1 升级到 2.2 时出错

我已将 Dataproc Serverless 的版本从 2.1 更改为 2.2，现在当我运行它时，出现以下错误：线程“main”中的异常 java.util.ServiceConfigurationError: org.ap...

apache-spark google-bigquery google-cloud-dataproc

回答 1 投票 0

无法在 kubernetes 上使用 Spark 运算符运行 PySpark 作业

我在本地计算机上安装了一个 minikube 集群，并在其上安装了 Spark-operator。我还为其设置了必要的服务帐户和 RBAC。然而，当我尝试运行我的 Pyspark

apache-spark kubernetes pyspark spark-operator

回答 1 投票 0

k8s (GKE) 上的 Apache Spark - 复制到 /opt/spark/work-dir 的文件未显示在部署中

我已在 kubernetes (GKE) 上部署了 Apache Spark，并且创建了一个 Docker 映像，并将所需文件复制到位置 -> /opt/spark/work-dir 当我登录 Docker 镜像时，我可以看到...

apache-spark kubernetes pyspark google-kubernetes-engine

回答 1 投票 0

动态选择col来获取值

我的数据框具有以下架构 ID、名称、AcctIdName、AcctIdLoc、AcctIdPop、AcctIdTop、AcctIdPin 1, ID名称, 1, 0, 0, 0, 0 2、IdLoc、0、-1、0...

scala apache-spark

回答 1 投票 0

spark 结构化流 - 使用 availableNow 触发器从 kafka 读取

我尝试使用 Spark Stream API 从 Kafka 读取数据并将结果作为增量表写入 S3。对我来说，在 S3 上放置更少的对象很重要，因此我使用 coalesce(2) 在每个批次中创建两个对象。

apache-spark apache-kafka spark-streaming spark-structured-streaming delta-lake

回答 1 投票 0

有人可以解释一下 Spark 应用程序是如何在本地模式下执行的吗？

我正在努力将机器集群上的 Spark 框架知识调整为本地模式。我的问题是： a) SparkContext 连接到集群，然后如果 master="local[*]"...

apache-spark pyspark parallel-processing distributed

回答 1 投票 0

在 Spark StandAlone 上使用 Logback 进行日志记录

我们使用 Spark StandAlone 2.3.2 和 logback-core/logback-classic 以及 1.2.3 有非常简单的 Logback 配置文件，它允许我们将数据记录到特定目录，并且在本地我可以

java scala apache-spark logback apache-spark-standalone

回答 3 投票 0

为什么Spark的explode函数比平面地图函数分割数组慢很多？

我是 Spark 和 Spark SQL 的新手。我有一个包含 2 列的数据集，“col1”和“col2”，“col2”最初是一个长整型序列。我想将“col2”分解为多行，以便每一行只有一个...

apache-spark apache-spark-sql apache-spark-dataset

回答 1 投票 0

java.lang.NullPointerException：null：加载scala案例类时

我正在读取bigquery表数据并将它们加载到案例类中，并且在加载它时面临这个空指针异常 java.lang.NullPointerException: null 在 org.apache.spark.unsafe.

scala apache-spark google-bigquery

回答 1 投票 0

在 Spark 3 中似乎无法正确解析日期

我正在尝试编写一个实用程序来“评估”日期的良好格式。我似乎无法成功，因为我不断收到如下错误：发生异常：Py4JJavaError ...

python apache-spark date pyspark

回答 1 投票 0

在 Dataproc 上使用 PySpark 从不同的 GCP 项目访问 BigQuery 数据集

我正在使用 Python 在 Google Cloud 中使用 BigQuery、Dataproc、工作流和云存储。我有两个 GCP 项目： gcp-project1：包含 BigQuery 数据集 gcp-project1.my_dataset.my_tab...

python apache-spark google-bigquery google-cloud-dataproc

回答 1 投票 0

尝试将架构应用于 JSON 数据时，SPARK 数据框返回 null

我正在使用 SPARK Java API 读取文本文件，将其转换为 JSON，然后对其应用架构。架构可能会根据数据库中的映射表而有所不同，这就是为什么我需要首先转换...

java json dataframe apache-spark schema

回答 3 投票 0

如何在 PySpark 中正确检查数据帧

假设我正在读取存储在 PATH 中的一个非常（非常）大的表。过滤表格并选择几列以使其与 df2 兼容后，我继续在新创建的内容上加入 df 和 df2...

apache-spark pyspark

回答 1 投票 0

计算 350 万个 ID 组合中同时出现的实体的最大数量的函数？

apache-spark pyspark parallel-processing distributed-computing

回答 1 投票 0

将 ETL 作业从 IBM Datastage 转换为 Apache Spark

我们所有的 ETL 工作负载都是在 IBM Datastage 和 Oracle 作为数据库上设计的，但现在，企业正在寻求开源平台的选择，这些平台提供

oracle apache-spark datastage

回答 2 投票 0

apache-spark 相关问题

最新问题