Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。
我正在使用单节点 Spark 设置将大量 JSON 文件(总大小:11GB)转换为 Parquet 文件。目前,我已经分配了 6GB 给驱动程序,4GB 给执行程序,但我
PySpark StreamingQueryException:Elasticsearch Spark 连接器的 java.lang.NoSuchMethodError
我正在从事 PySpark 流作业,需要将流数据从 Kafka 写入 Elasticsearch。我正在使用: 火花版本:3.5.2 Elasticsearch Spark 连接器:org.elasticsearch:elasticsea...
我查看了类似问题的答案,但没有一个解决了我遇到的问题。一些 hadoop 命令似乎可以工作(例如 hadoop fs -cat),而其他命令则不能(hadoop fs -ls,这会引发......
如何使用在本机 Python (scikit-learn) 中训练的 XGBoost 模型在 Spark 中执行推理
我发现了一个 xgboost 模型,它是在原生 python 中使用 sklearn 进行训练的。 我如何使用该模型对 pyspark 中的新数据集进行推理。 除了使用 UDF 之外,我还有哪些其他选择...
我正在将 SQL 存储过程从 SQL Server 迁移到 Spark SQL。 SP中的语句之一使用了CROSS APPLY,但spark没有CROSS APPLY。我研究了一下,发现INNER JOIN可以用...
将 Dataproc Serverless 版本从 2.1 升级到 2.2 时出错
我已将 Dataproc Serverless 的版本从 2.1 更改为 2.2,现在当我运行它时,出现以下错误: 线程“main”中的异常 java.util.ServiceConfigurationError: org.ap...
无法在 kubernetes 上使用 Spark 运算符运行 PySpark 作业
我在本地计算机上安装了一个 minikube 集群,并在其上安装了 Spark-operator。我还为其设置了必要的服务帐户和 RBAC。然而,当我尝试运行我的 Pyspark
k8s (GKE) 上的 Apache Spark - 复制到 /opt/spark/work-dir 的文件未显示在部署中
我已在 kubernetes (GKE) 上部署了 Apache Spark,并且创建了一个 Docker 映像,并将所需文件复制到位置 -> /opt/spark/work-dir 当我登录 Docker 镜像时,我可以看到...
我的数据框具有以下架构 ID、名称、AcctIdName、AcctIdLoc、AcctIdPop、AcctIdTop、AcctIdPin 1, ID名称, 1, 0, 0, 0, 0 2、IdLoc、0、-1、0...
spark 结构化流 - 使用 availableNow 触发器从 kafka 读取
我尝试使用 Spark Stream API 从 Kafka 读取数据并将结果作为增量表写入 S3。对我来说,在 S3 上放置更少的对象很重要,因此我使用 coalesce(2) 在每个批次中创建两个对象。
有人可以解释一下 Spark 应用程序是如何在本地模式下执行的吗?
我正在努力将机器集群上的 Spark 框架知识调整为本地模式。 我的问题是: a) SparkContext 连接到集群,然后如果 master="local[*]"...
在 Spark StandAlone 上使用 Logback 进行日志记录
我们使用 Spark StandAlone 2.3.2 和 logback-core/logback-classic 以及 1.2.3 有非常简单的 Logback 配置文件,它允许我们将数据记录到特定目录,并且在本地我可以
为什么Spark的explode函数比平面地图函数分割数组慢很多?
我是 Spark 和 Spark SQL 的新手。我有一个包含 2 列的数据集,“col1”和“col2”,“col2”最初是一个长整型序列。我想将“col2”分解为多行,以便每一行只有一个...
java.lang.NullPointerException:null:加载scala案例类时
我正在读取bigquery表数据并将它们加载到案例类中,并且在加载它时面临这个空指针异常 java.lang.NullPointerException: null 在 org.apache.spark.unsafe.
我正在尝试编写一个实用程序来“评估”日期的良好格式。我似乎无法成功,因为我不断收到如下错误: 发生异常:Py4JJavaError ...
在 Dataproc 上使用 PySpark 从不同的 GCP 项目访问 BigQuery 数据集
我正在使用 Python 在 Google Cloud 中使用 BigQuery、Dataproc、工作流和云存储。 我有两个 GCP 项目: gcp-project1:包含 BigQuery 数据集 gcp-project1.my_dataset.my_tab...
尝试将架构应用于 JSON 数据时,SPARK 数据框返回 null
我正在使用 SPARK Java API 读取文本文件,将其转换为 JSON,然后对其应用架构。架构可能会根据数据库中的映射表而有所不同,这就是为什么我需要首先转换...
假设我正在读取存储在 PATH 中的一个非常(非常)大的表。过滤表格并选择几列以使其与 df2 兼容后,我继续在新创建的内容上加入 df 和 df2...
计算 350 万个 ID 组合中同时出现的实体的最大数量的函数?
我得到了这个: x| y 1 | a、b、c、d、e 2 | a、b、c、d 3 |甲、丙、丁 ... 我想要这个: 1,2 | 4(甲、乙、丙、丁) 1,3 | 3(a、c、d) 2,3 | 3(a、c、d) 我有 3*10^6 这样的行(300 万条记录) 你可能是 -...
将 ETL 作业从 IBM Datastage 转换为 Apache Spark
我们所有的 ETL 工作负载都是在 IBM Datastage 和 Oracle 作为数据库上设计的,但现在,企业正在寻求开源平台的选择,这些平台提供