apache-spark-1.6 相关问题


Apache Spark Structured Streaming 中 Spark UI 上的查询和阶段卡住了

我在 EMR 集群 (6.14) 上使用 Apache Spark Structured Streaming (3.1.2)。 Spark 结构化流将数据从 Apache Kafka 流式传输到 Delta Lake 表。当我打开 Spark UI 时,我看到以下内容


Apache Spark 中的 join 和 cogroup 有什么区别

Apache Spark 中的 join 和 cogroup 有什么区别?每种方法的用例是什么?


Maven:错误:-source 1.3 不支持泛型,我正在使用 1.6

我已将现有的 Maven 项目导入到 Eclipse IDE 中。 我修改了其中的一些代码,它编译成功了, 我使用 Java 1.6 作为编译器 当我尝试运行 Maven clean


kedro ipython,如何访问spark会话

我能够在 kedro ipython 会话中加载 Spark 数据集。 首先,我按照此处所述配置了 Spark 会话。 然后我用 ipython --ext kedro.extras.exten 启动了 kedro ipython 会话...


在 Spark 的作业之间移动执行器的开销?

我正在阅读一篇有关 Spark 作业调度的论文,我对他们对 Spark 的概述感到困惑: Spark作业由一个DAG组成,其节点是作业的执行阶段。每个阶段代表...


在 numpy 数组中插入 NaN 值

是否有一种快速方法可以用(例如)线性插值值替换 numpy 数组中的所有 NaN 值? 例如, [1 1 1 南南 2 2 南 0] 将被转换成 [1 1 1 1.3 1.6 2 2...


将 pandas 数据帧转换为 Spark 数据帧时收到错误

由于spark没有开箱即用的支持读取excel文件,所以我首先将excel文件读入pandas数据帧,然后尝试将pandas数据帧转换为spark数据帧,但我得到了...


写入 cassandra 时从 Spark 结构化流数据帧中过滤错误记录

我知道我的 Spark Scala 数据帧的第 n 行存在一些问题(假设数据类型不正确)。当我尝试使用 Spark 结构化流在 cassandra 中写入此数据帧时,它失败了......


为什么在Windows环境下Apache IoTDB中运行`pip install`后出现`failed to build thrift`错误?

pip install apache-iotdb工具不支持Windows环境吗?在Windows中运行pip install apache-iotdb==0.13.0.post1后,出现错误消息:Failed to build thrift, ERROR: Could ...


如何在intellij中设置和运行scala-spark?

我正在尝试运行使用 Intellij 来构建用 scala 编写的 Spark 应用程序。当我执行scala程序时,出现以下错误: 线程“main”java.lang 中出现异常。


Glue Dynamic Frame 比普通 Spark 慢得多

在下图中,我们使用三种不同配置运行相同的胶水作业,以了解如何写入 S3: 我们使用动态帧写入S3 我们用纯spark框架写信给S...


将 Spark-Submit 的路径传递到 Python 脚本中

我想将我在 Spark-submit 命令行命令中使用的路径传递到我的 Python 脚本中,以便在写出文件时使用。 (注意:不是当前工作目录,也不是


无法将 Spark 数据帧写入 Mongo

使用 mongo-connector 版本 10.0.1 以下是我的配置 .config("spark.mongodb.write.connection.uri","mongodb://127.0.0.1:27017/") .config("spark.mongodb.write.database&


Apache Tiles 3.x 不再在 Spring 6.x 中编译,因为 javax.* 重命名为 jakarta。*

我的应用程序使用Spring 5.x,Apache Tiles 3.0.x。现在我想迁移到 Spring 6.x,但问题出在 Apache Tiles 3.0.x 上,因为它有 javax.servlet.* 而不是 jakarta.* 。所有春天...


apache-cassandra-4.0.7 Dockerfile 不可用异常

尝试从 apache-cassandra-4.0.7-bin.tar.gz 创建 docker 映像,但在配置密钥空间后出现以下错误 $ docker exec -it pidcss /bin/bash $ ./cqlsh localhost -u cassandra -p cas...


通过全局初始化脚本启用 Databricks 集群日志

我想通过全局初始化脚本为工作区中的所有集群(新的或旧的)设置集群日志传送。 我尝试通过自定义 Spark conf 添加底层 Spark 属性 - /databricks/dri...


如何合并从 Apache FOP 创建的 2 个 AFP

如何将使用 apache FOP 创建的大量单独的 AFP 文件合并到单个 AFP 文件中? 也欢迎任何工具建议。


为什么 Apache IoTDB 1.3 版本中的某些语句只能使用 `;` 标记执行?

当我在Apache IoTDB的Cli工具中执行语句时,为什么有些语句可以在添加之前执行;有的不用加;?就可以执行我刚刚下载了 Apache IoTD 1.3 版本...


在 Apache Commons CLI 中解析未知选项

有没有办法解析 Apache Commons CLI 中选项对象中不存在的未知选项。 例如 - 我的参数是 --greeting hello --unknownArgument foo。 选项对象有


有没有办法将图像的内容(存储在spark Dataframe中)与pyspark并行写入文件?

我有一个 Spark Dataframe,其中每一行都包含两个项目:文件名(带有扩展名,例如 .jpg)和文件的内容(以字节为单位)。 我想写一个过程...


Spark SQL 不支持 JSONPATH 通配符的任何解决方法

spark.sql("""select get_json_object('{"k":{"value":"abc"}}', '$.*.value') as j""").show() 这会导致 null,而它应该返回 'a...


如何成功启动apache airflow db

我一直在尝试使用pip安装命令在我的机器上安装apache airflow。我在虚拟环境中成功安装了airflow。当我尝试运行“airf...


apache beam 和 Big Query TableSchema 中的序列化问题

并感谢您的支持。 我目前正在尝试使用 Apache Beam,以尽可能多地了解它的工作原理。我面临 com.google.api.serv 序列化的问题...


php 进度条与输出缓冲区

我在 Apache 上使用 php 8.0 fpm 和 proxy_fcgi。 服务器版本:Apache/2.4.58(Ubuntu) 我有一个 PHP 脚本,需要大约 20 秒才能执行... 我想要一个进度条显示


Windows 上的 httpd.conf:找不到 API 模型结构 `php8_module`

我正在尝试按照这些指南在 Windows 上安装 PHP、Apache 和 MySQL。有时,系统会提示我编辑 httpd.conf 以指向我的 PHP 安装。 apache 目录和...


Java Apache 在“Content-Disposition:”中设置附加参数

我正在使用 java Apache 5.3.1,我正在尝试使用 XML 发送多部分,并且需要以下“Content-Disposition:”集 - 内容处置:表单数据;名称=“xml”;文件名=...


在结构化流 API 中跨多个集群使用共享 Kafka 主题执行 Spark 作业

我正在开发一个 Spark 项目,我需要在两个不同的集群上运行作业,两个集群都使用相同的 Kafka 主题。我希望这些作业能够有效地共享负载并平衡


有什么理由使用 Apache HashCodeBuilder 而不是 Objects.hash 吗?

我正在重写对象的 hashCode 和 equals 方法。我正在使用 Apache Commons 库中的 EqualsBuilder 来覆盖 equals。由于我使用的是 Java 7,所以我打算使用 bui...


debconf:延迟软件包配置,因为未安装 apt-utils

我正在设置 Docker 来运行我的 CakePHP 应用程序,我的 Dockerfile 就像 来自 php:7.2-apache # 启用 Apache Rewrite + Expires 模块 RUN a2enmod 重写过期 # 安装依赖项 跑...


使用 CLI 导入 Apache Superset 问题

我正在使用 docker image 运行 apache superset 实例,UI 工作正常,我已成功创建数据源和仪表板,然后将其导出为 zip 文件。 我的问题是每当我尝试...


关于 mod_wsgi ModuleNotFoundError (dateutil) // python 3.11.4 64bit 和 apache 2.4.58 win64 VS17

我在Windows 11 Pro上使用mod_wsgi与python 3.11.4 64位和apache 2.4.58 win64 VS17。 我为每个人安装 python,而不仅仅是为我自己。 另外我不使用python virtualenv。 当我跑步时


如何在 Cloud Composer 2 的 KerbenetesPodOperator 中指定非默认计算类

我正在 Cloud Composer 2 中使用 KurbenetesPodOperator 创建 pod 来执行 Spark 作业。 默认情况下,当您使用


在 Spark DataFrame python 中将二进制字符串的列转换为 int

所以我有一个数据框,其中有一列,如下所示: +----------+ |some_colum| +----------+ | 10| | 00| | 00| | 10| | 10| | 00| | 10| | 00| | ...


为什么 Apache IoTDB 1.3 版本中 DataNode 配置消失并报“无法拉取系统配置”警告?

我想启动独立的 Apache IoTDB 1.3 版本。集群管理已经启动,jps可以查看DataNode和ConfigNode,但是1分钟后DataNode就消失了。那个...


什么数据类型可以将空值写入 Apache IoTDB 1.0 版本?

我需要将一些空值写入 Apache IoTDB 版本 1.0。我想知道这个版本支持写入空值吗?或者什么数据类型可以支持这种写入空值的执行...


如何使用 Apache 和 Daphne 部署 django 通道?

我正在尝试部署这个使用通道的 django 应用程序。我使用 Apache 进行常规 HTTP 请求,并希望将 Web 套接字请求转发到 Daphne。 以下是我的一些重要文件: 阿帕奇...


如何在 Windows 上为不同的虚拟主机配置不同 php 版本的 Apache 配置

我正在 Apache 2.4 / Windows 10 的 httpd.config 中测试不同的语法,以便为不同的虚拟主机提供不同的 php 版本。 Domain1 应具有 PHP 8.1,Domain2 应使用 PHP 运行...


如何在 Apache poi 数据透视表中的列和值中使用相同的列

我正在尝试使用 Apache poi 创建数据透视表,除一种情况外一切正常。当我尝试在列和值(聚合器)中使用相同的列时,它不起作用。 例如...


如何设置分片`region`以避免在Apache IoTDB中报告`AsyncIoTConsensusServiceClient 113`类型错误?

Apache IoTDB 的分片区域是基于时间分片的吗?如何减少该区域的数量?我认为这个数量太多了,所以我报告了这个错误,但是如果我设置这个数量...


当Apache IoTDB中导出TsFile数据的sql语句较多时,为什么执行的结果却较少?

我想问一下,当在Apache IoTDB中使用TsFile导出工具时,我的sql文件中有40条sql语句,但只导出了3个TsFile。这是什么原因呢?导出工具有没有...


从spark/scala项目代码中资源文件夹中的sql文件读取查询

我在 IntelliJ 中的文件夹结构如下 src-->主-->资源-->sql-->samplequery.sql 我在文件夹 src--> main-->scala-... 中有 scala 对象文件samplequeryexecute


pyspark 检查点在本地计算机上失败

我刚刚开始在本地计算机上使用独立版本学习 pyspark。我无法让检查站工作。我把剧本归结为这个...... Spark = SparkSession.builder.appName("PyTest").master("


Databricks Spark:java.lang.OutOfMemoryError:GC 开销超出限制 i

我正在 Databricks 集群中执行 Spark 作业。我通过 Azure 数据工厂管道触发作业,它以 15 分钟的间隔执行,因此在成功执行三到四次之后...


如何使用诗歌从 test.pypi.org 安装软件包?

我想在我的项目中使用包的预发布版本(https://test.pypi.org/project/delta-spark/2.1.0rc1/)。 我正在使用诗歌来管理我的 pyproject.toml。我该怎么做呢? 换句话说...


我在安装 pyspark 时遇到错误,如何修复它?

我想安装并练习pyspark。但是在安装和进入 pyspark-shell 过程中,出现以下错误。 C:\Windows\System32>spark-shell 将默认日志级别设置为“WARN”。 至


JUNIT 测试用例-Spark JDBC

我是 Java 编程的新手。我有一个从Oracle数据库读取数据的方法。现在我需要帮助使用 JUnit 框架为以下代码编写测试用例。 数据集 df = Spark.read().


将 Fastq 文件直接读取到 Pandas Dataframe 中

我正在尝试将 Fastq 文件直接读入 pandas 数据帧,类似于下面的链接: 将 FASTQ 文件读入 Spark 数据帧 我到处搜索,但找不到可行的选择。 电流...


Apache Superset 在 MySQL JSON 字段方面遇到问题

我有一个 MySQL 数据库,其中的记录包含 JSON 类型字段。 JSON 类型字段的示例是 {.... “callAttributes”:{“teamId”:“红色”,“operatorId”:&...


Apache Beam DirectRunner 与 FlinkRunner 示例

我使用beam yaml(python sdk)构建了最简单的管道,其中读取csv文件并应打印到日志。 使用默认 DirectRunner 运行时: python -m apache_beam.yaml.main --


火花计数未给出正确结果

我是 Spark 的新手,最近了解到它会在调用某个操作时执行所有转换。在搜索过程中,我找到了一个简单的代码来测试它,结果并不符合预期。 他...


© www.soinside.com 2019 - 2024. All rights reserved.