spark-streaming 相关问题

Spark Streaming是核心Apache Spark API的扩展，可实现实时数据流的高吞吐量，容错流处理。从版本1.3.0开始，即使遇到故障，它也支持一次性处理语义。

spark 结构化流作业如何处理流 - 静态 DataFrame 连接？

我有一个 Spark 结构化流作业，它从 cassandra 和 deltalake 读取映射表并与流 df 连接。我想了解这里的确切机制。火花会击中这些吗

apache-spark pyspark spark-streaming spark-structured-streaming

回答 1 投票 0

Dataframe 不会保存为任何内容 - 表、全局临时视图或临时视图

数据框不会保存为表格，无论是永久的还是临时的 - 不会给出错误消息。我努力了： df.createOrReplaceTempView("tmp_table") ＃或者 df.createGlobalTempView("tmp_ta...

apache-spark apache-spark-sql spark-streaming

回答 1 投票 0

如何克服spark java.lang.OutOfMemoryError：Java堆空间和java.lang.OutOfMemoryError：GC开销限制超出问题？

我正在尝试联接操作，这里表1有3GB的数据，表2有120GB的数据。为了避免随机播放表 1。执行时我收到这些错误：原因是：...

apache-spark pyspark apache-spark-sql hive spark-streaming

回答 1 投票 0

尝试从 Spark 在 S3 存储桶上写入数据时找不到类 org.apache.hadoop.fs.s3a.auth.IAMInstanceCredentialsProvider

我正在尝试从本地计算机向 S3 存储桶写入数据：火花 = SparkSession.builder \ .appName('应用程序') \ .config("spark.hadoop.fs.s3a.access.key", 配置。

apache-spark amazon-s3 hadoop pyspark spark-streaming

回答 4 投票 0

Parquet S3 文件上的 Apache Hudi 更新和删除操作问题

在这里，我尝试模拟 Hudi 数据集的更新和删除，并希望看到 Athena 表中反映的状态。我们使用AWS的EMR、S3和Athena服务。尝试使用

apache-spark spark-streaming amazon-emr apache-hudi apache-iceberg

回答 1 投票 0

带有增量表的 Spark 流 - 更新微批次中的输入表

使用两个增量表（tableA，tableB）作为流管道的输入我想实现以下目标：当表 A 中出现新行时开始处理（而不是在更新表 B 时）合并选项卡...

pyspark spark-streaming azure-databricks

回答 1 投票 0

Azure Databricks 上的 PySpark Kusto 连接器

我使用 Azure databricks 与 LTS 7.3 和 Spark 3.0 (PySpark) 与 com.microsoft.azure.kusto:kusto-spark_3.0_2.12:2.9.1 连接器已经有一段时间了，但最近我的工作失败了，如下所示

azure pyspark spark-streaming azure-data-explorer kusto-java-sdk

回答 2 投票 0

基于另一个数据帧的单列派生具有不常见行的数据帧

我遇到了一个问题，我必须根据另一个数据帧的列从数据帧中获取不常见的行。例子是第一个数据帧，即 df1 _ID 姓名 12 ABC 56 定义 90 jkl

dataframe scala apache-spark apache-spark-sql spark-streaming

回答 1 投票 0

为什么不单独使用火花流

我对 Kafka/Spark-Streaming 没有太多经验，但我读过很多关于该组合在构建用于分析/仪表板的实时系统方面有多么出色的文章。有人可以解释一下吗...

real-time apache-kafka spark-streaming lambda-architecture

回答 4 投票 0

为什么spark既需要预写日志又需要检查点？

为什么spark既需要预写日志又需要检查点？为什么我们不能只使用检查点？另外使用预写日志有什么好处？存储的数据有什么区别...

apache-spark spark-streaming spark-structured-streaming

回答 1 投票 0

如何计算 Spark 中数据帧的大小（以字节为单位）？

我想编写一个带有重新分区的大型数据帧，所以我想计算源数据帧的重新分区数量。 numberofpartition = {数据帧大小/default_blocksize} 如何

scala apache-spark apache-spark-sql size spark-streaming

回答 1 投票 0

Airflow - GCP Composer 中的 Bashoperator 任务

我正在使用 bash 运算符来运行 shell 脚本，该脚本实际上启动了 dataproc 流作业。这是永无止境的工作。问题是这个 bash 操作员任务自动进入失败状态......

airflow spark-streaming google-cloud-dataproc google-cloud-composer airflow-2.x

回答 1 投票 0

如何修复来自 apache-spark 的对等消息重置连接？

我经常收到以下异常，我想知道为什么会发生这种情况？经过研究，我发现我可以这样做 .set("spark.submit.deployMode", "nio");但这没有用...

apache-spark spark-streaming

回答 2 投票 0

Spark 结构化流中的周期性处理时间峰值

我想知道为什么我的 Spark 流应用程序的每第四批都会出现巨大的峰值。一些细节这是使用rocksdb状态存储的安全处理从 Kafka 读取 180 个分区写...

apache-spark pyspark spark-streaming spark-structured-streaming spark-streaming-kafka

回答 1 投票 0

Spark 变更日志问题，变更日志不存在

我的 Spark 工作面临这个问题。这项工作长时间运行良好，但现在我看到了这个问题。我无法找到解决方案，请帮助我。我们在 Kubernetes 上运行它。因为...

scala apache-spark kubernetes bigdata spark-streaming

回答 1 投票 0

尝试设置 Spark 在 Jupyter Notebook 中运行。代码运行但没有任何反应

我正在尝试设置 Spark 在我的 ThinkPad 笔记本电脑上运行。我按照下面链接中列出的说明进行操作。 https://medium.com/@ansabiqbal/setting-up-apache-spark-pyspark-on-windows-11-machine-

apache-spark pyspark jupyter-notebook spark-streaming pyspark-pandas

回答 1 投票 0

跨云增量表复制

在我的组织中，我们使用 AWS 和 Azure 来执行各种数据处理任务。数据在 AWS 中收集和聚合，然后传输到 Azure 进行 BI 分析和报告。传入数据...

spark-streaming delta-lake

回答 1 投票 0

从 Postgres 读取数据并写入 Google BigQuery 时架构不匹配

我创建了一个 pyspark 脚本来通过 Dataproc 将数据从 PG DB 迁移到 Google Bigquery，但是在 dataproc 上运行日志时遇到错误引起的：java.lang.NullPointerExcepti...

postgresql pyspark google-bigquery spark-streaming google-cloud-dataproc

回答 1 投票 0

写入 cassandra 时从 Spark 结构化流数据帧中过滤错误记录

我知道我的 Spark Scala 数据帧的第 n 行存在一些问题（假设数据类型不正确）。当我尝试使用 Spark 结构化流在 cassandra 中写入此数据帧时，它失败了......

dataframe apache-spark spark-streaming spark-structured-streaming spark-cassandra-connector

回答 1 投票 0

PySpark 中的 Union 静态数据帧与 Spark 结构化流数据帧？

有没有其他方法可以在 PySpark 中应用静态数据帧和结构化流数据帧之间的并集？

apache-spark pyspark apache-spark-sql spark-streaming spark-structured-streaming

回答 1 投票 0

spark-streaming 相关问题

最新问题