spark-notebook 相关问题

Apache Spark Structured Streaming 中 Spark UI 上的查询和阶段卡住了

我在 EMR 集群 (6.14) 上使用 Apache Spark Structured Streaming (3.1.2)。 Spark 结构化流将数据从 Apache Kafka 流式传输到 Delta Lake 表。当我打开 Spark UI 时，我看到以下内容

Apache Spark 中的 join 和 cogroup 有什么区别

Apache Spark 中的 join 和 cogroup 有什么区别？每种方法的用例是什么？

kedro ipython，如何访问spark会话

我能够在 kedro ipython 会话中加载 Spark 数据集。首先，我按照此处所述配置了 Spark 会话。然后我用 ipython --ext kedro.extras.exten 启动了 kedro ipython 会话...

在 Spark 的作业之间移动执行器的开销？

我正在阅读一篇有关 Spark 作业调度的论文，我对他们对 Spark 的概述感到困惑： Spark作业由一个DAG组成，其节点是作业的执行阶段。每个阶段代表...

无法从 Windows 上的 Jupyter Notebook 中的虚拟环境访问库

我遇到一个问题，在 Windows 上运行 Jupyter Notebook 时无法从虚拟环境访问库。尽管激活了虚拟环境并安装了所需的

如何在 Jupyter Notebook 中使用我的 PyCharm Python 解释器？

是否可以在 Jupyter Notebook 中使用我在 PyCharm 中使用的 Python 解释器？我不想创建一个全新的虚拟环境，因为我已经尝试过并遇到了&q...

将 pandas 数据帧转换为 Spark 数据帧时收到错误

由于spark没有开箱即用的支持读取excel文件，所以我首先将excel文件读入pandas数据帧，然后尝试将pandas数据帧转换为spark数据帧，但我得到了...

写入 cassandra 时从 Spark 结构化流数据帧中过滤错误记录

我知道我的 Spark Scala 数据帧的第 n 行存在一些问题（假设数据类型不正确）。当我尝试使用 Spark 结构化流在 cassandra 中写入此数据帧时，它失败了......

为什么 Odoo 17 没有在 <notebook> 中为我的字段渲染标签？

我正在运行有关 Odoo 17 开发的教程，并为第 7 章中的练习创建了以下代码：我正在运行有关 Odoo 17 开发的教程，并且我为第 7 章中的练习创建了此代码： <record id="estate_view_form" model="ir.ui.view"> <field name="name">estate.property.form</field> <field name="model">estate.property</field> <field name="arch" type="xml"> <form string="Estate Property" create="True"> <sheet> <group string="Info"> <field name="name" /> <field name="description" /> </group> <group string="Location"> <field name="postcode" /> </group> <notebook> <page string="Specs"> <field name="facades" /> <field name="garage" /> </page> </notebook> </sheet> </form> </field> </record> 它可以工作，但 <notebook> 中字段的标签未呈现。我尝试添加 string 属性，但这不起作用。 <notebook> 上的文档没有提及任何有关此行为的信息。 IIRC 自从我使用的每个版本（6.1+）以来，你必须在 group 周围有一个 field 才能自动获取标签。

如何在intellij中设置和运行scala-spark？

我正在尝试运行使用 Intellij 来构建用 scala 编写的 Spark 应用程序。当我执行scala程序时，出现以下错误：线程“main”java.lang 中出现异常。

Glue Dynamic Frame 比普通 Spark 慢得多

在下图中，我们使用三种不同配置运行相同的胶水作业，以了解如何写入 S3：我们使用动态帧写入S3 我们用纯spark框架写信给S...

是否可以在 Google Cloud Shell 中使用 Jupyter Notebook？

我尝试过的：启动 Google Cloud shell 须藤 pip 安装 jupyter jupyter 笔记本 --generate-config 将以下内容添加到 ~/.jupyter/jupyter_notebook_config.py c.NotebookApp.ip = 'localhost' c.

将 Spark-Submit 的路径传递到 Python 脚本中

我想将我在 Spark-submit 命令行命令中使用的路径传递到我的 Python 脚本中，以便在写出文件时使用。（注意：不是当前工作目录，也不是

无法将 Spark 数据帧写入 Mongo

使用 mongo-connector 版本 10.0.1 以下是我的配置 .config("spark.mongodb.write.connection.uri","mongodb://127.0.0.1:27017/") .config("spark.mongodb.write.database&

通过全局初始化脚本启用 Databricks 集群日志

我想通过全局初始化脚本为工作区中的所有集群（新的或旧的）设置集群日志传送。我尝试通过自定义 Spark conf 添加底层 Spark 属性 - /databricks/dri...

有没有办法将图像的内容（存储在spark Dataframe中）与pyspark并行写入文件？

我有一个 Spark Dataframe，其中每一行都包含两个项目：文件名（带有扩展名，例如 .jpg）和文件的内容（以字节为单位）。我想写一个过程...

Spark SQL 不支持 JSONPATH 通配符的任何解决方法

spark.sql("""select get_json_object('{"k":{"value":"abc"}}', '$.*.value') as j""").show() 这会导致 null，而它应该返回 'a...

将 Jupyter 笔记本转换为 MS Word 文档 .doc？

在 Jupyter Notebook 中，我可以使用 nbconvert 将笔记本转换为 pdf 和 HTML。但是，没有办法将其转换为.doc（Word文档）。有没有办法将其转换为 MS Word 保留...

jupyter ImportError：无法从部分初始化的模块“zmq.backend.cython”导入名称“常量”

我最近升级了jupyter，但现在我得到了 ImportError：无法从部分初始化的模块“zmq.backend.cython”导入名称“常量” 当我运行例如 jupyter-notebook 或 jupyter

在结构化流 API 中跨多个集群使用共享 Kafka 主题执行 Spark 作业

我正在开发一个 Spark 项目，我需要在两个不同的集群上运行作业，两个集群都使用相同的 Kafka 主题。我希望这些作业能够有效地共享负载并平衡

任何 anaconda 命令返回错误“无法从‘集合’导入名称‘序列’”

当我尝试在终端中运行任何 anaconda 命令（conda、upyter notebook、pip3...）时，它会抛出以下错误： >康达回溯（最近一次调用最后一次）：文件“/Users/thejavanoob/

VS Code Jupyter Notebook 输出单元格自动换行不起作用

我正在从 SFrame 中选择文本数据并打印它。文本确实很长，单元格有一个水平滚动条来查看它。我想让它换行并适合我的窗口，...

无法让一个 Pod 与另一个 Pod 通信（Pod 间通信不起作用）

我正在管理 Kubernetes 集群，并希望 Pod1 对 Pod2 和 Pod3 进行 API 调用（但 Pod1 - Pod3 失败！）： Pod1：用于测试连接的 Jupyter Notebook 环境。 Pod2：运行的 Express.js 应用程序...

无法让一个 pod 与另一个 pod 通信（Kubernetes 中的 ScrapyRT 通信不起作用）

如何在 Cloud Composer 2 的 KerbenetesPodOperator 中指定非默认计算类

我正在 Cloud Composer 2 中使用 KurbenetesPodOperator 创建 pod 来执行 Spark 作业。默认情况下，当您使用

在 Spark DataFrame python 中将二进制字符串的列转换为 int

所以我有一个数据框，其中有一列，如下所示： +----------+ |some_colum| +----------+ | 10| | 00| | 00| | 10| | 10| | 00| | 10| | 00| | ...

Python 代码适用于 JupyterNotebook（本地），但不适用于 Visual Studio Code (ssh)

所以，我有一段用 Python 编写的代码，它在我本地的 Jupyter Notebook 上运行得很好，但是当我在 Visual Studio Code 上运行相同的代码时，它不起作用。这是代码： ...

由于“tf.shape”和“Tensor.shape”，我的代码出现问题。 `tf.shape` 和 `Tensor.shape` 都不起作用

我已经在 Tensorflow 中从头开始编写 DETR 对象检测管道。 DETR：Kaggle Notebook 链接：包含所有代码；制作您自己的笔记本副本以重现该问题我已经测试过...

我尝试从上一个检查点恢复我的 Jupyter 笔记本，但它就消失了。使用 Mac

该文件不在我计算机的垃圾箱中。该文件不在 Jupyter Notebook 中之前所在文件夹中的任何位置。有什么办法可以找到这个吗？我可以进行恢复搜索吗？这...

从spark/scala项目代码中资源文件夹中的sql文件读取查询

我在 IntelliJ 中的文件夹结构如下 src-->主-->资源-->sql-->samplequery.sql 我在文件夹 src--> main-->scala-... 中有 scala 对象文件samplequeryexecute

pyspark 检查点在本地计算机上失败

我刚刚开始在本地计算机上使用独立版本学习 pyspark。我无法让检查站工作。我把剧本归结为这个...... Spark = SparkSession.builder.appName("PyTest").master("

Databricks Spark：java.lang.OutOfMemoryError：GC 开销超出限制 i

我正在 Databricks 集群中执行 Spark 作业。我通过 Azure 数据工厂管道触发作业，它以 15 分钟的间隔执行，因此在成功执行三到四次之后...

如何使用诗歌从 test.pypi.org 安装软件包？

我想在我的项目中使用包的预发布版本（https://test.pypi.org/project/delta-spark/2.1.0rc1/）。我正在使用诗歌来管理我的 pyproject.toml。我该怎么做呢？换句话说...

我在安装 pyspark 时遇到错误，如何修复它？

我想安装并练习pyspark。但是在安装和进入 pyspark-shell 过程中，出现以下错误。 C:\Windows\System32>spark-shell 将默认日志级别设置为“WARN”。至

JUNIT 测试用例-Spark JDBC

我是 Java 编程的新手。我有一个从Oracle数据库读取数据的方法。现在我需要帮助使用 JUnit 框架为以下代码编写测试用例。数据集 df = Spark.read().

将 Fastq 文件直接读取到 Pandas Dataframe 中

我正在尝试将 Fastq 文件直接读入 pandas 数据帧，类似于下面的链接：将 FASTQ 文件读入 Spark 数据帧我到处搜索，但找不到可行的选择。电流...

火花计数未给出正确结果

我是 Spark 的新手，最近了解到它会在调用某个操作时执行所有转换。在搜索过程中，我找到了一个简单的代码来测试它，结果并不符合预期。他...

如何在 PySpark 中按条件聚合相邻行进行分组

我在 Spark 数据框中进行条件分组时遇到问题下面是完整的例子我有一个数据框，已按用户和时间排序活动地点用户 0 观看

如何在 AWS EMR 上配置/安装 JDBC SQLServerDriver for Spark 3.5？

我正在开发一个 PySpark ETL 管道应用程序，以便最终部署在 AWS EMR 上。数据从 Microsoft SQL Server 数据库中提取或提取。当我在本地运行代码时，我使用本地 mas...

Spark JDBC 写入 Teradata - 如何编写并行查询

我有一个大约 2000 万行和 5 列的数据帧，我想将其写入 Teradata。我面临的问题是它需要一个绝对年龄来加载，因为我们可以使用一个分区，因为表将......

在 PySpark 中执行不带 OrderBy 的窗口函数

我有一个数据框，其中数据的顺序已经正确。现在我需要在数据帧上执行诸如超前/滞后之类的窗口函数，但是根据 Spark，orderBy 是强制性的，它不允许我喜欢 lea...

有没有办法在不使用collect()的情况下将数据帧值收集为列表

我面临着如何在不使用收集方法的情况下有效过滤 Spark DataFrame 的挑战，这可能会导致大型数据集上的性能问题。具体来说，我需要过滤

Spark中同规格硬件上本地处理和集群处理有什么区别？

本地模式 vs 集群模式我是一个刚刚使用EMR的新手。我正在使用 AWS EMR。有主节点、核心节点、任务节点。为什么要使用多核/任务？我不能只用一个吗？难道是……

spark-notebook 相关问题

最新问题