我在 EMR 集群 (6.14) 上使用 Apache Spark Structured Streaming (3.1.2)。 Spark 结构化流将数据从 Apache Kafka 流式传输到 Delta Lake 表。当我打开 Spark UI 时，我看到以下内容

Apache Spark 中的 join 和 cogroup 有什么区别

Apache Spark 中的 join 和 cogroup 有什么区别？每种方法的用例是什么？

kedro ipython，如何访问spark会话

我能够在 kedro ipython 会话中加载 Spark 数据集。首先，我按照此处所述配置了 Spark 会话。然后我用 ipython --ext kedro.extras.exten 启动了 kedro ipython 会话...

在 Spark 的作业之间移动执行器的开销？

我正在阅读一篇有关 Spark 作业调度的论文，我对他们对 Spark 的概述感到困惑： Spark作业由一个DAG组成，其节点是作业的执行阶段。每个阶段代表...

将 pandas 数据帧转换为 Spark 数据帧时收到错误

由于spark没有开箱即用的支持读取excel文件，所以我首先将excel文件读入pandas数据帧，然后尝试将pandas数据帧转换为spark数据帧，但我得到了...

写入 cassandra 时从 Spark 结构化流数据帧中过滤错误记录

我知道我的 Spark Scala 数据帧的第 n 行存在一些问题（假设数据类型不正确）。当我尝试使用 Spark 结构化流在 cassandra 中写入此数据帧时，它失败了......

将目录中包含特定文本的多个 csv 文件读取到 r

我已将一组 .csv 文件从目录导入到列表文件中，如下所示。特点 <- c("ASB_aggregated_by_lsoa_2015.csv", "ASB_aggregated_by_lsoa_2019.csv", "

如何在intellij中设置和运行scala-spark？

我正在尝试运行使用 Intellij 来构建用 scala 编写的 Spark 应用程序。当我执行scala程序时，出现以下错误：线程“main”java.lang 中出现异常。

Powershell - 操作 CSV 列

我正在尝试操作 csv 文件列，但无法让它找到列数据。我的 CSV 文件如下所示： “从”，“到”，“仪表编号”，“仪表名称”，...

发送 csv 时“(400) 输入错误。某些域无效”

H。我需要通过ajax发送csv文件。我写了这段代码 $('#send-csv').click(function(){ var CSRF_TOKEN = document.querySelector('meta[name="csrf-token"]').getAttribute("c...

Glue Dynamic Frame 比普通 Spark 慢得多

在下图中，我们使用三种不同配置运行相同的胶水作业，以了解如何写入 S3：我们使用动态帧写入S3 我们用纯spark框架写信给S...

将 Spark-Submit 的路径传递到 Python 脚本中

我想将我在 Spark-submit 命令行命令中使用的路径传递到我的 Python 脚本中，以便在写出文件时使用。（注意：不是当前工作目录，也不是

无法将 Spark 数据帧写入 Mongo

使用 mongo-connector 版本 10.0.1 以下是我的配置 .config("spark.mongodb.write.connection.uri","mongodb://127.0.0.1:27017/") .config("spark.mongodb.write.database&

通过全局初始化脚本启用 Databricks 集群日志

我想通过全局初始化脚本为工作区中的所有集群（新的或旧的）设置集群日志传送。我尝试通过自定义 Spark conf 添加底层 Spark 属性 - /databricks/dri...

不带标题的Python csv

通过 csv 文件中的标题信息，可以将城市抓取为：城市 = 行['城市'] 现在如何假设 csv 文件没有标题，只有 1 列，列是城市。

Dart 在处理 CSV 文件时存在问题

我有以下 CSV 文件： $ 猫 ../SyncedShazams.csv “艺术家”、“标题”、“状态”、“日期”、“经度”、“纬度” “女王”、“……

有没有办法将图像的内容（存储在spark Dataframe中）与pyspark并行写入文件？

我有一个 Spark Dataframe，其中每一行都包含两个项目：文件名（带有扩展名，例如 .jpg）和文件的内容（以字节为单位）。我想写一个过程...

Spark SQL 不支持 JSONPATH 通配符的任何解决方法

spark.sql("""select get_json_object('{"k":{"value":"abc"}}', '$.*.value') as j""").show() 这会导致 null，而它应该返回 'a...

单个 CSV 文件中的多个分隔符

我有一个 CSV，它有三个不同的分隔符，即“|”、“,”和“;”不同列之间。如何使用 Python 解析此 CSV？我的数据如下： 2017-01-24|05:19:30+0000|

将 CSV 文件缓慢解析为向量图

我正在尝试读取 CSV 文件并将其解析为向量图。因此，映射的键是 CSV 中的列名称，映射的值是包含值列的向量...

使用 Python Pandas 从 CSV 文件中删除重复记录

我想使用 Python Pandas 从 csv 文件中删除重复记录 CSV 包含具有三个属性scale、minzoom、maxzoom 的记录。我想用 minzoo 得到一个结果数据框...

如何使用 Python 将多个 CSV 文件合并为一个大 CSV 文件 [重复]

我有一个 zip 文件，其中包含 70 多个 csv 文件。我想将所有这些文件中的信息合并到一个大的 csv 文件中。在python中使用append方法会花费很长时间，因为我会...

在结构化流 API 中跨多个集群使用共享 Kafka 主题执行 Spark 作业

我正在开发一个 Spark 项目，我需要在两个不同的集群上运行作业，两个集群都使用相同的 Kafka 主题。我希望这些作业能够有效地共享负载并平衡

SQL Server CSV 在文件中创建空白

我一直使用 insull(fieldName,'') 来处理从 sql server 生成的 csv 文件。我遇到的问题是 csv 文件中的输出将在字段中放置一个空格：一些值, ,一些值我找不到...

循环ConvertFrom-Csv返回的对象

我有下面的代码，它根据我们传递给它的特定列来分割文件。我在将结果输出到 csv 文件时遇到问题。截至目前，我得到了 csv 格式的输出公司...

如何在 Cloud Composer 2 的 KerbenetesPodOperator 中指定非默认计算类

我正在 Cloud Composer 2 中使用 KurbenetesPodOperator 创建 pod 来执行 Spark 作业。默认情况下，当您使用

在 Spark DataFrame python 中将二进制字符串的列转换为 int

所以我有一个数据框，其中有一列，如下所示： +----------+ |some_colum| +----------+ | 10| | 00| | 00| | 10| | 10| | 00| | 10| | 00| | ...

如何用csv模块替换CSV文件中的连字符减号

我无法在具有许多其他格式的 CSV 文件中将连字符 (-) 替换为分号 (;)。当我尝试时，我总是遇到错误：ValueError：关闭文件上的 i/o 操作。或属性...

基于区域设置的python csv列表分隔符

如何使用Python检测用户机器中的列表分隔符？需要在用户计算机上创建 CSV 文件，并且必须自动检测列表分隔符（以便 Excel 可以读取 CSV 文件）...

VSCode 仅从 csv 文件读取 1 个值[已关闭]

Python 文件：名称=[] 以 open("names.csv") 作为文件：对于文件中的行：名称、颜色 = line.rstrip().split(",") print(f"{名称}, {颜色}") CSV ...

读取和过滤 CSV 文件列

我正在读取数据帧并使用如下条件查找len：将 pandas 导入为 pd gf = pd.read_csv(raw_github_csv_file_url) print(len(gf[gf["性别"]=="男"])) 我的 CSV...

如何使用 HTML、JS 和 Chart.js 处理大型 CSV 文件

我必须上传一个90 MB的CSV文件，然后用chart.js作为图表对其进行分析。 CSV 文件包含每分钟记录的测量值。这 90 MB 几乎相当于一年的数据量。我有

如何使用HTML、JS和chart.js处理大型CSV文件

我必须上传一个90 MB的CSV文件，然后用chart.js作为图表对其进行分析。 CSV 文件包含每分钟记录的测量值。这 90 MB 几乎相当于一年的数据量。我有

Python 代码仅从 csv 文件读取 1 个值 [已关闭]

Python 文件：名称=[] 以 open("names.csv") 作为文件：对于文件中的行：名称、颜色 = line.rstrip().split(",") print(f"{名称}, {颜色}") CSV ...

我想创建一个 csv 文件，其中包含特定 AD 组的所有成员

我需要你的帮助。我想创建一个 csv 文件，其中包含特定 AD 组的所有成员。在 csv 文件中，会有用户名、名字和姓氏以及电子邮件地址列...

无法用千位和逗号分隔csv文件

我需要读取带有逗号的csv文件以及字符串和数字，但数字中包含逗号，例如1,260。此外，csv 文件是用逗号分隔的，因此我无法以正确的方式读取文件。我怎么能……

Python数据提取失败

嗨，我正在尝试解析复杂的 csv。下面是 csv 示例：开始/停止、读/写、地址、数据开始，，，，写，， ,,22, ,,,0 开始重复,,, ，读，， ,,22, ,,,E8 ,,,22 停止，，，我想要

删除 SQL *Plus SPOOL 中的初始和尾随空白行（SET MARKUP CSV）

我正在尝试使用 SQL *Plus 将简单的 SELECT 导出到 .csv 文件。如果有更好的方法来做到这一点，我愿意，但我需要使用 SQL 并以 .csv 结尾，并且能够单击某些内容来运行 wh...

如何在 dataweave 中的多部分表单数据中创建管道分隔的 csv 文件

在 dataweave 中的多部分表单数据中创建管道分隔的 csv 文件面临困难我正在尝试将带有管道（“|”）分隔值的 csv 文件作为多部分表单数据发送到 api。但是...

从spark/scala项目代码中资源文件夹中的sql文件读取查询

我在 IntelliJ 中的文件夹结构如下 src-->主-->资源-->sql-->samplequery.sql 我在文件夹 src--> main-->scala-... 中有 scala 对象文件samplequeryexecute

pyspark 检查点在本地计算机上失败

我刚刚开始在本地计算机上使用独立版本学习 pyspark。我无法让检查站工作。我把剧本归结为这个...... Spark = SparkSession.builder.appName("PyTest").master("

Databricks Spark：java.lang.OutOfMemoryError：GC 开销超出限制 i

我正在 Databricks 集群中执行 Spark 作业。我通过 Azure 数据工厂管道触发作业，它以 15 分钟的间隔执行，因此在成功执行三到四次之后...

如何使用 Playwright 在异步函数内创建循环？

所以我想用 Playwright 做一些非常简单的事情，我只需要从我用 csv 制作的数组访问网站 var csvsync = require('csvsync'); var fs = require('fs'); var csv = fs。

如何使用诗歌从 test.pypi.org 安装软件包？

我想在我的项目中使用包的预发布版本（https://test.pypi.org/project/delta-spark/2.1.0rc1/）。我正在使用诗歌来管理我的 pyproject.toml。我该怎么做呢？换句话说...

我在安装 pyspark 时遇到错误，如何修复它？

我想安装并练习pyspark。但是在安装和进入 pyspark-shell 过程中，出现以下错误。 C:\Windows\System32>spark-shell 将默认日志级别设置为“WARN”。至

JUNIT 测试用例-Spark JDBC

我是 Java 编程的新手。我有一个从Oracle数据库读取数据的方法。现在我需要帮助使用 JUnit 框架为以下代码编写测试用例。数据集 df = Spark.read().

为什么我使用 pandas 读取 csv 文件的对象是 TextFileReader 对象

我使用 pandas 读取了 csv 文件： data_raw = pd.read_csv(文件名, chunksize=chunksize) 打印（data_raw['id']）然后，它报告TypeError：回溯（最近一次调用最后一次）：文件“”，...

Codeigniter 将 CSV 上传到数据库

提前感谢您给我的帮助，我会解释我的情况。基于教程文件上传论坛：只是一个不错的 csv 上传和填充数据库功能表单创建插入...

读取 ODBC 以分号分隔的 .csv

目前我正在尝试使用 PowerShell 中的 ODBC 将分号分隔的 .csv 文件读入数据表中。数据表没有正确的列，并且似乎忽略了分隔符。我的计划...

使用 ODBC 从 PowerShell 读取 .csv

我尝试使用 PowerShell 读取 .csv 文件，但出现错误： [Microsoft][ODBC 驱动程序管理器] 未找到数据源名称且未指定默认驱动程序这是我的代码，我似乎无法

spark-csv 相关问题

最新问题