apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎，为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习，图形处理有关。

如何读取Pyspark Jupiter笔记本中的Avro文件？

如何在 Jupyter Notebook 上读取 Pyspark 中的 Avro 文件？！从 Spark 2.4 开始，Avro 是内置但外部的数据源模块。请按照“Apach...

apache-spark pyspark jupyter-notebook avro spark-avro

回答 1 投票 0

使用本地文件进行 Spark 流式处理（Python）

有没有办法扫描本地文件系统以查找特定文件夹中的更改，就像使用 HDFS （GitHub 示例）一样？使用常规路径或带有 hdfs:// 的 URI 运行它似乎可以工作，但是使用...

python hadoop apache-spark hdfs pyspark

回答 1 投票 0

使用python从spark读取singlestore数据

我对 Spark 和 singlestore 完全陌生。我正在尝试使用 Spark 从 singlestore 读取数据，这是我编写的代码 - 从 pyspark.sql 导入 SparkSession 火花 = SparkSession.builde...

python apache-spark singlestore

回答 1 投票 0

AWS EMR PySpark UDF 失败并显示“无法运行命令 /usr/bin/virtualenv (...)”

我有一个 emr 版本为 6.10.0 的 emr 集群，我尝试在代码中使用 pyspark udf，但它始终失败并出现相同的错误。数据 = [("AAA",), ("BBB",)...

amazon-web-services apache-spark pyspark user-defined-functions amazon-emr

回答 2 投票 0

spark 中排序是如何在幕后发生的

考虑一下，我有一个 100 GB 的 csv 文件，我需要创建一个排名列，让我们说基于“customer_spends_in_dollar”列的“排名”。 df = Spark.read.csv('文件.csv') （ df .withColumn( ...

apache-spark directed-acyclic-graphs

回答 1 投票 0

spark 结构化流作业如何处理流 - 静态 DataFrame 连接？

我有一个 Spark 结构化流作业，它从 cassandra 和 deltalake 读取映射表并与流 df 连接。我想了解这里的确切机制。火花会击中这些吗

apache-spark pyspark spark-streaming spark-structured-streaming

回答 1 投票 0

Spark 看不到 Hive 表，具体取决于您的运行方式

问题是，根据您运行 Spark 的方式，您是否可以看到 Hive 数据库。我接下来会采取三项行动：使用蜂巢 hive> 显示数据库；好的默认数据库火花数据库花费时间：0.041秒...

python database apache-spark hive spark-submit

回答 2 投票 0

groupby 列上的 Spark scala 隔离森林

我有一个数据集，例如：我想按 Col1、Col2、Col3 对数据进行分组，并希望应用隔离林按结果对该组进行排序。如果 col3 值只是 sin，我可以应用隔离森林...

scala apache-spark isolation-forest

回答 1 投票 0

运行 Spark-shell 时出现错误：SparkContext：初始化 SparkContext 时出错

我在三个节点上成功安装了spark。我可以访问 Spark Web UI 并发现每个工作节点和主节点都处于活动状态。我可以成功运行 SparkPi 示例。我的集群信息： 10.45.10.33(

hadoop apache-spark hdfs

回答 2 投票 0

如何确定 Apache Spark 和 scala 中的无效 XML 字符串

我有一个用户定义的函数，如下所示案例类主体结果（文本：字符串，代码：字符串） val bodyudf = udf{ (body: 字符串) => //将 body 标签显式附加到

xml scala apache-spark xml-parsing

回答 2 投票 0

如何修改pyspark dataframe嵌套结构列

dataframe apache-spark pyspark struct apache-spark-sql

回答 2 投票 0

如何使用 pyspark 更新结构体嵌套列中的值

我尝试做非常简单的事情 - 更新嵌套列的值；但是，我不知道如何环境：阿帕奇火花2.4.5 数据块 6.4 Python 3.7 数据DF = [ (('乔恩','','史密斯'),'1580-01-06...

python apache-spark pyspark apache-spark-sql

回答 3 投票 0

为什么我无法让 PySpark 在“leftouter”与本身就是联接结果的 Dataframe 联接之后删除右侧的重复列？

我有以下输入数据框：预期 = Spark.createDataFrame( # fmt：关闭数据=[ {“id”：“1”，“组”：“1”，“开始”：1_000...

python apache-spark pyspark

回答 1 投票 0

在YARN上使用Spark时，maxExecutors、num-executors和initialExecutors之间有什么关系？

首先，我读了这篇文章，其中说如果没有显式设置spark.dynamicAllocation.maxExecutors，则spark.dynamicAllocation.maxExecutors的值将等于num-executors。然而，从

apache-spark hadoop-yarn

回答 1 投票 0

Spark 建议列出文档中提供的 Spark 和 Hadoop 依赖项，这是严格要求的吗？

在 Spark 文档中，它指出：如果您的代码依赖于其他项目，则需要将它们打包与您的应用程序一起，以便将代码分发到 Spark 簇。为了做到这一点...

apache-spark hadoop hbase amazon-emr

回答 1 投票 0

使用spark解析包含逗号和引号的单元格的csv文件

我的 CSV 文件有超过 30 列，其中一些列代表 json 字符串，例如 - "{""name"": ""value1"",""name2"": &...

json scala csv apache-spark parsing

回答 1 投票 0

无法使用 Spark dataframe 和 scala 创建 CSV，而是创建文件夹名称中包含“.csv”的文件夹

我无法使用 Spark 数据框编写或创建 csv。相反，它为我创建目录。这是我的代码 com.package.dssupplier 包导入 org.apache.spark.sql.{SaveMode、SparkSessi...

scala apache-spark pyspark apache-spark-sql

回答 1 投票 0

Spark：java.lang.NoClassDefFoundError：scala/collection/mutable/ArraySeq$ofRef

我正在尝试使用 Spark-Submit 运行一个简单的字数统计程序并收到异常。线程“main”中的异常 java.lang.BootstrapMethodError: java.lang.NoClassDefFoundError: 斯卡拉/

scala apache-spark

回答 2 投票 0

MEMORY_AND_DISK_DESER 如何用于 PySpark DataFrame？

有人可以解释 PySpark DataFrame 缓存/持久性的默认 MEMORY_AND_DISK_DESER 存储级别的行为吗？（似乎 DataFrame 的默认存储级别曾经来自

dataframe apache-spark pyspark

回答 1 投票 0

如何配置 GCS Spark 连接器以使用来自两个不同项目的两个不同的 GCS 存储桶？

我正在寻找一种在同一个 Spark 作业中配置多个 GCS 存储桶（来自不同项目）的方法。我已经能够以特定的方式解决这个问题（如下），但我怀疑可能有......

apache-spark google-cloud-storage google-oauth google-cloud-dataproc

回答 1 投票 0

apache-spark 相关问题

最新问题