Spark Python API(PySpark)将apache-spark编程模型暴露给Python。
我对描述中的每个令牌都有一些描述和标签。标签指定令牌的类型。我想从描述中提取地址,即:对应于...的所有代币
使用 pyspark 数据框,嵌套数组的爆炸和存储在单独的行中花费了太多时间
我使用下面的代码片段来分解由嵌套 json 创建的数据帧中的列。查询花费太多时间才能完成。我可以得到一些关于如何改进的建议吗
我想处理A中的一些数据,并用处理后的结果替换A。 write() 操作完成后,我可以在任何“地方”做一些事情吗?或者有什么办法可以替代原来的d...
这是一个pyspark重叠时间段问题: 样本数据 数据 = [ (1、“2024-01-28T05:00:00Z”、“2024-01-28T06:00:00Z”、“1/24/24”), (1、“2024-01-28T05...
Pyspark - 创建一个 json 列,其键来自另一个 CSV 列
输入数据集如下所示 |编号 |领域 | f1 | f2 | f3 | f4 | | -------- | -------- | -------- | -------- | -------- | -------- | | 1 ...
莫名其妙的 PySpark SQL 数组索引错误:索引 1 超出长度 1 的范围
我看到一个莫名其妙的数组索引引用错误, 索引 1 超出长度 1 的范围 ...我无法解释,因为我没有看到在我的 AWS 上下文中引用任何相关数组...
使用 pyspark 在 s3 中准备镶木地板时如何推断架构
使用spark.read.parquet读取s3中保存的parquet文件时,它会自动更改一些数据类型。例如字符串到整数。 如何禁用此功能并保留所有原始数据类型
读取 JSON 文件并获取正确的数据类型:InferShema 给我带来了问题,并且将其设置为 false 不是一个选项
我正在构建一个数据存储库,并从源应用程序的 API 中以 JSON 形式获取数据。这些 JSON 非常复杂,它们的结构可能会因调用而变化,因为我只得到 ch...
我想寻求一些帮助来解决我现在面临的问题。给定数据集: df = Spark.createDataFrame([ ('2024-01-01', 1, 23), ('2024-01-02', 1, 43), ('2024-01-03'...
如何使用spark connect与Kubernetes集群
我目前正在尝试在 kubernetes 上设置 Spark Connect。我只是想知道是否有人这样做过。我正在尝试弄清楚是否需要在 kubernetes 上设置一个独立的 Spark 集群......
我在数据块中有一个日期列,其值“-”代表 1 条记录。我无法将其过滤掉或选择此行。我如何在 where 子句中使用这个值“-”? 我努力了
如何使用 Python 在 Linux 中打开时创建具有所需密码的 Excel xlsx 文件
我有一个数据框。 我需要将数据帧写入 Excel 文件,打开它时需要密码。 在Linux环境下。 我怎样才能做到这一点? 我尝试了一些像 msoffcrypto 这样的软件包,但它只是可以解密......
使用 Dataframe 时出现 SparkConnectGrpcException
我正在使用 Spark Connect 连接远程 Spark 集群并执行此代码块。看来我可能错过了一些东西。这是 IPython 笔记本。我正在使用 PySpark 并运行
我在数据框中有一个字符串列,其中的值带有重音符号,例如 “墨西哥”、“阿尔巴尼亚”、“日本” 如何用重音符号替换字母以获得此效果: “墨西哥”、“阿尔巴尼亚”、“日本” 我尝试了很多解决方案...
在命令提示符下运行 rdd = sc.parallelize([1,2,3]) 后,我在运行 rdd.first() 时收到此错误。 py4j.protocol.Py4JJavaError:调用 z:org.apache.spark.api 时发生错误。
我构建了一个具有 17-20 个连接的 Spark SQL 查询。我的驱动表大小约为 40GiB,其他 2-3 个表的数据为 1-2 TB,其他表的数据约为 3-4GiB。我尝试了这份工作,没有 16...
我在 PySpark 中有一个 for 循环,可以迭代超市的不同产品,但需要很长时间。我知道 for 循环在 Spark 中效率很低,但我不知道该怎么做......
Databricks / pyspark 在 0.5 到 1 秒内从笔记本写入表?
尝试模仿 Databricks 中的实时数据流。 创建了一个包含 4 列(字符串和时间戳类型)、大约 10-15 行的小型目录/表。 在笔记本中将 DataFrame 写入数据l...
PySpark 和 Databricks addFile 和 SparkFiles.get 异常 java.io.FileNotFoundException
我正在努力: 将 SSL 证书从 S3 加载到集群。 addFile 以便所有节点都能看到该文件。 使用 JDBC 创建到 IBM db2 的连接 URL。 步骤 1 和步骤 2 运行成功。我可以...