apache-spark 相关问题

我在 Bigquery 中运行以下 PySpark 存储过程；从 pyspark.sql 导入 SparkSession Spark = SparkSession.builder.appName("work_with_sql").getOrCreate() df = Spark.sql( ''' 选择...

apache-spark pyspark stored-procedures apache-spark-sql google-bigquery

回答 2 投票 0

如何将字符串 json 转换为 scala 数据帧？

我有一个字符串 json，我正在尝试创建一个数据框。使用下面的代码我可以实现，但是我正在构建jar的环境，它抱怨toDS。有没有其他方法可以...

json scala apache-spark

回答 1 投票 0

如何在 Scala Dataframe 中的 Json 中填充缺失键的默认值？

我正在我的scala配置文件中读取json数据。我正在尝试提取客户 ID、位置、城市、州和状态（状态应位于地址键内）。由于状态是可选键，因此可能无法...

scala apache-spark

回答 1 投票 0

如何在一个字符串中读取整个文件

我想读取 pyspark.lf 中的 json 或 xml 文件，如果我的文件被分成多行 rdd= sc.textFile(json 或 xml) 输入 { “ 雇员”： [ { "firstName":"约翰", ”

json apache-spark apache-spark-sql

回答 6 投票 0

我使用pyspark创建了一个数据框，但无法查看创建的数据

我使用 pyspark 创建了一个数据框，但无法查看使用 .show() 创建的数据。我遇到了 Py4JJavaError 我安装了findspark，在使用findspark.init()时出现以下错误索引错误...

python java apache-spark pyspark

回答 1 投票 0

如何使用 pandas_udf 在 pyspark 中对分组/分区数据帧进行迭代

spark版本：3.2 我定义了 pandas_udf defcalculate_shap(迭代器：迭代器[pd.DataFrame]) -> 迭代器[pd.DataFrame]: 对于迭代器中的 X：产量 pd.DataFrame( 解释一下...

python apache-spark pyspark user-defined-functions pandas-udf

回答 1 投票 0

将 Dataframe 转换为 scala 中的嵌套 Json

我有一个数据框，如下所示，用*1，*2这样构造每个级别的json..并且“->”显示父节点的子节点数据框.show 编号*1 姓名*1 电源*1 类型*1 配料1->id2 打顶...

json dataframe scala apache-spark

回答 1 投票 0

spark 数据帧中两列中两个向量之间的欧几里德距离

我正在尝试获取 Spark 数据框中不同列中两个向量之间的欧氏距离。我需要在 Spark 上完成此操作。我花了很多时间尝试做到这一点，但无法想象......

apache-spark pyspark vector user-defined-functions euclidean-distance

回答 1 投票 0

Spark Left Outer Join 会在不应该生成Optional.empty 时生成Optional.empty

我有一个包含节点对的 RDD，我需要为它们分配唯一的 id。但我遇到了 NPE，我不知道如何解决它。我基本上将所有节点放入一个不同的列表中......

java scala apache-spark left-join rdd

回答 1 投票 0

如何在没有 UDF 的情况下计算 PySpark 数据帧中数组列中的尾随零数

我有一个数据框，其中有一列具有固定数量的整数的数组。如何向 df 添加包含数组中尾随零数量的列？我想避免使用...

python apache-spark pyspark apache-spark-sql

回答 5 投票 0

如何按列表顺序对 PySpark 数据帧行进行排序？

我有一个包含多个列的 pySpark 数据框和一个包含其中一个列项目的列表。我想按给定列表的顺序对行进行排序。可乐列_B 列_c a1 b1 c1 a2 b2 c2 ...

python dataframe apache-spark pyspark apache-spark-sql

回答 1 投票 0

对每个数据帧列应用不同的转换

我有一个以下格式的 PySpark 数据框（records_002_df），并且将来会添加更多列 - +------------+----------------+-------------+ |记录类型| CLAIM_NUMBER|收到日期| +----...

apache-spark pyspark

回答 1 投票 0

PySpark：连接第二个数据帧中的 NULL 值应该匹配

我有一个要求，如果匹配的 df2 具有空值，则它应该匹配。默认情况下，Spark 不匹配带有 null 的行。 df1- ID 姓名城市电子邮件 1 约翰城 A [email protected] 2 雾慈...

apache-spark join pyspark databricks

回答 1 投票 0

queryExecution.analyzed.stats.sizeInBytes 始终返回 9223372036854775807

我正在尝试检查我们在数据仓库中生成的不同表的大小，以便我们可以有一种自动方法来计算下次运行中的分区大小。为了得到桌子的尺寸...

scala apache-spark

回答 1 投票 0

ParseException：输入时没有可行的替代方案

我尝试在 Azure 数据块中运行以下查询。查询=s"""WITH pre_file_user AS( 选择 ID，类型ID，当 dttm 为 null 或 dttm='' 时的情况...

sql apache-spark pyspark apache-spark-sql azure-databricks

回答 3 投票 0

apache-spark 相关问题

最新问题