我有一个以下结构的数据框
姓名 | IRC_列表 |
---|---|
A |
|
B |
|
C |
|
过滤后表格应为:
姓名 | IRC_列表 |
---|---|
A |
|
C |
|
B 应该被过滤掉,因为对应的列表没有任何以“V”开头的元素。
仅供参考,我使用的是 Spark 2.3.0
这是带有参数和自己数据的动态方法:
从 pyspark.sql.functions 导入 *
param = "V"
df = spark.createDataFrame(
[( 1, ["Vapple", "Kpear"],), (2, ["plan", "pipeV"],), (3, ["cat", "Vant"],)], ["key", "value_string_array"]
)
filter_starts_with = lambda s: s.startswith(param)
df.filter(exists(col("value_string_array"), filter_starts_with)).show()