IM我的代码,还有我从蜂巢表创建一个数据帧。而我做的fonction过滤器一个简单的过滤器。但结果是随机的:我执行包含过滤几次相同的细胞,有时,它会返回行,有时不回来。我敢肯定,只有一个在预期的结果一致。并没有其他的作品在同一时间上的源文件。
df = spark.sql("select id from hive_table limit 100")
df.filter(col('id') == 27654909)
我不是专家在pyspark,可以肯定的,但你的症状听起来像限制实际上是控制搜索的深度,而不是返回记录结果的最大数量。
因为我想这是一个开发环境,如果取消该限制条款,你得到的一次性成功100%?