这是我的代码。我在数据块中运行它。
library(sparklyr)
library(dplyr)
library(arrow)
sc <- spark_connect(method = "databricks")
tbl_change_db(sc, "prod")
trip_ids<-spark_read_table(sc, "signals",memory=F) %>% slice_sample(10) %>% pull(trip_identifier)
尽管我只查询了 10 个样本,但代码非常慢并且需要花费一个小时才能运行。 这是为什么?有没有办法提高性能?
谢谢!