仅加载部分 HBase/Phoenix 表作为 Spark Datafrom

问题描述投票：0回答：1

我在 Spark 中使用以下代码将我的 HBase/Phoenix 表的指定列加载到 Spark Dataframe 中。我可以指定要加载的列，但我可以指定哪些行吗？还是我必须加载所有行？

import org.apache.hadoop.conf.Configuration
import org.apache.spark.SparkContext
import org.apache.spark.sql.SQLContext
import org.apache.phoenix.spark._

sc.stop()

val sc = new SparkContext("local", "phoenix-test")
val df = sqlContext.phoenixTableAsDataFrame(
     "TABLENAME", Array("ROWKEY", "CF.COL1","CF.COL2","CF.COL3"), conf = configuration
     )

apache-spark hbase amazon-emr apache-phoenix

1个回答

0
投票

您可以在调用中添加谓词以限制检索哪些行，例如，

val df = sqlContext.phoenixTableAsDataFrame(
     "TABLENAME", Array("ROWKEY", "CF.COL1","CF.COL2","CF.COL3"),
     conf = configuration,
     predicate = Some("ROWKEY IN ('1', '2')")
     )

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.