大数据(spark sql和spark dataframes连接)

Question

我是大数据平台的新手。请你告诉我不同的方式：1)我们如何连接到spark的Spark sql?2)我们如何连接到sparrk的spark数据框或数据集？

对于hive，我们通过unix与beeline连接，如果我们有sql工具，如：teradata，我们必须通过odbc安装hive驱动连接到hive。

那连接到spark sql和spark dataframes或数据集呢？

另外，如果有谁能给我提供一个很好的链接或资源，让我这样的新手能轻松地理解概念、命令和它的使用。

Answer 1

要使用spark sql与SQL一样的查询，你可以简单地键入 "Spark sql"。

spark-sql --master yarn # when you are testing on a Hadoop cluster

或

spark-sql --master local[2]   # when you are testing on local machine

而你可以简单地运行所有的查询，你在 beeline> 壳中 spark-sql> shell。

或者，如果你想简单地测试一些scala代码。

spark-shell --master yarn # on cluster

或者

spark-shell --master local[2] # on Local setup