我是大数据平台的新手。请你告诉我不同的方式:1)我们如何连接到spark的Spark sql?2)我们如何连接到sparrk的spark数据框或数据集?
对于hive,我们通过unix与beeline连接,如果我们有sql工具,如:teradata,我们必须通过odbc安装hive驱动连接到hive。
那连接到spark sql和spark dataframes或数据集呢?
另外,如果有谁能给我提供一个很好的链接或资源,让我这样的新手能轻松地理解概念、命令和它的使用。
要使用spark sql与SQL一样的查询,你可以简单地键入 "Spark sql"。
spark-sql --master yarn # when you are testing on a Hadoop cluster
或
spark-sql --master local[2] # when you are testing on local machine
而你可以简单地运行所有的查询,你在 beeline>
壳中 spark-sql>
shell。
或者,如果你想简单地测试一些scala代码。
spark-shell --master yarn # on cluster
或者
spark-shell --master local[2] # on Local setup