使用 Pyspark 的 HIVE JDBC 连接返回列名作为行值

Question

我正在使用 Pyspark 连接到 HIVE 并获取一些数据。问题是它返回所有值为列名的行。它返回正确的列名。只有行值不正确。

这是我的代码

hive_jar_path="C:Users/shakir/Downloads/ClouderaHiveJDBC-2.6.11.1014/ClouderaHiveJDBC-2.6.11.1014/ClouderaHiveJDBC42-2.6.11.1014/HiveJDBC42.jar"
print(hive_jar_path)
print("")

import os
os.environ["HADOOP_HOME"]="c:/users/shakir/downloads/spark/spark/spark"
import os
os.environ["SPARK_HOME"]="c:/users/shakir/downloads/spark/spark/spark"
import findspark
findspark.init()



from pyspark import SparkContext, SparkConf, SQLContext
from pyspark.sql import SparkSession

import uuid
spark = SparkSession \
    .builder \
    .appName("Python Spark SQL Hive integration example") \
    .config("spark.sql.warehouse.dir", "hdfs://...../user/hive/warehouse/..../....")
    

spark.config("spark.driver.extraClassPath", hive_jar_path)
spark.config("spark.sql.hive.llap", "true")
spark.config("spark.sql.warehouse.dir", "hdfs://...../user/hive/warehouse/..../....")


spark=spark.enableHiveSupport().getOrCreate()

import databricks.koalas as ks


print("Reading Data from Hive . . .")
options={
    "fetchsize":1000,
    "inferSchema": True,
    "fileFormat":"orc",
    "inputFormat":"org.apache.hadoop.hive.ql.io.orc.OrcInputFormat",
    "outputFormat":"org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat",
    "driver":"org.apache.hive.jdbc.HiveDriver",
    }
df = ks.read_sql("SELECT * FROM PERSONS LIMIT 3", connection_string,options=options)
print("Done")
print(df)

代码输出：

+------+-----+---------+
| Name | Age | Address |
+------+-----+---------+
| Name | Age | Address |
+------+-----+---------+
| Name | Age | Address |
+------+-----+---------+
| Name | Age | Address |
+------+-----+---------+

Answer 1

我的情况和你的不一样，因为我连接到

Spark

thru

jdbc

但是我得到的结果和你一样：列名以文字形式返回。

我通过覆盖

JdbcDialect

来修复它。这个答案很好地解释了原因和一些有用的链接1，2.

import org.apache.spark.sql.jdbc.JdbcDialect
private case object HiveDialect extends JdbcDialect {
  override def canHandle(url : String): Boolean = url.startsWith("jdbc:hive2")
  override def quoteIdentifier(colName: String): String = {
    colName.split(‘.’).map(part => s”`$part`”).mkString(“.”)
  }
}
//Register dialect
JdbcDialects.registerDialect(HiveDialect)

只要注意引用字符，medium 有这种奇怪的引用字符排版。

希望它能在这么长时间后有所帮助。把它留在这里，当我忘记它并再次谷歌它时：p

Answer 2

0
投票

你如何解决这个问题？

使用 Pyspark 的 HIVE JDBC 连接返回列名作为行值

问题描述投票：0回答：2

2个回答

最新问题

使用 Pyspark 的 HIVE JDBC 连接返回列名作为行值

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2