如何使用Hive進(jìn)行數(shù)據(jù)分析的,提供哪些方式交互分析?
Spark中有一個服務(wù)叫做:ThriftServer服務(wù),可以啟動并監(jiān)聽在10000端口
這個服務(wù)對外提供功能,我們可以用數(shù)據(jù)庫工具或者代碼連接上來,直接寫SQL即可操作spark

當(dāng)使用ThriftServer后,相當(dāng)于一個持續(xù)性的Spark On Hive集成模式。它提供10000端口,持續(xù)對外提供服務(wù),外部可以通過這個端口連接上來,寫SQL,讓Spark運行。
Spark SQL 還可以使用其 JDBC/ODBC 或命令行界面充當(dāng)分布式查詢引擎。在這種模式下,最終用戶或應(yīng)用程序可以直接與 Spark SQL 交互運行 SQL 查詢,而無需編寫任何代碼。
回顧一下,如何使用Hive進(jìn)行數(shù)據(jù)分析的,提供哪些方式交互分析???
方式一:交互式命令行(CLI)
bin/hive,編寫SQL語句及DDL語句
方式二:啟動服務(wù)HiveServer2(Hive ThriftServer2)
將Hive當(dāng)做一個服務(wù)啟動(類似MySQL數(shù)據(jù)庫,啟動一個服務(wù)),端口為10000
1)、交互式命令行,bin/beeline,CDH 版本HIVE建議使用此種方式,CLI方式過時
2)、JDBC/ODBC方式,類似MySQL中JDBC/ODBC方式
SparkSQL模塊從Hive框架衍生發(fā)展而來,所以Hive提供的所有功能(數(shù)據(jù)分析交互式方式)都支持,文檔:http://spark.apache.org/docs/latest/sql-distributed-sql-engine.html。
SparkSQL提供spark-sql命令,類似Hive中bin/hive命令,專門編寫SQL分析,啟動命令如下:
命令如下:

此種方式,目前企業(yè)使用較少,主要使用下面所述ThriftServer服務(wù),通過Beeline連接執(zhí)行SQL。
