Hive優化之Hive的配置引數優化

2025-06-04 19:25:15 字數 1116 閱讀 9486

hive的hive常用優化方法

1樓:清晨陽光

1、join連線時的優化:當三個或多個以上的表進行join操作時,如果每個on使用相同的欄位連線時只會產生乙個mapreduce。

2、join連線時的優化:當多個表進行查詢時,從左到右表的大小順序應該是從小到大。原因:hive在對每行記錄操作時會把其他表先快取起來,直到掃瞄最後的表進行計算。

3、在where字句中增加分割槽過濾器。

4、當可以使用left semi join 語法時不要使用inner join,前者效率更高。原因:對於左表中指定的一條記錄,一旦在右表中找到立即停止掃瞄。

5、如果所有表中有一張表足夠小,則可置於記憶體中,這樣在和其他表進行連線的時候就能完成匹配,省略掉reduce過程。設定屬性即可實現,set ; 使用者可以配置希望被優化的小表的大小 set ; 如果需要使用這兩個配置可置入$home/.hiverc檔案中。

6、同一種資料的多種處理:從乙個資料來源產生的多個資料聚合,無需每次聚合都需要重新掃瞄一次。

例如:insert overwrite table student select * from employee; insert overwrite table person select * from employee;

可以優化成:from employee insert overwrite table student select * insert overwrite table person select *

7、limit調優:limit語句通常是執行整個語句後返回部分結果。set ;

8、開啟併發執行。某個job任務中可能包含眾多的階段,其中某些階段沒有依賴關係可以併發執行,開啟併發執行後job任務可以更快的完成。設定屬性:set ;

9、hive提供的嚴格模式,禁止3種情況下的查詢模式。

a:當表為分割槽表時,where字句後沒有分割槽欄位和限制時,不允許執行。

b:當使用order by語句時,必須使用limit欄位,因為order by 只會產生乙個reduce任務。

c:限制笛卡爾積的查詢。

10、合理的設定map和reduce數量。

11、jvm重用。可在hadoop的中設定jvm被重用的次數。

hive的Hive體系結構

主要分為以下幾個部分 使用者介面 使用者介面主要有三個 cli,client 和 wui。其中最常用的是 cli,cli 啟動的時候,會同時啟動一個 hive 副本。client 是 hive 的客戶端,使用者連線至 hive server。在啟動 client 模式的時候,需要指出 hive se...

沛公之參乘樊噲者也中的「參」是什麼意思?

沛公之參乘樊噲者也。參是 驂 c n 的通假字,驂乘,古時乘車,坐在車右擔任警衛的人。意思是 樊噲是劉邦的護衛 參 c n 加入在內 參加 參與。乘 ch ng 騎,坐。參乘,亦作 驂乘 古時乘車,坐在車右擔任警衛的人。沛公之參乘,參乘的意思? 文化 藝術 文學 解析 沛公之參乘樊噲者也。課本註釋 ...

龍之谷推薦配置 5,龍之谷的配置要求

龍之谷最低配置。cpu p4 amd athlon xp 2000 記憶體 512mb 顯示卡 gf fx 5600 ati 9550 dx shader 龍之谷推薦配置。cpu p4 amd athlon xp 2400 記憶體 1g 顯示卡 gf 6600 ati x1600 dx shader...