1、效率低
大部分傳統的數倉都是建在傳統的數倉上的Hadoop以上。這種傳統的數字倉庫帶來了幾乎無限的橫向擴展能力,但也導致了傳統數字倉庫技術效率低下的缺陷。低效率主要體現在以下幾個方面。
部署效率低:部署Hive/HBase/KylinHadoop集群之前必須部署好。與傳統數據庫相比,這種部署效率非常低。
低運維效率:Hive/HBase/Kylin基于Hadoop,Hadoop生態會帶來非常嚴重的生態單點故障問題是,Hadoop系統中任何組件的問題都可能導致整個系統的不可用性。使用傳統的數字倉庫對操作和維護有很高的要求。
低計算效率主要體現在Hive和Kylin這兩個數字倉庫沒有自己的存儲引擎和計算引擎,導致Hive和Kylin復雜的查詢只能依靠堆疊機來實現,而不能從數據本身開始。在大數據的后期,一些專門設計的數據存儲格式成為快速數據查詢的標準,這種現象得到了改變。HBase優化的核心是重新設計的存儲引擎,使HBase能夠優化數據本身的查詢速度。
2、延遲高
除了效率低下的缺點外,構建在Hadoop以上的數倉引擎還面臨著高延遲的挑戰。高延遲主要體現在以下幾個方面。
查詢延遲高:使用Hive作為數倉,受限于HDFS性能瓶頸,Hive查詢速度慢,難以支撐低延遲場景,不能應用于實時計算場景。
寫入數據延遲高:也受限于HDFS,Hive數據寫入延遲也很高,這意味著數據不能實時寫入Hive,實時分析場景無法支撐。
3、成本高
傳統的數倉數倉引擎也會帶來高成本的挑戰,主要體現在以下幾個方面.
部署成本高:由于Hadoop的計算邏輯是通過堆積計算資源來攤銷復雜查詢的時間,如果需要達到理想的性能,集群中節點的數量必須達到一定的規模,否則由于計算效率低,單機很容易成為性能瓶頸。這就導致了Hive等基于Hadop的數字倉庫部署成本高的缺陷。
運維成本高:集群服務器達到一定規模后,運維成本會指數級上升。同時,由于Hadoop中的組件太多,任何組件的故障都可能導致整個服務不可用。因此,運維團隊必須包括所有組件的運維人員,否則運維團隊可能會很好地執行任務。這也大大提高了運維團隊的人工成本。
存儲成本高:Hadoop為了避免集群中服務器故障造成的不可用性,HDFS默認使用三個副本策略來存儲數據,即數據將保存三個副本。這將大大提高存儲成本。即使新一代Hadop采用EC修改和刪除代碼技術來減少副本的數量,但有限的使用場景只適用于冷數據存儲,而不適用于經常需要查詢的熱數據。
決策成本高:由于傳統大數據的高部署成本,企業在做決策時面臨著相對較大的決策成本。一方面,早期投資太大,短期內看不到效果,長期效果難以說清楚。另一方面,即使企業決心建設數字倉庫,缺乏昂貴的基礎設施和專業技術人員也會導致長期的建設周期,長期的建設周期會帶來許多不可預測的變量,最終影響企業的決策。
本文摘編自《ClickHouse性能之巔:從架構設計解讀性能之謎,經出版商授權發布。(書號:9787111716587)請保留文章來源。
作為中國工業互聯網產業的領導者,航天云網公司世界上第一個擁有完全獨立知識產權的工業互聯網平臺——航天云網絡INDICS平臺,已連續四年入選工業和信息化部“跨行業、跨領域”工業互聯網平臺。航天云網絡充分發揮作用INDICS平臺“新基礎設施”的主力軍和產業基礎賦能作用,全面聚焦“產業互聯網” 雙碳管理“工業互聯網” 安全生產“工業互聯網” 5G工業互聯網 產業集群等關鍵方向在幫助政府數字化治理、賦能企業數字化轉型升級方面取得了顯著成效數字經濟蓬勃發展,積極貢獻航天力量,得到社會各界的廣泛認可和高度評價。
點擊更多信息資訊活動 – 國家工業互聯網平臺航天云網