場景
與傳統數據倉庫不同,湖倉一體實現了存儲與計算的完全分離。湖倉一體將將數據湖和數據倉庫的優勢相結合,存儲層以 HDFS 或云對象存儲為基礎,通過開放的數據格式存儲數據,計算層統一了實時、歷史數據、批處理和流處理,所有引擎共享相同的數據,打造了 Shared Data 的架構,與傳統 Shared Disk 架構截然不同。
極速
基于 MPP 執行框架和 Pipeline 數據處理模型,查詢引擎在多機多核的分布式環境下能夠快速處理海量數據。憑借高效的元數據和數據緩存機制,SelectDB 分析引擎性能超出 Trino 2-3 倍,實現極速性能。
開放
通過可擴展的連接器框架,無縫集成湖倉生態系統中的主流開放數據格式和 Catalog,同時廣泛支持多種數據源,如 Hive、Iceberg、Hudi、Paimon 以及支持 JDBC 協議的數據庫系統。
統一
憑借內置存儲,SelectDB 既可以作為分析型數據庫使用、也可以作為湖倉分析引擎使用。融合統一的架構,降低架構復雜性的同時,實現數據一致性和管理一致性。
在引入 Doris 替換 Presto 后,我們內部的可視化數據自助分析工具豐景臺場景廣泛應用,目前報表業務已 100% 切換到 Doris 集群中,日均查詢量 100W+。并實現 P95 性能提升近 3 倍,硬件資源節省達 48% 顯著收益。
我們基于 Apache Doris 和 Iceberg 構建了湖倉融合架構,實現架構的大幅簡化及統一,目前,Apache Doris 集群超 20 個 ,總節點數百個,已對接內部 200+ 項目,日均查詢量超過 1500 萬,總存儲數據量 PB 級別。
目前我們基于 Apache Doris 整體集群規模超 50 套,部署節點超 3000 個,存儲容量超 15PB。在湖倉融合分析方面,借助 Doris 優化后,相關類型查詢 IO 請求量從幾百 GB 降至幾百 MB,有效緩解了網絡帶寬壓力,并提升了整體查詢性能。