技術對比
Apache Doris 和 Trino/Presto 均為主流數據湖倉查詢引擎,但 Doris 在性能上表現更具優勢。Trino/Presto 主要專注于查詢加速,而 Doris 不僅能夠加速查詢,還具備作為獨立數據倉庫的能力。企業可以利用 Doris 實現數據倉庫和湖倉查詢引擎的統一,從而簡化其數據架構。
Apache Doris 實現數據倉庫與湖倉查詢引擎統一,有效簡化企業技術棧
相較于 Presto/Trino,Doris 內表查詢性能最高提升達 10 倍。
作為湖倉引擎,Doris 執行效率較 Presto/Trino快 2-3 倍。
Cisco WebEx 早期使用多個系統(如 Trino、Pinot、Iceberg 和 Kyuubi)構建數據平臺,導致架構復雜、數據重復存儲、運維困難、資源利用率低和數據時效性差。通過引入 Apache Doris 替換多個技術棧,實現湖倉一體化,顯著提高了查詢性能和系統穩定性,并降低了 30%的資源成本。
遷移到 Doris 后,整體查詢性能得到大幅提升。之前使用 Presto 進行多維分析時,查詢時間長達 20-40 秒,而 Doris 將這一時間縮短至 1-2 秒。此外,Doris 的一大優勢在于能夠自動識別并匹配最優物化視圖進行查詢,這進一步增強了系統復雜分析的性能。
使用?Trino?和?SparkSQL?時,系統查詢延遲普遍維持在分鐘級別,存在明顯的性能瓶頸。遷移至?Apache?Doris后,整體查詢性能提升?2?倍以上。通過?Doris?統一架構,有效解決了混合架構下的數據孤島與資源冗余問題,更加速了實時分析與交互式即席查詢響應。
統一架構: 融合數據倉庫與數據湖查詢能力
元數據緩存:具備TTL、自動刷新和增量同步的內存元數據緩存能力
數據緩存:通過本地 SSD 熱數據緩存減少網絡 I/O
查詢緩存:支持 SQL 緩存與分區緩存
增量刷新:支持增量刷新和多種數據刷新策略
查詢透明加速:查詢優化器能夠自動識別并匹配最優物化視圖進行查詢
聯邦查詢: 擅長跨異構數據源查詢,但無內置存儲層
數據緩存:依賴于 Alluxio 等外部緩存方案
手動刷新:僅支持人工全量刷新
TPC-DS 1TB 性能測試
TPC-DS 1TB Benchmark 包含 24 張表、63.5 億條記錄的 1TB 數據集,通過 99 條復雜查詢(涵蓋關聯查詢、聚合運算及嵌套子查詢)評估數據倉庫的性能。該測試基于雪花模型構建,模擬真實電商銷售場景,由于查詢的復雜性,在處理 1TB 規模數據時是一項挑戰。
測試環境配置?包括:
在測試過程中,使用相同的數據集和相等的計算服務,結果顯示:
更多用戶故事

