技術(shù)對(duì)比
Apache Doris 和 Trino/Presto 均為主流數(shù)據(jù)湖倉查詢引擎,但 Doris 在性能上表現(xiàn)更具優(yōu)勢(shì)。Trino/Presto 主要專注于查詢加速,而 Doris 不僅能夠加速查詢,還具備作為獨(dú)立數(shù)據(jù)倉庫的能力。企業(yè)可以利用 Doris 實(shí)現(xiàn)數(shù)據(jù)倉庫和湖倉查詢引擎的統(tǒng)一,從而簡(jiǎn)化其數(shù)據(jù)架構(gòu)。
Apache Doris 實(shí)現(xiàn)數(shù)據(jù)倉庫與湖倉查詢引擎統(tǒng)一,有效簡(jiǎn)化企業(yè)技術(shù)棧
相較于 Presto/Trino,Doris 內(nèi)表查詢性能最高提升達(dá) 10 倍。
作為湖倉引擎,Doris 執(zhí)行效率較 Presto/Trino快 2-3 倍。
Cisco WebEx 早期使用多個(gè)系統(tǒng)(如 Trino、Pinot、Iceberg 和 Kyuubi)構(gòu)建數(shù)據(jù)平臺(tái),導(dǎo)致架構(gòu)復(fù)雜、數(shù)據(jù)重復(fù)存儲(chǔ)、運(yùn)維困難、資源利用率低和數(shù)據(jù)時(shí)效性差。通過引入 Apache Doris 替換多個(gè)技術(shù)棧,實(shí)現(xiàn)湖倉一體化,顯著提高了查詢性能和系統(tǒng)穩(wěn)定性,并降低了 30%的資源成本。
遷移到 Doris 后,整體查詢性能得到大幅提升。之前使用 Presto 進(jìn)行多維分析時(shí),查詢時(shí)間長達(dá) 20-40 秒,而 Doris 將這一時(shí)間縮短至 1-2 秒。此外,Doris 的一大優(yōu)勢(shì)在于能夠自動(dòng)識(shí)別并匹配最優(yōu)物化視圖進(jìn)行查詢,這進(jìn)一步增強(qiáng)了系統(tǒng)復(fù)雜分析的性能。
使用?Trino?和?SparkSQL?時(shí),系統(tǒng)查詢延遲普遍維持在分鐘級(jí)別,存在明顯的性能瓶頸。遷移至?Apache?Doris后,整體查詢性能提升?2?倍以上。通過?Doris?統(tǒng)一架構(gòu),有效解決了混合架構(gòu)下的數(shù)據(jù)孤島與資源冗余問題,更加速了實(shí)時(shí)分析與交互式即席查詢響應(yīng)。
統(tǒng)一架構(gòu): 融合數(shù)據(jù)倉庫與數(shù)據(jù)湖查詢能力
元數(shù)據(jù)緩存:具備TTL、自動(dòng)刷新和增量同步的內(nèi)存元數(shù)據(jù)緩存能力
數(shù)據(jù)緩存:通過本地 SSD 熱數(shù)據(jù)緩存減少網(wǎng)絡(luò) I/O
查詢緩存:支持 SQL 緩存與分區(qū)緩存
增量刷新:支持增量刷新和多種數(shù)據(jù)刷新策略
查詢透明加速:查詢優(yōu)化器能夠自動(dòng)識(shí)別并匹配最優(yōu)物化視圖進(jìn)行查詢
聯(lián)邦查詢: 擅長跨異構(gòu)數(shù)據(jù)源查詢,但無內(nèi)置存儲(chǔ)層
數(shù)據(jù)緩存:依賴于 Alluxio 等外部緩存方案
手動(dòng)刷新:僅支持人工全量刷新
TPC-DS 1TB 性能測(cè)試
TPC-DS 1TB Benchmark 包含 24 張表、63.5 億條記錄的 1TB 數(shù)據(jù)集,通過 99 條復(fù)雜查詢(涵蓋關(guān)聯(lián)查詢、聚合運(yùn)算及嵌套子查詢)評(píng)估數(shù)據(jù)倉庫的性能。該測(cè)試基于雪花模型構(gòu)建,模擬真實(shí)電商銷售場(chǎng)景,由于查詢的復(fù)雜性,在處理 1TB 規(guī)模數(shù)據(jù)時(shí)是一項(xiàng)挑戰(zhàn)。
測(cè)試環(huán)境配置?包括:
在測(cè)試過程中,使用相同的數(shù)據(jù)集和相等的計(jì)算服務(wù),結(jié)果顯示:
更多用戶故事

