導讀:平安人壽作為保險行業領軍企業,堅持技術創新,以數據業務雙輪驅動的理念和更加開放的思路來應對不斷增長的數據分析和應用需求;以深挖數據價值、保障業務用數效率為目標持續升級大數據產品體系。自 2022 年起平安人壽開始引入開源實時數據倉庫 Apache Doris 并基于此統一 OLAP 技術棧,通過統一的數據開發與服務打破了原有系統的數據“孤島”、降低了需求的開發成本、加速了業務需求的交付周期,并滿足了業務方更高數據時效性與查詢響應度的要求,最終形成更開放、靈活、可擴展的企業級管理與分析大數據產品體系,實現數據價值的最大化釋放,助力企業由“粗放型”業務增長轉變為“精細化”效益提升。
保險業務的持續拓展,離不開企業的數字化戰略創新。平安人壽秉承“一站式服務”的理念,以數據驅動服務質量,并早在 2005 年已經建立了離線數倉,將業務系統的數據集中存儲于 Oracle 中并按業務需求開發數據報表,同時根據壽險的不同業務主題搭建了數據集市,以加快報表生成。
隨著大數據時代的到來,傳統數據庫出現性能瓶頸,基于 Oracle 的數據倉庫無法滿足海量數據的存儲、處理與應用需求,因此在 2016 年平安人壽引入了 Hadoop 建立壽險大數據平臺。在近十年的大數據技術探索中,以提升數據質量、加快業務數據分析效率、加速數據價值變現為目標,平安人壽基于大數據平臺構建了數據中臺并引入數據治理體系,全方位保障業務用數效率、提升數據生產力。在數據應用層引入了多個開源大數據處理和分析組件,結合業務對于分析的實際需求開發了多個數據應用系統,為業務用戶分析決策提供支持。
如今,隨著數智化時代的到來,數據價值的重要性得到更深度認可,深挖數據價值成為新的目標。在此背景下,平安人壽堅持技術創新,以更加開放的思路來應對不斷增長的數據分析和應用需求,升級大數據產品體系正是其中至關重要的一步。
為了進一步提升數據應用效率、降低多組件帶來的運維和使用成本,平安人壽自 2022 年起開始引入開源實時數據倉庫 Apache Doris,對多個數據應用系統進行了升級,基于 Apache Doris 統一了 OLAP 引擎層技術棧。Apache Doris 的引入為平安人壽大數據產品體系打破了原有系統的數據“孤島”、統一了數據開發與應用層查詢服務,降低了需求的開發成本、加速了業務需求的交付周期,并滿足業務方更高數據時效性與查詢響應度的要求,最終形成更開放、靈活、可擴展的企業級管理與分析大數據產品體系,實現數據價值的最大化釋放。
本文將深入探討大數據產品體系中應用系統的迭代升級經驗,分享平安人壽在數據開發與服務化平臺的創新應用實踐,并介紹如何基于 Apache Doris 極速分析與融合統一的特性,助力企業運營效率提升、業務決策高效,實現由“粗放型”業務增長轉變為“精細化”效益提升,通過以數據驅動的數智化轉型,推進保險企業高質量發展。
早期大數據產品體系總覽

早期大數據產品體系如上圖所示,數據流轉過程主要分為離線與實時兩條鏈路:
- 離線數據通過 Sqoop 、ETL 工具接入,借助 MapReduce、Spark 或 Tez 計算引擎對數據進一步處理轉化、層層加工,基于 Hive 搭建離線數倉,并分別借助 PostgreSQL、Presto、Druid、HBase、Clickhouse 以及 Kylin 等不同組件支持離線數據查詢與檢索。
- 實時數據通過 Kafka 消息隊列實時寫入,借助 Flink 計算處理,并將計算好的指標結果存儲于 PostgreSQL 中,與離線數據關聯查詢支持上游應用層實時分析。
基于實際的分析需求,平安人壽開發了各類數據應用系統以支持不同業務人群進行決策分析,包括面向管理層的報表分析系統、面向總部運營人員的即席查詢系統、面向一線業務人用的多維分析系統以及面向總部與分公司營銷人員的人群圈選系統。

針對各類應用系統,在分析過程中對 OLAP 性能有不同的要求,具體如下:
- 報表分析系統:管理層需要通過報表全景分析對經營數據進行探查,了解各線業務經營情況,以支持業務洞察、問題定位、趨勢預測以及經營全貌概覽。當管理者在查看數據時,對于報表產出時效性與查詢速度有較高的要求,通常單個報表頁面涉及成千上百個指標計算,這時則需要 OLAP 能夠支持高并發和低延遲響應,使報表響應時間控制在百毫秒以內。
- 即席查詢:總部運營人員需要通過可視化分析直觀地展示壽險理賠、核保、保全等數據結果,使運營人員能夠更好地理解數據、及時地作出業務決策。在該場景中,實時、靈活地查詢數據是業務運營人員最主要的訴求,因此 OLAP 需要滿足數據及時更新與快速響應。
- 多維分析系統:一線業務人員結合指標數據進行多維分析,從不同角度來審視業務的衡量指標,以支持更細致的業務數據剖析。該場景是企業內最常見的應用場景,承接了一線業務 90 % 的查詢流量,每日數據查詢訪問量高達數十萬,對后臺數據計算與前臺響應的速度要求較高,且希望能夠進行更復雜的指標二次開發。
- 人群圈選系統:總部與分公司營銷人員需要通過對客戶數據匯總計算后形成壽險用戶屬性、用戶行為、用戶消費等維度標簽。營銷人員借助多個標簽找到潛在用戶群體,以更精準投放與推廣壽險產品。因此,靈活的開發與關聯查詢標簽數據是營銷人員最主要的訴求。
早期應用痛點
由于早期架構基于多個 OLAP 組件(包括 Presto 、PostgreSQL、Hive、Kylin、Druid、Clickhouse 以及 HBase)提供計算存儲與查詢服務,雖然能夠滿足業務要求,但架構復雜與鏈路過長勢必會增加運維成本、學習成本,同時也無法保障系統之間多源數據的一致性。
更重要的是,隨著用戶規模的增長與業務場景多樣化,數據的寫入效率、查詢時效性、后臺穩定性也逐漸無法得到保證,時常影響業務分析效率。接下來,將詳細為大家分析以上業務應用痛點、選型過程以及相應的解決方案,希望為讀者帶來關于架構升級的新視角。
01 報表分析系統
早期主要基于 Hive 與 PostgreSQL 支持該應用場景,當業務全域數據經過 ETL 清洗處理后,全量存儲于 Hive 中。為了滿足管理層快速查看報表的需求,開發人員首先會將數據進行多輪處理清洗,并采用預匯總結果的方式,將計算好的指標數據導入 PostgreSQL 中。
雖然這種方式能夠應對查詢低延遲響應的要求,但指標結果多輪計算會導致數據處理鏈路過長、各類成本的疊加,例如將數據拆分存儲至 14 個 PostgreSQL 庫中所造成的存儲冗余與資源成本增加、將報表異地聚合與定制化開發所造成的開發成本增加、將 PostgreSQL 與應用端交叉使用所造成的運維成本增加等。
02 即席查詢
早期即席查詢場景由多個組件共同支持,其中 Hive 負責離線數據分層存儲、PostgreSQL 用于存儲指標結果數據、Presto 則作為查詢引擎對 Hive 中數據查詢下壓。然而,由于業務查詢嚴重依賴 PostgreSQL 中的指標數據,一旦未提前計算好指標,查詢壓力將全部交給 Presto,容易造成資源浪費、查詢響應延遲等問題。同時,該系統的權限管理不清晰、業務之間沒有資源隔離限制,所有業務運營人員均可以查詢 Hive 底層中的數據,造成臨時表多、查詢任務并發過高、資源搶占等問題。
03 多維分析系統
早期該場景利用 Druid 組件提供維度與指標存儲查詢服務。在業務數據激增的過程中,平臺容易出現導數失敗或系統故障,Druid 節點重啟時常需要 24 小時,系統超長重啟時間對業務中斷帶來了巨大的風險。
同時,Druid 在查詢性能中存在一定的局限性,如不支持關聯查詢、不支持精細去重。在理賠與用戶數據 Join 的查詢場景下,業務人員只能先將所需數據形成寬表滿足查詢需求;在面對用戶數據精細去重時,只能對 Druid 組件功能改造。這些局限性不僅使查詢復雜度增加,也會消耗大量的人力、學習、開發等成本。
04 人群圈選系統
早期該系統借助 HBase 提供標簽計算與存儲、Clickhouse 與 Kylin 作為人群圈選的查詢引擎。 在標簽構建過程中,由于 HBase 只能通過主鍵進行查詢,不支持二級索引,無法使用復雜的查詢語句和條件進行數據檢索,開發人員需要通過主鍵來設計和實現標簽查詢,增加開發難度和復雜性。同時,HBase 的擴展能力也存在一定局限性,比如無法處理數字或日期等復雜數據類型、無法展開更細粒度的追蹤調用。 在標簽查詢過程中,當系統面對 200 人的并發查詢需求,Clickhouse 時常難以承載,需要借助 Kylin 通過 Cube 預聚合索引來分擔查詢壓力。然而在兩個組件共同提供服務時,Clickhouse 與 Kylin 配合靈活度不足成為目前系統最大的痛點之一。以查詢 Array 字段為例,Clickhouse 支持 Array 而 Kylin 不支持,涉及到相關字段查詢時,非常依賴于后端人工判斷數據在哪種數據庫中,再發送查詢請求給 Clickhouse。除此之外,兩個組件皆無法支持多表關聯查詢,也無法提供靈活的數值區間圈選。
大數據產品體系組件選型與思考
在上述各應用痛點中不難發現,組件過多容易出現數據存儲冗余、數據不一致等問題,開發人員也需要來回導數整合組件之間的數據流,加重開發運維成本。并且,組件之間還會加重數據孤島的現象,使數據之間缺乏關聯與共享。基于此,我們希望選出一款綜合性強、靈活度高的組件,能夠統一 OLAP 技術棧,打通平臺之間的數據讀取,覆蓋日常分析場景需求,實現高效導數與極速分析。除此之外,為了將數據治理更體系化,還希望引入的 OLAP 組件支持指標、標簽等維度數據統一計算與存儲,借用 API 為上游應用層提供統一查詢服務。
在經過調研選型后,如圖所示,我們發現 Apache Doris 非常符合升級需求,不僅能夠覆蓋常規業務場景,滿足寫查性能需求,同時,基于 Apache Doris 統一技術棧也將大幅度降低架構復雜度,減少運維、開發以及使用成本,最大化提升架構性能。因此,平安人壽基于 Apache Doris 開啟了新架構的升級之旅。

大數據產品體系基于 Apache Doris 融合統一的演進之路
在未引入 Apache Doris 之前,大數據產品體系借助不同 OLAP 組件提供數據存儲、計算與查詢服務。引入 Apache Doris 后,平安人壽以 OLAP 引擎統一為基礎,在 Apache Doris 集群之上構建了一體化指標與標簽設計平臺,形成 “上下經營一張表”,完善經營指標管理體系,并通過 API 接口直通應用層,面向多種場景的統一數據服務。

01 引擎優化:基于 Apache Doris 逐步統一 OLAP 技術棧
目前,平安人壽已使用 Apache Doris 替換了 HBase、PostgreSQL 、Presto 、Druid 組件,統一指標標簽計算存儲,支持報表分析、即席查詢以及多維分析的應用,并已上線了管理層的報表應用系統、總部與一線運營人員的可視化分析系統。同時,平安人壽也已完成 Apache Doris 與各類數據源適配,進一步替換 Clickhouse、Kylin 組件。預計在今年 11 月份,Apache Doris 將上線并應用于營銷機構人群圈選系統的生產使用。
通過 Apache Doris 一套系統同時滿足數據存儲、計算與查詢服務,不僅避免了數據多輪計算帶來的重復開發與冗余存儲問題,更滿足了更靈活、更細粒度、更高效的查詢分析。平安人壽在應用上線后取得如下收益:
- 降低各類資源成本:借助 Apache Doris 豐富的數據模型,數據無需經過多輪預聚合匯總,能夠大幅度簡化數據處理流程,降低運維成本的同時釋放了原 14 個 PostgreSQL 數據庫的資源成本壓力。
- 提升開發與查詢效率:統一指標與標簽數據開發在降本的同時更加速了業務交付時間,開發周期由原來的兩周縮短至一天,效率提升 14 倍。在引入 Apache Doris 后,借助 Doris 設置了查詢層級權限,使業務人員只可訪問數據 ADS 層中的數據,解決數倉各表交叉使用的問題,提升指標數據復用率與使用效率;借助 Doris 優異的高并發性能滿足了報表分析與多維分析場景下的秒級毫秒級的查詢響應需求,查詢提速達 5-10 倍。
- 打破數據孤島,實現閉環管理:在統一技術棧的優勢下,Apache Doris 打破了各類應用系統數據孤島的現象,為業務人員提供了更全面的數據、更細粒度的維度查詢,實現精細化的查詢分析、一致的業務洞察視角、閉環式的數據管理,使企業上下更精準地掌握壽險經營走向。
02 語義與服務層優化:基于 Apache Doris 統一指標和標簽服務
當統一了 OLAP 技術棧后,平安人壽進一步引入統一語義層,將復雜查詢語句進行拆解轉化,簡化加速 SQL 語句執行效率,并借助數據服務 API 接入的方式,連接各業務應用層。
借助這種方式,平安人壽全域數據從采集接入后進入 Doris 數倉,業務人員在后臺通過拖拽實現指標標簽數據自助定義和自動計算,生成的 SQL 會發送至 Doris ADS 層中。其中,若涉及復雜的多表關聯查詢,SQL 語句會在語義層中過濾,生成簡單的執行語句。借助通用的 API 服務,調用 Doris 庫中數據,統一支持業務分析在客戶經營、代理人、保單、產品、理賠等方面的需求。目前,平安人壽基于統一服務化平臺已支持日均數百萬次的數據調用,每張報表的查詢響應時間實現 200 - 300 ms ,實現多場景下極速、統一的數據服務。
至此,平安人壽從數據設計直通數據服務,有效避免業務之間冗余開發與重復使用,縮短業務交付周期,加速查詢響應時間。基于高內聚低耦合的統一服務平臺,使查詢分析能夠及時配合業務需求變更,確保了企業內外數據流轉的流暢性。
總結與未來規劃
一站式數據門戶是平安人壽大數據產品體系自始至終的構建目標,基于 Apache Doris 統一 OLAP 多個技術棧,并將標簽與指標標準化開發與管理,共同提供統一的數據服務,使業務分析師能夠進行自助式的數據探查,減少對技術人員的依賴,同時,通過方便快捷地訪問、分析和可視化各種數據資源,實現數據高效、低成本的交付。
未來,平安人壽將進一步拓展 Apache Doris 湖倉一體化的應用,使用 Doris 替換 Presto 進行數據湖查詢分析,讓數據和計算在湖與倉之間自由流動。同時,還將引入 Apache Doris 多租戶和資源隔離方案,完善應用系統間負載均衡性能,避免導數過程中出現任務并發高、CPU 內存占用大、查詢性能受阻的風險,減少多用戶數據操作時在同一集群內被干擾,將集群資源更合理的分配給各個應用系統。
最后,非常感謝飛輪科技團隊一直以來對平安人壽的技術支持,加速平安人壽數智化轉型進程。至此,各級業務人員能夠加速數據分析效率,幫助企業及時發現和解決問題,從而提升運營效率;管理層能夠通過海量數據洞察市場趨勢、客戶需求以驅動業務決策。
平安人壽將持續推動保險行業轉型進程,帶來更多業務機會與產品創新,也將持續參與 Apache Doris 的社區建設,將相關成果貢獻回饋社區,實現價值共享!


