導讀: 數據是 5G 全連接工廠的核心要素,為支持全方位的數據收集、存儲、分析等工作的高效進行,聯通 5G 全連接工廠從典型的 Lambda 架構演進為 All in Apache Doris 的實時/離線一體化架構,并憑借 Doris 聯邦查詢能力打造統一查詢網關,數據處理及查詢鏈路大幅簡化,為聯通 5G 全連接工廠帶來數據時效性、查詢響應、存儲成本、開發效率全方位的提升。
隨著通信技術的飛速發展,5G 已成為當今時代的重要標簽。在這一背景下,5G 全連接工廠應運而生,不僅代表了工業制造的未來方向,更是數字化轉型和智能制造的典范。
5G 全連接工廠,顧名思義,是利用 5G 等新一代信息通信技術,實現工廠內部各個生產單元的廣泛連接。這種連接不僅僅局限于設備和系統的聯網,更包括人員、物料、環境等多元素的互聯互通。通過這種全方位的連接,5G 全連接工廠能夠實時收集、分析和處理大量數據,從而優化生產流程,提高生產效率,降低運營成本。
作為中國最大規模的電信運營商之一,中國聯通具備廣泛 5G 網絡覆蓋,擁有大量通信基站、光纖網、數據中心等物理網絡基礎設施,這為建設 5G 連接工廠提供了堅實的基礎。同時,中國聯通還針對 5G 全連接工廠的需求,提供了一整套解決方案,旨在實現制造型企業生產要素的全面互聯和數據實時采集。
聯通 5G 全連接工廠解決方案實現生產制造企業各生產要素(人、機、料、法、環、測)的全面互聯,面向數字化車間和智能工廠的核心需求,提供統一的平臺底座,支持數據實時采集、實時反饋生產運營狀況,并建立企業的生產數據中臺,對生產過程中的數據進行處理和標準化管理,實現企業數據接口、格式的統一標準,將數據轉化為資產,進而為工廠提供高效的數據服務,挖掘數據的價值。
系統需求
數據是 5G 全連接工廠的核心要素,為了支持全方位的數據收集、存儲、處理和分析能夠高效進行,負責數據匯總存儲以及支撐決策分析的數據倉庫引擎是其中關鍵,需要具備以下能力:
01 數據寫入需求
5G 全連接工廠涉及大量設備、傳感器和系統的連接,將產生海量類型格式各異的實時數據,這些數據具備密度高、維度多的特點。為確保如此大規模數據的流暢寫入, 數據倉庫引擎必須能夠:
- 支持大規模歷史存量數據的批量和高效導入;
- 支持高頻率、低延遲的實時數據寫入,包括生產設備傳感數據、業務數據庫 CDC 數據以及系統日志數據等;
- 支持基于文件的數據導入能力,包括結構化及半結構化數據文件的導入;
- 對于生產訂單、物料使用、人員管理等業務數據,還需要支持基于主鍵的寫入更新能力,確保數據的準確性和一致性。
02 數據查詢需求
5G 全連接工廠為企業提供自主在線分析、可視化大屏、經營報表分析等數據服務,并對外開放大量的接口,以滿足客戶的臨時需求。在數據查詢場景中, 數據倉庫引擎必須響應多種不同模式的查詢負載:
- 毫秒級點查詢:在對外接口服務中,能夠以毫秒級的速度對單個數據點或記錄進行查詢,并快速返回查詢結果,以滿足在線實時的查詢需求;
- 毫秒級聚合查詢:對于按小時、天進行分區的數據,數據庫應具備毫秒級的聚合查詢能力,以支持快速的數據匯總和統計分析;
- 秒級在線多維分析:具備在線多維分析秒級響應能力,可迅速從復雜查詢中獲取有價值的信息;
- 復雜多表關聯查詢:支持高效的多表關聯查詢,以滿足復雜的數據關聯分析需求,幫助數據價值的深度洞察。
同時應對生產報表的產出,還需要提供穩定的查詢效率,確保報表的數據準確性和及時性。
基于Hive+ ClickHouse 的數據存儲引擎
最初,聯通 5G 全連接工廠采用的是典型的 Lambda 架構,包括離線和實時兩條數據處理鏈路。
01 離線數據鏈路
在離線數據處理鏈路中,業務系統數據和接口數據基于 DataX 定時抽取到 Hive,在 Hive 中完成寬表處理后,再加載到 ClickHouse 中,為應用層提供服務。日志數據則通過 Flume 實時采集到 HDFS 中,在 Hive 中進行寬表處理后,同樣匯聚到 ClickHouse 中提供服務。而設備上報數據則是通過 API 接口,直接寫入時序數據庫中,由時序數據庫提供部分服務。
02 實時數據鏈路
在實時數據處理鏈路中,各業務系統數據主要以 Binlog 的方式經由 Flink CDC 寫入 Kafka,并利用 Flink 的多流 Join 將實時表與維度表進行統一寬表處理。維表數據通過 Flink 實時從 Kafka 中抽取,并存儲到 HBase 中,然后通過 Flink 的 Lookup Join 進行統一的寬表處理,最終將數據寫入 ClickHouse,以支持在線多維查詢。

03 存在的問題
- 數據鏈路復雜:為支持報表查詢功能,必須先將數據從 Hive 同步到 ClickHouse,再由 ClickHouse 對外提供服務。這無疑增加了數據鏈路的長度和復雜性。同時,在實時鏈路中,多流 Join 的操作也帶來了一定的計算復雜度,進而增加了數據處理的耗時。
- 數據準確性問題:在使用多流 Join 處理實時計算時,由于業務不斷更新和變化,數據更新可能存在延遲,這就會導致 Join 結果與正確結果有 3%-5% 的偏差。為糾正該問題,每天都需依賴離線數據對實時計算結果進行修正,但同時也為實時性帶來潛在風險
- 維度變更問題:在寬表模型應用場景下,一旦業務維度發生變更,就需要對歷史數據進行離線重刷,導致數據處理效率低下,甚至影響業務側的正常使用。
- 高維護成本:當前架構涉及到多個技術棧和組件,例如 Hive、HBase、HDFS 以及 ClickHouse 等,這帶來了高昂的使用及維護成本。
基于 Apache Doris 的實時/離線一體化架構
01 數據倉庫選型
為滿足數據寫入場景及數據查詢場景的需求,并解決早期架構存在的痛點問題,聯通西部創新研究院綜合對比了 Apache Doris、ClickHouse、Hive 及數據湖方案,經評估發現 Apache Doris 在多個方面表現均較為出色,并決定選擇 Apache Doris 對原有數據平臺的存儲引擎進行升級改造。

結合實際場景,聯通西部創新研究院最為關注的核心能力有以下幾點:
- 簡單易用: Doris 兼容 MySQL 協議,業務同學可以直接使用 MySQL 客戶端工具進行數據查詢,無需學習新的查詢語言,降低了使用門檻。
- 統一數據分析網關: 利用 Apache Doris 構建完善可擴展的數據源連接框架,便于快速接入多類數據源,包括各種主流關系型數據庫、數據倉庫以及數據湖引擎,提供基于各種異構數據源的快速查詢和寫入能力,從而實現統一的數據分析網關。查詢層架構實現鏈路極簡,維護成本也大幅降低。
- 高性能查詢: Doris 支持高性能計算、高性能查詢以及高并發點查,即使是特別復雜的多表 Join,也具備出色的性能表現,無需提前聚合即可輕松實現數據實時查詢,既減少了數據處理流程,又提高了業務側的靈活性。
- 高效的實時數據導入: Apache Doris 能夠支持海量數據的高吞吐實時寫入,同時也提供了多種數據導入方式,在 IoT 場景的測試過程中,寫入性能完全優于時序數據庫,可滿足所有場景下的數據寫入要求。
- 運維成本低: Doris 本身架構精簡,僅含有 FE + BE 兩個組件,借助于 SelectDB 的 Doris Manager 平臺,可以實現集群的自動化運維,減少人工干預,提高集群的穩定性和可靠性。
基于以上能力,Doris 可以輕松實現實時/離線一體化,減少數據同步的復雜度,提高了數據的一致性。從之前的多組件、多鏈路的復雜架構轉變到 All in One 的架構,可大大簡化系統架構,同時也減少運維復雜度以及資源成本。
02 技術架構
通過引入 Apache Doris 對原有實時和離線處理鏈路進行了改造升級,成功建立了在離線一體的數據處理架構,數據流轉鏈路如下圖所示:

- 對于時效性要求較高的業務數據:使用 Flink Doris Connector 進行實時整庫數據同步,將各個業務系統的數據實時地同步到 Doris 中,確保數據的高時效性。
- 對于時效性要求較低的業務數據:利用 Doris 自帶的 JDBC Catalog 可以支持跨源聯邦查詢,也可以通過調度工具將數據定時抽取數據到 Doris 中,保證數據的準確性和完整性。
- 對于日志數據和設備上報數據:通過 Flink 將 Kafka 中數據直接寫入 Doris 中,由 Doris 統一對整個數倉進行加工。
盡管當前部分設備時序數據采集場景中還保留了時序數據庫,但由于時序數據庫查詢方面的表現很難滿足當前的業務場景需求,因此已經開始嘗試進行升級。上文提到,即使是 IoT 這種典型的數據量大、數據寫入時效性高的場景下,Doris 也完全滿足,同時查詢方面又能很好的滿足需求,因此目前也正在逐步使用 Doris 來實現對時序數據庫的替代。
03 架構收益
- 實時離線一體化: 相較于過去冗長且復雜的數據鏈路和架構,在新架構的 All in Doris 中,不再需要 Hive,ClickHouse, HBase 等組件,離線&實時數據直接進入 Doris,數據鏈路簡化的同時也提高了數據的時效性。
- 查詢性能,時效性指數級提升: 過去基于 ClickHouse 提供對外的數據分析能力,受限于 ClickHouse 多表 Join 能力較弱,只能夠提前采用其他組件計算后生成大寬表至 ClickHouse 再提供查詢,不僅效率低下且一旦業務變更可能需要重新導數。而采用 Doris 后,可直接將 DWD 事實表和維度表開放給應用進行 OLAP 查詢,為業務側提供了更高的靈活性。
- 統一查詢網關: 憑借 Doris 優秀的聯邦查詢能力逐漸基于此打造統一的查詢網關。在一些場景中,利用 Doris 自帶的 JDBC Catalog 可以支持跨源聯邦查詢,查詢層架構實現鏈路極簡,維護成本也大幅降低。
- 運維成本成倍下降: 過去使用 ClickHouse、HBase、Hive 三大組件, ClickHouse 性能雖強大,但可擴展性、易用性卻差強人意,隨著使用不斷深入、集群規模不斷擴大,使用和運維的技術門檻會變得越來越高,不支持彈性擴縮容更是一個長期被詬病的問題。而新架構中, Doris 相較之則是輕松許多,不僅運維方便,更是有著完善的管控工具 Doris Manager,可以實現更簡單更快捷的運維工作,運維成本成倍下降。
工業互聯網數據集成平臺
數據集成是 5G 全連接工廠的關鍵能力之一,隨著 5G 全連接工廠在多家企業生產環境落地,對于數據分析和數據對外開放的需求也在不斷地更新變化。針對 5G 數據集成場景的特點,建設了工業互聯網數據集成平臺:
- 數據來自于各種生產設備和系統,如 PLC、工業機器人、傳感器、數控機床等。這些數據具有不同的格式、結構和標準,需要工業互聯網數據集成平臺能夠實時地將數據采集、整合以及標準化,確保數據的一致性和準確性。
- 工業互聯網數據集成平臺還需要具備良好的可擴展性和靈活性,能夠適應工廠未來的擴展需求,靈活地應對生產過程中的各種變化和挑戰。
- 工業互聯網數據集成平臺還需要實現不同系統之間的數據交互和通信,通過跨系統的協同和信息共享,以實現對生產數據的全面監控和分析,提高生產效率和質量。
基于以上需求,以 Apache Doris 為核心,結合多個開源大數據組件構建了工業互聯網數據集成平臺,整體系統架構如下:

- 數據源管理層主要負責統一維護和管理各個數據源,平臺適配了 Syslog、常見 CDC、時序數據、第三方接口數據、SFTP 文件數據以及業務 DB 等多種不同數據源。
- 在數據采集層,平臺支持實時數據、時序數據和離線數據的采集。主要通過 FlinkCDC 和 SeaTunnel 實現各個數據源之間的數據傳輸,對于業務 DB 以及 JDBC 數據源的數據則依賴于 Doris 的 JDBC - Catalog 實現批量數據的采集。為了避免大批量數據的集成壓力,還引入了 Kafka 用于進行實時數據處理和離線數據的臨時加載。
- 存儲和計算層是數據集成平臺的核心,在此使用 Apache Doris 作為存儲和計算的底座,絕大多數數據均存儲在 Apache Doris 中、少數設備采集的時序數據存放在 TDengine。為了提升數據質量、實現數據資產的更高效沉淀,同時還圍繞 Apache Doris 構建了數據資產層,包括數據標準定義、數據質量和資產目錄管理,以及元數據管理(對接 Doris 元數據庫)、血緣關系追蹤(通過解析 Doris 審計日志實現)、主題域和算法建模等數據資源管理功能。
- 在數據服務層,開發了多個系統來保護數據安全、管理用戶訪問權限和數據共享,作為平臺的統一對外接口,所有外部數據服務和數據共享均通過 Doris 的 Multi-Catalog 來實現。
總結與收益
Apache Doris 的引入,為聯通 5G 全連接工廠帶來數據時效性、查詢響應、存儲成本、開發效率等全方位的提升,具體體現為:
-
70% 的核心業務實現準實時:通過 Flink CDC + Doris 為核心業務構建實時鏈路,通過 JDBC Catalog 對邊緣業務進行定時批量拉取,成功實現 70% 核心業務的準實時數據處理。
-
承擔 90% 實時計算: 利用 Doris 的強大計算能力,承擔了當前平臺 90%以上的實時計算。利用 JDBC 與 Doris 的維度建模定時產出報表數據,從而實現毫秒級的報表查詢,為業務提供了快速高效的報表數據分析能力。
-
在線實時分析、多維分析:DWD 明細表基于小時時間分區,根據業務查詢特點將關聯字段作為分桶字段,對常用檢索字段進行索引,實現在線分析秒級內響應。
-
開發效率大幅提升: 采用 Doris 生態的輕量級存儲架構,取代了過去基于 Hadoop 的 Lambda 架構,運維成本得到極大幅度降低。借助 Doris 構建了完整的數據倉庫分層體系,由 Doris 內部計算作業取代了 Flink 多流 Join 復雜場景任務開發,極大提高了開發效率。此外,由于 Doris 直接對接 MySQL 協議,降低了學習成本,進一步提升了開發效率,項目交付周期得到大幅縮短。
未來規劃
未來,聯通西部創新研究院將繼續深入使用 Apache Doris,這有利于降低企業數字化轉型成本,提高傳統制造業轉型效率:
- 大規模引入 Doris Manager :為了簡化運維工作,計劃采用 Doris Manager 進行線上運維。相比手動管理和使用 Grafana + Prometheus 的方式,Doris Manager 提供了更便捷和高效的運維管理功能。通過監控功能,便捷地定位和解決異常問題,提升運維效率。
- 查詢性能優化:根據外部項目的迭代需求,將進一步優化查詢性能,包括索引加速、慢查詢監控、合理的資源隊列劃分等方面的優化工作,旨在提升整體查詢效率和系統性能。
- 嘗試 多表物化視圖:2.1 新版本推出的多表物化視圖功能將會進一步簡化任務構建步驟,加速數倉建設。
- 嘗試存算分離:即將發布的 Apache Doris 3.0 新版本將集成并開源 SelectDB Cloud 的商業存算分離實現,值得期待。
- 規范化指標體系:基于 Apache Doris 構建高效的面向 5G 全連接工廠場景的規范化指標體系,幫助企業規范化和標準化數據指標的定義和使用。
公司介紹
聯通西部創新研究院是中國聯通集團在西部地區布局的創新主體,與西安交通大學、西安電子科技大學等頂尖學府展開深入而又全面的產學研用工作。錨定“成規模、專業化、高水平的研發機構”的總定位,內部設立多個研發部門,持續推動組織化規模化創新。聯通西部創新研究院承載集團公司科技創新體系和數字化創新體系的重要使命,依托聯通數科公司的強大資質資源與能力底座,在“云大物智安”等領域積累了深厚的技術底蘊與豐富的研發經驗,力爭做規模化,工程化研發的引領者與典范。


