隨著數(shù)據(jù)量爆發(fā)式增長和數(shù)據(jù)實(shí)時(shí)性要求的提升,傳統(tǒng)的數(shù)據(jù)倉庫與數(shù)據(jù)湖分離架構(gòu)在成本、復(fù)雜度和時(shí)效性上面臨挑戰(zhàn)。騰訊云基于流式計(jì)算與存儲技術(shù),創(chuàng)新性地提出了流式湖倉統(tǒng)一存儲(Streaming Lakehouse)的實(shí)踐方案,為數(shù)據(jù)處理和存儲支持服務(wù)開辟了全新路徑,助力企業(yè)構(gòu)建高效、實(shí)時(shí)、統(tǒng)一的數(shù)據(jù)底座。
一、 流式湖倉統(tǒng)一存儲:架構(gòu)演進(jìn)的核心
流式湖倉統(tǒng)一存儲并非簡單的技術(shù)疊加,而是對數(shù)據(jù)存儲、處理與服務(wù)模式的深度重構(gòu)。其核心在于:
- 統(tǒng)一存儲層:以對象存儲(如騰訊云COS)為基礎(chǔ),構(gòu)建一個(gè)支持海量、多模態(tài)數(shù)據(jù)(結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化)低成本存儲的統(tǒng)一數(shù)據(jù)湖。
- 流式入湖:摒棄傳統(tǒng)的批量T+1數(shù)據(jù)搬運(yùn),通過消息隊(duì)列(如TDMQ)、數(shù)據(jù)接入服務(wù)(DTS)等,實(shí)現(xiàn)業(yè)務(wù)數(shù)據(jù)從源頭到數(shù)據(jù)湖的實(shí)時(shí)、不間斷流式寫入,確保數(shù)據(jù)的“新鮮度”。
- 表格式抽象:在原始存儲之上,引入Iceberg、Hudi等開源表格式(或騰訊云自研優(yōu)化格式),為流式到達(dá)的原始數(shù)據(jù)提供數(shù)據(jù)庫般的ACID事務(wù)、模式演進(jìn)、時(shí)間旅行等管理能力,構(gòu)成“湖倉”的關(guān)鍵特性。
- 統(tǒng)一服務(wù)層:在此統(tǒng)一的存儲與表格式之上,同時(shí)支持流處理(Flink)、批處理(Spark)、交互式分析(Presto/Trino)以及AI訓(xùn)練等多種計(jì)算引擎的直接分析,實(shí)現(xiàn)“一份數(shù)據(jù),多種計(jì)算”。
二、 數(shù)據(jù)處理范式的革新
在流式湖倉架構(gòu)下,數(shù)據(jù)處理流程被極大簡化和加速:
- 實(shí)時(shí)ETL與CDC:數(shù)據(jù)庫的變更數(shù)據(jù)(CDC)可實(shí)時(shí)流式入湖,并基于流處理引擎(如騰訊云Oceanus Flink)在湖內(nèi)直接進(jìn)行清洗、轉(zhuǎn)換、打?qū)挘纬煽芍苯臃?wù)于分析的實(shí)時(shí)數(shù)倉層。
- 增量處理成為常態(tài):計(jì)算任務(wù)(無論是分析查詢還是模型訓(xùn)練)大部分可基于增量數(shù)據(jù)展開,避免了全量掃描,資源利用率和處理時(shí)效性得到數(shù)量級提升。
- 流批一體計(jì)算:開發(fā)人員可以用同一套流處理API(如Flink SQL)同時(shí)處理實(shí)時(shí)流和湖中的歷史批量數(shù)據(jù),業(yè)務(wù)邏輯統(tǒng)一,維護(hù)成本降低。
三、 存儲支持服務(wù)的關(guān)鍵能力
騰訊云在提供底層存儲與計(jì)算資源的通過一系列托管服務(wù),降低了流式湖倉的構(gòu)建與運(yùn)維復(fù)雜度:
- 全托管數(shù)據(jù)入湖服務(wù):提供從各類數(shù)據(jù)庫、日志系統(tǒng)、消息隊(duì)列到數(shù)據(jù)湖的一站式、免運(yùn)維數(shù)據(jù)實(shí)時(shí)接入通道,自動處理分庫分表合并、格式轉(zhuǎn)換等臟活累活。
- 智能數(shù)據(jù)管理與優(yōu)化:
- 自動 compaction:后臺自動合并小文件,優(yōu)化查詢性能。
- 數(shù)據(jù)生命周期管理:基于策略自動將熱、溫、冷數(shù)據(jù)分層存儲(如從標(biāo)準(zhǔn)COS到歸檔存儲),優(yōu)化成本。
- 數(shù)據(jù)治理與元數(shù)據(jù)管理:提供統(tǒng)一的數(shù)據(jù)目錄、血緣追蹤、數(shù)據(jù)質(zhì)量監(jiān)控與敏感數(shù)據(jù)發(fā)現(xiàn)能力。
- 無縫集成的計(jì)算引擎服務(wù):提供全托管的流計(jì)算Oceanus、彈性MapReduce(EMR)、數(shù)據(jù)倉庫CDW等服務(wù),這些服務(wù)開箱即用地支持從統(tǒng)一湖倉中讀寫數(shù)據(jù),用戶無需關(guān)心底層集成細(xì)節(jié)。
- 安全與合規(guī)保障:在統(tǒng)一存儲層集成細(xì)粒度的權(quán)限控制(如Ranger)、數(shù)據(jù)加密(服務(wù)端/客戶端)、網(wǎng)絡(luò)隔離(VPC)及審計(jì)日志,滿足企業(yè)級安全要求。
四、 實(shí)踐價(jià)值與場景
騰訊云流式湖倉統(tǒng)一存儲實(shí)踐已在泛互聯(lián)網(wǎng)、金融、零售等行業(yè)落地,其價(jià)值凸顯于:
- 實(shí)時(shí)數(shù)據(jù)中臺:支撐實(shí)時(shí)大屏、實(shí)時(shí)推薦、風(fēng)控監(jiān)控等對數(shù)據(jù)延遲要求秒級甚至毫秒級的場景。
- 一體化數(shù)據(jù)分析:為BI報(bào)表、即席查詢、數(shù)據(jù)科學(xué)探索提供一致、最新的數(shù)據(jù)視圖,消除數(shù)據(jù)孤島。
- AI工程化:為特征工程和模型訓(xùn)練提供海量、統(tǒng)一且持續(xù)更新的數(shù)據(jù)源,加速AI迭代。
###
騰訊云流式湖倉統(tǒng)一存儲實(shí)踐,通過將流式數(shù)據(jù)管道、統(tǒng)一低成本存儲與現(xiàn)代化表格式深度融合,并輔以強(qiáng)大的托管數(shù)據(jù)服務(wù),成功構(gòu)建了面向未來的數(shù)據(jù)處理與存儲支持體系。它不僅解決了數(shù)據(jù)時(shí)效與成本效率的平衡難題,更通過統(tǒng)一的服務(wù)接口,讓數(shù)據(jù)能夠更流暢、更自由地賦能業(yè)務(wù)創(chuàng)新,成為企業(yè)數(shù)字化轉(zhuǎn)型進(jìn)程中堅(jiān)實(shí)而敏捷的數(shù)據(jù)基礎(chǔ)設(shè)施。