在貝殼找房這樣一家業(yè)務(wù)覆蓋全國(guó)、數(shù)據(jù)規(guī)模龐大且結(jié)構(gòu)復(fù)雜的居住服務(wù)科技平臺(tái),高效、可靠的數(shù)據(jù)處理是業(yè)務(wù)決策、產(chǎn)品智能化和精細(xì)化運(yùn)營(yíng)的基石。貝殼的數(shù)據(jù)治理中臺(tái),特別是其核心的數(shù)據(jù)處理服務(wù),經(jīng)過(guò)多年的迭代與實(shí)踐,已形成一套體系化的解決方案,旨在解決數(shù)據(jù)孤島、質(zhì)量不一、處理效率低下等經(jīng)典難題,為全公司提供統(tǒng)一、可信、敏捷的數(shù)據(jù)服務(wù)。
一、數(shù)據(jù)處理服務(wù)的核心定位與挑戰(zhàn)
貝殼的數(shù)據(jù)處理服務(wù)作為數(shù)據(jù)中臺(tái)的核心引擎,其核心定位是:對(duì)來(lái)自各業(yè)務(wù)線(新房、二手房、租賃、裝修、金融等)的異構(gòu)、海量原始數(shù)據(jù)進(jìn)行采集、清洗、加工、整合與建模,最終產(chǎn)出標(biāo)準(zhǔn)化、資產(chǎn)化的數(shù)據(jù)產(chǎn)品,服務(wù)于數(shù)據(jù)分析、用戶畫(huà)像、智能推薦、風(fēng)控決策等多種業(yè)務(wù)場(chǎng)景。
面臨的挑戰(zhàn)是多維度的:
- 數(shù)據(jù)源異構(gòu)且動(dòng)態(tài)變化:數(shù)百個(gè)業(yè)務(wù)系統(tǒng)、日志、第三方數(shù)據(jù),格式不一,且業(yè)務(wù)變更頻繁。
- 規(guī)模與性能要求高:日處理數(shù)據(jù)量達(dá)PB級(jí),需保證T+1甚至實(shí)時(shí)數(shù)據(jù)產(chǎn)出的時(shí)效性。
- 質(zhì)量與一致性是生命線:房源、客源、交易等核心數(shù)據(jù)的準(zhǔn)確性直接關(guān)系到業(yè)務(wù)可信度。
- 敏捷響應(yīng)業(yè)務(wù)需求:業(yè)務(wù)探索和創(chuàng)新速度快,數(shù)據(jù)處理流程需要靈活可配置,支持快速迭代。
二、數(shù)據(jù)處理服務(wù)的架構(gòu)與實(shí)踐
貝殼數(shù)據(jù)處理服務(wù)構(gòu)建了一個(gè)分層、解耦的體系,主要包含以下關(guān)鍵層次:
1. 統(tǒng)一接入與緩沖層
- 建立了統(tǒng)一的數(shù)據(jù)接入平臺(tái),支持DB日志解析、消息隊(duì)列(如Kafka)、API拉取、文件傳輸?shù)榷喾N接入方式。
- 所有原始數(shù)據(jù)首先進(jìn)入數(shù)據(jù)湖(基于HDFS/Object Storage),實(shí)現(xiàn)原始數(shù)據(jù)的永久存儲(chǔ)與回溯,為批流一體處理奠定基礎(chǔ)。
2. 核心計(jì)算與調(diào)度引擎層
- 批處理:以成熟的Hadoop/Spark生態(tài)為核心,處理T+1的ETL任務(wù)。通過(guò)自研的可視化任務(wù)開(kāi)發(fā)平臺(tái),將復(fù)雜的SQL和代碼任務(wù)配置化、模板化,降低了開(kāi)發(fā)門(mén)檻。
- 流處理:引入Flink構(gòu)建實(shí)時(shí)計(jì)算能力,用于實(shí)時(shí)指標(biāo)計(jì)算、事件監(jiān)聽(tīng)與實(shí)時(shí)特征生成,滿足風(fēng)控、實(shí)時(shí)推薦等場(chǎng)景。
- 統(tǒng)一調(diào)度系統(tǒng):自研的調(diào)度中心負(fù)責(zé)管理數(shù)以萬(wàn)計(jì)的數(shù)據(jù)處理任務(wù),具備強(qiáng)大的依賴解析、優(yōu)先級(jí)調(diào)度、失敗重試與智能報(bào)警能力,保障了任務(wù)鏈的穩(wěn)定運(yùn)行。
3. 數(shù)據(jù)質(zhì)量與血緣治理層(核心保障)
- 質(zhì)量監(jiān)控體系:在關(guān)鍵的數(shù)據(jù)處理節(jié)點(diǎn)(如ODS->DWD->DWS)植入質(zhì)量檢查規(guī)則。規(guī)則包括:非空校驗(yàn)、唯一性校驗(yàn)、值域校驗(yàn)、一致性校驗(yàn)、波動(dòng)率監(jiān)控等。一旦觸發(fā)閾值,系統(tǒng)自動(dòng)告警并阻斷下游任務(wù),防止“臟數(shù)據(jù)”擴(kuò)散。
- 全鏈路數(shù)據(jù)血緣:自動(dòng)采集并可視化從數(shù)據(jù)接入到最終數(shù)據(jù)產(chǎn)品(報(bào)表、API)的全鏈路血緣關(guān)系。這極大地提升了問(wèn)題排查效率(快速定位影響范圍)、變更影響評(píng)估和數(shù)據(jù)資產(chǎn)的可理解性。
4. 數(shù)據(jù)資產(chǎn)與服務(wù)化層
- 經(jīng)過(guò)標(biāo)準(zhǔn)化處理的數(shù)據(jù),按照維度建模等理論,分層存儲(chǔ)于數(shù)據(jù)倉(cāng)庫(kù)(DWD明細(xì)層、DWS匯總層、DIM維度層、ADS應(yīng)用層)。
- 通過(guò)統(tǒng)一數(shù)據(jù)服務(wù)(UDAS),將數(shù)據(jù)表、指標(biāo)、模型以API、數(shù)據(jù)文件、消息等多種形式發(fā)布出去,供業(yè)務(wù)系統(tǒng)、BI工具、算法平臺(tái)調(diào)用,實(shí)現(xiàn)了數(shù)據(jù)資產(chǎn)的可復(fù)用與閉環(huán)。
三、關(guān)鍵實(shí)踐與成效
1. 標(biāo)準(zhǔn)化與模型驅(qū)動(dòng)
定義了全公司統(tǒng)一的業(yè)務(wù)實(shí)體標(biāo)準(zhǔn)(如“房源”、“客源”、“經(jīng)紀(jì)人”)和指標(biāo)體系。所有數(shù)據(jù)處理均圍繞這些標(biāo)準(zhǔn)模型展開(kāi),確保了數(shù)據(jù)在跨業(yè)務(wù)線使用時(shí)口徑一致、可比。
2. 平臺(tái)化與自助化
將常用的數(shù)據(jù)處理邏輯(如去重、拉鏈、SCD2處理等)沉淀為平臺(tái)組件。業(yè)務(wù)和數(shù)據(jù)分析師可以通過(guò)可視化界面,以“搭積木”的方式完成數(shù)據(jù)清洗和輕度匯總,大幅提升了效率,釋放了數(shù)據(jù)工程師的生產(chǎn)力。
3. 成本與效能優(yōu)化
通過(guò)計(jì)算存儲(chǔ)分離、冷熱數(shù)據(jù)分層、作業(yè)運(yùn)行時(shí)優(yōu)化(如Spark參數(shù)調(diào)優(yōu))、小文件合并等技術(shù)手段,在數(shù)據(jù)量持續(xù)增長(zhǎng)的情況下,有效控制了計(jì)算和存儲(chǔ)成本的增速。
4. 成效顯著
- 數(shù)據(jù)產(chǎn)出時(shí)效性:核心T+1報(bào)表交付時(shí)間從過(guò)去的數(shù)小時(shí)縮短至穩(wěn)定在1小時(shí)內(nèi)。
- 數(shù)據(jù)質(zhì)量:關(guān)鍵業(yè)務(wù)數(shù)據(jù)的質(zhì)量檢核通過(guò)率提升至99.9%以上,數(shù)據(jù)問(wèn)題引發(fā)的業(yè)務(wù)投訴大幅下降。
- 開(kāi)發(fā)效率:通過(guò)平臺(tái)化,簡(jiǎn)單數(shù)據(jù)需求的交付周期從天級(jí)縮短至小時(shí)級(jí)。
- 業(yè)務(wù)價(jià)值:為“樓盤(pán)字典”(貝殼核心的真實(shí)房源數(shù)據(jù)庫(kù))、ACN合作網(wǎng)絡(luò)效率分析、經(jīng)紀(jì)人信用分、VR看房智能導(dǎo)覽等核心業(yè)務(wù)提供了堅(jiān)實(shí)、可信的數(shù)據(jù)支撐。
四、未來(lái)展望
貝殼的數(shù)據(jù)處理服務(wù)仍在持續(xù)進(jìn)化,未來(lái)的重點(diǎn)將集中在:
- 智能化:引入AI進(jìn)行任務(wù)智能調(diào)優(yōu)、異常自動(dòng)檢測(cè)與根因分析、數(shù)據(jù)質(zhì)量問(wèn)題的自動(dòng)修復(fù)。
- 實(shí)時(shí)化深化:拓展實(shí)時(shí)數(shù)據(jù)處理場(chǎng)景,構(gòu)建更完善的實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù),滿足更敏捷的業(yè)務(wù)決策。
- 云原生與一體化:向云原生架構(gòu)演進(jìn),實(shí)現(xiàn)更極致的彈性與資源利用率;進(jìn)一步融合批流,實(shí)現(xiàn)真正意義上的一體化數(shù)據(jù)處理體驗(yàn)。
貝殼數(shù)據(jù)處理服務(wù)的實(shí)踐表明,構(gòu)建一個(gè)強(qiáng)大的數(shù)據(jù)治理中臺(tái),技術(shù)架構(gòu)是骨架,而標(biāo)準(zhǔn)化、平臺(tái)化、質(zhì)量?jī)?nèi)建和全鏈路可觀測(cè)才是其靈魂。它不僅是技術(shù)的整合,更是將數(shù)據(jù)治理理念深度融入每一個(gè)數(shù)據(jù)處理環(huán)節(jié),從而將原始數(shù)據(jù)有序地轉(zhuǎn)化為驅(qū)動(dòng)業(yè)務(wù)增長(zhǎng)的強(qiáng)大資產(chǎn)。