国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

賈喜順數(shù)據(jù)治理實戰(zhàn)

2023-05-16 23:18 作者:如歌的trap  | 我要投稿

從幾百個大數(shù)據(jù)項目提煉濃縮而成?快速了解數(shù)據(jù)治理全流程

數(shù)據(jù)接入標準

目前企業(yè)主要的數(shù)據(jù)分布在流量日志,關系型數(shù)據(jù)/非關系型數(shù)據(jù)庫,第三方的一些數(shù)據(jù),例如爬蟲。

  • 流量日志:首先已經(jīng)要制定埋點規(guī)范,如果有埋點系統(tǒng)來約束整個埋點生命周期當然最好,如果沒有至少了做到有文檔維護,規(guī)范制定了還需要強制執(zhí)行,埋點完成以后,要進行埋點正確性校驗,最好能做到各個環(huán)節(jié)有負責人簽字確認。埋點往往是很多企業(yè)的痛點,不規(guī)范的埋點,會導致后期修改起來很麻煩,不好統(tǒng)一維護,并且會給模型層兼容帶來很大的挑戰(zhàn),并且從問題的根因出發(fā),發(fā)現(xiàn)埋點問題不應該模型層來兼容,而是應該推動埋點去改正。埋點其實是一個很復雜的工程,本文不做詳細描述。

  • 關系型數(shù)據(jù)/非關系型數(shù)據(jù)庫:企業(yè)會建立許多獨立,但是之間又有聯(lián)系的業(yè)務系統(tǒng),就拿電商來說,有交易,物流,售后,供應鏈,商家,會員,品牌等諸多的業(yè)務系統(tǒng),當一個公司發(fā)展到一定程度,甚至會出現(xiàn)多個領域業(yè)務的拓展。那么這一類數(shù)據(jù)如何接入到大數(shù)據(jù)里面呢,一般來講現(xiàn)在大數(shù)據(jù)倉庫都是使用hive搭建,當然底層還是用HDFS來進行存儲。其實有許多接入數(shù)據(jù)的工具,類似于sqoop,dataX,或者公司自己自研的工具。不管用什么工具,都要做到接入數(shù)據(jù)的規(guī)范。比如說:統(tǒng)一工具,統(tǒng)一明細層命名,統(tǒng)一多少數(shù)據(jù)量是全量,多少是增量等,一般在數(shù)據(jù)接入層,在數(shù)據(jù)模型設計當中會單獨設立一層stage(緩沖層),再上層才是ods層,stage層主要作用可以用于修復ods層數(shù)據(jù),增量stage合并ods層數(shù)據(jù)成為全量數(shù)據(jù)等作用??梢愿鶕?jù)自己的業(yè)務特點,制定適用的標準。

  • 第三方數(shù)據(jù):一般多為一些非結(jié)構化數(shù)據(jù),處理方法也有很多種,暫不詳述。


賈喜順數(shù)據(jù)治理實戰(zhàn)的評論 (共 條)

分享到微博請遵守國家法律
潞西市| 安多县| 寿光市| 苏尼特右旗| 闽清县| 沁阳市| 武胜县| 东乡| 涡阳县| 临武县| 安仁县| 永定县| 上杭县| 鱼台县| 松原市| 巴林左旗| 图片| 嘉荫县| 灵寿县| 嘉兴市| 德化县| 长治县| 蓬溪县| 邳州市| 民县| 秦安县| 永胜县| 甘德县| 玛沁县| 新邵县| 榆树市| 杂多县| 全南县| 桑日县| 宜章县| 阿巴嘎旗| 五常市| 东乡族自治县| 景宁| 天峨县| 平安县|