国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網 會員登陸 & 注冊

50億海量數(shù)據(jù)如何高效存儲和分析?華為云數(shù)據(jù)庫GaussDB (for Cassandra) 3個秘訣搞

2022-12-01 22:19 作者:段段段辭  | 我要投稿

50億海量數(shù)據(jù)如何高效存儲和分析?

華為云數(shù)據(jù)庫GaussDB (for Cassandra) 3個秘訣搞定

?

當下,信息社會正在從互聯(lián)網時代走向物聯(lián)網時代,信息交互變得更加龐雜、高效和智能。對于互聯(lián)網公司和IOT企業(yè)來說,既是機遇,也是挑戰(zhàn)。因為,企業(yè)不可避免的要面對數(shù)據(jù)量劇增帶來的一系列問題:如何高效存儲和擴容,如何在對原有業(yè)務改動最小的情況下做到智能化和實時分析。

針對挑戰(zhàn),華為云GaussDB (for Cassandra) 為客戶提供了強擴展、高存儲、高效導入/導出和實時分析等一系列能力,并成功服務了眾多互聯(lián)網公司和IOT企業(yè),獲得了客戶的高度認可和支持。本文將以其中一個客戶業(yè)務的痛點問題舉例,聊聊高效存儲和實時分析的3個秘訣。

?

海量存儲,PB級無感擴展

該用戶在線下本地化部署使用數(shù)據(jù)庫或者使用其他的存儲為云盤的數(shù)據(jù)庫時,常常需要在容量達到閾值時,提前規(guī)劃和申購存儲資源,可能還需要連帶擴容不必要的計算資源。而使用GaussDB (for Cassandra)之后,便再無此煩惱。GaussDB (for Cassandra)采用存算分離架構,可單獨擴展存儲,高效擴容,業(yè)務無感,最高可擴展到PB級。

此外,客戶為了做大數(shù)據(jù)分析,將數(shù)據(jù)庫中的數(shù)據(jù)再寫入一份到HDFS中,供MapReduce和Spark分析,同時需要維護兩套資源,維護和資源成本成為了痛點。而客戶使用GaussDB (for Cassandra)之后,可以僅采用GaussDB (for Cassandra)即可完成數(shù)據(jù)庫存儲和對接大數(shù)據(jù)分析的功能,同時GaussDB (for Cassandra)提供了更為易用的CQL接口,讓用戶更加專注功能開發(fā),而不是資源管理。

數(shù)據(jù)變更捕獲和實時分析

客戶的一個使用場景需要將爬蟲或用戶輸入的數(shù)據(jù),進行在線分析和實時推薦業(yè)務,該業(yè)務中全量數(shù)據(jù)達到了50億條,但增量數(shù)據(jù)不足5億,分析對象主要是每日新增數(shù)據(jù)。在這個場景中,GaussDB (for Cassandra)為客戶提供了streaming服務+實時分析解決方案,在損失小部分讀寫性能的前提下,客戶端無需改造即可做到數(shù)據(jù)讀寫和實時分析并行,解決方案如下圖,該解決方案主要有以下幾個階段:

1.客戶業(yè)務用過開源驅動寫入數(shù)據(jù)到GaussDB (for Cassandra)

2.GaussDB (for Cassandra)對外提供streaming接口,該接口可獲取數(shù)據(jù)變更捕獲

3.客戶構建的流服務組件讀取streaming接口數(shù)據(jù)寫入到指定的Kafka隊列

4.Kafka 隊列將streaming數(shù)據(jù)寫入到Spark或者Flink中

5.客戶在Spark中可對增量數(shù)據(jù)做分析,也可合并之后做全量分析


全量數(shù)據(jù)導出分析

客戶的另一個業(yè)務需要周期性對全量數(shù)據(jù)進行分析和處理,但不想影響在線業(yè)務,希望在閑時處理。GaussDB (for Cassandra)提供了全量數(shù)據(jù)導出和分析解決方案,可在業(yè)務低峰期觸發(fā)任務進行數(shù)據(jù)導出和冷數(shù)據(jù)分析,數(shù)據(jù)導出速率是開源的10+倍,同時做到對業(yè)務讀寫基本無影響。如下為互聯(lián)網客戶每周定期導出數(shù)據(jù)分析用戶畫像的解決方案,該方案有以下幾個階段:

1.客戶根據(jù)需求配置ECS規(guī)格,并掛載obsfs并行文件系統(tǒng)

2.客戶在DLF上配置導出作業(yè),包括ECS信息,導出參數(shù)和定時任務

3.CDM下發(fā)作業(yè)任務

4.ECS上的導出任務將GaussDB (for Cassandra)中的指定表指定條件的數(shù)據(jù)導出到obsfs

5.Spark從obsfs中讀取全量數(shù)據(jù)進行數(shù)據(jù)分析


通過這3個秘訣,華為云GaussDB (for Cassandra)完美解決了難擴展、高成本、變更不及時等問題,實現(xiàn)了海量數(shù)據(jù)的高效存儲和實時分析,為互聯(lián)網公司和IOT企業(yè)的數(shù)字化發(fā)展提供了更多可能。


50億海量數(shù)據(jù)如何高效存儲和分析?華為云數(shù)據(jù)庫GaussDB (for Cassandra) 3個秘訣搞的評論 (共 條)

分享到微博請遵守國家法律
汕头市| 鲜城| 安新县| 吴江市| 缙云县| 康定县| 冕宁县| 天等县| 上饶县| 民和| 大石桥市| 武安市| 凤翔县| 上思县| 三明市| 辽宁省| 定州市| 弥勒县| 濮阳市| 鄂伦春自治旗| 云林县| 名山县| 泰和县| 青海省| 石门县| 时尚| 偃师市| 富裕县| 建水县| 呼伦贝尔市| 桑日县| 大洼县| 商城县| 连山| 无为县| 毕节市| 青龙| 沂源县| 海丰县| 铜山县| 五大连池市|