国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

【大數(shù)據(jù)基礎(chǔ)Ep2】《Hadoop權(quán)威指南》讀書筆記P5:數(shù)據(jù)的存儲(chǔ)與分析

2023-04-04 17:10 作者:學(xué)酥酥的學(xué)習(xí)日記本  | 我要投稿

(合計(jì)630字,用時(shí)20min——)

第1章 初識(shí)Hadoop

1.2數(shù)據(jù)的存儲(chǔ)與分析

第一段:?jiǎn)栴}——在硬盤存儲(chǔ)容量多年不斷提升的同時(shí),訪問速度(硬盤數(shù)據(jù)讀取速度)卻沒有與時(shí)俱進(jìn)。

第二段:讀完整個(gè)硬盤中的數(shù)據(jù)需要更長(zhǎng)時(shí)間,寫入數(shù)據(jù)就別提了。一個(gè)減少讀取時(shí)間的辦法是同時(shí)從多個(gè)硬盤上讀數(shù)據(jù)——100個(gè)硬盤,每個(gè)硬盤存儲(chǔ)1%的數(shù)據(jù),并行讀取,那么不到兩分鐘就可以讀完所有數(shù)據(jù)。

第三段:存儲(chǔ)硬盤容量的1%似乎很浪費(fèi),可以存儲(chǔ)100個(gè)數(shù)據(jù)集,每個(gè)數(shù)據(jù)集1TB,并實(shí)現(xiàn)共享硬盤的讀取——通過硬盤共享來縮短數(shù)據(jù)分析時(shí)間,從統(tǒng)計(jì)角度來看,用戶的分析工作都是在不同時(shí)間點(diǎn)進(jìn)行的,所以彼此之間的干擾并不太大。

第四段:還有更多問題。

第五段:硬件故障問題:一旦開始使用多個(gè)硬件,其中個(gè)別硬件就很有可能發(fā)生故障,

????對(duì)策:復(fù)制(replication):系統(tǒng)保存數(shù)據(jù)的復(fù)本(replica),一旦有系統(tǒng)發(fā)生故障,就可以使用另外保存的復(fù)本,如——

  1. 冗余硬盤陣列(RAID);

  2. Hadoop的文件系統(tǒng)(Hadoop Distributed FileSystem,HDFS)。

第六段:分布式系統(tǒng)的數(shù)據(jù)分析任務(wù)的正確性——

????對(duì)策:MapReduce提出一個(gè)編程模型,該模型抽象出這些硬盤讀/寫問題并將其轉(zhuǎn)換為對(duì)一個(gè)數(shù)據(jù)集(由鍵-值對(duì)組成)的計(jì)算,這樣的模型由map和reduce兩部分組成,而且只有這兩部分提供對(duì)外的接口

第七段:Hadoop提供了一個(gè)可靠的且可擴(kuò)展的存儲(chǔ)和分析平臺(tái),因?yàn)镠adoop運(yùn)行在商用硬件上且開源——Hadoop的使用成本是在可承受范圍內(nèi)的。


【大數(shù)據(jù)基礎(chǔ)Ep2】《Hadoop權(quán)威指南》讀書筆記P5:數(shù)據(jù)的存儲(chǔ)與分析的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
江门市| 宁安市| 横山县| 石泉县| 康定县| 冕宁县| 武城县| 西畴县| 浪卡子县| 宜兰县| 舒城县| 达孜县| 泾川县| 平利县| 青州市| 云阳县| 宝清县| 商水县| 清新县| 剑河县| 大冶市| 湘阴县| 德保县| 吉林市| 永靖县| 南召县| 五华县| 汕头市| 随州市| 北辰区| 郸城县| 尤溪县| 马公市| 红原县| 忻州市| 绵阳市| 抚顺县| 始兴县| 封丘县| 五原县| 沁阳市|