国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

數(shù)據(jù)庫發(fā)展史(下)

2022-02-22 10:50 作者:Gauss松鼠會(huì)  | 我要投稿

本篇文章為大家講解AI原生數(shù)據(jù)庫和其他類型數(shù)據(jù)庫的發(fā)展歷程。

AI原生數(shù)據(jù)庫

近年來,隨著AI(人工智能)技術(shù)的成熟和發(fā)展,AI與數(shù)據(jù)庫的結(jié)合越來越緊密。為了提高數(shù)據(jù)庫系統(tǒng)的智能化程度,使數(shù)據(jù)庫系統(tǒng)能夠更加智能地運(yùn)行、維護(hù)、管理,不斷有研究者采用人工智能方法來解決數(shù)據(jù)庫管理、優(yōu)化等問題。

2019年初,谷歌聯(lián)合麻省理工學(xué)院、布朗大學(xué)的研究人員共同推出了新型數(shù)據(jù)庫系統(tǒng)SageDB,并撰寫了一篇論文詳述SageDB的設(shè)計(jì)原理和性能表現(xiàn)。論文中提出學(xué)習(xí)模型可以滲透到數(shù)據(jù)庫系統(tǒng)的各個(gè)方面,提供了一種構(gòu)建數(shù)據(jù)庫系統(tǒng)的全新方法。清華大學(xué)利用AI技術(shù)來支持?jǐn)?shù)據(jù)庫的自調(diào)優(yōu)、基于AI的代價(jià)估計(jì)器、基于AI的優(yōu)化器、基于AI的物化視圖技術(shù)以及庫內(nèi)AI推理技術(shù)。

2019年5月,華為公司發(fā)布了全球首款A(yù)I原生(AI-Native)數(shù)據(jù)庫——GaussDB,該數(shù)據(jù)庫實(shí)現(xiàn)了兩大革命性突破:

(1) 該數(shù)據(jù)庫首次將人工智能技術(shù)融入分布式數(shù)據(jù)庫的全生命周期,實(shí)現(xiàn)自運(yùn)維、自管理、自調(diào)優(yōu)、故障自診斷和自愈。

(2) 該數(shù)據(jù)庫通過異構(gòu)計(jì)算創(chuàng)新框架充分發(fā)揮x86、ARM、GPU、NPU 多種算力優(yōu)勢。

GaussDB的出現(xiàn),標(biāo)志著數(shù)據(jù)庫產(chǎn)業(yè)將全面進(jìn)入人工智能時(shí)代。雖然AI原生數(shù)據(jù)庫具有很多優(yōu)勢,但是AI原生數(shù)據(jù)庫處于起步階段,面臨很多挑戰(zhàn),需要研究者投入更多的精力進(jìn)行開發(fā)和研究。

其他類型數(shù)據(jù)庫

除了上面介紹的比較有影響力的數(shù)據(jù)庫外,在數(shù)據(jù)庫領(lǐng)域還存在著許多其他類型的數(shù)據(jù)庫。

1.?實(shí)時(shí)數(shù)據(jù)庫

在大多數(shù)系統(tǒng)中,實(shí)時(shí)處理數(shù)據(jù)一直都是十分迫切的需求。實(shí)時(shí)數(shù)據(jù)處理最早的嘗試在20世紀(jì)80年代末,有人提出了活動(dòng)數(shù)據(jù)模型,該類模型能夠?qū)崟r(shí)捕獲數(shù)據(jù)變化并更新數(shù)據(jù),在很多關(guān)系數(shù)據(jù)庫中得到了使用,但由于其語法過于復(fù)雜,往往會(huì)導(dǎo)致計(jì)算代價(jià)過高。在20世紀(jì)90年代到21世紀(jì)初期間,出現(xiàn)了多種用于管理數(shù)據(jù)流的系統(tǒng)(Data Stream Management System,DSMS)。典型的實(shí)時(shí)數(shù)據(jù)庫有Apache Storm、PipelineDB、Heron和谷歌的Dataflow等。

2.?終端數(shù)據(jù)庫

前面介紹的數(shù)據(jù)庫都是運(yùn)用在服務(wù)器、集群、云計(jì)算平臺(tái)等計(jì)算資源上的,“體積”龐大,以“客戶端/服務(wù)端”的形式提供數(shù)據(jù)存儲(chǔ)和管理服務(wù)。為了克服“客戶端/服務(wù)端”模型因?yàn)橥ㄐ艓淼拈_銷,降低延遲時(shí)間,提出了終端數(shù)據(jù)庫的概念。

SQLite是一款輕型的由C語言編寫的,遵守ACID特性的關(guān)系數(shù)據(jù)庫管理系統(tǒng)。它的設(shè)計(jì)是嵌入式的,因此資源占用非常低,目前已經(jīng)在很多嵌入式產(chǎn)品中使用。

LevelDB是谷歌公司實(shí)現(xiàn)的一個(gè)非常高效的鍵值數(shù)據(jù)庫,目前的版本能夠支持10億級(jí)別的數(shù)據(jù)量。盡管LevelDB是單進(jìn)程的服務(wù),但是它的性能非常高,這主要?dú)w功于它的良好的設(shè)計(jì)。

終端數(shù)據(jù)庫主要是為了應(yīng)對(duì)性能的數(shù)據(jù)訪問需求出現(xiàn)的,結(jié)構(gòu)簡單,性能高,往往只適合在單機(jī)上使用。

3.?數(shù)據(jù)倉庫

為了解決企業(yè)數(shù)據(jù)集成問題,1988年,IBM 公司的研究員Barry Devlin和PaulMurphy創(chuàng)造性地提出了一個(gè)新的概念———數(shù)據(jù)倉庫(Data Warehouse)。數(shù)據(jù)倉庫是決策支持系統(tǒng)和聯(lián)機(jī)分析應(yīng)用系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)環(huán)境。之后,眾多廠商開始構(gòu)建實(shí)驗(yàn)性的數(shù)據(jù)倉庫。1991年,數(shù)據(jù)倉庫之父比爾·恩門(Bill Inmon)在出版的Building the Data Warehouse 一書中提出的關(guān)于數(shù)據(jù)倉庫的定義被廣泛接受,使得數(shù)據(jù)倉庫真正開始應(yīng)用,其功能是將聯(lián)機(jī)事務(wù)處理(OLTP)長期累積的大量數(shù)據(jù),經(jīng)過抽取、轉(zhuǎn)換、集成和清洗等操作后得到的一組具有主題的、面向分析的數(shù)據(jù)。比較著名的數(shù)據(jù)倉庫產(chǎn)品有IBM 公司的InfoSphere Warehouse,微軟公司的Microsoft SQL Server Fast Track以及天睿公司的Teradata等。數(shù)據(jù)倉庫容量大,能夠進(jìn)行分析決策和數(shù)據(jù)挖掘,但是,數(shù)據(jù)倉庫中的數(shù)據(jù)難以更新,缺乏規(guī)范,往往都是面向某一應(yīng)用,具有一定的局限性。

4.?數(shù)據(jù)湖

企業(yè)在生產(chǎn)過程中會(huì)產(chǎn)生、接收和存儲(chǔ)大量的數(shù)據(jù),而這些數(shù)據(jù)通常難以被其他應(yīng)用程序直接利用,面臨著這些數(shù)據(jù)應(yīng)該以何種方式進(jìn)行存儲(chǔ)和分析數(shù)據(jù)的挑戰(zhàn),數(shù)據(jù)難以被共享和利用也容易導(dǎo)致數(shù)據(jù)孤島的產(chǎn)生。為了解決這些問題,Pentaho公司的創(chuàng)始人兼首席技術(shù)官詹姆斯·狄克遜于2011年提出了數(shù)據(jù)湖的概念。簡單來說,數(shù)據(jù)湖就是一個(gè)以比較自然的方式存儲(chǔ)企業(yè)的原始數(shù)據(jù)的數(shù)據(jù)倉庫或者系統(tǒng),它能以各種模式和結(jié)構(gòu)形式方便地配置數(shù)據(jù),通常是對(duì)象塊或文件。數(shù)據(jù)湖不但能存儲(chǔ)傳統(tǒng)類型數(shù)據(jù),也能存儲(chǔ)其他類型的數(shù)據(jù),并且能基于這些數(shù)據(jù)做處理與分析工作,產(chǎn)生最終輸出供各類程序消費(fèi)。目前,成熟的數(shù)據(jù)湖并不多,亞馬遜公司AWS Lake Formation服務(wù),可以在幾天內(nèi)輕松建立安全的數(shù)據(jù)湖,松下、Accenture等公司都借助亞馬遜公司的這一服務(wù)搭建自己的數(shù)據(jù)湖。近年來,雖然數(shù)據(jù)湖逐漸得到重視,但是數(shù)據(jù)湖缺乏數(shù)據(jù)治理和元數(shù)據(jù)管理,對(duì)原始數(shù)據(jù)的可用性也有一些過分夸大。

5.?并行數(shù)據(jù)庫

為了提高數(shù)據(jù)庫的性能和可用性,研究者提出利用并行處理的方法,通過多個(gè)處理節(jié)點(diǎn)并行執(zhí)行數(shù)據(jù)庫任務(wù),提高整個(gè)數(shù)據(jù)庫系統(tǒng)的性能和可用性。目前并行數(shù)據(jù)庫主要分成兩類: 一類是傳統(tǒng)的大規(guī)模并行處理(Massively Parallel Processing,MPP)關(guān)系數(shù)據(jù)庫,比如Greenplum、Vertica等; 另一類是借鑒了MPP并行數(shù)據(jù)庫的設(shè)計(jì)思想的SQL on Hadoop類的方案,比如Impala、HAWQ、SparkSQL等。

然而,并行數(shù)據(jù)庫系統(tǒng)也有一些難以克服的缺點(diǎn)。例如,該類數(shù)據(jù)庫的數(shù)據(jù)遷移代價(jià)通常比較昂貴、沒有較好的彈性,靈活性較低,這影響到了并行數(shù)據(jù)庫的彈性以及實(shí)用性。此外,該類數(shù)據(jù)庫的另一個(gè)問題就是容錯(cuò)性較差。如果在查詢過程中節(jié)點(diǎn)發(fā)生故障,那么整個(gè)查詢通常都要重新執(zhí)行。

6.?大數(shù)據(jù)分析工具

大數(shù)據(jù)的處理往往需要依賴專門設(shè)計(jì)的硬件和軟件,目前,已經(jīng)有很多企業(yè)開發(fā)出了多種大數(shù)據(jù)分析工具。

MapReduce是由谷歌公司研發(fā)的一種面向大規(guī)模數(shù)據(jù)處理的并行計(jì)算框架。簡單來說,MapReduce基于并行計(jì)算的思想,將一個(gè)大計(jì)算量的任務(wù)和數(shù)據(jù)分解給若干個(gè)Mapper同時(shí)進(jìn)行處理和計(jì)算,最后由Reducer負(fù)責(zé)匯總Mapper的處理結(jié)果。隨著MapReduce在眾多大數(shù)據(jù)任務(wù)中取得成功,它已經(jīng)為大數(shù)據(jù)并行處理帶來了巨大的革命性影響,同時(shí)也是大數(shù)據(jù)時(shí)代的流行計(jì)算框架之一。

Hadoop是Apache公司設(shè)計(jì)開發(fā)的一個(gè)能夠?qū)A繑?shù)據(jù)進(jìn)行快速分布式分析處理的軟件框架。它能基于簡單的編程模型將海量數(shù)據(jù)分發(fā)到計(jì)算集群中,以便進(jìn)行分布式計(jì)算。

Storm 也是Apache公司研發(fā)的一款實(shí)時(shí)計(jì)算系統(tǒng),該系統(tǒng)可以強(qiáng)化數(shù)據(jù)流的處理效果和性能,也可以用于在線機(jī)器學(xué)習(xí)、分布式PRC(Remote Procedure Call)和持續(xù)處理等大數(shù)據(jù)分析相關(guān)的場景。Apache公司的Spark是專為大規(guī)模數(shù)據(jù)處理而設(shè)計(jì)的快速通用的計(jì)算引擎,可用它來完成各種各樣的運(yùn)算,包括SQL查詢、文本處理、機(jī)器學(xué)習(xí)等。

RapidMiner能夠提供一個(gè)集成開發(fā)環(huán)境進(jìn)行數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和文本挖掘等工作。

迄 今為止,已經(jīng)有很多優(yōu)秀的大數(shù)據(jù)分析工具投入使用,并形成了良好的生態(tài),極大地推動(dòng)了數(shù)據(jù)科學(xué)的進(jìn)步。

小結(jié)

到目前為止,隨著計(jì)算機(jī)應(yīng)用領(lǐng)域的不斷發(fā)展,數(shù)據(jù)庫技術(shù)與計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)、人工智能技術(shù)和并行計(jì)算技術(shù)等相互滲透、互相結(jié)合,成為當(dāng)前數(shù)據(jù)庫技術(shù)發(fā)展的主要特征之一,呈現(xiàn)了下一代數(shù)據(jù)庫的潛在發(fā)展方向。例如,傳統(tǒng)的OLAP(聯(lián)機(jī)分析處理)技術(shù)主要面向關(guān)系數(shù)據(jù),然而其他類型的數(shù)據(jù)(例如,圖數(shù)據(jù)和時(shí)空數(shù)據(jù)等)也有越來越多的應(yīng)用場景。因此,如何分析這些多模態(tài)的數(shù)據(jù)也是OLAP面臨的挑戰(zhàn)之一。特別是企業(yè)從BI(商業(yè)智能)到AI的轉(zhuǎn)型,繼續(xù)設(shè)計(jì)下一代OLAP系統(tǒng)來實(shí)現(xiàn)智能化分析。

首 先,如何將人工智能技術(shù)與數(shù)據(jù)庫技術(shù)相結(jié)合是未來的一個(gè)發(fā)展趨勢之一。傳統(tǒng)的數(shù)據(jù)庫優(yōu)化主要依賴于有經(jīng)驗(yàn)的數(shù)據(jù)庫管理員進(jìn)行查詢優(yōu)化,然而在當(dāng)今的大數(shù)據(jù)時(shí)代,數(shù)據(jù)和業(yè)務(wù)變得越來越復(fù)雜,僅僅靠數(shù)據(jù)庫管理員的經(jīng)驗(yàn)進(jìn)行數(shù)據(jù)庫優(yōu)化顯然是不能適應(yīng)復(fù)雜的數(shù)據(jù)和業(yè)務(wù)的變化。因而如何利用人工智能技術(shù)(例如強(qiáng)化學(xué)習(xí)技術(shù))來進(jìn)行數(shù)據(jù)庫的自動(dòng)優(yōu)化是重要的發(fā)展趨勢,同時(shí)也是一項(xiàng)挑戰(zhàn)。

其次,諸如一些非易失性存儲(chǔ)器(Non-Volatile Memory,NVM)等新型介質(zhì)的出現(xiàn)也為數(shù)據(jù)庫的設(shè)計(jì)和優(yōu)化提供了一些新的思路。

最后,數(shù)據(jù)安全和隱私是未來需要解決的重要問題,需要研究全密態(tài)數(shù)據(jù)庫來提升數(shù)據(jù)庫的安全性。此外區(qū)塊鏈因?yàn)槠浞植际?、去中心化和信息不可篡改等特性也越來越受到關(guān)注,從某種角度來說,區(qū)塊鏈?zhǔn)且粋€(gè)去中心化的數(shù)據(jù)庫,但是其對(duì)數(shù)據(jù)的查找和數(shù)據(jù)格式化處理方面有天生的不足。因此,在以區(qū)塊鏈作為數(shù)據(jù)存儲(chǔ)層的基礎(chǔ)上,研究如何將數(shù)據(jù)庫技術(shù)與區(qū)塊鏈結(jié)合起來,為區(qū)塊鏈提供一個(gè)數(shù)據(jù)庫層,從而加速數(shù)據(jù)的查詢效率、提高區(qū)塊鏈作為數(shù)據(jù)庫的可用性,這也是發(fā)展趨勢之一。


數(shù)據(jù)庫發(fā)展史(下)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
安龙县| 红安县| 武汉市| 青州市| 紫阳县| 西乌珠穆沁旗| 武城县| 平塘县| 岳阳县| 衡南县| 刚察县| 临夏市| 如东县| 隆回县| 集贤县| 马龙县| 盐城市| 桦甸市| 余姚市| 彭州市| 五华县| 甘洛县| 泾阳县| 宿迁市| 兴业县| 凤阳县| 贵德县| 汉源县| 四子王旗| 沐川县| 丁青县| 皋兰县| 红桥区| 尉犁县| 吕梁市| 长丰县| 日土县| 璧山县| 海原县| 永宁县| 固始县|