大數(shù)據(jù)領(lǐng)域75個(gè)核心術(shù)語講解?。ㄏ缕?/h1>
下篇(50?個(gè)術(shù)語)
這篇文章是上篇文章的延續(xù),由于上篇反響熱烈,我決定多介紹 50?個(gè)相關(guān)術(shù)語。下面來對上篇文章涵蓋的術(shù)語做個(gè)簡短的回顧:算法,分析,描述性分析,預(yù)處理分析,預(yù)測分析,批處理,Cassandra(一個(gè)大規(guī)模分布式數(shù)據(jù)存儲系統(tǒng)),云計(jì)算,集群計(jì)算,暗數(shù)據(jù),數(shù)據(jù)湖,數(shù)據(jù)挖掘,數(shù)據(jù)科學(xué)家,分布式文件系統(tǒng),ETL,Hadoop(一個(gè)開發(fā)和運(yùn)行處理大規(guī)模數(shù)據(jù)的軟件平臺),內(nèi)存計(jì)算,物聯(lián)網(wǎng),機(jī)器學(xué)習(xí),Mapreduce(hadoop 的核心組件之一),NoSQL(非關(guān)系型的數(shù)據(jù)庫),R,Spark(計(jì)算引擎),流處理,結(jié)構(gòu)化 vs 非結(jié)構(gòu)化數(shù)據(jù)。
我們接下來繼續(xù)了解另外 50?個(gè)大數(shù)據(jù)術(shù)語。
Apache:軟件基金會(ASF)提供了許多大數(shù)據(jù)的開源項(xiàng)目,目前有 350?多個(gè)。解釋完這些項(xiàng)目需要耗費(fèi)大量時(shí)間,所以我只挑選解釋了一些流行術(shù)語。
Apache?Kafka:命名于捷克作家卡夫卡,用于構(gòu)建實(shí)時(shí)數(shù)據(jù)管道和流媒體應(yīng)用。它如此流行的原因在于能夠以容錯(cuò)的方式存儲、管理和處理數(shù)據(jù)流,據(jù)說還非常「快速」。鑒于社交網(wǎng)絡(luò)環(huán)境大量涉及數(shù)據(jù)流的處理,卡夫卡目前非常受歡迎。
Apache?Mahout:Mahout 提供了一個(gè)用于機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的預(yù)制算法庫,也可用作創(chuàng)建更多算法的環(huán)境。換句話說,機(jī)器學(xué)習(xí)極客的最佳環(huán)境。
Apache?Oozie:在任何編程環(huán)境中,你都需要一些工作流系統(tǒng)通過預(yù)定義的方式和定義的依賴關(guān)系,安排和運(yùn)行工作。Oozie 為 pig、MapReduce 以及 Hive 等語言編寫的大數(shù)據(jù)工作所提供正是這個(gè)。
Apache?Drill,?Apache?Impala,?Apache?Spark?SQL:這三個(gè)開源項(xiàng)目都提供快速和交互式的 SQL,如與 Apache Hadoop 數(shù)據(jù)的交互。如果你已經(jīng)知道 SQL 并處理以大數(shù)據(jù)格式存儲的數(shù)據(jù)(即 HBase 或 HDFS),這些功能將非常有用。抱歉,這里說的有點(diǎn)奇怪。
Apache?Hive:知道 SQL 嗎?如果知道那你就很好上手 Hive 了。Hive 有助于使用 SQL 讀取、寫入和管理駐留在分布式存儲中的大型數(shù)據(jù)集。
Apache?Pig:Pig 是在大型分布式數(shù)據(jù)集上創(chuàng)建、查詢、執(zhí)行例程的平臺。所使用的腳本語言叫做 Pig Latin(我絕對不是瞎說,相信我)。據(jù)說 Pig 很容易理解和學(xué)習(xí)。但是我很懷疑有多少是可以學(xué)習(xí)的?
Apache?Sqoop:一個(gè)用于將數(shù)據(jù)從 Hadoop 轉(zhuǎn)移到非 Hadoop 數(shù)據(jù)存儲(如數(shù)據(jù)倉庫和關(guān)系數(shù)據(jù)庫)的工具。
Apache?Storm:一個(gè)免費(fèi)開源的實(shí)時(shí)分布式計(jì)算系統(tǒng)。它使得使用 Hadoop 進(jìn)行批處理的同時(shí)可以更容易地處理非結(jié)構(gòu)化數(shù)據(jù)。
人工智能(AI):為什么 AI 出現(xiàn)在這里?你可能會問,這不是一個(gè)單獨(dú)的領(lǐng)域嗎?所有這些技術(shù)發(fā)展趨勢緊密相連,所以我們最好靜下心來繼續(xù)學(xué)習(xí),對吧?AI 以軟硬件結(jié)合的方式開發(fā)智能機(jī)器和軟件,這種硬件和軟件的結(jié)合能夠感知環(huán)境并在需要時(shí)采取必要的行動,不斷從這些行動中學(xué)習(xí)。是不是聽起來很像機(jī)器學(xué)習(xí)?跟我一起「困惑」吧。
行為分析(Behavioral?Analytics):你有沒有想過谷歌是如何為你需要的產(chǎn)品/服務(wù)提供廣告的?行為分析側(cè)重于理解消費(fèi)者和應(yīng)用程序所做的事情,以及如何與為什么它們以某種方式起作用。這涉及了解我們的上網(wǎng)模式,社交媒體互動行為,以及我們的網(wǎng)上購物活動(購物車等),連接這些無關(guān)的數(shù)據(jù)點(diǎn),并試圖預(yù)測結(jié)果。舉一個(gè)例子,在我找到一家酒店并清空購物車后,我收到了度假村假期線路的電話。我還要說多點(diǎn)嗎?
Brontobytes:1 后面 27 個(gè)零,這是未來數(shù)字世界存儲單位的大小。而我們在這里,來談?wù)?Terabyte、Petabyte、Exabyte、Zetabyte、Yottabyte 和 Brontobyte。你一定要讀這篇文章才能深入了解這些術(shù)語。
商業(yè)智能(Business?Intelligence):我將重用 Gartner 對 BI 的定義,因?yàn)樗忉尩暮芎?。商業(yè)智能是一個(gè)總稱,包括應(yīng)用程序、基礎(chǔ)設(shè)施、工具以及最佳實(shí)踐,它可以訪問和分析信息,從而改善和優(yōu)化決策及績效。
生物測定學(xué)(Biometrics):這是一項(xiàng) James Bondish 技術(shù)與分析技術(shù)相結(jié)合的通過人體的一種或多種物理特征來識別人的技術(shù),如面部識別,虹膜識別,指紋識別等。
點(diǎn)擊流分析(Clickstream?analytics):用于分析用戶在網(wǎng)絡(luò)上瀏覽時(shí)的在線點(diǎn)擊數(shù)據(jù)。有沒有想過即使在切換網(wǎng)站時(shí),為什么某些谷歌廣告還是陰魂不散?因?yàn)楣雀璐罄兄滥阍邳c(diǎn)擊什么。
聚類分析(Cluster?Analysis):是一個(gè)試圖識別數(shù)據(jù)結(jié)構(gòu)的探索性分析,也稱為分割分析或分類分析。更具體地說,它試圖確定案例的同質(zhì)組(homogenous groups),即觀察、參與者、受訪者。如果分組以前未知,則使用聚類分析來識別案例組。因?yàn)樗翘剿餍缘模_實(shí)對依賴變量和獨(dú)立變量進(jìn)行了區(qū)分。SPSS 提供的不同的聚類分析方法可以處理二進(jìn)制、標(biāo)稱、序數(shù)和規(guī)模(區(qū)間或比率)數(shù)據(jù)。
比較分析(Comparative?Analytics):因?yàn)榇髷?shù)據(jù)的關(guān)鍵就在于分析,所以本文中我將深入講解分析的意義。顧名思義,比較分析是使用諸如模式分析、過濾和決策樹分析等統(tǒng)計(jì)技術(shù)來比較多個(gè)進(jìn)程、數(shù)據(jù)集或其他對象。我知道它涉及的技術(shù)越來越少,但是我仍無法完全避免使用術(shù)語。比較分析可用于醫(yī)療保健領(lǐng)域,通過比較大量的醫(yī)療記錄、文件、圖像等,給出更有效和更準(zhǔn)確的醫(yī)療診斷。
關(guān)聯(lián)分析(Connection?Analytics):你一定看到了像圖表一樣的蜘蛛網(wǎng)將人與主題連接起來,從而確定特定主題的影響者。關(guān)聯(lián)分析分析可以幫助發(fā)現(xiàn)人們、產(chǎn)品、網(wǎng)絡(luò)之中的系統(tǒng),甚至是數(shù)據(jù)與多個(gè)網(wǎng)絡(luò)結(jié)合之間的相關(guān)連接和影響。
數(shù)據(jù)分析師(Data?Analyst):數(shù)據(jù)分析師是一個(gè)非常重要和受歡迎的工作,除了準(zhǔn)備報(bào)告之外,它還負(fù)責(zé)收集、編輯和分析數(shù)據(jù)。我會寫一篇更詳細(xì)的關(guān)于數(shù)據(jù)分析師的文章。
數(shù)據(jù)清洗(Data?Cleansing):顧名思義,數(shù)據(jù)清洗涉及到檢測并更正或者刪除數(shù)據(jù)庫中不準(zhǔn)確的數(shù)據(jù)或記錄,然后記住「臟數(shù)據(jù)」。借助于自動化或者人工工具和算法,數(shù)據(jù)分析師能夠更正并進(jìn)一步豐富數(shù)據(jù),以提高數(shù)據(jù)質(zhì)量。請記住,臟數(shù)據(jù)會導(dǎo)致錯(cuò)誤的分析和糟糕的決策。
數(shù)據(jù)即服務(wù)(DaaS):我們有軟件即服務(wù)(SaaS), 平臺即服務(wù)(PaaS),現(xiàn)在我們又有 DaaS,它的意思是:數(shù)據(jù)即服務(wù)。通過給用戶提供按需訪問的云端數(shù)據(jù),DaaS 提供商能夠幫助我們快速地得到高質(zhì)量的數(shù)據(jù)。
數(shù)據(jù)虛擬化(Data?virtualization):這是一種數(shù)據(jù)管理方法,它允許某個(gè)應(yīng)用在不知道技術(shù)細(xì)節(jié)(如數(shù)據(jù)存放在何處,以什么格式)的情況下能夠抽取并操作數(shù)據(jù)。例如,社交網(wǎng)絡(luò)利用這個(gè)方法來存儲我們的照片。
臟數(shù)據(jù)(Dirty?Data):既然大數(shù)據(jù)這么吸引人,那么人們也開始給數(shù)據(jù)加上其他的形容詞來形成新的術(shù)語,例如黑數(shù)據(jù)(dark data)、臟數(shù)據(jù)(dirty data)、小數(shù)據(jù)(Small data),以及現(xiàn)在的智能數(shù)據(jù)(Smart data)。臟數(shù)據(jù)就是不干凈的數(shù)據(jù),換言之,就是不準(zhǔn)確的、重復(fù)的以及不一致的數(shù)據(jù)。顯然,你不會想著和臟數(shù)據(jù)攪在一起。所以,盡快地修正它。
模糊邏輯(Fuzzy?logic):我們有多少次對一件事情是確定的,例如 100%?正確?很稀少!我們的大腦將數(shù)據(jù)聚合成部分的事實(shí),這些事實(shí)進(jìn)一步被抽象為某種能夠決定我們決策的閾值。模糊邏輯是一種這樣的計(jì)算方式,與像布爾代數(shù)等等中的「0」和「1」相反,它旨在通過漸漸消除部分事實(shí)來模仿人腦。
游戲化(Gamification):在一個(gè)典型的游戲中,你會有一個(gè)類似于分?jǐn)?shù)一樣的元素與別人競爭,并且還有明確的游戲規(guī)則。大數(shù)據(jù)中的游戲化就是使用這些概念來收集、分析數(shù)據(jù)或者激發(fā)玩家。
圖數(shù)據(jù)庫(Graph?Databases):圖數(shù)據(jù)使用節(jié)點(diǎn)和邊這樣的概念來代表人和業(yè)務(wù)以及他們之間的關(guān)系,以挖掘社交媒體中的數(shù)據(jù)。是否曾經(jīng)驚嘆過亞馬遜在你買一件產(chǎn)品的時(shí)候告訴你的關(guān)于別人在買什么的信息?對,這就是圖數(shù)據(jù)庫。
Hadoop?用戶體驗(yàn)(Hadoop?User?Experience?/Hue):Hue 是一個(gè)能夠讓使用 Apache Hadoop 變得更加容易的開源接口。它是一款基于 web 的應(yīng)用;它有一款分布式文件系統(tǒng)的文件瀏覽器;它有用于 MapReduce 的任務(wù)設(shè)計(jì);它有能夠調(diào)度工作流的框架 Oozie;它有一個(gè) shell、一個(gè) Impala、一個(gè) Hive UI 以及一組 Hadoop API。
高性能分析應(yīng)用(HANA):這是 SAP 公司為大數(shù)據(jù)傳輸和分析設(shè)計(jì)的一個(gè)軟硬件內(nèi)存平臺。
HBase:?一個(gè)分布式的面向列的數(shù)據(jù)庫。它使用 HDFS 作為其底層存儲,既支持利用 MapReduce 進(jìn)行的批量計(jì)算,也支持利用事物交互的批量計(jì)算。
負(fù)載均衡(Load?balancing):為了實(shí)現(xiàn)最佳的結(jié)果和對系統(tǒng)的利用,將負(fù)載分發(fā)給多個(gè)計(jì)算機(jī)或者服務(wù)器。
元數(shù)據(jù)(Metadata):元數(shù)據(jù)就是能夠描述其他數(shù)據(jù)的數(shù)據(jù)。元數(shù)據(jù)總結(jié)了數(shù)據(jù)的基本信息,這使得查找和使用特定的數(shù)據(jù)實(shí)例變得更加容易。例如,作者、數(shù)據(jù)的創(chuàng)建日期、修改日期以及大小,這幾項(xiàng)是基本的文檔元數(shù)據(jù)。除了文檔文件之外,元數(shù)據(jù)還被用于圖像、視頻、電子表格和網(wǎng)頁。
MongoDB:MongoDB 是一個(gè)面向文本數(shù)據(jù)模型的跨平臺開源數(shù)據(jù)庫,而不是傳統(tǒng)的基于表格的關(guān)系數(shù)據(jù)庫。這種數(shù)據(jù)庫結(jié)構(gòu)的主要設(shè)計(jì)目的是讓結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)在特定類型應(yīng)用的整合更快、更容易。
Mashup:幸運(yùn)的是,這個(gè)術(shù)語和我們在日常生活中使用的「mashup」一詞有著相近的含義,就是混搭的意思。實(shí)質(zhì)上,mashup 是一個(gè)將不同的數(shù)據(jù)集合并到一個(gè)單獨(dú)應(yīng)用中的方法(例如:將房地產(chǎn)數(shù)據(jù)與地理位置數(shù)據(jù)、人口數(shù)據(jù)結(jié)合起來)。這確實(shí)能夠讓可視化變得很酷。
多維數(shù)據(jù)庫(Multi-Dimensional?Databases):這是一個(gè)為了數(shù)據(jù)在線分析處理(OLAP)和數(shù)據(jù)倉庫優(yōu)化而來的數(shù)據(jù)庫。如果你不知道數(shù)據(jù)倉庫是什么,我可以解釋一下,數(shù)據(jù)倉庫不是別的什么東西,它只是對多個(gè)數(shù)據(jù)源的數(shù)據(jù)做了集中存儲。
多值數(shù)據(jù)庫(MultiValue?Databases):多值數(shù)據(jù)庫是一種非關(guān)系型數(shù)據(jù)庫,它能夠直接理解三維數(shù)據(jù),這對直接操作 HTML 和 XML 字符串是很好的。
自然語言處理(Natural?Language?Processing):自然語言處理是被設(shè)計(jì)來讓計(jì)算機(jī)更加準(zhǔn)確地理解人類日常語言的軟件算法,能夠讓人類更加自然、更加有效地和計(jì)算機(jī)交互。
神經(jīng)網(wǎng)絡(luò)(Neural?Network):根據(jù)這個(gè)描述(http://neuralnetworksanddeeplearning.com/),神經(jīng)網(wǎng)絡(luò)是一個(gè)受生物學(xué)啟發(fā)的非常漂亮的編程范式,它能夠讓計(jì)算機(jī)從觀察到的數(shù)據(jù)中學(xué)習(xí)。已經(jīng)好久沒有一個(gè)人會說一個(gè)編程范式很漂亮了。實(shí)際上,神經(jīng)網(wǎng)絡(luò)就是受現(xiàn)實(shí)生活中腦生物學(xué)啟發(fā)的模型....... 與神經(jīng)網(wǎng)絡(luò)緊密關(guān)聯(lián)的一個(gè)術(shù)語就是深度學(xué)習(xí)。深度學(xué)習(xí)是神經(jīng)網(wǎng)絡(luò)中一系列學(xué)習(xí)技術(shù)的集合。
模式識別(Pattern?Recognition):當(dāng)算法需要在大規(guī)模數(shù)據(jù)集或者在不同的數(shù)據(jù)集上確定回歸或者規(guī)律的時(shí)候,就出現(xiàn)了模式識別。它與機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘緊密相連,甚至被認(rèn)為是后兩者的代名詞。這種可見性可以幫助研究者發(fā)現(xiàn)一些深刻的規(guī)律或者得到一些可能被認(rèn)為很荒謬的結(jié)論。
射頻識別(Radio?Frequency?Identification/RFID):射頻識別是一類使用非接觸性無線射頻電磁場來傳輸數(shù)據(jù)的傳感器。隨著物聯(lián)網(wǎng)的發(fā)展,RFID 標(biāo)簽?zāi)軌虮磺度氲饺魏慰赡艿摹笘|西里面」,這能夠生成很多需要被分析的數(shù)據(jù)。歡迎來到數(shù)據(jù)世界。
軟件即服務(wù)(SaaS):軟件即服務(wù)讓服務(wù)提供商把應(yīng)用托管在互聯(lián)網(wǎng)上。SaaS 提供商在云端提供服務(wù)。
半結(jié)構(gòu)化數(shù)據(jù)(Semi-structured?data):半結(jié)構(gòu)化數(shù)據(jù)指的是那些沒有以傳統(tǒng)的方法進(jìn)行格式化的數(shù)據(jù),例如那些與傳統(tǒng)數(shù)據(jù)庫相關(guān)的數(shù)據(jù)域或者常用的數(shù)據(jù)模型。半結(jié)構(gòu)化數(shù)據(jù)也不是完全原始的數(shù)據(jù)或者完全非結(jié)構(gòu)化的數(shù)據(jù),它可能會包含一些數(shù)據(jù)表、標(biāo)簽或者其他的結(jié)構(gòu)元素。半結(jié)構(gòu)化數(shù)據(jù)的例子有圖、表、XML 文檔以及電子郵件。半結(jié)構(gòu)化數(shù)據(jù)在萬維網(wǎng)上十分流行,在面向?qū)ο髷?shù)據(jù)庫中經(jīng)常能夠被找到。
情感分析(Sentiment?Analysis):情感分析涉及到了對消費(fèi)者在社交媒體、顧客代表電話訪談和調(diào)查中存在的多種類型的交互和文檔中所表達(dá)的情感、情緒和意見的捕捉、追蹤和分析。文本分析和自然語言處理是情感分析過程中的典型技術(shù)。情感分析的目標(biāo)就是要辨別或評價(jià)針對一個(gè)公司、產(chǎn)品、服務(wù)、人或者時(shí)間所持有的態(tài)度或者情感。
空間分析(Spatial?analysis):空間分析指的是對空間數(shù)據(jù)作出分析,以識別或者理解分布在幾何空間中的數(shù)據(jù)的模式和規(guī)律,這類數(shù)據(jù)有幾何數(shù)據(jù)和拓?fù)鋽?shù)據(jù)。
流處理(Stream?processing):流處理被設(shè)計(jì)用來對「流數(shù)據(jù)」進(jìn)行實(shí)時(shí)的「連續(xù)」查詢和處理。為了對大量的流數(shù)據(jù)以很快的速度持續(xù)地進(jìn)行實(shí)時(shí)的數(shù)值計(jì)算和統(tǒng)計(jì)分析,社交網(wǎng)絡(luò)上的流數(shù)據(jù)對流處理的需求很明確。
智能數(shù)據(jù)(Smart?Data):是經(jīng)過一些算法處理之后有用并且可操作的數(shù)據(jù)。
Terabyte:這是一個(gè)相對大的數(shù)字?jǐn)?shù)據(jù)單位,1TB 等于 1000GB。據(jù)估計(jì),10TB 能夠容納美國國會圖書館的所有印刷品,而 1TB 則能夠容納整個(gè)百科全書 Encyclopedia Brittanica。
可視化(Visualization):有了合理的可視化之后,原始數(shù)據(jù)就能夠使用了。當(dāng)然這里的可視化并不止簡單的圖表。而是能夠包含數(shù)據(jù)的很多變量的同時(shí)還具有可讀性和可理解性的復(fù)雜圖表。Yottabytes:接近 1000 Zettabytes,或者 2500?萬億張 DVD?,F(xiàn)在所有的數(shù)字存儲大概是 1 Yottabyte,而且這個(gè)數(shù)字每 18 個(gè)月會翻一番。Zettabytes:接近 1000 Exabytes,或者 10?億 Terabytes。?

猜你喜歡:
大數(shù)據(jù)領(lǐng)域75個(gè)核心術(shù)語講解!(上篇)
第三套-尚學(xué)堂大數(shù)據(jù)分析-音樂數(shù)據(jù)中心項(xiàng)目分析