云計(jì)算(cloud computing,臺(tái)灣譯作云端運(yùn)算),是分布式計(jì)算技術(shù)的一種,其最基本的概念,是透過網(wǎng)絡(luò)將龐大的計(jì)算處理程序自動(dòng)分拆成無數(shù)個(gè)較小的子程序,再交由多部服務(wù)器所組成的龐大系統(tǒng)經(jīng)搜尋、計(jì)算分析之后將處理結(jié)果回傳給用戶。透過這項(xiàng)技術(shù),網(wǎng)絡(luò)服務(wù)提供者可以在數(shù)秒之內(nèi),達(dá)成處理數(shù)以千萬計(jì)甚至億計(jì)的信息,達(dá)到和“超級計(jì)算機(jī)”同樣強(qiáng)大效能的網(wǎng)絡(luò)服務(wù)。
云計(jì)算是一種資源交付和使用模式,指通過網(wǎng)絡(luò)獲得應(yīng)用所需的資源(硬件、平臺(tái)、軟件)。提供資源的網(wǎng)絡(luò)被稱為“云”。“云”中的資源在使用者看來是可以無限擴(kuò)展的,并且可以隨時(shí)獲取。這種特性經(jīng)常被比喻為像水電一樣使用硬件資源,按需購買和使用。(Cloud computing is a resource delivery and usage model, it means get resource (Hardware, software)via network. The network of providing resource is called ‘Cloud’. The hardware resource in the ‘Cloud’ seems scalable infinitely and can be used whenever.)
最簡單的云計(jì)算技術(shù)在網(wǎng)絡(luò)服務(wù)中已經(jīng)隨處可見,例如搜尋引擎、網(wǎng)絡(luò)信箱等,使用者只要輸入簡單指令即能得到大量信息。
未來如手機(jī)、GPS等行動(dòng)裝置都可以透過云計(jì)算技術(shù),發(fā)展出更多的應(yīng)用服務(wù)。
進(jìn)一步的云計(jì)算不僅只做資料搜尋、分析的功能,更可計(jì)算一些像是分析DNA結(jié)構(gòu)、基因圖譜定序、解析癌癥細(xì)胞等。
稍早之前的大規(guī)模分布式計(jì)算技術(shù)即為“云計(jì)算”的概念起源。
Google目前的云技術(shù),主要由MapReduce、GFS及BigTable三項(xiàng)所組成
云在計(jì)算機(jī)中的含義
云是指因特網(wǎng),因過去一直將因特網(wǎng)畫成一朵云。
云端儲(chǔ)存
云端儲(chǔ)存(cloud storage)是一種將數(shù)據(jù)保存在虛擬服務(wù)器上的數(shù)據(jù)類型,通常意義上,數(shù)據(jù)存儲(chǔ)在第三方媒介,而非特定單一服務(wù)器上。
云計(jì)算的推廣與發(fā)展
2007年10月,Google與IBM開始在美國大學(xué)校園,包括卡內(nèi)基美隆大學(xué)、麻省理工學(xué)院、史丹佛大學(xué)、加州大學(xué)柏克萊分校及馬里蘭大學(xué)等,推廣云計(jì)算的計(jì)劃,這項(xiàng)計(jì)劃希望能降低分布式計(jì)算技術(shù)在學(xué)術(shù)研究方面的成本,并為這些大學(xué)提供相關(guān)的軟硬件設(shè)備及技術(shù)支援(包括數(shù)百臺(tái)個(gè)人計(jì)算機(jī)及BladeCenter與System x服務(wù)器,這些計(jì)算平臺(tái)將提供1600個(gè)處理器,支援包括Linux、Xen、Hadoop等開放源代碼平臺(tái))。而學(xué)生則可以透過網(wǎng)絡(luò)開發(fā)各項(xiàng)以大規(guī)模計(jì)算為基礎(chǔ)的研究計(jì)劃。
2008年1月30日,Google宣布在臺(tái)灣啟動(dòng)“云計(jì)算學(xué)術(shù)計(jì)劃”,將與臺(tái)灣大學(xué)、臺(tái)灣交通大學(xué)等學(xué)校合作,將這種先進(jìn)的大規(guī)模、快速計(jì)算技術(shù)推廣到校園。
2008年8月3日,美國專利商標(biāo)局(以下簡稱“SPTO”)網(wǎng)站信息顯示,戴爾正在申請“云計(jì)算”(Cloud Computing)商標(biāo),此舉旨在加強(qiáng)對這一未來可能重塑技術(shù)架構(gòu)的術(shù)語的控制權(quán)。戴爾在申請文件中稱,云計(jì)算是“在數(shù)據(jù)中心和巨型規(guī)模的計(jì)算環(huán)境中,為他人提供計(jì)算機(jī)硬件定制制造”。。
云計(jì)算與IT技術(shù)云計(jì)算是隨著處理器技術(shù)、虛擬化技術(shù)、分布式存儲(chǔ)技術(shù)、寬帶互聯(lián)網(wǎng)技術(shù)和自動(dòng)化管理技術(shù)的發(fā)展而產(chǎn)生的. 這種大規(guī)模的計(jì)算能力通常是由分布式的大規(guī)模集群和服務(wù)器虛擬化軟件搭建。(Cloud computing and technology:New advances in processors, virtualization technology, distributed storage, broadband Internet access , automated management and fast, inexpensive servers have all combined to make cloud computing a compelling paradigm.This vast process power is usually got with a distributed, large-scale server cluster and server virtualization software.)
什么是大數(shù)據(jù)
大數(shù)據(jù)是指無法在一定時(shí)間內(nèi)用常規(guī)軟件工具對其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合。大數(shù)據(jù)技術(shù),是指從各種各樣類型的數(shù)據(jù)中,快速獲得有價(jià)值信息的能力。適用于大數(shù)據(jù)的技術(shù),包括大規(guī)模并行處理(MPP)數(shù)據(jù)庫,數(shù)據(jù)挖掘電網(wǎng),分布式文件系統(tǒng),分布式數(shù)據(jù)庫,云計(jì)算平臺(tái),互聯(lián)網(wǎng),和可擴(kuò)展的存儲(chǔ)系統(tǒng)。
大數(shù)據(jù)的定義
大數(shù)據(jù)由巨型數(shù)據(jù)集組成,這些數(shù)據(jù)集大小常超出人類在可接受時(shí)間下的收集、庋用、管理和處理能力。大數(shù)據(jù)的大小經(jīng)常改變,截至2012年,單一數(shù)據(jù)集的大小從數(shù)太字節(jié)(TB)至數(shù)十兆億字節(jié)(PB)不等。
在一份2001年的研究與相關(guān)的演講中,麥塔集團(tuán)(META Group,現(xiàn)為高德納)分析員道格·萊尼(Doug Laney)指出數(shù)據(jù)增長的挑戰(zhàn)和機(jī)遇有三個(gè)方向:量(Volume,數(shù)據(jù)大?。⑺伲╒elocity,數(shù)據(jù)輸入輸出的速度)與多變(Variety,多樣性),合稱“3V”或“3Vs”。高德納與現(xiàn)在大部分大數(shù)據(jù)產(chǎn)業(yè)中的公司,都繼續(xù)使用3V來描述大數(shù)據(jù)。高德納于2012年修改對大數(shù)據(jù)的定義:“大數(shù)據(jù)是大量、高速、及/或多變的信息資產(chǎn),它需要新型的處理方式去促成更強(qiáng)的決策能力、洞察力與最優(yōu)化處理?!绷硗猓袡C(jī)構(gòu)在3V之外定義第4個(gè)V:真實(shí)性(Veracity)為第四特點(diǎn)。
大數(shù)據(jù)必須借由計(jì)算機(jī)對數(shù)據(jù)進(jìn)行統(tǒng)計(jì)、比對、解析方能得出客觀結(jié)果。美國在2012年就開始著手大數(shù)據(jù),奧巴馬更在同年投入2億美金在大數(shù)據(jù)的開發(fā)中,更強(qiáng)調(diào)大數(shù)據(jù)會(huì)是之后的未來石油。數(shù)據(jù)挖掘(data mining)則是在探討用以解析大數(shù)據(jù)的方法。
大數(shù)據(jù)的特點(diǎn)
具體來說,大數(shù)據(jù)具有4個(gè)基本特征:
一是數(shù)據(jù)體量巨大。百度資料表明,其新首頁導(dǎo)航每天需要提供的數(shù)據(jù)超過1.5PB(1PB=1024TB),這些數(shù)據(jù)如果打印出來將超過5千億張A4紙。有資料證實(shí),到目前為止,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量僅為200PB。
二是數(shù)據(jù)類型多樣?,F(xiàn)在的數(shù)據(jù)類型不僅是文本形式,更多的是圖片、視頻、音頻、地理位置信息等多類型的數(shù)據(jù),個(gè)性化數(shù)據(jù)占絕對多數(shù)。
三是處理速度快。數(shù)據(jù)處理遵循“1秒定律”,可從各種類型的數(shù)據(jù)中快速獲得高價(jià)值的信息。
四是價(jià)值密度低。以視頻為例,一小時(shí)的視頻,在不間斷的監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅只有一兩秒。
大數(shù)據(jù)的作用
第一,對大數(shù)據(jù)的處理分析正成為新一代信息技術(shù)融合應(yīng)用的結(jié)點(diǎn)。移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)、數(shù)字家庭、電子商務(wù)等是新一代信息技術(shù)的應(yīng)用形態(tài),這些應(yīng)用不斷產(chǎn)生大數(shù)據(jù)。云計(jì)算為這些海量、多樣化的大數(shù)據(jù)提供存儲(chǔ)和運(yùn)算平臺(tái)。通過對不同來源數(shù)據(jù)的管理、處理、分析與優(yōu)化,將結(jié)果反饋到上述應(yīng)用中,將創(chuàng)造出巨大的經(jīng)濟(jì)和社會(huì)價(jià)值。
大數(shù)據(jù)具有催生社會(huì)變革的能量。但釋放這種能量,需要嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)治理、富有洞見的數(shù)據(jù)分析和激發(fā)管理創(chuàng)新的環(huán)境(Ramayya Krishnan,卡內(nèi)基·梅隆大學(xué)海因茲學(xué)院院長)。
第二,大數(shù)據(jù)是信息產(chǎn)業(yè)持續(xù)高速增長的新引擎。面向大數(shù)據(jù)市場的新技術(shù)、新產(chǎn)品、新服務(wù)、新業(yè)態(tài)會(huì)不斷涌現(xiàn)。在硬件與集成設(shè)備領(lǐng)域,大數(shù)據(jù)將對芯片、存儲(chǔ)產(chǎn)業(yè)產(chǎn)生重要影響,還將催生一體化數(shù)據(jù)存儲(chǔ)處理服務(wù)器、內(nèi)存計(jì)算等市場。在軟件與服務(wù)領(lǐng)域,大數(shù)據(jù)將引發(fā)數(shù)據(jù)快速處理分析、數(shù)據(jù)挖掘技術(shù)和軟件產(chǎn)品的發(fā)展。
第三,大數(shù)據(jù)利用將成為提高核心競爭力的關(guān)鍵因素。各行各業(yè)的決策正在從“業(yè)務(wù)驅(qū)動(dòng)” 轉(zhuǎn)變“數(shù)據(jù)驅(qū)動(dòng)”。
對大數(shù)據(jù)的分析可以使零售商實(shí)時(shí)掌握市場動(dòng)態(tài)并迅速做出應(yīng)對;可以為商家制定更加精準(zhǔn)有效的營銷策略提供決策支持;可以幫助企業(yè)為消費(fèi)者提供更加及時(shí)和個(gè)性化的服務(wù);在醫(yī)療領(lǐng)域,可提高診斷準(zhǔn)確性和藥物有效性;在公共事業(yè)領(lǐng)域,大數(shù)據(jù)也開始發(fā)揮促進(jìn)經(jīng)濟(jì)發(fā)展、維護(hù)社會(huì)穩(wěn)定等方面的重要作用。
第四,大數(shù)據(jù)時(shí)代科學(xué)研究的方法手段將發(fā)生重大改變。例如,抽樣調(diào)查是社會(huì)科學(xué)的基本研究方法。在大數(shù)據(jù)時(shí)代,可通過實(shí)時(shí)監(jiān)測、跟蹤研究對象在互聯(lián)網(wǎng)上產(chǎn)生的海量行為數(shù)據(jù),進(jìn)行挖掘分析,揭示出規(guī)律性的東西,提出研究結(jié)論和對策。