張靖笙,張靖笙講師,張靖笙聯(lián)系方式,張靖笙培訓(xùn)師-【中華講師網(wǎng)】
張靖笙 2019年度中國(guó)50強(qiáng)講師
數(shù)字化轉(zhuǎn)型、大數(shù)據(jù)、工業(yè)4.0、人工智能、智能制造、區(qū)塊鏈
46
鮮花排名
0
鮮花數(shù)量
張靖笙:數(shù)據(jù)學(xué)習(xí)背后的數(shù)學(xué)原理
2020-07-11 2479

     由于工作需要和虛榮心驅(qū)使,我慢慢接受并且享受人家對(duì)我大數(shù)據(jù)專(zhuān)家的稱(chēng)呼,雖然這么多年一線(xiàn)數(shù)據(jù)工作經(jīng)驗(yàn)也壯了我這個(gè)膽,但在數(shù)學(xué)面前還是情不自禁要打起了哆嗦。我也專(zhuān)門(mén)寫(xiě)過(guò)文章論述過(guò)數(shù)據(jù)和數(shù)學(xué)的關(guān)系,但這并不能掩蓋我數(shù)學(xué)認(rèn)知上的膚淺。

    同樣,數(shù)據(jù)學(xué)習(xí)也是根植于豐厚的數(shù)學(xué)土壤,如果今天我們看到各種人工智能大數(shù)據(jù)應(yīng)用的如火如荼,其實(shí)是各種深厚應(yīng)用數(shù)學(xué)的開(kāi)花結(jié)果,本質(zhì)上,數(shù)據(jù)學(xué)習(xí)和數(shù)學(xué)是一體的,套用我所喜愛(ài)的冰山模型來(lái)比喻,數(shù)學(xué)是整個(gè)冰山,數(shù)據(jù)學(xué)習(xí)僅僅是冰山水面上露出來(lái)的那一個(gè)角,如果沒(méi)有水底過(guò)千倍的體量支撐,這一個(gè)角也顯露不出來(lái),說(shuō)句題外話(huà),我不想用金字塔來(lái)形容此山,因?yàn)閿?shù)據(jù)學(xué)習(xí)無(wú)論如何都沒(méi)資格座在山頂。

     提出數(shù)據(jù)學(xué)習(xí)的概念,我套用了機(jī)器學(xué)習(xí)的定義,當(dāng)然機(jī)器學(xué)習(xí)背后仍然是幾乎令人望而卻步的高深數(shù)學(xué),但在人工智能越演越烈的今天,我們每個(gè)人都要學(xué)會(huì)和眾多的人工智能“生命”和諧相處,就不可避免地要了解人工智能的“心思”,可以說(shuō)今天我們每個(gè)人都是被數(shù)字智能時(shí)代倒逼著學(xué)習(xí)數(shù)據(jù),也要硬著頭皮面對(duì)那些當(dāng)初高懸在象牙塔尖的數(shù)學(xué)。

     像我這種天生腦子并不靈光的學(xué)生,當(dāng)初學(xué)生時(shí)代的數(shù)學(xué)雖然不算太差,但肯定不會(huì)太好,于是能給我留下對(duì)數(shù)學(xué)的學(xué)生記憶,是從華南理工大學(xué)(當(dāng)時(shí)還叫華南理工學(xué)院)一年級(jí)開(kāi)始的對(duì)計(jì)算機(jī)產(chǎn)生濃厚興趣之時(shí)。雖然那時(shí)的我對(duì)計(jì)算機(jī)尚且無(wú)知到把微機(jī)主板里面的大電容誤認(rèn)為是硬盤(pán),但也不可阻擋我摸著石頭過(guò)河學(xué)習(xí)各種編程知識(shí),這個(gè)遙遠(yuǎn)的記憶和數(shù)據(jù)學(xué)習(xí)距離不是一般的遠(yuǎn),卻和數(shù)學(xué)的距離無(wú)比地近。

     當(dāng)年大學(xué)一年級(jí)我玩的是華南理工大學(xué)27號(hào)樓微機(jī)房的286,編程語(yǔ)言是BasicA(后面加個(gè)A表示的是高級(jí)),而27號(hào)樓微機(jī)房在當(dāng)時(shí)顯出神圣光芒之處,那里的286和BasicA居然是可以支持圖像模式編程的,而且分辨率在當(dāng)時(shí)的電腦來(lái)說(shuō)還不算低,這和我高中時(shí)期走馬觀花接觸過(guò)的字符界面老蘋(píng)果微機(jī)簡(jiǎn)直是天壤之別,于是那個(gè)微機(jī)房磁鐵一樣吸引了包括本人在內(nèi)的很多華工男愣頭青,有些人在那里玩那個(gè)美國(guó)的阿帕奇直升機(jī)戰(zhàn)斗游戲,這在當(dāng)時(shí)絕對(duì)是被膜拜的高科技。

     本人卻在華工圖書(shū)館找到了一本當(dāng)年著名的沙老師編寫(xiě)的《Basic高級(jí)編程》教材,里面有大量的教導(dǎo)如何用BasicA作圖的內(nèi)容,特別是那種三維幾何圖形的透視旋轉(zhuǎn)操作程序,我依葫蘆畫(huà)瓢輸入書(shū)本中的程序在屏幕中浮現(xiàn)出了各種簡(jiǎn)單圖形,比如立方體之類(lèi),按下按鈕旋轉(zhuǎn)不同角度觀察其變化,這讓我感覺(jué)非常興奮,于是結(jié)合自己當(dāng)時(shí)所讀的船舶工程專(zhuān)業(yè),立下了要搞計(jì)算機(jī)輔助設(shè)計(jì)(CAD)的志向,轉(zhuǎn)行金融信息化是后話(huà)。

     坦白說(shuō),早期寫(xiě)程序還是很挑戰(zhàn)智商的,不像今天的程序員已經(jīng)有豐富的組件、模板、SDK、API、函數(shù)等資源可供調(diào)用,我們當(dāng)時(shí)要處理非常多的邏輯細(xì)節(jié),從數(shù)據(jù)如何被輸入,到在內(nèi)存如何存儲(chǔ)和加工,再到屏幕如何顯示和畫(huà)圖,越生動(dòng)出彩的程序越要對(duì)其數(shù)據(jù)結(jié)構(gòu)和算法邏輯做精心的設(shè)計(jì),所以當(dāng)我們這些早年的碼牛們終于爬到了匯編和C語(yǔ)言,大部分人的選擇就是果斷地放棄原來(lái)的Basic,可偏偏后者才是計(jì)算機(jī)高級(jí)語(yǔ)言。

     由此可以看到,在算法為王的年代,我們的數(shù)據(jù)處理也就是記憶、理解這種淺表學(xué)習(xí)的水平,連決策支持的應(yīng)用層次都還觸及不到,當(dāng)然這不代表沒(méi)有應(yīng)用數(shù)學(xué),只是大多數(shù)還就只是用到中小學(xué)的數(shù)學(xué)知識(shí),常用的包括代數(shù)、函數(shù)、數(shù)組、排列組合、矩陣計(jì)算等等,當(dāng)然我要搞CAD繪圖也需要用包括三角函數(shù)之類(lèi)的解析幾何知識(shí)。

     后來(lái)我在計(jì)算機(jī)方面的學(xué)習(xí)始終離不開(kāi)數(shù)學(xué)應(yīng)用的深入,雖然我的數(shù)學(xué)應(yīng)用總是點(diǎn)到解決了當(dāng)時(shí)的問(wèn)題就打住了,但還是緩慢地取得一些進(jìn)步。對(duì)此我有一些體會(huì),以前呢我們解數(shù)學(xué)題也就是為了測(cè)驗(yàn)或者考試,好像都是一些純智力的燒腦難題,我這種腦子不靈光的人常常被一些題目難住了,那種看著都認(rèn)識(shí)的數(shù)學(xué)符號(hào)卻無(wú)從下手的感覺(jué)的確有些難受,內(nèi)心那種敬而遠(yuǎn)之的感覺(jué)是揮之不去的。而當(dāng)我開(kāi)始搞計(jì)算機(jī)程序的時(shí)候,那個(gè)心情是很不一樣的,我們總是千方百計(jì)地想辦法把自己編的程序弄得更好使,于是心甘情愿去惡補(bǔ)程序所涉及的數(shù)學(xué)原理也就甘之如飴了,從這點(diǎn)我的感受是,兒童編程在激發(fā)小孩的數(shù)學(xué)思維方面應(yīng)該是有科學(xué)作用的,只是我小孩現(xiàn)在才小學(xué)一年級(jí),我不急于讓她去弄計(jì)算機(jī)程序,雖然她從五歲起已經(jīng)在玩Scratch,而在蘋(píng)果版本的ScratchJr她完全可以自己編寫(xiě)一些故事化的程序。

     大家都知道我有多年的商業(yè)智能數(shù)據(jù)應(yīng)用開(kāi)發(fā)經(jīng)驗(yàn),之前分享過(guò)點(diǎn)滴經(jīng)驗(yàn)。既然是商業(yè)智能就不能不用數(shù)據(jù)來(lái)支持管理層的決策需求,所以我的數(shù)據(jù)學(xué)習(xí)也進(jìn)化到應(yīng)用和分析的學(xué)習(xí)層級(jí),應(yīng)用還是屬于淺表學(xué)習(xí),分析已經(jīng)摸到了深度學(xué)習(xí)的邊邊。對(duì)于這兩者,我統(tǒng)一在商業(yè)智能旗下分析其背后的數(shù)學(xué)原理。

     這個(gè)商業(yè)智能首先要解決的第一個(gè)問(wèn)題,是如何轉(zhuǎn)化數(shù)據(jù)為信息的問(wèn)題。剛才提到的記憶、理解這樣淺表數(shù)據(jù)學(xué)習(xí)應(yīng)用不贅述了,商業(yè)智能里面有一個(gè)很常用的OLAP數(shù)據(jù)多維分析應(yīng)用。

      先給大家補(bǔ)補(bǔ)OLAP這個(gè)技術(shù)的淵源。上世紀(jì)60年代,關(guān)系數(shù)據(jù)庫(kù)之父E.F.Codd提出了關(guān)系模型,促進(jìn)了聯(lián)機(jī)事務(wù)處理(OLTP)的發(fā)展(數(shù)據(jù)以二維表格的形式存儲(chǔ))。1993年,E.F.Codd提出了OLAP概念,認(rèn)為OLTP已不能滿(mǎn)足終端用戶(hù)對(duì)數(shù)據(jù)庫(kù)查詢(xún)分析的需要,SQL對(duì)大型數(shù)據(jù)庫(kù)進(jìn)行的簡(jiǎn)單查詢(xún)也不能滿(mǎn)足終端用戶(hù)分析的要求。用戶(hù)的決策分析需要對(duì)關(guān)系數(shù)據(jù)庫(kù)進(jìn)行大量計(jì)算才能得到結(jié)果,而查詢(xún)的結(jié)果并不能滿(mǎn)足決策者提出的需求。因此,E.F.Codd提出了多維數(shù)據(jù)庫(kù)和多維分析的概念,即OLAP。OLAP的目標(biāo)是滿(mǎn)足決策支持或多維環(huán)境特定的查詢(xún)和報(bào)表需求,它的技術(shù)核心是“維”這個(gè)概念,因此OLAP也可以說(shuō)是多維數(shù)據(jù)分析工具的集合。

      多維分析是一種數(shù)據(jù)分析過(guò)程,在此過(guò)程中,將數(shù)據(jù)分成兩類(lèi):維度(dimensions)和度量(metrics/measurements)。維度和度量的概念都出自于圖論(graph

theory),維度指能夠描述某個(gè)空間中所有點(diǎn)的最少坐標(biāo)(coordinate)數(shù),即空間基數(shù);度量指的是無(wú)向圖中頂點(diǎn)(vertices)間的距離,這個(gè)維度撐起來(lái)的坐標(biāo)空間,這個(gè)空間中每個(gè)頂點(diǎn)均可有對(duì)應(yīng)的取值,這種數(shù)據(jù)模型業(yè)界簡(jiǎn)稱(chēng)為OLAP cube(立方體)。

      在多維分析領(lǐng)域,維度一般包括字段值為字符類(lèi)或者字段基數(shù)值較少且作為約束條件的離散數(shù)值類(lèi)型;而度量一般包括基數(shù)值較大且可以參與運(yùn)算的數(shù)值類(lèi)字段,一般也稱(chēng)為指標(biāo)。

OLAP cube數(shù)學(xué)描述如下:如果用X、Y、Z代表OLAP cube的三軸,通過(guò)定義函數(shù)關(guān)系 F:( X,Y,Z)->W,W則表示每一個(gè)(X,Y,Z)元組所映射的數(shù)據(jù)集合,每個(gè)元組我們稱(chēng)為OLAP cube的一個(gè)單元(cell),我們也可以簡(jiǎn)單把OLAP cube理解為計(jì)算機(jī)程序里面常用的數(shù)據(jù)結(jié)構(gòu),多維數(shù)組,這個(gè)X、Y、Z就是數(shù)組的下標(biāo)值,而W就是數(shù)組中存儲(chǔ)的值,于是F:( X,Y,Z)->W就是從這個(gè)數(shù)組中讀出下標(biāo)為X、Y、Z的數(shù)組單元中存儲(chǔ)的值W。

因此OLAP cube可以簡(jiǎn)單描述為“多維數(shù)據(jù)集”。cube,我們可以想象為數(shù)據(jù)指標(biāo)根據(jù)多維度封裝成的一個(gè)立方體結(jié)構(gòu)(以三維空間為例,如果維度數(shù)超過(guò)3,我們則稱(chēng)為“Hypercube”),OLAP cube的數(shù)學(xué)原理我就點(diǎn)到這算了,我們更關(guān)心的是其用途。

     我們?cè)谄綍r(shí)工作中,會(huì)遇到各種問(wèn)題,在分析問(wèn)題的時(shí)候,同樣的現(xiàn)象,我們會(huì)從多個(gè)角度去分析考慮,并且有時(shí)候我們還會(huì)從幾個(gè)角度綜合起來(lái)進(jìn)行分析。這就是OLAP分析最基本的概念:從多個(gè)觀察角度的靈活組合來(lái)觀察數(shù)據(jù),從而發(fā)現(xiàn)數(shù)據(jù)內(nèi)在規(guī)律。

     OLAP將數(shù)據(jù)分為兩種特征,一種為表現(xiàn)特征,比如一個(gè)銷(xiāo)售分析模型中的銷(xiāo)售額、毛利等;還有一種為角度特征,比如銷(xiāo)售分析中的時(shí)間周期、產(chǎn)品類(lèi)型、銷(xiāo)售模式、銷(xiāo)售區(qū)域等。前者是被觀察的對(duì)象,OLAP術(shù)語(yǔ)稱(chēng)之為“度量數(shù)據(jù)”,后者為觀察視角,OLAP術(shù)語(yǔ)稱(chēng)之為“維數(shù)據(jù)”。

     有了OLAP cube這個(gè)數(shù)據(jù)煉丹神器,很多原來(lái)白開(kāi)水一樣的數(shù)據(jù)結(jié)合不同的觀察角度,就可以化腐朽為神奇讓管理者看到很多問(wèn)題成因的端倪,比如把一個(gè)產(chǎn)品的銷(xiāo)售業(yè)績(jī)從時(shí)間地區(qū)等維度做個(gè)比較分析,我們可以從數(shù)據(jù)中學(xué)習(xí)到這個(gè)產(chǎn)品在什么時(shí)間什么地方比較好賣(mài),那管理層就可以針對(duì)旺季熱點(diǎn)決定投入更多的業(yè)務(wù)資源。

      再往上走,數(shù)據(jù)應(yīng)用就走到評(píng)價(jià)和創(chuàng)造這樣的深度學(xué)習(xí)程度,拋開(kāi)還有爭(zhēng)議的創(chuàng)造,評(píng)價(jià)背后所需要的數(shù)學(xué)支撐體系是非常之深厚的,最近我們粵港澳應(yīng)用數(shù)學(xué)中心為廣州市越秀金融局搞的數(shù)字普惠金融指數(shù)研究課題,可以體現(xiàn)應(yīng)用數(shù)學(xué)在指導(dǎo)民間金融行業(yè)監(jiān)管工作中廣闊的應(yīng)用前景。

       在金融評(píng)價(jià)體系中,由于金融服務(wù)的大范圍覆蓋面,業(yè)務(wù)的多樣性,高度的數(shù)字化水平等等,我們會(huì)發(fā)現(xiàn)很難用簡(jiǎn)單的統(tǒng)計(jì)指標(biāo)準(zhǔn)確測(cè)量當(dāng)前的普惠金融產(chǎn)業(yè)發(fā)展水平,許多直接測(cè)量的表層數(shù)據(jù)都難以揭示產(chǎn)業(yè)發(fā)展內(nèi)在規(guī)律和必然趨勢(shì),要獲得這些洞察能力,我們必須通過(guò)多個(gè)復(fù)合指標(biāo)的定量分析方法,例如這個(gè)課題研究團(tuán)隊(duì)所推薦的因子分析法、熵值法、神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)方法、無(wú)監(jiān)督的自編碼深度學(xué)習(xí)模型等等。

      可能很多人會(huì)問(wèn),一個(gè)問(wèn)題需要用這么多高深的數(shù)學(xué)方法嗎?解決問(wèn)題具體要用到什么數(shù)學(xué)方法其實(shí)是由問(wèn)題的性質(zhì)所決定的。數(shù)據(jù)深度學(xué)習(xí)所需要解決的問(wèn)題,都是需要把握根本矛盾和本質(zhì)規(guī)律才能有效指導(dǎo)我們工作實(shí)踐的問(wèn)題。

       剛才我提到,數(shù)據(jù)淺表學(xué)習(xí)解決的是從數(shù)據(jù)中獲得我們決策所需要信息的問(wèn)題,比如剛才說(shuō)的,我們做銷(xiāo)售總監(jiān)的人需要知道貨賣(mài)得怎么樣 ,進(jìn)一步也就是需要知道什么時(shí)候賣(mài)得怎么樣。這些問(wèn)題都是知其然(事實(shí))的層面就可以直接求是(判斷和決策)的了,一般人也不具備沃爾瑪研究那些類(lèi)似啤酒和尿布高頻出現(xiàn)的組合關(guān)系背后原因等問(wèn)題的水平和能力,所以大部分都是人云亦云,隨波逐流。

      而為什么真理常常掌握在少數(shù)人手上?因?yàn)檫@些人擁有一般人缺乏的獨(dú)立思考、探究質(zhì)疑、愛(ài)琢磨事理規(guī)律的思維習(xí)慣。恩格斯說(shuō):數(shù)學(xué)是研究數(shù)量關(guān)系與空間形式的一門(mén)科學(xué),對(duì)于我們所要解決的現(xiàn)實(shí)世界的問(wèn)題中的,問(wèn)題背后都有無(wú)限聯(lián)系的宇宙背景,對(duì)事物的關(guān)鍵因素沒(méi)有抽象和簡(jiǎn)化就無(wú)法被我們所認(rèn)知和研究,所以所有的數(shù)學(xué)方法都不可避免存在其適用性和局限性,我們要解決具體問(wèn)題,根據(jù)問(wèn)題性質(zhì)要從知其然進(jìn)入到知其所以然的境界,必然是需要多種數(shù)學(xué)方法和工具的綜合運(yùn)用。

      于是,支撐數(shù)據(jù)深度學(xué)習(xí)的必然是更多應(yīng)用數(shù)學(xué)前沿的基礎(chǔ)理論研究成果,今天我國(guó)的產(chǎn)業(yè)發(fā)展要從低端制造簡(jiǎn)單加工轉(zhuǎn)型升級(jí)到智能制造品質(zhì)創(chuàng)造,必然會(huì)遇到很多前所未見(jiàn)的挑戰(zhàn)和困難,在當(dāng)今世界大勢(shì),我們也很難再如當(dāng)初向世界科技第一強(qiáng)國(guó)copy2china(復(fù)制到中國(guó)),人家已經(jīng)開(kāi)始卡我們科技發(fā)展的脖子了,我們要解決這些卡脖子問(wèn)題,唯有從應(yīng)用數(shù)學(xué)基礎(chǔ)研究搞起,開(kāi)車(chē)上路尚且要備胎,何況走上中華民族偉大復(fù)興的長(zhǎng)征路。

      如果今天有人恭維我聰明,我自己知道這種聰明也是在這幾十年的時(shí)光中,一步一步在數(shù)學(xué)的指引下從數(shù)據(jù)中學(xué)習(xí)回來(lái)的,當(dāng)然我認(rèn)為還遠(yuǎn)遠(yuǎn)不夠。

(本稿完成于2020年7月11日,如需轉(zhuǎn)載請(qǐng)注明出處)



全部評(píng)論 (0)

Copyright©2008-2025 版權(quán)所有 浙ICP備06026258號(hào)-1 浙公網(wǎng)安備 33010802003509號(hào) 杭州講師網(wǎng)絡(luò)科技有限公司
講師網(wǎng) m.kasajewelry.com 直接對(duì)接10000多名優(yōu)秀講師-省時(shí)省力省錢(qián)
講師網(wǎng)常年法律顧問(wèn):浙江麥迪律師事務(wù)所 梁俊景律師 李小平律師