作為一個(gè)在商學(xué)院工作了十多年的統(tǒng)計(jì)學(xué)教員,一天到晚為自己,為學(xué)生,或者年輕合作伙伴多寫倆Statistical Paper絞盡腦汁,也是無(wú)聊透頂,不知道多少腦細(xì)胞因此犧牲。難得空閑的時(shí)候,就瞎琢磨幾個(gè)深刻的問(wèn)題。當(dāng)然,我也不知道這么深刻的問(wèn)題,該不該我來(lái)琢磨。但是既然琢磨了,就不如寫下來(lái)跟大家分享探討。這幾個(gè)問(wèn)題就是:中國(guó)統(tǒng)計(jì)學(xué)未來(lái)發(fā)展的大方向是什么?背后的邏輯是什么?套用一句時(shí)髦的互聯(lián)網(wǎng)語(yǔ)言就是:中國(guó)統(tǒng)計(jì)學(xué)的風(fēng)口在哪里?
人說(shuō)以史為鑒!所以,首先簡(jiǎn)單回顧一下某些統(tǒng)計(jì)學(xué)領(lǐng)域的發(fā)展史,例如實(shí)驗(yàn)設(shè)計(jì)。當(dāng)年,這個(gè)領(lǐng)域是如何發(fā)展起來(lái)的?難道是少數(shù)天才學(xué)者的智力游戲嗎?顯然不是。這是農(nóng)業(yè)生產(chǎn)的需要。相關(guān)科學(xué)實(shí)驗(yàn)是最根本的驅(qū)動(dòng)力。那么后來(lái)呢?是工業(yè)化進(jìn)程,以至于又催生了質(zhì)量控制、可靠性等相關(guān)學(xué)科。而過(guò)去這十年是計(jì)算機(jī)實(shí)驗(yàn)。那么未來(lái)呢?我想一定是互聯(lián)網(wǎng)。這說(shuō)明什么?這說(shuō)明統(tǒng)計(jì)學(xué)的發(fā)展要順應(yīng)產(chǎn)業(yè)變革,這是大勢(shì)所趨!
再看一個(gè)例子,高維數(shù)據(jù)分析是最近20年才被提出來(lái)的嗎?不是!早在這個(gè)之前,就有學(xué)者,受個(gè)人學(xué)術(shù)興趣的驅(qū)動(dòng),也曾提出過(guò)類似的問(wèn)題,但沒(méi)有形成氣候。為什么?是因?yàn)槠渌麑W(xué)者當(dāng)時(shí)有眼無(wú)珠嗎?我認(rèn)為不是。一個(gè)主要原因是,這樣的方法在當(dāng)時(shí)好像沒(méi)什么重要的實(shí)際應(yīng)用。這就難怪當(dāng)時(shí)主流統(tǒng)計(jì)學(xué)研究不關(guān)心這個(gè)問(wèn)題。但為什么,這個(gè)當(dāng)年讓人腦洞大開(kāi)的異類問(wèn)題,卻成了最近20年的研究主流了?因?yàn)榭茖W(xué)技術(shù)變了。以DNA Microarray為代表的生物技術(shù)的巨大進(jìn)步,產(chǎn)生了大量這樣的數(shù)據(jù)。而這些數(shù)據(jù),蘊(yùn)藏著關(guān)乎人類生命健康的秘密,具有重要的科學(xué)價(jià)值。這成就了過(guò)去這些年的(超)高維數(shù)據(jù)研究。這說(shuō)明什么?這說(shuō)明統(tǒng)計(jì)學(xué)的發(fā)展依賴于技術(shù)進(jìn)步,這是大勢(shì)所趨!
最后一個(gè)例子。為什么制藥統(tǒng)計(jì)學(xué)在美國(guó)那么重要?因?yàn)樯镏扑庍@個(gè)產(chǎn)業(yè)極其強(qiáng)大。默克、強(qiáng)生、施貴寶等一大批制藥巨頭,每年要實(shí)施大量的臨床實(shí)驗(yàn),產(chǎn)生了大量的數(shù)據(jù),造成了海量的分析需求,進(jìn)而推動(dòng)了制藥統(tǒng)計(jì)學(xué)的發(fā)展。為什么這些巨頭愿意投入巨大的時(shí)間、財(cái)力、物力作臨床試驗(yàn)?是它們對(duì)科研的好奇心?還是道德上的高尚?可能都有一些,但不是最根本的。最根本的是美國(guó)食品藥物監(jiān)督局(FDA)對(duì)市場(chǎng)的強(qiáng)力監(jiān)管。這個(gè)制度環(huán)境造成了相關(guān)企業(yè)必須實(shí)施嚴(yán)格的臨床試驗(yàn),進(jìn)而產(chǎn)生了強(qiáng)勁的統(tǒng)計(jì)分析需求。而制藥統(tǒng)計(jì)的發(fā)展,又極大地促進(jìn)了相關(guān)領(lǐng)域,例如:生物統(tǒng)計(jì)學(xué)的發(fā)展。這說(shuō)明什么?這說(shuō)明統(tǒng)計(jì)學(xué)的發(fā)展需要一定的制度環(huán)境,這是大勢(shì)所趨!
所以我們不妨下一個(gè)結(jié)論:“統(tǒng)計(jì)學(xué)的大勢(shì)所趨,從不以任何個(gè)人的興趣愛(ài)好為轉(zhuǎn)移。而是由產(chǎn)業(yè)變革(例如:工業(yè)化進(jìn)程),技術(shù)進(jìn)步(例如:DNA Microarray),還有制度環(huán)境(例如:FDA政策)所決定”。這一點(diǎn),我認(rèn)為一定要看清楚!雷軍說(shuō):站在風(fēng)口,豬都能飛!這說(shuō)的是,重大選擇要順勢(shì)而為。背后隱含的另外一個(gè)結(jié)論是,如果逆風(fēng)而動(dòng),鷹也飛不起來(lái)。這是我個(gè)人看待中國(guó)統(tǒng)計(jì)學(xué)發(fā)展方向的基本邏輯。那么,在中國(guó)這片土地上,面對(duì)當(dāng)下的產(chǎn)業(yè)基礎(chǔ),政策環(huán)境,我們的大勢(shì)在哪里?統(tǒng)計(jì)學(xué)的風(fēng)口在哪里?要當(dāng)飛起來(lái)的豬?還是被打趴下的鷹?或者更好:順勢(shì)而為的鷹?
要回答這個(gè)問(wèn)題,需要檢討一下中國(guó)的現(xiàn)狀。中國(guó)有強(qiáng)大的制藥產(chǎn)業(yè)嗎?我相信未來(lái)會(huì)有。但不是今天,不是明天,不是我們可見(jiàn)的未來(lái)5到10年。為什么?因?yàn)槲覀內(nèi)狈?qiáng)有力的制度環(huán)境。更加具體地說(shuō),我們?nèi)狈︻愃艶DA的強(qiáng)力監(jiān)管機(jī)構(gòu)。現(xiàn)在的國(guó)家藥品監(jiān)督局(即:中國(guó)的FDA)已經(jīng)做了很多有意義的工作,但是顯然還遠(yuǎn)遠(yuǎn)不夠。為什么?君不見(jiàn)大家對(duì)食品安全的焦慮嗎?這還不足以表明我們的制度環(huán)境需要long way to go嗎?如果上面討論的是對(duì)的,那么請(qǐng)?jiān)试S我做一個(gè)悲催的預(yù)測(cè):在中國(guó),未來(lái)可見(jiàn)的相當(dāng)長(zhǎng)時(shí)間內(nèi),生物統(tǒng)計(jì)學(xué),將會(huì)是一個(gè)重要的存在,但是不可能大放異彩。為什么?因?yàn)椋簺](méi)有相應(yīng)的制度環(huán)境。對(duì),就這么簡(jiǎn)單!
那么中國(guó)有哪些產(chǎn)業(yè)在全球范圍內(nèi)是有競(jìng)爭(zhēng)力的呢?第一、互聯(lián)網(wǎng);第二、制造業(yè)。這很好理解?;ヂ?lián)網(wǎng)方面,我們有以BAT為代表的一大批有競(jìng)爭(zhēng)力的企業(yè)。而制造業(yè)方面,中國(guó)是世界的中心,孕育了像華為這樣偉大而優(yōu)秀的企業(yè)。這兩個(gè)行業(yè),有可能形成風(fēng)口,或者正在形成。這兩個(gè)行業(yè)就是統(tǒng)計(jì)學(xué)研究的大勢(shì)所趨,風(fēng)口所在!
更進(jìn)一步地,這兩個(gè)大勢(shì)對(duì)統(tǒng)計(jì)學(xué)研究的具體影響會(huì)是什么呢?我們先討論一下互聯(lián)網(wǎng),尤其是移動(dòng)互聯(lián)網(wǎng),因?yàn)榇蠹叶己苁煜?。?qǐng)問(wèn):移動(dòng)互聯(lián)網(wǎng)產(chǎn)生了什么獨(dú)特?cái)?shù)據(jù)?它們的價(jià)值何在,應(yīng)該如何研究?要回答這個(gè)問(wèn)題,看看自己最常用的APP就知道答案了。我們最常用什么?微信。國(guó)外呢?Facebook andTwitter。它們是什么?全部都是基于社交的軟件或者服務(wù)。它們產(chǎn)生了什么樣的數(shù)據(jù)?首先是網(wǎng)絡(luò)結(jié)構(gòu)數(shù)據(jù),用于刻畫了用戶之間的社交關(guān)系。對(duì)于統(tǒng)計(jì)分析,這會(huì)帶來(lái)什么樣的變化?最根本的變化就是讓信息沿著網(wǎng)絡(luò)結(jié)構(gòu)開(kāi)始流通。通俗地講,以前,我們判斷一個(gè)人是好人還是壞人(因變量),主要參考他自己的特征(解釋性變量)。但是,有了網(wǎng)絡(luò)結(jié)構(gòu),與之相連個(gè)體的所有信息(即包括因變量、也包括解釋性變量),都可以被利用起來(lái),以提高預(yù)測(cè)精度。但是,能夠符合該理念、滿足該需求的統(tǒng)計(jì)學(xué)模型卻少之又少。這就是網(wǎng)絡(luò)數(shù)據(jù)賦予統(tǒng)計(jì)學(xué)發(fā)展的重大機(jī)會(huì),這就是風(fēng)口所在!
再看看制造業(yè)。制造業(yè)有幾個(gè)特點(diǎn)。第一、中國(guó)是全世界的制造中心,但是亟待產(chǎn)業(yè)升級(jí),進(jìn)入工業(yè)4.0時(shí)代。第二、與世界制造中心相對(duì)應(yīng)的是,對(duì)中國(guó)制造業(yè)的數(shù)據(jù),我們卻極其無(wú)知,遠(yuǎn)遠(yuǎn)落后于互聯(lián)網(wǎng)。產(chǎn)生這個(gè)現(xiàn)象,可能有兩個(gè)原因:首先可能是是傳統(tǒng)制造業(yè)的數(shù)據(jù)采集困難,不如互聯(lián)網(wǎng)方便;其次可能是互聯(lián)網(wǎng)的故事太搶眼,讓我們忘記了傳統(tǒng)產(chǎn)業(yè)。但是,我個(gè)人感受到的傳統(tǒng)行業(yè),尤其是制造業(yè),卻蓄勢(shì)待發(fā)!為什么??jī)蓚€(gè)基本事實(shí):(1)物聯(lián)網(wǎng)技術(shù)越來(lái)越成熟,相應(yīng)的數(shù)據(jù)采集越來(lái)越方便。一個(gè)典型的案例就是車聯(lián)網(wǎng)。毋庸置疑,未來(lái)的汽車一定被成百上千個(gè)、各種各樣的探測(cè)器所包圍。這些探測(cè)器會(huì)準(zhǔn)確記錄汽車行駛的方方面面。例如:胎壓、發(fā)動(dòng)機(jī)溫度、地理位置、行駛方向、行駛速度、加速度、角速度等。這就構(gòu)成了統(tǒng)計(jì)分析的數(shù)據(jù)基礎(chǔ)。(2)由于傳統(tǒng)制造業(yè)體量巨大。動(dòng)則一個(gè)汽車廠商年產(chǎn)汽車百萬(wàn)臺(tái),或者一個(gè)家電企業(yè)年產(chǎn)電視機(jī)千萬(wàn)臺(tái)。因此,如果數(shù)據(jù)分析能夠產(chǎn)生任何有益的改進(jìn)方案,帶來(lái)的價(jià)值都是極其巨大的,很可能遠(yuǎn)遠(yuǎn)大于數(shù)據(jù)分析(例如:精準(zhǔn)營(yíng)銷)之于互聯(lián)網(wǎng)的價(jià)值。由此可見(jiàn),對(duì)于傳統(tǒng)制造業(yè),數(shù)據(jù)分析,很可能不以消費(fèi)者為第一核心。而是以流程再造、產(chǎn)品改進(jìn)、成本節(jié)省為第一核心。這點(diǎn)跟互聯(lián)網(wǎng)行業(yè)很不一樣。而這一切,都是以物聯(lián)網(wǎng)的大規(guī)模、低成本的實(shí)施為前提。因此,物聯(lián)網(wǎng)將是另外一個(gè)風(fēng)口所在!
基于以上討論,作為統(tǒng)計(jì)學(xué)工作者的我們應(yīng)該如何應(yīng)對(duì)?我認(rèn)為需要以一種非常謙卑開(kāi)放的心態(tài),去學(xué)習(xí)業(yè)務(wù)知識(shí),了解應(yīng)用場(chǎng)景,實(shí)踐統(tǒng)計(jì)學(xué)理論。這方面,可供我們實(shí)踐的沃土太豐富了。它們包括但不局限于:游戲、電商、社交、廣告、投資、金融、征信、可穿戴設(shè)備、車聯(lián)網(wǎng)、設(shè)備監(jiān)控、政府、醫(yī)療等。過(guò)去的歷史已經(jīng)很清楚地說(shuō)明:統(tǒng)計(jì)學(xué)的發(fā)展,一定要順勢(shì)而為。要順應(yīng)產(chǎn)業(yè)變革,技術(shù)進(jìn)步,以及制度環(huán)境。在中國(guó),互聯(lián)網(wǎng)和物聯(lián)網(wǎng)就是大勢(shì)所趨,這就是風(fēng)口所在。統(tǒng)計(jì)學(xué)從這里出發(fā),想不飛都難!