首頁 - 關于我們 - 新聞活動 - 終于有人(rén)把AI、BI、大(dà)數據、數據科學講明(míng)白了(le)

終于有人(rén)把AI、BI、大(dà)數據、數據科學講明(míng)白了(le)

2022-8-19新聞

作者:格雷戈裏·S. 納爾遜(Gregory S. Nelson)  

來(lái)源:大(dà)數據DT(ID:hzdashuju),本文已授權轉載


導讀:本文概述數據、分(fēn)析、商業智能、報表、大(dà)數據、數據科學、邊緣分(fēn)析、信息學以及人(rén)工智能和(hé)認知計算(suàn)這(zhè)些基本概念。


01 數據

數據幾乎滲透到我們生活的(de)每一個(gè)角落,從我們在手機中留下(xià)的(de)數字足迹,到健康記錄,再到購(gòu)物(wù)曆史,以及對(duì)資源(如能源)的(de)使用(yòng)情況。在當今這(zhè)個(gè)數字世界裏,脫離數字的(de)生活雖然不是不可(kě)接受的(de),但也(yě)需要巨大(dà)的(de)犧牲精神和(hé)不可(kě)思議(yì)的(de)毅力才能忍受。

我們不僅是數據制造者,同時(shí)也(yě)是活躍的(de)數據消費者,例如我們時(shí)常檢查自己的(de)在線消費習(xí)慣,監測健身程序,或者查看自己的(de)常旅客積分(fēn)是否夠去加勒比度假,這(zhè)些行爲都是在消費數據。

但數據到底是什(shén)麽?按最通(tōng)用(yòng)的(de)形式來(lái)理(lǐ)解,數據就是被儲存起來(lái)以備日後使用(yòng)的(de)信息。最早記錄信息的(de)方式可(kě)能是在動物(wù)骨頭上刻蝕符号。到了(le)20世紀50年代,人(rén)們開始在磁帶上記錄數字信息,然後是打孔卡片,再後來(lái)是使用(yòng)磁盤。現代數據處理(lǐ)開始的(de)時(shí)間并不長(cháng),但已經奠定了(le)我們如何收集、存儲、管理(lǐ)、使用(yòng)信息的(de)基礎。

直到最近,我們對(duì)那些無法計算(suàn)的(de)信息(例如,視頻(pín)和(hé)圖像信息)還(hái)隻能進行分(fēn)類處理(lǐ)。但近幾年來(lái),通(tōng)過大(dà)量的(de)技術變革,無法存儲的(de)數據類型變得(de)越來(lái)越少了(le)。事實上,存儲的(de)信息,或者數據,就是以一種可(kě)用(yòng)的(de)編碼方式,爲了(le)我們可(kě)計算(suàn)的(de)目的(de)而建立的(de)真實世界的(de)模型。

數據是真實世界中所發生事情的(de)持續記錄或“模型”,這(zhè)一事實是分(fēn)析學的(de)一個(gè)重要特征。被公認爲“20世紀最偉大(dà)的(de)統計學家之一”的(de)喬治·鮑克斯(George Box)曾經說過:“所有的(de)模型都是錯誤的(de),但有些模型是有用(yòng)的(de)。”

很多(duō)時(shí)候,我們在數據中發現一些沒有意義或者完全錯誤的(de)東西。請記住,數據是從真實的(de)物(wù)理(lǐ)世界轉化(huà)并抽象爲代表真實世界的(de)東西,即喬治所說的(de)“模型”。就像機械速度計是測量速度的(de)标準一樣(也(yě)是衡量速率的(de)一個(gè)很好的(de)替代物(wù)),這(zhè)個(gè)模型(指機械速度計)實際上是測量輪胎的(de)轉速,而不是速度。

總之,數據是存儲的(de)信息,是所有分(fēn)析的(de)基礎。例如,在可(kě)視化(huà)分(fēn)析中,我們利用(yòng)可(kě)視化(huà)技術和(hé)交互界面對(duì)數據進行解析和(hé)推理(lǐ),找出數據本身存在的(de)規律。



02 分(fēn)析

分(fēn)析(analytics)可(kě)能是商業中使用(yòng)得(de)最多(duō)但卻最難理(lǐ)解的(de)術語之一。對(duì)一些人(rén)來(lái)說,它是一種用(yòng)來(lái)“把數據屈打成招”(找出數據中潛藏規律)的(de)技術或技巧,或者僅僅是商業智能與數據倉庫的(de)延伸;而對(duì)另外一些人(rén)來(lái)說,分(fēn)析則是用(yòng)于開發模型的(de)統計、數學或定量方法。

Merriam-Webster字典稱分(fēn)析是“一種邏輯分(fēn)析的(de)方法”。Dictionary.com字典将分(fēn)析定義爲“邏輯分(fēn)析的(de)科學”。不幸的(de)是,兩種定義都直接使用(yòng)了(le)分(fēn)析(analysis)這(zhè)個(gè)詞的(de)詞根,似乎存在循環解釋的(de)邏輯錯誤。

分(fēn)析(analysis)這(zhè)個(gè)詞的(de)起源可(kě)以追溯到16世紀80年代的(de)中世紀拉丁語(anal-yticus)和(hé)希臘語(anal-ytiks),意思是“分(fēn)解”(break up)或者“放松”(loosen)。我把分(fēn)析(analytics)定義爲一種解決數據驅動問題的(de)結構化(huà)方法:通(tōng)過對(duì)事實(數據)的(de)仔細推敲,幫助我們解決問題的(de)一套方法論。

關于分(fēn)析的(de)定義有很多(duō)争論。就當前討(tǎo)論的(de)問題而言,我将分(fēn)析定義爲:

一種全面的(de)、基于數據驅動的(de)解決問題的(de)策略與方法。

我有意避免将分(fēn)析定義爲某個(gè)“過程”、某種“科學”或“學科”。相反,我将分(fēn)析定義爲一種全面的(de)策略,正如讀者将在本書(shū)第二部分(fēn)中看到的(de)那樣,它是包含過程、規則、可(kě)交付物(wù)的(de)最佳實踐。

分(fēn)析通(tōng)過使用(yòng)邏輯、歸納推理(lǐ)、演繹推理(lǐ)、批判思維、定量方法(結合數據)等手段,來(lái)檢驗和(hé)分(fēn)析現象,從而确定其本質特征。分(fēn)析植根于科學方法,包括問題的(de)識别和(hé)理(lǐ)解、理(lǐ)論生成、假設檢驗和(hé)結果交流。

  • 歸納推理(lǐ)

當積累的(de)證據被用(yòng)來(lái)支持一個(gè)結論,但結論仍帶有一些不确定性的(de)時(shí)候,就會用(yòng)到歸納推理(lǐ)方法。也(yě)就是說,最終的(de)結論有可(kě)能(存在一定概率)與給定前提不一緻。通(tōng)過歸納推理(lǐ),我們基于具體的(de)觀測或數據能夠做(zuò)出廣泛的(de)、一般意義上的(de)概括和(hé)總結。

  • 演繹推理(lǐ)

演繹推理(lǐ)基于某些一般案例提出論斷,然後依靠數據,使用(yòng)統計推斷或實驗手段證明(míng)或證僞提出的(de)論斷。例如,按照(zhào)演繹推理(lǐ)方法,我們提出一個(gè)關于世界運動方式的(de)基本理(lǐ)論,然後(應用(yòng)數據)去檢驗我們提出的(de)假設的(de)正确性。

分(fēn)析可(kě)以用(yòng)來(lái)解決各種各樣的(de)問題。例如,UPS公司應用(yòng)分(fēn)析結果而采取優化(huà)貨物(wù)運輸措施,節省了(le)150多(duō)萬加侖(1加侖=3.785 41立方分(fēn)米)的(de)燃油,減少了(le)14 000噸的(de)二氧化(huà)碳排放量 ;克利夫蘭診所利用(yòng)分(fēn)析結果優化(huà)了(le)手術室的(de)運營時(shí)間安排。

有了(le)這(zhè)些成功案例,對(duì)于技術供應商(硬件和(hé)軟件)和(hé)其他(tā)不同支持者來(lái)說,“分(fēn)析”毫無疑問都是極具吸引力的(de)。當然,分(fēn)析”這(zhè)個(gè)詞當前存在過度使用(yòng)危險,這(zhè)可(kě)以從人(rén)們把這(zhè)個(gè)術語與其他(tā)詞的(de)各種組合中看出。諸如:

  • 大(dà)數據分(fēn)析(big data analytics)
  • 規範性分(fēn)析(prescriptive analytics)
  • 業務分(fēn)析(business analytics)
  • 操作分(fēn)析(operational analytics)
  • 高(gāo)級分(fēn)析(advanced analytics)
  • 實時(shí)分(fēn)析(real-time analytics)
  • 邊緣或環境分(fēn)析(edge or ambient analytics)

雖然以上這(zhè)些組合與搭配在分(fēn)析應用(yòng)的(de)類型和(hé)描述上具有獨特性,但也(yě)經常造成理(lǐ)解上的(de)混亂,特别是對(duì)企業高(gāo)管(如CXO層次高(gāo)管)而言,技術供應商總是熱(rè)衷于提供最新的(de)分(fēn)析解決方案,試圖能解決他(tā)們的(de)每一個(gè)業務痛點。

我的(de)觀點(許多(duō)志同道合、理(lǐ)性思考的(de)人(rén)也(yě)有與我相同的(de)觀點)是,分(fēn)析并不是一種技術,技術隻是在分(fēn)析活動中起到了(le)推動和(hé)賦能作用(yòng)的(de)策略和(hé)方法。

分(fēn)析通(tōng)常也(yě)指能夠識别數據之間有業務意義的(de)模式和(hé)關系的(de)任何解決方案。分(fēn)析被用(yòng)于解析不同規模的(de)、不同複雜(zá)程度的(de)、結構化(huà)和(hé)非結構化(huà)的(de)、定量或定性的(de)數據,以便從中實現對(duì)特定問題的(de)理(lǐ)解、預測或優化(huà)的(de)明(míng)确目的(de)。

所謂高(gāo)級分(fēn)析也(yě)是分(fēn)析的(de)子集,它使用(yòng)複雜(zá)的(de)分(fēn)析技術來(lái)支持基于事實的(de)決策過程,而且這(zhè)種分(fēn)析通(tōng)常是以自動化(huà)或半自動化(huà)的(de)方式開展的(de)。

高(gāo)級分(fēn)析通(tōng)常包括數據挖掘、計量經濟建模、預測、優化(huà)、預測建模、模拟、統計和(hé)文本挖掘等技術。



03 商業智能和(hé)報表

關于分(fēn)析與商業智能的(de)區(qū)别,幾乎沒有形成過共識。有些人(rén)将分(fēn)析歸類爲商業智能的(de)一個(gè)子集,而另一些人(rén)則把它歸爲完全不同的(de)類别。我把商業智能(BI)定義爲:

一種管理(lǐ)策略,用(yòng)來(lái)建立一種更有結構性和(hé)更有效的(de)決策方法……BI包括報表、查詢、聯機分(fēn)析處理(lǐ)(OLAP)、儀表盤、記分(fēn)卡甚至分(fēn)析等常見要素。綜合性術語BI也(yě)可(kě)以指獲取、清理(lǐ)、集成和(hé)存儲數據的(de)過程。

有些人(rén)會将分(fēn)析和(hé)商業智能之間的(de)區(qū)别歸納爲兩個(gè)方面的(de)不同:

  1. 所使用(yòng)量化(huà)方法(即算(suàn)法、數學、統計)的(de)複雜(zá)度;
  2. 所産生結果是針對(duì)曆史已發生的(de)還(hái)是未來(lái)将發生的(de)。

也(yě)就是說,商業智能的(de)重點是使用(yòng)相對(duì)簡單的(de)數學方法來(lái)對(duì)曆史數據進行展示和(hé)呈現,而分(fēn)析則被認爲是采用(yòng)更複雜(zá)的(de)計算(suàn)邏輯,并且能夠預測一些特定問題、識别因果關系、确定最優解決方案的(de)方法,有時(shí)也(yě)被用(yòng)于指明(míng)需要采取的(de)行動與措施。

大(dà)多(duō)數商業智能應用(yòng)的(de)局限性并不在于技術的(de)限制,而在于分(fēn)析的(de)深度和(hé)爲行動提供依據的(de)真正洞察力。例如,告訴我已經發生了(le)什(shén)麽事情并不能幫助我決定如何行動以改變未來(lái),這(zhè)樣的(de)結果往往是通(tōng)過離線分(fēn)析(offline analysis)得(de)到的(de)。

分(fēn)析的(de)真正責任是形成可(kě)行動的(de)、可(kě)操作的(de)洞察力,從而能夠幫助我們了(le)解已經發生的(de)事情(在什(shén)麽地點發生,爲什(shén)麽會發生,在什(shén)麽條件下(xià)發生),預測出未來(lái)可(kě)能發生什(shén)麽,以及我們可(kě)以做(zuò)什(shén)麽來(lái)影(yǐng)響和(hé)優化(huà)未來(lái)的(de)結果。

請注意,圖1-1中描述的(de)BI儀表盤描述了(le)有關過去的(de)事實,如銷售、呼叫量、産品和(hé)賬戶,使你很容易獲得(de)組織當前銷售狀态或活動情況的(de)快(kuài)照(zhào)。

▲圖1-1 商業智能儀表盤,來(lái)源:QlikTech International AB

商業智能和(hé)它的(de)近鄰“報表”,都是用(yòng)來(lái)描述有關現象的(de)信息展示技術,通(tōng)常位于數據傳遞管道的(de)尾部,在那裏可(kě)以直觀地訪問數據和(hé)結果。而另一方面,分(fēn)析則超越了(le)對(duì)數據的(de)描述,它真正理(lǐ)解了(le)這(zhè)個(gè)現象的(de)内在規律,從而來(lái)預測、優化(huà)和(hé)預判未來(lái)應采取的(de)适當行動。

從傳統上看,商業智能一直存在兩個(gè)缺點,這(zhè)源于它們與這(zhè)樣的(de)事實有關:

  1. BI通(tōng)常專注于建立對(duì)過去已經發生事實的(de)認識,因爲它側重于度量和(hé)監視,而不是預測和(hé)優化(huà);
  2. 其計量分(fēn)析往往不夠複雜(zá),無法建立足以産生精确洞察力的(de)有意義的(de)改變(雖然正确的(de)報表或可(kě)視化(huà)展現也(yě)可(kě)以對(duì)改變産生影(yǐng)響,但還(hái)不夠精确)。

如果把商業智能與深入的(de)“分(fēn)析”恰當地結合在一起,而不僅僅停留在對(duì)事實的(de)認識,它就更接近分(fēn)析,但它又往往缺乏高(gāo)級分(fēn)析解決方案中經常用(yòng)到的(de)複雜(zá)統計、數學或者“機器學習(xí)”方法。

因此,我認爲分(fēn)析是商業智能總體框架内所包含的(de)概念的(de)一種自然演變。它更加強調充分(fēn)開展必要的(de)各種活動,以形成能促進行動的(de)真知灼見。分(fēn)析遠(yuǎn)遠(yuǎn)不止于在自助操作儀表盤或報表界面中所使用(yòng)的(de)、預先定義的(de)可(kě)視化(huà)元素。


04 大(dà)數據

大(dà)數據(big data)是一種描述不和(hé)諧信息的(de)方法,在将數據轉化(huà)爲洞察力的(de)過程中,組織必須處理(lǐ)這(zhè)些難以處理(lǐ)的(de)信息。1997年,Michael Cox和(hé)David Ellsworth首次使用(yòng)了(le)大(dà)數據這(zhè)一表述,他(tā)們當時(shí)提到的(de)“問題”如下(xià):

可(kě)視化(huà)爲計算(suàn)機系統提供了(le)一個(gè)有趣的(de)挑戰:數據集通(tōng)常相當大(dà),占用(yòng)了(le)大(dà)量主内存、本地磁盤甚至遠(yuǎn)程磁盤的(de)容量。我們稱之爲大(dà)數據問題。當數據集大(dà)到無法存放在主内存(核心存儲器),或者甚至無法存儲在本地磁盤上時(shí),最常見的(de)解決方案是擴充并獲取更多(duō)的(de)資源。

将大(dà)數據視爲一個(gè)概念,它突出了(le)這(zhè)樣一種挑戰:數據的(de)規模和(hé)複雜(zá)性超出了(le)傳統數據分(fēn)析方法能夠處理(lǐ)的(de)範圍。我們将大(dà)數據與傳統的(de)“小”數據進行對(duì)比,包括其容量(我們擁有多(duō)少數據)、速度(産生與獲得(de)數據的(de)快(kuài)慢(màn))和(hé)多(duō)樣性(包括數字、文本、圖像、視頻(pín)等多(duō)種數據形态)。

如果大(dà)數據是用(yòng)來(lái)描述當今信息複雜(zá)性的(de)概念,那麽分(fēn)析就可(kě)以幫助我們以主動的(de)方式(預測性和(hé)規範性)來(lái)分(fēn)析複雜(zá)性,而不是以被動的(de)方式(即商業智能的(de)範疇)來(lái)應對(duì)。



05 數據科學

與大(dà)數據相比,定義數據科學顯得(de)不是一件輕而易舉的(de)工作,因爲在數據科學的(de)衆多(duō)定義中,很少發現一緻的(de)描述。關于數據科學意味著(zhe)什(shén)麽,以及它是否與分(fēn)析完全不同,目前存在很多(duō)争論。

還(hái)有一些人(rén),甚至試圖通(tōng)過討(tǎo)論數據科學家的(de)工作來(lái)定義數據科學:數據科學家所需要的(de)技能,他(tā)們所扮演的(de)角色,他(tā)們所使用(yòng)的(de)工具和(hé)技術,他(tā)們工作的(de)地方,以及他(tā)們的(de)教育背景,等等。但這(zhè)些并沒有對(duì)數據科學給出一個(gè)有意義的(de)定義。

與其按照(zhào)人(rén)(數據科學家)或他(tā)們所處理(lǐ)的(de)問題來(lái)定義數據科學,不如将其定義如下(xià):

數據科學是一門科學學科,它利用(yòng)統計和(hé)數學等領域的(de)定量方法以及現代技術,開發出用(yòng)于發現模式、預測結果和(hé)爲複雜(zá)問題找到最佳解決方案的(de)算(suàn)法。

數據科學和(hé)分(fēn)析的(de)區(qū)别在于,數據科學可(kě)以幫助甚至支持自動化(huà)實現對(duì)數據的(de)分(fēn)析,但是分(fēn)析是一種以人(rén)爲中心的(de)策略,它充分(fēn)利用(yòng)各種工具,包括那些在數據科學中發現的(de)工具,來(lái)理(lǐ)解事物(wù)現象之間的(de)真正本質。

數據科學可(kě)能是這(zhè)些概念中涉及面最廣泛的(de),因爲它關系到處理(lǐ)“數據”的(de)整個(gè)科學和(hé)實踐。我認爲數據科學是由計算(suàn)機科學家設計的(de)分(fēn)析學,但在實踐中,數據科學往往側重于對(duì)一般性宏觀問題的(de)研究,而分(fēn)析往往側重于解決特定行業或具體問題的(de)挑戰。



06 邊緣(和(hé)環境)分(fēn)析

在很多(duō)現代企業,分(fēn)析是它們的(de)一種核心業務活動,這(zhè)些企業通(tōng)過數據驅動和(hé)以人(rén)爲中心的(de)業務運營與管理(lǐ)流程實現了(le)數據的(de)大(dà)衆化(huà)(democratize data)。

而邊緣分(fēn)析(edge analytics)一般指的(de)是分(fēn)布式分(fēn)析,在這(zhè)種場(chǎng)景下(xià),分(fēn)析被内置到一些機器或系統中,通(tōng)過這(zhè)種内置的(de)方式,信息的(de)生成與收集已經成爲企業“下(xià)意識”的(de)自主活動。

邊緣分(fēn)析通(tōng)常與智能設備相關,這(zhè)種情況下(xià),分(fēn)析計算(suàn)是在數據收集點(例如設備、傳感器、網絡交換機或其他(tā)設備)開展的(de),與傳統的(de)數據管道傳輸方式(即采集數據、傳輸數據、清洗數據、集成數據、存儲數據)不同,邊緣分(fēn)析把分(fēn)析嵌入到收集數據的(de)設備中完成或就近實現。

  • 數據大(dà)衆化(huà)

所謂數據大(dà)衆化(huà),指的(de)是數據開放,使每個(gè)能夠而且應該能夠獲得(de)數據的(de)人(rén)都有權通(tōng)過工具來(lái)探索獲取這(zhè)些數據,而不是将數據局限于少數特權群體。

例如,傳統的(de)信用(yòng)卡欺詐檢測依賴于機器(例如讀卡器),并通(tōng)過與授權“代理(lǐ)”的(de)連接發送請求來(lái)驗證一個(gè)交易,算(suàn)法需要在極短的(de)時(shí)間内(百分(fēn)之一毫秒)對(duì)此交易完成授權或打上欺詐标簽,最後,讀卡設備接收授權指令後完成或拒絕交易操作。在邊緣分(fēn)析中,算(suàn)法将運行在儀器本身上(比如帶有嵌入式分(fēn)析的(de)智能芯片讀卡器)。

邊緣分(fēn)析通(tōng)常與物(wù)聯網(IoT)聯系在一起。最近IDC在針對(duì)物(wù)聯網IoT未來(lái)視界(FutureScape)的(de)一份報告中提出,到2018年,40%的(de)物(wù)聯網數據将在網絡中産生數據的(de)邊緣完成數據的(de)存儲、處理(lǐ)、分(fēn)析和(hé)響應。

随著(zhe)物(wù)聯網的(de)發展,我們很可(kě)能會看到未來(lái)對(duì)所謂的(de)“萬物(wù)分(fēn)析”(Analytics of Things,AoT)有更多(duō)的(de)關注,它指的(de)是分(fēn)析将給物(wù)聯網數據帶來(lái)獨特價值的(de)機會。

環境分(fēn)析(ambient analytics)是另一個(gè)相關的(de)術語,它的(de)名字意味著(zhe)“分(fēn)析無處不在”。就像房(fáng)間的(de)燈光(guāng)或音(yīn)響常常不被注意,但卻爲舞台構建了(le)氛圍一樣,環境分(fēn)析也(yě)會影(yǐng)響我們工作和(hé)娛樂(yuè)的(de)環境。

我們看到環境智能正在日常生活場(chǎng)景中發揮作用(yòng),比如檢測血糖水(shuǐ)平和(hé)注射胰島素。同樣,當你回到住家附近時(shí),家居自動化(huà)設備檢測到相應信息,會自動調整溫度和(hé)打開照(zhào)明(míng)。環境分(fēn)析超越了(le)基于簡單規則的(de)決策,它利用(yòng)算(suàn)法來(lái)決定合适的(de)行動路線。

毫無疑問,邊緣和(hé)環境分(fēn)析将繼續挑戰傳統的(de)以人(rén)爲中心的(de)管理(lǐ)方式與流程,傳統管理(lǐ)方式下(xià),使用(yòng)分(fēn)析結果(如對(duì)分(fēn)析的(de)理(lǐ)解、決策和(hé)采取的(de)行動)以人(rén)爲主,而在邊緣和(hé)環境分(fēn)析中會有越來(lái)越多(duō)的(de)(不需要人(rén)工介入的(de))自主決策與執行。



07 信息學

信息學(informatics)是信息技術和(hé)信息管理(lǐ)的(de)交叉學科。在實踐中,信息學涉及用(yòng)于數據存儲和(hé)檢索的(de)處理(lǐ)技術。從本質上講,信息學討(tǎo)論信息是如何管理(lǐ)的(de),指的(de)是支持流程化(huà)工作流的(de)系統和(hé)數據生态系統,而不是對(duì)其中發現的(de)數據進行分(fēn)析。

在信息科學中經常談到的(de)健康信息學,它專門用(yòng)于保健醫療研究,是介于健康信息技術和(hé)健康信息管理(lǐ)之間的(de)一種專業技術,它将信息技術、通(tōng)信和(hé)保健融合起來(lái),以提高(gāo)病人(rén)護理(lǐ)的(de)質量和(hé)安全性。它位于人(rén)、信息和(hé)技術三者交彙處的(de)中心。

保健政策是指在一個(gè)社會中爲實現特定的(de)保健目标而采取的(de)決定、計劃和(hé)行動。保健政策制定者希望看到醫療保健變得(de)更經濟、更安全、更高(gāo)質量,信息技術和(hé)健康信息技術往往是實現這(zhè)一目标的(de)重要手段。

事實上,其中一項最必不可(kě)少的(de)工作是正确定位數據資源,使之能提供每個(gè)患者360度的(de)完整健康狀況信息視圖,隻有數據共享才能做(zuò)到這(zhè)一點(見圖1-2)。

▲圖1-2 健康信息管理(lǐ)、健康信息技術和(hé)信息學之間的(de)區(qū)别

分(fēn)析集成了(le)所有這(zhè)些概念,并依賴于底層數據、支持技術和(hé)信息管理(lǐ)過程來(lái)實現這(zhè)一目标。


08 人(rén)工智能與認知計算(suàn)

人(rén)工智能(AI)是一門“讓計算(suàn)機做(zuò)需要人(rén)類智能才能做(zuò)的(de)事情的(de)科學”。

人(rén)工智能和(hé)機器學習(xí)的(de)區(qū)别在于,人(rén)工智能是指利用(yòng)計算(suàn)機完成模式的(de)識别與探索這(zhè)類“智能”工作的(de)廣義概念,而機器學習(xí)是人(rén)工智能的(de)子集,它主要指利用(yòng)計算(suàn)機從數據中學習(xí)的(de)概念。

機器學習(xí)是人(rén)工智能的(de)一個(gè)子集,它可(kě)以根據數據進行學習(xí)和(hé)預測,不是僅僅根據特定的(de)一組規則或指令完成事先規劃好的(de)操作,而是利用(yòng)算(suàn)法訓練來(lái)自主識别大(dà)量數據中的(de)模式。

人(rén)工智能(和(hé)機器學習(xí))可(kě)以在分(fēn)析生命周期中使用(yòng),以支持發現和(hé)探索(例如,數據是如何構造的(de),存在什(shén)麽模式等)。人(rén)工智能在分(fēn)析中的(de)應用(yòng)通(tōng)常以機器學習(xí)(如上文所述)或認知計算(suàn)的(de)形式出現。

認知計算(suàn)是一種獨特的(de)應用(yòng),它将人(rén)工智能和(hé)機器學習(xí)算(suàn)法結合在一起,試圖複制(或模仿)人(rén)腦(nǎo)的(de)行爲。

認知計算(suàn)系統被設計爲像人(rén)一樣通(tōng)過思考、推理(lǐ)和(hé)記憶等方式來(lái)解決問題。這(zhè)種設計方法使認知計算(suàn)系統具有一個(gè)優勢,使得(de)它們能夠“随著(zhe)新數據的(de)到來(lái)而學習(xí)和(hé)适應”并“探索和(hé)發現那些你永遠(yuǎn)不會知道去問的(de)東西”。

認知計算(suàn)的(de)優勢在于,一旦它學會了(le)某種能力,它就永遠(yuǎn)不會忘記,而人(rén)類往往做(zuò)不到這(zhè)一點。

在人(rén)與算(suàn)法的(de)競争中,不幸的(de)是,人(rén)類常常輸掉。人(rén)工智能的(de)優勢就在于此。因此,如果我們要成爲聰明(míng)的(de)人(rén),就必須學會謙遜,因爲在計算(suàn)機世界裏,我們的(de)直覺判斷可(kě)能還(hái)不如依靠一組簡單規則實現的(de)算(suàn)法。

——Farnham Street博客(Parish,2017,Do Algorithms,在複雜(zá)的(de)決策中算(suàn)法能擊敗我們嗎?)

在狹義的(de)術語中,人(rén)工智能代表人(rén)類智慧,而認知計算(suàn)則提供信息來(lái)幫助人(rén)們做(zuò)出決策。

關于作者:格雷戈裏·S. 納爾遜(Gregory S. Nelson),ThotWave的(de)創始人(rén)和(hé)CEO,是國際分(fēn)析研究所(International Institute for Analytics)的(de)專家,也(yě)是杜克大(dà)學福卡商學院(Fuqua School of Business)的(de)特約教授。

本文摘編自數據分(fēn)析即未來(lái):企業全生命周期數據分(fēn)析應用(yòng)之道》,經出版方授權發布。