讓商業(yè)變得更智能

機器學(xué)習的演化和局限性
深度學(xué)習,成都軟件開(kāi)發(fā)公司

1、機器學(xué)習的演化為了找到實(shí)現人工智能的方法人們經(jīng)歷了一段異常艱難的歲月,終于找到一種完全不同的方式,穩健地構建出一種通用技術(shù)。這種方式的名稱(chēng)是“機器學(xué)習”。如果你曾經(jīng)涉足數據挖掘領(lǐng)域,應該對這個(gè)名字耳熟能詳。相對于人工智能以往的種種方法,機器學(xué)習要強大得多,是一種潛力無(wú)窮的工具,正如本章前文所介紹過(guò)的,以往的方法僅能依據人預先提供的知識進(jìn)行搜索和判斷,機器學(xué)習要高級得多。

機器學(xué)習出現之前,機器僅能在已輸入的數據中搜尋答案。大家的關(guān)注點(diǎn)都在機器如何能更快地從已有的知識中抽離出相關(guān)問(wèn)題的知識。這樣,機器就能更快地回答一個(gè)它已知的問(wèn)題,但是,一旦碰到它未知的問(wèn)題,它就不行了。

另一方面,機器學(xué)習領(lǐng)域中,機器的學(xué)習是照本宣科的。機器可以依據它學(xué)習的知識回答未知的問(wèn)題。那么,機器是如何學(xué)習的呢?這里的“學(xué)習”到底是什么含義?簡(jiǎn)單地說(shuō),學(xué)習就是機器獲得能夠將問(wèn)題劃分成“是”或“不是”能力的過(guò)程。本章接下來(lái)的內容中我們會(huì )提供更進(jìn)一步的細節,我們現在所能說(shuō)的是機器學(xué)習就是一種模式識別的方法。我們認為,從根本上說(shuō),這個(gè)世界上的每個(gè)問(wèn)題都可以用答案為“是”或者“否”的問(wèn)題所替換。舉個(gè)例子,“你喜歡什么顏色?”這個(gè)問(wèn)題,可以通過(guò)“你喜歡紅色嗎?喜歡綠色嗎?喜歡藍色嗎?喜歡黃色嗎?……”這樣的問(wèn)題所替代。

機器學(xué)習中,使用高速計算和處理能力作為武器,機器用大量的訓練數據,將復雜的問(wèn)題替換為答案為“是/否”類(lèi)型的問(wèn)題,找出哪些數據答案為“是”,哪些數據答案為“否”的規律(換句話(huà)說(shuō),它在學(xué)習)。之后,使用學(xué)習的結果,機器可以對新提供的數據進(jìn)行分析,判斷它們的結果為“是”還是“否”,并返回答案結果。概括來(lái)說(shuō),機器學(xué)習可以通過(guò)辨識和歸類(lèi)給定數據的模式,來(lái)回答未知數據的問(wèn)題。實(shí)際上,這種方法并沒(méi)有想象中那么難。

人們也經(jīng)常無(wú)意識地對數據進(jìn)行模式分類(lèi)。譬如,如果你在一個(gè)聚會(huì )上碰到了一個(gè)你感興趣的男人/女人,你可能會(huì )非常急切地想要了解你面前的他/她是否對你有同樣的感覺(jué)。在你的腦海里,你會(huì )對他/她的說(shuō)話(huà)方式、樣貌、面部表情或者姿態(tài)進(jìn)行分析,與你之前的經(jīng)歷(也就是數據)進(jìn)行比較,通過(guò)這些進(jìn)一步?jīng)Q定你是否要去約會(huì )。這和基于模式識別的推斷是同一個(gè)道理。機器學(xué)習是一種以機械的方式,由機器主導而非人主導,進(jìn)行模式識別的方法。那么,機器是如何識別模式,并對它們進(jìn)行分類(lèi)的呢?機器學(xué)習的分類(lèi)標準是一種基于數學(xué)公式的推算,名叫“概率統計模型(Probabilistic Statistical Model)”。

這種方式基于多種數學(xué)模型,已經(jīng)被研究得非常透徹了。學(xué)習,換句話(huà)說(shuō),就是模型參數的調整,一旦學(xué)習完成,就意味著(zhù)模型構建完成。接下來(lái),機器就可以將未知數據劃分到最可能的模式中(即最適合的模式中)。按照數學(xué)對數據進(jìn)行分類(lèi)是一個(gè)重大優(yōu)點(diǎn)。

對人類(lèi)而言,我們幾乎無(wú)法對多維的數據,或者多模式的數據進(jìn)行處理,而機器學(xué)習卻可以使用幾乎同樣的數值公式完成分類(lèi)。機器需要的僅僅是增加一個(gè)向量,或者矩陣中的維度數(本質(zhì)上說(shuō),進(jìn)行多維分類(lèi)時(shí),它并不是由分類(lèi)直線(xiàn)或者分類(lèi)曲線(xiàn)完成,而是由超平面完成的)。發(fā)明這一方法之前,機器在沒(méi)有人為幫助時(shí)幾乎沒(méi)有任何能力處理未知數據;通過(guò)機器學(xué)習,機器甚至能處理即使人也無(wú)法處理的數據。研究人員為機器學(xué)習帶來(lái)的可能性歡欣雀躍,積極地投身到改善機器學(xué)習的工作中。

機器學(xué)習概念的歷史悠久,不過(guò)由于科學(xué)家們缺乏足夠的數據,長(cháng)期以來(lái)無(wú)法進(jìn)行大量的研究,證明它的有效性。不過(guò),最近很多開(kāi)源數據出現在互聯(lián)網(wǎng)上,研究人員能比較容易地利用這些數據,對他們的算法進(jìn)行實(shí)驗。由此,人工智能的第三波浪潮隨之而來(lái)。機器學(xué)習周邊的環(huán)境也給了它極大助力。機器學(xué)習在能正確地識別模式之前需要學(xué)習大量的數據。除此之外,它還需要有能力處理這些數據。它處理的數據和模式類(lèi)型越多,數據的數量以及計算的次數也越大。因此,很明顯,之前的技術(shù)無(wú)法支持機器學(xué)習的發(fā)展。不過(guò),時(shí)代在進(jìn)步,機器的處理能力得到了大幅增強。除此之外,網(wǎng)絡(luò )也日益成熟,互聯(lián)網(wǎng)的觸角已經(jīng)延伸到世界的各個(gè)角落,因此開(kāi)放的數據也日益增加。隨著(zhù)這一波的變化,只要能夠從互聯(lián)網(wǎng)上抓取數據,每個(gè)人都可以進(jìn)行數據挖掘。

整個(gè)外部環(huán)境都已就緒,每個(gè)人都能很容易地接觸、學(xué)習機器學(xué)習。網(wǎng)絡(luò )是一個(gè)文本數據的寶盒。充分利用機器學(xué)習領(lǐng)域中的文本數據,我們可以預期巨大的成長(cháng)機會(huì ),特別是在統計自然語(yǔ)言處理方面。機器學(xué)習在圖形圖像識別、語(yǔ)音識別方面也取得了巨大的成就,研究人員正朝著(zhù)發(fā)掘更高精度方法的方向努力。機器學(xué)習在商務(wù)世界的各個(gè)方面被廣泛使用。自然語(yǔ)言處理領(lǐng)域中,提到輸入方法編輯器(Input Method Editor,IME),預測轉換可能很快就浮現在你腦海里了。搜索引擎中的圖像識別、語(yǔ)音識別、圖像搜索以及語(yǔ)音搜索也都是很好的例子。當然,機器學(xué)習的應用并不局限于這些領(lǐng)域。它也被大量應用于各個(gè)領(lǐng)域,從營(yíng)銷(xiāo)目標(Marketing Targeting),譬如特征產(chǎn)品的銷(xiāo)售預測(或者廣告優(yōu)化、商店貨品陳列、基于人類(lèi)行為預測的空間規劃),到預測金融市場(chǎng)的動(dòng)向??梢哉f(shuō),之前企業(yè)界使用數據挖掘的大多數方法,現在都轉而采用了機器學(xué)習。是的,機器學(xué)習就是這么厲害。目前,如果你聽(tīng)到“人工智能”這個(gè)詞,通常情況,它實(shí)際代表的是由機器學(xué)習完成的處理。軟件開(kāi)發(fā)實(shí)現

2、機器學(xué)習的局限性機器學(xué)習通過(guò)收集數據,預測答案。實(shí)際上,機器學(xué)習非常有用。由于機器學(xué)習,之前人類(lèi)無(wú)法在可接受的時(shí)間窗口內回答的問(wèn)題(譬如,使用100維超平面進(jìn)行分類(lèi)),機器可以很輕松地完成。最近,“大數據”變成了一個(gè)時(shí)髦術(shù)語(yǔ),不過(guò),分析海量數據所依靠的也主要是機器學(xué)習。

然而,不幸的是,即便是機器學(xué)習也無(wú)法創(chuàng )造人工智能。從“它能否真正實(shí)現人工智能”這個(gè)角度而言,機器學(xué)習存在著(zhù)一個(gè)巨大的缺陷。機器學(xué)習和人類(lèi)的學(xué)習之間存在著(zhù)巨大的差異。你可能已經(jīng)注意到這二者之間的差異,不過(guò)讓我們慢慢道來(lái)。機器學(xué)習是一種依據輸入數據進(jìn)行模式分類(lèi)和預測的技術(shù)。如果是這樣的話(huà),那么到底什么是輸入數據呢?它能夠使用任何數據嗎?當然……它不能。結論很明顯,它不能依據無(wú)關(guān)的數據預測正確的結果。

為了讓機器正確地學(xué)習,它需要有恰當的數據,那么問(wèn)題就來(lái)了。機器無(wú)法辨別哪些數據是合適的數據,哪些數據又是不合適的。只有接受正確的數據,機器才能找到正確的模式。無(wú)論一個(gè)問(wèn)題難或者簡(jiǎn)單,人們都需要為它提供正確的數據。

我們思考下這個(gè)問(wèn)題:“你面前的對象是一個(gè)人還是一只貓?”對任何一個(gè)普通人而言,答案太明顯了。我們可以毫不費力地區分出二者?,F在,讓我們通過(guò)機器學(xué)習來(lái)完成同樣的事。首先,我們需要準備機器讀取的數據格式,換句話(huà)說(shuō),我們需要準備人和貓的圖像數據。這看起來(lái)并沒(méi)有什么特別的。問(wèn)題出現在接下來(lái)的這一步。

你大概希望直接采用這些圖像數據作為輸入,但這是行不通的。正如前文所述,機器無(wú)法自身明確要從數據中學(xué)習什么。機器學(xué)習的東西,需要人事先從原始圖像數據提取創(chuàng )建后提供給它。也就是說(shuō),這個(gè)例子中,我們需要使用可以區分出人類(lèi)和貓的數據作為輸入,譬如臉色、面部位置、面部輪廓等等。人定義并提供作為輸入的這些值被稱(chēng)為“特征(Feature)”。機器學(xué)習無(wú)法完成特征工程(Feature Engineering)。這是機器學(xué)習的致命死穴。顧名思義,特征就是機器學(xué)習中的模型變量。

因為這個(gè)值以定量的方式表示了對象的特征,促使機器可以恰當地執行模式識別。換句話(huà)說(shuō),你如何設置這些標識值會(huì )對預測的精確度產(chǎn)生巨大的影響。潛在而言,機器學(xué)習有兩種類(lèi)型的局限性:·有的算法僅能在數據滿(mǎn)足訓練數據假設時(shí)才表現良好。這些訓練數據的分布通常都有一定的差異。大多數時(shí)候,出現這種問(wèn)題表明學(xué)習模型沒(méi)有泛化好?!ぜ幢闶怯柧毩己玫哪P?,依舊無(wú)法做出良好的元-決策(Meta-Decision)。

因此,很多情況下,機器學(xué)習只能在一個(gè)非常狹窄的領(lǐng)域取得成功。讓我們看一個(gè)簡(jiǎn)單的例子,以便你更容易地理解特征對模型預測精度的巨大影響。假設有這樣一家公司,它希望依據客戶(hù)的資產(chǎn)量情況,向他們推銷(xiāo)資產(chǎn)管理的一攬子解決方案。公司希望能推薦適合用戶(hù)的產(chǎn)品,不過(guò)它又不能詢(xún)問(wèn)過(guò)于私人的問(wèn)題,因此需要預測客戶(hù)可能擁有多少資產(chǎn),并預先進(jìn)行準備。

這種情況下,我們應該把哪些類(lèi)型的潛在客戶(hù)作為特征呢?我們可以假設各種各樣的因素,譬如他們的身高、體重、年齡、居住地址諸如此類(lèi)作為分析的特征,不過(guò),顯而易見(jiàn)的是相對于身高和體重,年齡或者居住地址的相關(guān)性要高得多。

如果你讓機器學(xué)習基于身高或者體重進(jìn)行分析,很可能無(wú)法得到好的結果,因為這時(shí)預測基于的數據是沒(méi)有相關(guān)性的,這意味著(zhù)所進(jìn)行的是一種隨機的預測。由此我們可以知道,機器學(xué)習只有在讀入恰當的特征之后才能為問(wèn)題找出符合要求的答案。

然而,不幸的是,機器學(xué)習無(wú)法判斷什么樣的特征是恰當的,因此,機器學(xué)習的準確性嚴重依賴(lài)于特征工程!機器學(xué)習有大量的方法,然而,這些林林總總的方法都無(wú)法解決特征工程的問(wèn)題。人們研發(fā)了各種各樣的方法,互相比拼算法的精確度,不過(guò)當達到一定的精確度之后,最終判斷機器學(xué)習算法優(yōu)良的標準是人們發(fā)現特征的能力。

這絕非算法上的差異,更多的時(shí)候像是人類(lèi)的直覺(jué),或者品味,或者對參數的調優(yōu),這些工作毫無(wú)創(chuàng )新可言。各式各樣的方法被創(chuàng )造出來(lái),不過(guò)歸根到底,最難的事情是如何選擇最優(yōu)特征(Identity),而這部分工作目前只能由人來(lái)完成。

文章參考:深度學(xué)習,java語(yǔ)言實(shí)現, 成都軟件開(kāi)發(fā)公司

深度學(xué)習,成都軟件開(kāi)發(fā)公司
亚洲一区二区中文字幕无_日本啪啪一区免费完整视频_91caop国产在线_中文字幕欧美日本亚洲