三级黄色在线视频中文,国产精品一二三区,在线观看三级,成人午夜久久,日韩国产一区二区,韩日免费av,日韩成人一级

【重磅】研究人工智能安全不再抽象:谷歌、OpenAI合著論文

來源:網(wǎng)絡(luò)

點(diǎn)擊:734

A+ A-

所屬頻道:新聞中心

關(guān)鍵詞:人工智能,谷歌,OpenAI,安全

      人工智能是善還是召喚惡魔?如今,對人工智能砸以重金的谷歌正試著走出一條中間道路。谷歌大腦、斯坦福、伯克利以及OpenAI研究人員合做并發(fā)布了一篇新論文,首次描述了研究人員必須予以研究的五個問題,讓未來的智能軟件更加安全。如果說之前大部分研究都是假設(shè)和推斷性的,那么,這篇論文表明對人工智能安全性的爭論可以更加具體化,也更富建設(shè)性。

      今天,谷歌大腦、斯坦福、伯克利以及 OpenAI研究人員合作的新論文與大家見面了。文章首次探討了為了讓未來智能軟件更安全,研究人員必須研究的五個問題。論文作者之一,谷歌研究人員ChrisOlah說,之前大部分研究都是假設(shè)和推斷性的,但是,我們相信,將注意力錨定在真實(shí)的機(jī)器學(xué)習(xí)研究中,對于研發(fā)切實(shí)可行的方案來打造安全可靠的人工智能系統(tǒng)來說,必不可少。

      之前谷歌已經(jīng)承諾會確保人工智能軟件不會造成意外后果。谷歌的第一篇相關(guān)論文,出自 Deep Mind。Demis Hassabis也召集了一個道德委員會來考慮人工智能可能的不利一面,不過沒有公布委員會名單。

      艾倫人工智能研究所的 Oren Etzioni對谷歌新論文所列舉的解決方法表示歡迎。之前,他曾批評過人工智能危險(xiǎn)論的討論過于抽象。他說,谷歌列舉出的各種情況足夠具體,可以進(jìn)行真實(shí)的研究,即使我們?nèi)匀徊磺宄@些實(shí)驗(yàn)是否切實(shí)有用?!高@是正確的人問了正確的問題,至于正確的答案,由時間來揭曉。」

      以下是這篇論文主要內(nèi)容:

      摘要

      機(jī)器學(xué)習(xí)和人工智能(AI)領(lǐng)域的快速進(jìn)步已經(jīng)引起了社會對人工智能潛在影響的廣泛關(guān)注。在這篇論文中,我們討論了這樣一種潛在的影響:機(jī)器學(xué)習(xí)系統(tǒng)出現(xiàn)事故的問題,具體定義為因真實(shí)世界人工智能系統(tǒng)的糟糕設(shè)計(jì)而導(dǎo)致的無意的傷害性行為。我們提出了與事故風(fēng)險(xiǎn)相關(guān)的五個實(shí)用的研究問題列表,它們的分類根據(jù)問題是否有錯誤的目標(biāo)函數(shù)(「避免副作用」和「避免獎勵黑客行為」)、經(jīng)常評估目標(biāo)函數(shù)的成本實(shí)在太高了(「可擴(kuò)展的監(jiān)督」、或在學(xué)習(xí)過程中的不良行為(「安全探索」和「分布變化」)。我們還回顧了這些領(lǐng)域之前的工作,并建議了側(cè)重于與前沿人工智能系統(tǒng)相關(guān)的研究方向。最后,我們考慮了這樣一個高層次問題:如何最高效地思考人工智能未來應(yīng)用的安全。

      1.導(dǎo)語

      過去幾年,人工智能飛速發(fā)展,并已經(jīng)在游戲、醫(yī)學(xué)、經(jīng)濟(jì)、科學(xué)和交通等許多領(lǐng)域取得了長足的發(fā)展,但隨之而來也出現(xiàn)了安全、隱私、公平、經(jīng)濟(jì)和軍事應(yīng)用上的擔(dān)憂。

      本論文作者相信,人工智能技術(shù)很有可能將會給人類帶來整體的顛覆性好處,但我們也相信,嚴(yán)肅對待其可能帶來的風(fēng)險(xiǎn)和挑戰(zhàn)是非常值得的。我們強(qiáng)烈支持在隱私、安全、經(jīng)濟(jì)和政治方面的研究,但本論文關(guān)注的是另一種我們相信與人工智能的社會影響有關(guān)的問題:機(jī)器學(xué)習(xí)系統(tǒng)的事故問題。這里的事故定義為:當(dāng)我們指定了錯誤的目標(biāo)函數(shù)時,機(jī)器學(xué)習(xí)系統(tǒng)可能無意產(chǎn)生的有害行為。這里沒有考慮學(xué)習(xí)過程或其它機(jī)器學(xué)習(xí)相關(guān)的實(shí)現(xiàn)錯誤。

      隨著人工智能能力的進(jìn)步和人工智能系統(tǒng)在社會功能上重要性的不斷增長,我們預(yù)計(jì)本論文所討論的難題和挑戰(zhàn)將變得越來越重要。人工智能和機(jī)器學(xué)習(xí)界在預(yù)測和理解這些挑戰(zhàn)上做得越成功,在開發(fā)越來越有用、重要的人工智能系統(tǒng)方面,我們就能做得越成功。

      2.研究問題概述

      從廣義上講,可將「事故」描述成:人類設(shè)計(jì)者心里想的特定目標(biāo)或任務(wù)在系統(tǒng)實(shí)際的設(shè)計(jì)或?qū)嵤┲惺?,并最終導(dǎo)致了某種有害結(jié)果的情況。我們可以將人工智能系統(tǒng)的安全問題根據(jù)其出錯的位置進(jìn)行分類。

      第一,當(dāng)設(shè)計(jì)者定義了錯誤的目標(biāo)函數(shù)時,例如最大化了導(dǎo)致有害結(jié)果的目標(biāo)函數(shù),我們有「不良副作用(第3節(jié))」和「獎勵黑客行為(第4節(jié))」的問題?!覆涣几弊饔谩雇ǔJ且?yàn)樵O(shè)計(jì)者在某個環(huán)境中設(shè)計(jì)實(shí)現(xiàn)某個特定目標(biāo)時忽略(通常忽略了很多)了環(huán)境中其它因素。「獎勵黑客行為」則是由于設(shè)計(jì)者為了最大化系統(tǒng)的使用而寫下了「簡單的」目標(biāo)函數(shù),但系統(tǒng)卻濫用了設(shè)計(jì)者的意圖(即:目標(biāo)函數(shù)可能會被?;ㄕ校?。

      第二,設(shè)計(jì)者可能知道正確的目標(biāo)函數(shù),或至少有方法評估它,但頻繁進(jìn)行這樣的操作具有很高的成本,而有限樣本的推斷可能會導(dǎo)致有害行為?!缚蓴U(kuò)展的監(jiān)督(第 5節(jié))」討論了這個問題。

      第三,就算上面的問題得到了解決,設(shè)計(jì)者得到了合適的目標(biāo),但因?yàn)闆Q策所基于的訓(xùn)練數(shù)據(jù)不充分或很糟糕或所使用的模型不能充分表達(dá)實(shí)際情況。「安全探索(第 6節(jié))」討論了如何確保強(qiáng)化學(xué)習(xí)代理的探索行為不會導(dǎo)致負(fù)面或無法挽回的結(jié)果?!阜植甲兓ǖ?節(jié))」討論了如何在給出可能和訓(xùn)練數(shù)據(jù)非常不同的輸入時避免機(jī)器學(xué)習(xí)系統(tǒng)做出糟糕的決策(尤其是沉默和不可預(yù)知的錯誤決策)。

      為了將研究問題具體化,本論文引入了一個假想的清潔機(jī)器人,它的主要工作是使用常用的清潔工具打掃辦公室。下面我們應(yīng)用這個實(shí)例提出對上述挑戰(zhàn)的問題。

      避免不良負(fù)面影響:我們?nèi)绾未_保我們的清潔機(jī)器人在追求自己的目標(biāo)時不會以一種負(fù)面的方式擾亂周圍環(huán)境,比如打翻一個花瓶,這樣它就能更快地清潔?如果不能用人工的方式確定機(jī)器人不應(yīng)該做的事情,我們能做到避免不良影響嗎?

      避免獎勵黑客行為:怎么確保清潔機(jī)器人不會在它的獎勵函數(shù)上「?;ㄕ小??比如,如果我們的獎勵函數(shù)是當(dāng)該機(jī)器人清除了臟亂就獲得獎勵,它可能就會關(guān)閉其視覺部件,這樣它就看不見任何臟亂了;或者用它無法看穿的材料將臟亂部分蓋?。挥只蛘弋?dāng)有人類在周圍時躲起來,這樣人類就不能告訴它哪里臟亂了。

      可擴(kuò)展的監(jiān)督:我們可以怎樣確保該清潔機(jī)器人會考慮因?yàn)槌杀咎叨y以在訓(xùn)練過程中反復(fù)評估的目標(biāo)的各個方面?比如,它應(yīng)該扔掉不可能屬于任何人的東西,而放過那些可能屬于某人的東西(它應(yīng)該區(qū)別對待亂放的糖果包裝和亂放的手機(jī))。詢問人類他們是否丟掉了什么可以對其進(jìn)行檢查,但這種檢查必須要相對不那么頻繁——這個機(jī)器人能在有限的信息下找到正確做事的方法嗎?

      安全探索:我們怎么確保該清潔機(jī)器人不會做出有非常負(fù)面影響的探索?比如,該機(jī)器人應(yīng)該實(shí)驗(yàn)拖地策略,但將濕拖布放到電插頭上是件糟糕的事。

      針對分布變化的穩(wěn)健性:當(dāng)使用環(huán)境不同于訓(xùn)練環(huán)境時,我們?nèi)绾未_保該清潔機(jī)器人能穩(wěn)健地識別和行為?比如,其從清潔工廠車間中學(xué)到的啟發(fā),可能對辦公室環(huán)境來說可能是相當(dāng)危險(xiǎn)的。

      在解決這些安全問題上,有一些很重要的趨勢。

      一是強(qiáng)化學(xué)習(xí),其能與環(huán)境產(chǎn)生高度交織的相互作用。我們的一些研究問題可在強(qiáng)化學(xué)習(xí)中受益,另一些(分布變化和可擴(kuò)展監(jiān)督)則在強(qiáng)化學(xué)習(xí)的設(shè)置中會引起復(fù)雜度的上升。

      二是代理和環(huán)境的復(fù)雜度都在上升?!父弊饔谩垢赡茉趶?fù)雜環(huán)境中出現(xiàn),應(yīng)對這樣的環(huán)境的代理也必然需要相當(dāng)復(fù)雜。這方面的研究還較少,但未來必然會越來越多,也越來越重要。

      三是人工智能系統(tǒng)實(shí)現(xiàn)自動化的大趨勢。只存在于軟件層面的人工智能(做推薦或識別照片)造成潛在危害的可能性較小,隨著人工智能開始進(jìn)入物理世界,例如工業(yè)過程中的機(jī)器人,它們就可能會以某種人類無法糾正或監(jiān)管的方式帶來傷害。

      3.避免不良副作用

      對于在大型的多特性環(huán)境中工作的代理而言,只關(guān)注環(huán)境某一方面的目標(biāo)函數(shù)可能會讓其忽視環(huán)境的其它方面。代理會優(yōu)化自己的目標(biāo)函數(shù),從而可能導(dǎo)致對更大的環(huán)境產(chǎn)生重大的影響,而這樣做也許甚至只能為當(dāng)前任務(wù)提供一點(diǎn)微小的優(yōu)勢。換言之,描述「執(zhí)行任務(wù) X」的目標(biāo)函數(shù)可能會常常給出意料之外的結(jié)果,因?yàn)樵O(shè)計(jì)者的真正意思往往是「在環(huán)境的常識性限制條件下執(zhí)行任務(wù)X」或「執(zhí)行任務(wù)X但盡可能地避免副作用」。

      我們現(xiàn)在討論一些廣泛的應(yīng)對這個問題的方法:

      定義一個影響正則化矩陣(Regularizer):如果你不想要副作用,懲罰「對環(huán)境的改變」似乎是個很自然的方法。這個方法不能阻止代理產(chǎn)生影響,但能讓它以一種傾向于最小副作用的方式來實(shí)現(xiàn)目標(biāo)。這個方法的難點(diǎn)在于如何形式化「對環(huán)境的改變」。一個非常樸素的方法是懲罰當(dāng)前狀態(tài)si和某個初始狀態(tài)s0之間的狀態(tài)距離d(si,s0).但這種方法也會影響到有益的變化。

      稍微復(fù)雜一點(diǎn)的方法可能涉及到代理當(dāng)前策略下的未來狀態(tài)和行為非常被動的假設(shè)策略 π(如,機(jī)器人只是站著不動)下的未來狀態(tài)(或狀態(tài)分布)的比較。這種方法嘗試剔除環(huán)境演化的自然過程,僅留下來自代理的干預(yù)的變化。

      學(xué)習(xí)一個影響正則化矩陣:通過許多任務(wù)進(jìn)行學(xué)習(xí)比直接定義的方式更靈活。這是遷移學(xué)習(xí)( transferlearning)的一個實(shí)例。我們可以將副作用組分和任務(wù)組分分開,并用分別的參數(shù)訓(xùn)練它們。

      懲罰影響(PenalizeInfluence):除了避免做會產(chǎn)生副作用的事,我們也許更傾向于不讓代理處在容易那些有副作用的事的位置上。比如,我們可能希望清潔機(jī)器人不要把水帶進(jìn)滿是敏感電子器件的房間里,即使它從未打算在那個房間里使用水。

      有一些信息論的方法嘗試獲取一個代理潛在的對環(huán)境的影響,這常被用作內(nèi)在獎勵( intrinsicrewards)。也許這種方法中最好的是授權(quán)(empowerment)——代理的潛在未來動作和其潛在的未來狀態(tài)之間的最大可能的相互信息。作為內(nèi)部獎勵的授權(quán)通常是最大化的。通常情況下,授權(quán)最大化(empowerment-maximizing)的代理將它們放在對環(huán)境有最大影響的位置上。

      盡管還存在一些問題,授權(quán)(empowerment)的例子說明簡單的方法(甚至純粹的信息論方法)就能夠獲取對環(huán)境的影響的非常普遍的概念。探索能更精確獲取避免影響的概念的授權(quán)懲罰(empowermentpenalization)的變體是未來研究的一個潛在挑戰(zhàn)。

      多代理方法:我們要做的是了解其他代理(包括人類),并確保我們的行為不會傷害到它們。我們對此的一種方法是合作逆強(qiáng)化學(xué)習(xí)(Cooperative Inverse Rein for cement Learning),其中代理和人類合作以實(shí)現(xiàn)人類的目標(biāo)。但我們還遠(yuǎn)不能夠打造可以產(chǎn)生能避免意外的副作用的足夠豐富的模型的系統(tǒng)。

      另一種方法可能是獎勵自編碼器(reward autoencoder),這種方式嘗試推動某種形式的「目標(biāo)透明」,讓外部觀察者可以輕松推斷該代理想要做什么。

      獎勵不確定性:我們嘗試避免預(yù)料之外的副作用,因?yàn)槲覀兊沫h(huán)境已經(jīng)相當(dāng)好了——隨機(jī)的改變很可能會更糟。不是給代理一個單一的獎勵函數(shù),而是給其不確定的獎勵函數(shù),其帶有一個先驗(yàn)的概率分布,該分布反映了隨機(jī)改變更可能會是糟糕的,而不是更好的。

      可能的實(shí)驗(yàn):

      一個可能的實(shí)驗(yàn)是使用一些簡單的目標(biāo)(如移動一個方塊)和種類多樣的障礙(如一堆花瓶)制作玩具環(huán)境,然后測試代理是否能在沒有被明確告知地情況下避開這些障礙。為了確保我們不會過擬合,我們可能會想要在每一個片段都呈現(xiàn)一個不同的隨機(jī)障礙,然后看一個規(guī)范化的代理是否能學(xué)習(xí)系統(tǒng)性地避開這些障礙。一些在參考文獻(xiàn)[101]中描述的環(huán)境包含了熔巖流、房間和鑰匙,可能適合用于這樣的實(shí)驗(yàn)。如果我們可以成功在一個玩具環(huán)境中調(diào)制好代理,那么下一步就可以移到真實(shí)環(huán)境中——這里復(fù)雜度更高,負(fù)面副作用也會更多樣化。最終,我們想要副作用正則化矩陣(sideeffectregularizer,或多代理策略——如果我們采用那種方法)能夠成功轉(zhuǎn)移到一個全新的新應(yīng)用中。

      4.避免獎勵黑客行為

      想象一個代理在其獎勵函數(shù)中發(fā)現(xiàn)了緩存溢出(Bufferoverflow):它就可能使用其以一種無意識的方式獲得非常高的獎勵。從代理的視角上看,這不是漏洞,而只是環(huán)境的工作方式,也因此是一個獲得獎勵的可行策略。比如,如果一個清潔機(jī)器人通過清理臟亂獲得獎勵,它就可能故意創(chuàng)造臟亂來進(jìn)行清理以便獲得更多獎勵。更一般而言,形式上的獎勵或目標(biāo)函數(shù)是設(shè)計(jì)者非形式的意圖的體現(xiàn),而有時候解決方案可能會以非設(shè)計(jì)者意圖的字面上的理解而在這些目標(biāo)函數(shù)或它們的實(shí)現(xiàn)中「耍花招」。對這些「獎勵黑客行為」的追求可能會導(dǎo)致一致但出乎意料的行為,這在真實(shí)世界系統(tǒng)中可能是有害的。

      有一些獎勵黑客行為(rewardhacking)已經(jīng)在理論上被調(diào)查過了。獎勵黑客行為跨很多領(lǐng)域,說明獎勵黑客行為是一個深度的常見的問題,隨著代理所應(yīng)對的環(huán)境越來越復(fù)雜,這種情況也會越來越顯著。下面是幾種這個問題可能發(fā)生的方式:

      部分可觀察的目標(biāo):在真正世界的任務(wù)中,往往涉及到將外部世界引進(jìn)某種目標(biāo)狀態(tài),這往往只能通過代理的不完善的看法確定。因?yàn)榇砣狈θ蝿?wù)表現(xiàn)的完美測量,設(shè)計(jì)者只能設(shè)計(jì)片面的或不完善的測量。而代理就可能會曲解這種片面性。

      復(fù)雜系統(tǒng):任何一個強(qiáng)大的代理都是一個帶有目標(biāo)函數(shù)的復(fù)雜系統(tǒng)。系統(tǒng)越復(fù)雜,漏洞出現(xiàn)的可能性就越高。

      抽象獎勵:復(fù)雜的獎勵函數(shù)需要指向抽象的概念(例如評估一個概念化的目標(biāo)是否被實(shí)現(xiàn)。這些概念可能需要通過神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí),而其在對抗性的反例面前是脆弱的。

      環(huán)境嵌入(Environmental Embedding):在強(qiáng)化學(xué)習(xí)形式中,獎勵被認(rèn)為來自于環(huán)境。這個概念通常不能在字面上理解,但獎勵確實(shí)需要在某些地方進(jìn)行計(jì)算,例如傳感器或一組晶體管中。足夠廣泛的工作中大代理原則上可以修改他們的獎勵實(shí)現(xiàn),「依法」分配給它們自己高獎勵。實(shí)際上這意味著我們不能構(gòu)建一個抽象目標(biāo)函數(shù)的完美可信的實(shí)現(xiàn),因?yàn)榇嬖谔囟ǖ膭幼餍蛄惺鼓繕?biāo)函數(shù)可在物理上被替代。當(dāng)人類處于獎勵回路中時,這種情況尤其令人擔(dān)憂,因?yàn)榇砜赡軙榱烁叩莫剟疃{迫或傷害他們。

      古德哈特定律(Goodhart‘slaw):如果設(shè)計(jì)者選擇一個看起來和實(shí)現(xiàn)目標(biāo)高度關(guān)聯(lián)的目標(biāo)函數(shù),但當(dāng)該目標(biāo)函數(shù)被高度優(yōu)化時該關(guān)聯(lián)就會破裂,那么就可能出現(xiàn)獎勵黑客行為。比如設(shè)計(jì)者可能觀察到清潔機(jī)器人的清潔效果和其所使用的情節(jié)資源成正比;而如果將其作為獎勵手段,就可能消耗超過所需的資源。在經(jīng)濟(jì)學(xué)上,這被稱為古德哈特定律:「當(dāng)一個指標(biāo)變成目標(biāo),它將不再是一個好的指標(biāo)(whenametricisusedasatarget,itceasestobeagoodmetric)?!?/p>

      反饋回路:有時候目標(biāo)函數(shù)有一個強(qiáng)化自己的組分,最終能使其脫離設(shè)計(jì)者設(shè)計(jì)的目標(biāo)函數(shù)范圍。

      在今天的簡單系統(tǒng)中這些問題可能還不會發(fā)生,就算發(fā)生也很容易得到解決。但隨著獎勵函數(shù)和代理的系統(tǒng)復(fù)雜度的上升,問題會越來越嚴(yán)重。一旦一個代理開始控制自己的獎勵函數(shù)并尋找獲得獎勵的簡單方法,它就不會停止。長時間運(yùn)行的代理可能還會有額外的挑戰(zhàn)。這里我們提出了一些初步的、基于機(jī)器學(xué)習(xí)的防止獎勵黑客行為的方法:

      對抗性獎勵函數(shù)(Adversarial Reward Functions):如果獎勵函數(shù)有自己的代理并能采取行動探索環(huán)境,那么它可能就難以被愚弄。

      模型預(yù)測(Model Lookahead):在一些設(shè)置中,我們可以基于預(yù)測的未來狀態(tài),而不是當(dāng)前狀態(tài),提供獎勵。

      對抗性致盲(Adversarial Blinding):對抗性技術(shù)可用來讓模型無法看到一些特定的參數(shù),從而讓代理無法理解世界的某些部分,如果這部分和獎勵相關(guān),它就不能理解獎勵生成的方式。

      細(xì)心的工程開發(fā):像緩存溢出(bufferoverflow)這樣的獎勵黑客行為可以在細(xì)心的工程開發(fā)中被發(fā)現(xiàn)并得到解決。

      獎勵覆蓋(Reward Capping):在一些情況下,簡單地覆蓋最大可能的獎勵就可能得到一個高效的解決方案。但盡管覆蓋能阻止一些低可能性的高獎勵策略,但卻不能阻止清潔機(jī)器人閉上眼睛不看臟亂的情況。另外,正確的覆蓋策略也很微妙。

      反例阻抗(Counterexample Resistance):如果我們擔(dān)憂我們系統(tǒng)的組分在對抗性反例是脆弱的,我們可以用對抗性訓(xùn)練(adversarialtraining)等已有的研究來對付它。架構(gòu)決策和權(quán)重不確定性可能也有用。

      多獎勵:多個獎勵的組合可能會更加穩(wěn)健,難以被操控。

      獎勵預(yù)訓(xùn)練:針對代理可能影響自己的獎勵函數(shù)的情況(如反饋和環(huán)境嵌入),可以事先訓(xùn)練一個固定的獎勵函數(shù),因?yàn)橐粋€監(jiān)督學(xué)習(xí)過程可以將與環(huán)境的交互分開。

      絆線(tripwires):如果一個代理嘗試操控自己的獎勵函數(shù),我們最好能知道這一點(diǎn)。我們可以故意引入一些可用的漏洞來監(jiān)控它們,一旦出現(xiàn)問題,我們就可以馬上阻止。

      完全解決這個問題是很困難的,但我們相信上面的方法能夠改善它,也可能結(jié)合起來產(chǎn)生更穩(wěn)健的解決方案。

      可能的實(shí)驗(yàn):

      一種可能的方法路徑是參考文獻(xiàn) 中描述的delusionbox環(huán)境的更現(xiàn)實(shí)的版本,其中標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)代理扭曲它們自身的感知以表現(xiàn)能實(shí)現(xiàn)高獎勵,而不是優(yōu)化獎勵信號是用來起激勵作用的外部世界中的目標(biāo)。delusionbox可以輕松連接到任何強(qiáng)化學(xué)習(xí)環(huán)境,但更有價(jià)值的是創(chuàng)造不同種類的環(huán)境,其中delusionbox是一個自然的集成化的動態(tài)組件。比如,在足夠豐富的物理學(xué)模擬中,一個代理很有可能會修改其近鄰處的光波,從而扭曲自己的感知。這里的目標(biāo)是開發(fā)一種可概括的學(xué)習(xí)策略,使之能在各種廣泛的環(huán)境中優(yōu)化外部目標(biāo),同時還能避免被以多種不同方式自然產(chǎn)生的delusionbox愚弄。

      5.可擴(kuò)展的監(jiān)督

      考慮到讓一個自動代理完成一些復(fù)雜的任務(wù),比如我們經(jīng)常使用機(jī)器人清掃辦公室,我們可能想要這個代理最大化能完成的復(fù)雜目標(biāo),像是「如果用戶花費(fèi)幾個小時詳細(xì)地查看結(jié)果,那他們對代理的表現(xiàn)有多高興呢?」但我們沒有足夠時間為每一個訓(xùn)練樣本提供這樣的監(jiān)督。為了實(shí)際地訓(xùn)練代理,我們需要依靠廉價(jià)的近似結(jié)果,像是「當(dāng)用戶看到辦公室時看起來會高興嗎?」或者「地板上有可見的灰塵嗎?」這些廉價(jià)的信號在訓(xùn)練的過程中能被高效地評估,但并非完美的達(dá)到我們想要的成果。這種發(fā)散加重了意外副作用(這可能被復(fù)雜目標(biāo)適當(dāng)?shù)膽土P,但也可能從廉價(jià)近似中漏掉)和 rewardhacking(完全的監(jiān)督可能認(rèn)為是不受歡迎的)這樣的問題。我們可能通過找到更多開拓有限監(jiān)督預(yù)算的有效方式來減緩這樣的問題,例如將真目標(biāo)函數(shù)的有限調(diào)用(limitedcall)與我們給定的或能學(xué)到的一個不完美代理(proxy)的高頻調(diào)用結(jié)合起來。

      一個有關(guān)這一問題的框架是半監(jiān)督強(qiáng)化學(xué)習(xí),它類似于普通的強(qiáng)化學(xué)習(xí),除了代理僅能在時間步驟或片段的一小部分上看到其獎勵。代理的性能依然是基于所有片段的獎勵進(jìn)行評估的,但它必須要基于它能看到的有限獎勵樣本對其進(jìn)行優(yōu)化。

      我們能夠想象很多半監(jiān)督強(qiáng)化學(xué)習(xí)的可能途徑,例如:

      監(jiān)督式獎勵學(xué)習(xí)(Supervisedreward learning):訓(xùn)練一個模型從每一個時間步驟基礎(chǔ)或每一個片段基礎(chǔ)狀態(tài)預(yù)測回報(bào),然后用其估算非標(biāo)記片段的報(bào)酬,一些適當(dāng)?shù)臋?quán)重或不確定的評估在估算回報(bào)vs已知回報(bào)中,會被當(dāng)成低置信度。研究把人類的直接反饋?zhàn)鳛榛貓?bào)的版本時,很多已有的強(qiáng)化學(xué)習(xí)方法已經(jīng)擬合類似回報(bào)預(yù)測器的評估器(estimator)了(尤其帶有強(qiáng)基線的策略梯度方法),這表明這一方法有顯著的可行性。

      半監(jiān)督或者主動獎勵學(xué)習(xí): 將上面的方法和傳統(tǒng)的半監(jiān)督或者主動學(xué)習(xí)結(jié)合起來,能更快的學(xué)習(xí)獎勵估計(jì)量。例如,代理能學(xué)習(xí)識別環(huán)境中的「salient」事件,并要求查看關(guān)于這些事件的獎勵。

      無監(jiān)督值迭代:使用觀測到的無標(biāo)記片段的轉(zhuǎn)變( transitons)做更加準(zhǔn)確的Bellman修正(update)。

      無監(jiān)督模型學(xué)習(xí):如果使用基于模型的強(qiáng)化學(xué)習(xí),可以用觀測到的無標(biāo)記片段的轉(zhuǎn)變改善模型的質(zhì)量。

      半監(jiān)督強(qiáng)化學(xué)習(xí)的一個有效途徑可能是朝著提供可擴(kuò)展的監(jiān)督和減緩其他人工智能安全問題之路上邁出的強(qiáng)有力的第一步。這也可能有助于強(qiáng)化學(xué)習(xí),使其不受安全相關(guān)問題的約束。這里還有其他擴(kuò)展監(jiān)督的可能途徑。

      遠(yuǎn)程監(jiān)督。除了提供對一小部分系統(tǒng)決策的評估,我們也能提供一些與集群中系統(tǒng)決策有關(guān)的有用信息,或提供一些關(guān)于準(zhǔn)確評估的噪聲暗示。在半監(jiān)督或弱監(jiān)督學(xué)習(xí)領(lǐng)域,這個方向已經(jīng)有了一些研究。這一普通的方法總被稱為遠(yuǎn)程監(jiān)督(distantsupervision),它在自然語言處理社區(qū)近期也受到了關(guān)注。擴(kuò)展這些研究的線路以及尋找將其應(yīng)用到代理案例中的方法(這里的反饋更具交互性,也可能違反了i.d.d假設(shè)),能為可擴(kuò)展監(jiān)督提供一個途徑,補(bǔ)充半監(jiān)督強(qiáng)化學(xué)習(xí)中的監(jiān)督途徑。

      分層強(qiáng)化學(xué)習(xí)。分層強(qiáng)化學(xué)習(xí)為可擴(kuò)展監(jiān)督提供了另一途徑。這里,一個頂層代理花費(fèi)相當(dāng)小量的,在大型時間、空間規(guī)模上擴(kuò)展的高度抽象的動作,并能在相似長度的時間規(guī)模上獲取獎勵。代理通過將動作委派給子代理完成全部動作,它能給予一個合成的獎勵信號作為鼓勵,代表這一動作的準(zhǔn)確完成,而且它們自己也能委任下一級子代理。在最低層,代理會直接采用環(huán)境中最原始的動作??雌饋恚謱訌?qiáng)化學(xué)習(xí)是一個特別有前途的監(jiān)督途徑,特別是在將分層強(qiáng)化學(xué)習(xí)的思路和神經(jīng)網(wǎng)絡(luò)函數(shù)逼近器結(jié)合起來之后。

      可能的實(shí)驗(yàn)

      一個非常簡單的實(shí)驗(yàn)可能是在一些基礎(chǔ)控制環(huán)境中嘗試半監(jiān)督強(qiáng)化學(xué)習(xí),比如 ,cartpolebalance或者pendulumswing-up。如果只有隨機(jī)的10%的片段上的獎勵被提供,我們?nèi)阅芟氡惶峁┤科文菢涌焖俚膶W(xué)習(xí)嗎?在這樣的任務(wù)中,獎勵結(jié)構(gòu)非常的簡單,所以成果也應(yīng)該相當(dāng)類似。下一步可能就是在Atari游戲上做同樣的嘗試。這里主動學(xué)習(xí)案例可能相當(dāng)有趣,可能從少數(shù)精心要求的樣本(例如,在太空侵略者游戲中,所有的敵方艦隊(duì)全被炸掉的畫面)就能推斷出獎勵結(jié)構(gòu),因此能以幾乎全部非監(jiān)督的方式學(xué)習(xí)玩游戲。再下一步可能就是嘗試帶有更加復(fù)雜獎勵結(jié)構(gòu)的任務(wù),無論是模擬還是在現(xiàn)實(shí)中嘗試。如果是有效數(shù)據(jù)足夠的學(xué)習(xí),那這些獎勵可能會由人類直接提供。機(jī)器人運(yùn)動或工業(yè)控制任務(wù)可能是做這些試驗(yàn)的天然候選選擇。

      6.安全探索

      有時,所有的自動化學(xué)習(xí)代理都需要進(jìn)行探索,根據(jù)給定的當(dāng)前信息,采取一些看起來并不理想的行動,但是,這些行動將有助于代理從環(huán)境中進(jìn)行學(xué)習(xí)。不過,探索總是帶有風(fēng)險(xiǎn),畢竟代理并不十分了解行動后果。在游戲的環(huán)境下,比如玩雅達(dá)利游戲,后果的負(fù)面影響有限。但是,在真實(shí)世界,后果可能不堪設(shè)想。比如,機(jī)器人直升機(jī)可能會撞擊地面,毀壞財(cái)物;工業(yè)控制系統(tǒng)的會引發(fā)更嚴(yán)重的后果。

      通常的探索策略,比如ε—貪心算法或者R-max,會隨機(jī)選擇行動或者樂觀看待尚未探索過的行動,不會努力避免那些危險(xiǎn)情境。更成熟的探索策略采取了一種前后一致的探索策略,可能會造成更大的危害,因?yàn)榍昂筮B貫地選擇糟糕策略會比純粹的隨機(jī)行動更陰險(xiǎn)。不過,從直覺上來說,似乎應(yīng)該能經(jīng)常預(yù)測行動的危險(xiǎn)性并以避免危險(xiǎn)的方式行動,即使系統(tǒng)關(guān)于環(huán)境的知識并不完備。比如,只需一點(diǎn)有關(guān)老虎的先驗(yàn)知識(不用買只老虎,讀本關(guān)于老虎的書就可以了),就能決定哪個選擇更安全。

      實(shí)踐中,真實(shí)世界的強(qiáng)化學(xué)習(xí)項(xiàng)目時??梢员苊膺@些問題,辦法就是簡單硬編碼避免災(zāi)難性行為。不過,這種解決方案奏效的前提是:出錯的事情不多,而且設(shè)計(jì)人員提前知曉所有這些事情。當(dāng)代理變得越來越自動,行動領(lǐng)域越來越復(fù)雜,我們就很難清晰預(yù)測出每一個可能發(fā)生的災(zāi)難性失敗。比如,運(yùn)行電網(wǎng)或者進(jìn)行搜索營救的代理,其失敗節(jié)點(diǎn)空間會非常大,通過硬編碼來應(yīng)對所有可能的失敗在這些類情況中并不可行。因此,關(guān)鍵是找到一條更加原則性的辦法來預(yù)防有害探索行為。即使在諸如機(jī)器人直升機(jī)這樣簡單的案例中,一個原則性辦法也會簡化系統(tǒng)設(shè)計(jì),減少對特定領(lǐng)域工程學(xué)的需要。

      目前,這方面的研究最多。這里,僅簡單描述一下這些研究所采用的一般研究路線,也建議了一些研究方向,隨著強(qiáng)化學(xué)習(xí)應(yīng)用范圍的擴(kuò)大和功能的提升,這些研究方向會變得日益相關(guān)。

      風(fēng)險(xiǎn)-敏感性表現(xiàn)標(biāo)準(zhǔn)(Risk-Sensitive Per formance Criteria):考慮改變優(yōu)化標(biāo)準(zhǔn)。

      使用示范(Use Demonstrations):近期在使用深度神經(jīng)網(wǎng)絡(luò)逆強(qiáng)化學(xué)習(xí)來學(xué)習(xí)成本函數(shù)或策略的研究中所取得的進(jìn)展表明,只用一小組示范進(jìn)行訓(xùn)練,就有可能減少對先進(jìn)強(qiáng)化學(xué)習(xí)系統(tǒng)探索行為的需求。這樣的示范可被用來創(chuàng)造基線策略,即使需要進(jìn)行更為深入的學(xué)習(xí),離開基線策略的探索也可以被限制在一定量級內(nèi)。

      模擬探索(Simulated Exploration):如果可以在模擬環(huán)境中進(jìn)行更多的探索,那么,留給災(zāi)難的機(jī)會也就更少。

      界限內(nèi)探索(Bounded Exploration:):如果我們知道狀態(tài)空間的某個部分是安全的,也知道發(fā)生在其中最糟糕的行動也能得以恢復(fù),或者說造成的損失也是有限的,我們就能允許代理在那些邊界之內(nèi)自由運(yùn)行。

      信任策略監(jiān)督( Trusted Policy Oversight):如果有一個信任的策略以及一個環(huán)境模型,我們就可以將探索限制在信任策略認(rèn)為我們可以從中得以恢復(fù)的那些行動上。

      人類監(jiān)督(Human Oversight):讓人來監(jiān)管潛在的不安全行為。

      可能的實(shí)驗(yàn)

      有一整套玩具環(huán)境可能會有幫助,在那里粗心代理可能會成為有害探索的犧牲品,但是那里有足夠的可能發(fā)生的災(zāi)難的圖案,聰明代理便可以預(yù)防它們。在一定程度上,這個特征已經(jīng)存在于無人直升機(jī)比賽和火星漫游模擬器,但是仍有特殊災(zāi)難的風(fēng)險(xiǎn),以致于訓(xùn)練過的代理會過擬合它們。一個真正廣泛的,包括概念上明顯陷阱的(可能導(dǎo)致粗心代理接收非常負(fù)面的獎勵),并覆蓋實(shí)質(zhì)和抽象災(zāi)難的環(huán)境集,可能幫助高級強(qiáng)化學(xué)習(xí)系統(tǒng)安全探索技術(shù)的開發(fā)。這樣一套環(huán)境可能有與bAbI任務(wù)相似的基準(zhǔn)測試作用,它的最終目標(biāo)是發(fā)展一個可以在全套環(huán)境中學(xué)習(xí)避免災(zāi)難的單一構(gòu)架。

      7.針對分布變化的魯棒性(Robustnesstodistributionalshift)

      我們經(jīng)常會遇到這樣的情況,有限的經(jīng)驗(yàn)不足以應(yīng)對新情況,比如,去一個與自己生長環(huán)境文化截然不同的國家旅行。這種情況通常不容易搞定,也容易導(dǎo)致一些錯誤。解決問題(當(dāng)然,很少有人可以做到)的關(guān)鍵之一就是承認(rèn)自己的無知,而不是過于自信地認(rèn)為先前的那些直覺可以勝任解決新情況。機(jī)器學(xué)習(xí)也存在這樣的問題。比如,打掃工廠地板的清潔機(jī)器人未必適用辦公室環(huán)境。也就是說,當(dāng)測試分布不同于訓(xùn)練分布時,機(jī)器學(xué)習(xí)系統(tǒng)不僅表現(xiàn)很糟糕,而且還誤認(rèn)為自己表現(xiàn)不錯。

      這些誤差可能會有害或者冒犯他人。比如,一個語言模型如果過于自信文本不存在問題,就有可能輸出冒犯他人的文本。而對于那些自動化代理來說,潛在危害可能更大。比如,如果不正確地(但非常自信地)認(rèn)為某個地區(qū)電力不足,自動化代理就會超載電網(wǎng)。更廣泛地來看,任何察知或啟發(fā)式推力過程的訓(xùn)練,沒有基于正確的分布,這樣的打理可能會錯誤理解局勢,犯下錯誤,而自己根本沒意識到行為的危害。另外,如果那些系統(tǒng)遇到了迥然不同于訓(xùn)練數(shù)據(jù)的真實(shí)世界數(shù)據(jù),依賴訓(xùn)練過的機(jī)器學(xué)習(xí)系統(tǒng)的安全檢查也可能默默地失靈。對于打造安全、可預(yù)測的系統(tǒng)來說,找到一個更好的預(yù)測這些失敗的辦法、確保失敗發(fā)生頻率的統(tǒng)計(jì)可靠性,似乎非常關(guān)鍵。

      有各種領(lǐng)域都與這一問題潛在相關(guān),包括改變偵測和異常檢測、假設(shè)檢驗(yàn)、遷移學(xué)習(xí)等。不過,這里只描述幾個樣本方法,并指出這些方法的優(yōu)點(diǎn)和面臨的問題。

      規(guī)定好的模型:協(xié)變量變化以及邊際可能性(Well-specifiedmodels:covariateshiftandmarginallikelihood)。

      部分規(guī)定好模型:矩量法,無監(jiān)督風(fēng)險(xiǎn)評估,因果識別以及有限信息最大化可能性(Partiallyspecifiedmodels:methodofmoments,unsupervisedriskestimation,causalidentification,andlimited-informationmaximumlikelihood)。

      用多個分布進(jìn)行訓(xùn)練(Trainingonmultipledistributions)。

      離開分布時,如何響應(yīng)(Howtorespondwhenout-of-distribution)。

      一個統(tǒng)一的觀點(diǎn):反事實(shí)推理以及帶有合同的機(jī)器學(xué)習(xí)(Aunifyingview:counterfactualreasoningandmachinelearningwithcontracts)。在某個意義上,分布變化可被視為一種特殊的反事實(shí),因此,了解了反事實(shí)推理就可能幫助打造面對分布變化也能穩(wěn)定的系統(tǒng)。另外,人們可能想構(gòu)建一個符合定義好的行為合同的機(jī)器學(xué)習(xí)系統(tǒng),類似設(shè)計(jì)軟件系統(tǒng)。

      總結(jié):

      部署在新測試分布中,表現(xiàn)也穩(wěn)定理想,打造這樣一種機(jī)器學(xué)習(xí)系統(tǒng)的方法各種各樣。其中一組方法就是以假定一個規(guī)定好的模型(well-specifiedmodel)為基礎(chǔ)的;在這種情況下,主要障礙是很難在實(shí)踐中打造出規(guī)定好的模型,也很難偵測到模型被錯誤規(guī)定時的情況。

      另一組方法就是只假設(shè)一個部分規(guī)定好的模型(apartiallyspecifiedmodel);這個方法有前途,不過目前正苦于沒有在機(jī)器學(xué)習(xí)語境中展開研究,因?yàn)榇蠖鄶?shù)歷史研究都位于計(jì)量經(jīng)濟(jì)學(xué)領(lǐng)域;另外,也有這樣一個問題,部分規(guī)定好的模型是否從根本上受限于簡單情況以及/或者保守預(yù)測,它們能否有意義地?cái)U(kuò)展到復(fù)雜情境當(dāng)中,這些復(fù)雜情境是現(xiàn)代機(jī)器學(xué)習(xí)應(yīng)用所要求的。

      最后,一個人可以試著在多個分布訓(xùn)練上進(jìn)行訓(xùn)練,希望同時在多個訓(xùn)練分布上表現(xiàn)良好的模型也能在新測試分布中表現(xiàn)良好;對于這一方法來說,特別重要的就是用迥然不同于任何一套訓(xùn)練分布的分布給所掌握的模型進(jìn)行應(yīng)激測試。除此之外,系統(tǒng)能夠預(yù)測出輸入太異常以至于無法進(jìn)行好的預(yù)測的時點(diǎn),仍然很重要。

      可能的實(shí)驗(yàn)

      當(dāng)離開分布時,語音系統(tǒng)的校準(zhǔn)表現(xiàn)總是很糟糕,因此,一個知道「什么時候自己無法確定」的語音系統(tǒng)就有可能成為一個示范項(xiàng)目。這一項(xiàng)目的挑戰(zhàn)在于:用標(biāo)準(zhǔn)數(shù)據(jù)集來訓(xùn)練最先進(jìn)的語音系統(tǒng),讓其在其他測試數(shù)據(jù)集上(比如嘈雜并帶有口音的語音數(shù)據(jù)集)得到良好校準(zhǔn)過的結(jié)果。當(dāng)前系統(tǒng)不僅在這些測試集中表現(xiàn)糟糕,而且經(jīng)常對不正確的轉(zhuǎn)錄過分自信。解決這類問題而不損及最初訓(xùn)練集上的表現(xiàn),會是一項(xiàng)非常重要的成就,顯然,也相當(dāng)具有實(shí)踐價(jià)值。對于設(shè)計(jì)出能前后一致預(yù)測出其在異常測試分布中的表現(xiàn)的系統(tǒng)來說,也會非常有價(jià)值。如果一個單獨(dú)的方法論會在任何任務(wù)中前后一致地實(shí)現(xiàn)這一點(diǎn),那么,人們會越發(fā)自信:這是個解決異常輸入問題的可靠辦法。最后,它對創(chuàng)造這樣一個環(huán)境也很有價(jià)值:其中,強(qiáng)化學(xué)習(xí)代理必須學(xué)會解釋語音(某些更大任務(wù)的一部分),以及探索如何適當(dāng)響應(yīng)自身對轉(zhuǎn)錄誤差的估測。

      8.相關(guān)努力

      前文主要關(guān)注的是機(jī)器學(xué)習(xí)社區(qū)的事故研究情況,但是,其他幾個社區(qū)也有做著與人工智能安全有關(guān)的工作。比如,網(wǎng)絡(luò)-物理系統(tǒng)社區(qū),未來主義社區(qū)以及其他一些呼吁關(guān)注人工智能安全問題的文件。

      很多研究人員(無論是機(jī)器學(xué)領(lǐng)域還是其他領(lǐng)域)已經(jīng)開始思考人工智能技術(shù)的社會影響。出了直接從事事故研究,也有關(guān)注其他主題的研究,這些研究主題都與事故研究存在交叉的地方,或者說,彼此相關(guān)。這些主題包括(但不限于):隱私、公平(不歧視)、濫用、透明以及政策問題。

      9.結(jié)論

      這篇論文分析了機(jī)器學(xué)習(xí)系統(tǒng)可能發(fā)生的意外事件,而且特別分析了強(qiáng)化學(xué)習(xí)代理,其中,一次意外事故被定義為意外且具有害的行為,真實(shí)世界中的人工智能系統(tǒng)設(shè)計(jì)上的問題可能會引發(fā)這種有害行為。我們提出了五個可能與事故風(fēng)險(xiǎn)有關(guān)的研究問題,而且每個問題,我們都討論了可能的解決方案,這些解決方案都要經(jīng)得起實(shí)驗(yàn)工作的檢驗(yàn)。

      估測更大事故的風(fēng)險(xiǎn)就更困難了,但是我們相信研發(fā)一個原則性的、前瞻性的方法來解決安全問題是值得的,也是審慎的,隨著自動化系統(tǒng)日益強(qiáng)大,安全問題會繼續(xù)與之密切相關(guān)。盡管許多當(dāng)下的安全問題能夠而且已經(jīng)以個案方式加以解決,但是,我們相信,日趨流行的端到端、全自動化系統(tǒng)會指向這一需求:用一個統(tǒng)一的解決方案來防止這些系統(tǒng)引發(fā)意外傷害。

     

    (審核編輯: 滄海一土)

    聲明:除特別說明之外,新聞內(nèi)容及圖片均來自網(wǎng)絡(luò)及各大主流媒體。版權(quán)歸原作者所有。如認(rèn)為內(nèi)容侵權(quán),請聯(lián)系我們刪除。