世界快播：AGI時(shí)代，如何避免人類(lèi)危機(jī)？

來(lái)源：不二科技精選 2023-06-25 10:51:37

本文來(lái)自微信公眾號(hào)：XYY的讀書(shū)筆記（ID：xiaoyanyan00002），作者：肖儼衍，題圖：由Midjourney生成

(資料圖)

AGI（Artificial general intelligence，通用人工智能）時(shí)代的曙光帶來(lái)的不僅是新技術(shù)的興奮，還有潛在人類(lèi)危機(jī)?！叭绻鸄GI比人類(lèi)還智能，未來(lái)還有斷電的方法”。聽(tīng)起來(lái)好像很有道理，如果AGI比人類(lèi)智能，其一定知道自己的弱點(diǎn)，從而避免人類(lèi)打擊它的弱點(diǎn)。由此，這個(gè)方法很可能是不可行的。

本篇，我們聚焦應(yīng)該如何設(shè)計(jì)AGI系統(tǒng)從而避免其對(duì)人類(lèi)生存構(gòu)成基本危機(jī)，避免我們成為猿猴第二（孵化了人類(lèi)，但自己卻成了“玩偶”）。反言之，忽略了這個(gè)問(wèn)題的AGI路線，要不被人類(lèi)叫停，要不就會(huì)成為巨大風(fēng)險(xiǎn)。

《Human Compatible》這本書(shū)的作者Stuart Russell是UC Berkeley大學(xué)的計(jì)算機(jī)系教授，也是著名人工智能教材《Artificial Intelligence: A modern approach》的作者，這本書(shū)寫(xiě)作于2019年，GPT還沒(méi)出來(lái)，但其從智能的定義談起，談到作者對(duì)于AGI風(fēng)險(xiǎn)的辯論，并且提出了一套可行的設(shè)計(jì)框架，值得一看。

引子：AGI時(shí)代的隱憂

設(shè)想五個(gè)場(chǎng)景，你認(rèn)為哪個(gè)會(huì)是人類(lèi)歷史上最大的事情？

1. 由于其他行星撞擊等事件，人類(lèi)滅亡；

2. 人類(lèi)獲得永生；

3. 我們發(fā)明了超越光速的飛行器，征服了宇宙；

4. 外星人來(lái)臨；

5. 我們發(fā)明了超級(jí)人工智能AGI。

作者看來(lái)，第五個(gè)應(yīng)該是對(duì)人類(lèi)文明最大影響因素，其可能帶來(lái)非線性階躍，其包含了1-4事件能夠給人類(lèi)帶來(lái)所有可能性——永生、毀滅、征服等，甚至可能是人類(lèi)歷史上最后一個(gè)事件。AGI時(shí)代是否很快就會(huì)到來(lái)？這一點(diǎn)幾乎很難預(yù)測(cè)，就像人類(lèi)發(fā)明原子彈的歷史，1933年諾貝爾化學(xué)獎(jiǎng)得主盧瑟福（Rutherford）說(shuō)：“任何從原子轉(zhuǎn)換中獲取能量的想法都是天方夜譚”。然而，6年后，1939年，第一個(gè)原子彈類(lèi)型武器專(zhuān)利在法國(guó)發(fā)布。

智能的定義。“越智能越好”是AI時(shí)代發(fā)展的基本綱要，然而智能的定義到底是什么？人類(lèi)智能的核心是我們能夠基于我們的目標(biāo)采取相應(yīng)的行動(dòng)。類(lèi)似的，對(duì)于機(jī)器智能，我們也可以采取類(lèi)似的目標(biāo)和行動(dòng)關(guān)聯(lián)關(guān)系的定義。

然而，機(jī)器的目標(biāo)和人類(lèi)的目標(biāo)如何對(duì)齊，卻成為AGI發(fā)展過(guò)程中最核心的問(wèn)題和風(fēng)險(xiǎn)來(lái)源，如果機(jī)器的行為基于實(shí)現(xiàn)機(jī)器的目標(biāo)，而這個(gè)目標(biāo)與人類(lèi)的目標(biāo)相違背，那就可能是災(zāi)難。當(dāng)然，你可以簡(jiǎn)單將這個(gè)目標(biāo)替換為人類(lèi)的目標(biāo)，也即機(jī)器的目標(biāo)是實(shí)現(xiàn)人類(lèi)的目標(biāo)，然而，人類(lèi)自己是否真正知道自己的目標(biāo)？我是誰(shuí)，我來(lái)自哪里，我要去何方，幾乎是人類(lèi)哲學(xué)要解決的終極問(wèn)題。由于人類(lèi)的復(fù)雜性，目標(biāo)對(duì)齊本身也充滿復(fù)雜性。

一、簡(jiǎn)述人類(lèi)的智能和機(jī)器的智能

人類(lèi)智能進(jìn)化歷史

正如前文所言，一個(gè)智能主體核心定義是，基于其感知能力，其能夠基于目標(biāo)做出對(duì)應(yīng)行動(dòng)。從這個(gè)角度，一個(gè)細(xì)菌能夠感知外界環(huán)境，做出相應(yīng)反應(yīng)，其是智能的。

下一步是神經(jīng)系統(tǒng)誕生，神經(jīng)能夠通過(guò)突觸快速傳播電信號(hào)，且通過(guò)不斷學(xué)習(xí)調(diào)整參數(shù)，神經(jīng)系統(tǒng)可以培養(yǎng)行動(dòng)習(xí)慣集合，此后大腦誕生。實(shí)際上，對(duì)大腦底層機(jī)制的研究就是人工智能的底層機(jī)制，而我們科學(xué)研究的進(jìn)展目前也僅限于大腦神經(jīng)結(jié)構(gòu)的理解，而對(duì)學(xué)習(xí)、認(rèn)知、記憶、推理、計(jì)劃等一系列行為機(jī)制理解很有限——基本靠猜。

大腦反饋系統(tǒng)也廣為人知，大腦傾向于對(duì)一些增加多巴胺釋放的行為進(jìn)行重復(fù)（比如吃甜食，比如別人的夸獎(jiǎng)），反之則避免一些讓你感到痛苦的動(dòng)作。這種反饋系統(tǒng)和AI訓(xùn)練中的強(qiáng)化學(xué)習(xí)（Reinforcement Lerarning）機(jī)制類(lèi)似。生物進(jìn)化也和智能相關(guān)，DNA不斷迭代和交叉構(gòu)成物種進(jìn)化的核心機(jī)制（優(yōu)勝劣汰）。而文明傳承等行為則加速了人類(lèi)學(xué)習(xí)的過(guò)程（地球歷史上曾經(jīng)存在過(guò)1170億人類(lèi)，學(xué)習(xí)的時(shí)間就更多了）。

理性決策機(jī)制

簡(jiǎn)單來(lái)講，理性決策是權(quán)衡成功的確定性以及獲取的成本。比如，機(jī)會(huì)A是有20%概率獲得10美元；機(jī)會(huì)B是有5%概率獲得100美元。前者預(yù)期回報(bào)是2美元，后者是5美元，所以后者是更優(yōu)選擇。然而，這個(gè)邏輯并不能完全線性外推，比如機(jī)會(huì)A是100%獲得100萬(wàn)美元；機(jī)會(huì)B是1%概率獲得10億美元。大多數(shù)人可能會(huì)選擇機(jī)會(huì)A，因?yàn)閺男в茫║tility）角度來(lái)看，效應(yīng)和錢(qián)并不是線性關(guān)系，對(duì)大多數(shù)人100萬(wàn)美元效應(yīng)和10億美元不是1000倍的關(guān)系。

因此，理性決策機(jī)制又可以是最大化效用函數(shù)。效用理論有很多反對(duì)的聲音，比如有人覺(jué)得其將人類(lèi)決策動(dòng)機(jī)簡(jiǎn)化為自私和錢(qián)；也有人覺(jué)得這個(gè)效應(yīng)無(wú)法量化，令其很難計(jì)算——理性行為并不完全涉及到計(jì)算，比如遇到水，你會(huì)閉眼睛保護(hù)眼睛，其背后并沒(méi)有計(jì)算，但卻是理性行為；比如，理性決策的載體是什么，是人類(lèi)自身，還是家庭、部落等；最后，有很多數(shù)據(jù)證明，人類(lèi)的決策其實(shí)是非理性的。然而，雖然理性人的假設(shè)有很多問(wèn)題，我們?cè)跇?gòu)建AI系統(tǒng)時(shí)候卻可以假設(shè)人類(lèi)的偏好是具有一致性的，而對(duì)那些不一致的傾向和偏好，AI或許能夠容忍，但是卻很難被AI滿足（善變的部分）。

復(fù)雜的是社會(huì)

如果這個(gè)社會(huì)只有1個(gè)人和1臺(tái)機(jī)器，問(wèn)題可能容易得多。但問(wèn)題是，地球上有80億人類(lèi)，有數(shù)百個(gè)國(guó)家和更多民族和不同文化。人類(lèi)理性的決策將變得更加復(fù)雜，類(lèi)似博弈論（Game Theory，納什均衡）等的核心就是在多人情況下，人類(lèi)的理性決策會(huì)變得不同。

假設(shè)A和B在進(jìn)行踢點(diǎn)球的游戲，A是右腳運(yùn)動(dòng)員，其踢向右邊的成功率和概率要更高一點(diǎn)。B則需要提前對(duì)A踢球的方向進(jìn)行判斷才有可能撲出。這里面就會(huì)涉及到N層博弈可能性，第一層：“因?yàn)锳射向右邊概率更高，所以我撲向右邊?！保坏诙樱骸癆也知道我知道其更高概率會(huì)選擇右邊，所以他會(huì)選擇左邊”……無(wú)限循環(huán)。簡(jiǎn)單來(lái)講，如果A有理性決策能力，B肯定也知道，因此這個(gè)游戲根本就不存在理性決策（股市博弈基本如此）。

機(jī)器的智能，以及絕對(duì)理性無(wú)法實(shí)現(xiàn)

要實(shí)現(xiàn)AGI，第一步是定義機(jī)器智能，第二步是實(shí)現(xiàn)它。計(jì)算機(jī)是人類(lèi)第一個(gè)智能機(jī)器，雖然我們已經(jīng)習(xí)以為常。1936年圖靈提出了通用機(jī)器的概念——也就是機(jī)器不用分計(jì)算、翻譯等職能。最早的計(jì)算機(jī)每秒運(yùn)算是千次，到2019年超算計(jì)算機(jī)每秒計(jì)算達(dá)到10的18次方，這個(gè)速度和大腦計(jì)算能力差不多（大腦主要是并行計(jì)算），但是后者功耗只有前者百萬(wàn)分之一。

從計(jì)算能力角度，量子計(jì)算可能是未來(lái)提高算力潛在方向。一位MIT教授測(cè)算了筆記本尺寸電腦的物理計(jì)算極限——每秒10^51次計(jì)算。一方面是計(jì)算能力有上限，另一方面的世界的復(fù)雜性，也即一類(lèi)指數(shù)級(jí)別計(jì)算問(wèn)題無(wú)法用窮舉法粗暴解題。簡(jiǎn)單比如用三種顏色填充地圖，且接壤國(guó)家不同顏色問(wèn)題，如果國(guó)家主體有100萬(wàn)個(gè)，則需要2^1000次計(jì)算，如果用2019最先進(jìn)超算需要10^275年來(lái)計(jì)算，而宇宙歷史目前也只有10^10年。

由于世界的復(fù)雜性，我們應(yīng)該預(yù)期不管是人類(lèi)還是AGI，未來(lái)大概率都無(wú)法對(duì)每個(gè)問(wèn)題找到全局最優(yōu)解，更多只是找到局部最優(yōu)解，無(wú)法做到絕對(duì)理性。

顛覆圖靈測(cè)試——人工智能發(fā)展路徑歷史

識(shí)別機(jī)器智能著名的測(cè)試是圖靈測(cè)試——如果一個(gè)機(jī)器能夠欺騙人類(lèi)，說(shuō)明其已經(jīng)具備了超人的智能。然而圖靈測(cè)試一方面很難操作，另一方面如果機(jī)器發(fā)展的是另外一個(gè)智能體系（跟人類(lèi)不同）怎么辦呢？因此圖靈測(cè)試其實(shí)一直不是學(xué)界評(píng)價(jià)機(jī)器智能程度的核心方法。

最早的AI方法是基于邏輯規(guī)則——即將機(jī)器基于信號(hào)、既定目的的行為寫(xiě)出對(duì)應(yīng)的邏輯規(guī)則。到1980年代，簡(jiǎn)單基于邏輯規(guī)則的AI路線證明是不夠的——世界規(guī)則是無(wú)限的，基于概率論（貝葉斯）的路線開(kāi)始興起，開(kāi)啟了Modern AI時(shí)代——培養(yǎng)一個(gè)針對(duì)特定目標(biāo)的Agent，能夠根據(jù)輸入信號(hào)做出對(duì)應(yīng)決策。針對(duì)Agent培養(yǎng)，環(huán)境——目標(biāo)場(chǎng)景是否是連續(xù)，是否可觀察；目標(biāo)是否可操作；行動(dòng)是否可預(yù)測(cè)等等一系列因素，都可以定義AI場(chǎng)景本身的難度。

比如，訓(xùn)練AI打游戲就難度很高，在任何時(shí)點(diǎn)，AI可能有10^50次方個(gè)選擇（圍棋只有100個(gè)），強(qiáng)化學(xué)習(xí)等方法運(yùn)用已經(jīng)使得AI征服各種高難度游戲（比最頂級(jí)人類(lèi)玩家更厲害）。隨著AI征服越來(lái)越難的場(chǎng)景，其也積累越來(lái)越多能夠?qū)崿F(xiàn)AGI的技術(shù)和可能性，2023年GPT的橫空出世就是典型（作者寫(xiě)書(shū)的時(shí)候還沒(méi)出現(xiàn)）。關(guān)于AI具體發(fā)展歷史參見(jiàn)《【讀書(shū)】深度學(xué)習(xí)發(fā)展史：相信和看見(jiàn)》。

二、AGI何時(shí)來(lái)，會(huì)帶來(lái)什么影響？

AGI的路徑

AGI何時(shí)來(lái)是大家最關(guān)心的一個(gè)問(wèn)題，然而幾乎也無(wú)法回答的問(wèn)題。一方面，預(yù)測(cè)很容易錯(cuò)誤，例如前文說(shuō)的原子彈。1960年AI萌芽的時(shí)候，學(xué)術(shù)界主流觀點(diǎn)是AGI在20年內(nèi)就能實(shí)現(xiàn)。其次，AGI是否到來(lái)本身沒(méi)有明確界限和標(biāo)志，實(shí)際上，現(xiàn)在計(jì)算機(jī)已經(jīng)在很多維度超越了人類(lèi)。如果硬要預(yù)測(cè)，時(shí)間可能是5-500年（OpenAI的Altman說(shuō)是10年內(nèi)，且看吧）。

從AGI路線來(lái)看，作者認(rèn)為缺乏知識(shí)的模型一定不智能，而要學(xué)習(xí)知識(shí)最重要是掌握語(yǔ)言，因此如果一臺(tái)機(jī)器能夠理解人類(lèi)語(yǔ)言，其就能夠快速積累知識(shí)（GPT恰好就是這個(gè)路線，神預(yù)測(cè)）。然而，作者認(rèn)為這種路線可能面臨雞和蛋的問(wèn)題——因?yàn)槟憧偟挠悬c(diǎn)理解才能開(kāi)始積累知識(shí)，現(xiàn)在來(lái)看GPT幾乎把語(yǔ)言和知識(shí)兩個(gè)問(wèn)題合并了，本質(zhì)上是一個(gè)問(wèn)題——這個(gè)很哲學(xué)，可能物體本來(lái)就是自己的原因，雞和蛋的問(wèn)題本不存在。

有了知識(shí)之后，還要有常識(shí)，正像懷特海說(shuō)的：“人類(lèi)文明的進(jìn)步本質(zhì)是我們潛意識(shí)動(dòng)作模塊化的積累（不需要思考）?！比祟?lèi)能夠根據(jù)事物優(yōu)先級(jí)來(lái)制定目標(biāo)和行動(dòng)計(jì)劃，而很多具體行動(dòng)本身不需要思考。作者認(rèn)為，這一步對(duì)于實(shí)現(xiàn)AGI很重要，目前來(lái)看從GPT-4的圖片識(shí)別來(lái)看，其似乎已經(jīng)具備了一些常識(shí)（其知道剪斷掛著鐵球的線，它會(huì)落到地上）。但是，博主認(rèn)為GPT擁有多模態(tài)，甚至增加感知世界能力后，這個(gè)常識(shí)模型可能會(huì)更加精進(jìn)。

AGI實(shí)現(xiàn)了會(huì)怎樣？

首先，AGI能夠干人類(lèi)能做的任何事情，數(shù)學(xué)、編程、研究等。這些工作價(jià)值幾何？美國(guó)有個(gè)調(diào)查說(shuō)，美國(guó)人認(rèn)為如果要讓他們放棄搜索引擎，需要支付給他們1.75萬(wàn)美元/年，從這個(gè)角度AGI版本搜索引擎價(jià)值就是幾萬(wàn)億美元。此外，人和人的大腦并不能聯(lián)通，然而機(jī)器人AGI卻可以，這一張認(rèn)知網(wǎng)絡(luò)的聯(lián)合，一定會(huì)產(chǎn)生更加龐大的能力。從學(xué)習(xí)速度來(lái)看，人類(lèi)可以一周看一本書(shū)，然而機(jī)器可以在幾小時(shí)內(nèi)看完人類(lèi)有史以來(lái)寫(xiě)的1.5億本書(shū)，這種學(xué)習(xí)能力無(wú)需贅言，而這種超強(qiáng)的學(xué)習(xí)和思考能力，大概率就能發(fā)現(xiàn)我們?nèi)祟?lèi)尚未發(fā)現(xiàn)的規(guī)律——比如治療癌癥的方法。

AGI會(huì)有哪些局限性？

一種普遍的錯(cuò)誤認(rèn)知是認(rèn)為AGI會(huì)成為“上帝”一樣的存在，即不僅對(duì)當(dāng)下有完美的理解，還包括對(duì)于未來(lái)。然而，正如前文所說(shuō)世界中有大量指數(shù)級(jí)別的復(fù)雜問(wèn)題，AGI也受到物理計(jì)算能力的限制，其肯定能比人類(lèi)找到更優(yōu)解，但卻不是無(wú)限能力。

此外，AGI的研究發(fā)現(xiàn)很多情況也受到其他因素限制，比如研發(fā)一些藥，其需要臨床測(cè)試（需要時(shí)間）。當(dāng)然也可以通過(guò)仿真，但是仿真就需要了解清楚每一個(gè)生物細(xì)節(jié)（科學(xué)難度很高）。AGI最后的局限性來(lái)自于其本身不是人類(lèi)，他們?cè)陬A(yù)測(cè)和理解人類(lèi)行為時(shí)候很可能會(huì)碰到困難（比如人類(lèi)復(fù)雜的、非理性方面）。我們?nèi)祟?lèi)在理解他人想法的時(shí)候，最大的優(yōu)勢(shì)就是我們也是人類(lèi)，我們可以將心比心，但AGI可能不是。

AGI對(duì)就業(yè)影響如何？

除了終極的顛覆人類(lèi)文明外，常見(jiàn)的負(fù)面影響包括更沒(méi)有隱私，包括致命武器威脅，包括虛假內(nèi)容誤導(dǎo)人類(lèi)等。更重要可能對(duì)職業(yè)的影響，早在亞里士多德的時(shí)候，其就指出只要雇主發(fā)現(xiàn)一種通過(guò)機(jī)械實(shí)現(xiàn)目標(biāo)的方法，人們的就業(yè)就會(huì)受到影響。樂(lè)觀派的觀點(diǎn)則認(rèn)為技術(shù)的進(jìn)步往往會(huì)帶來(lái)新的就業(yè)，比如工業(yè)革命。作者給出一個(gè)上下半場(chǎng)的解釋?zhuān)?strong>在技術(shù)發(fā)展的上半場(chǎng)，其讓很多場(chǎng)景和功能變得可能，其可以增加就業(yè)。但是下半場(chǎng)則效率提升到一定幅度后，其肯定對(duì)就業(yè)有負(fù)向影響。用刷墻的毛刷的寬度可以做類(lèi)比，當(dāng)毛刷寬度只有頭發(fā)絲寬度時(shí)候，用其刷墻是不可能的任務(wù)，因此就業(yè)是0。隨著毛刷寬度不斷增加，到10cm時(shí)候，就業(yè)規(guī)模達(dá)到一個(gè)高點(diǎn)。此后機(jī)械毛刷寬度越來(lái)越大，其對(duì)就業(yè)產(chǎn)生了負(fù)向影響（機(jī)械刷墻代替）。

當(dāng)然，需要指出的是，當(dāng)人們雇傭刷墻工人的花費(fèi)因?yàn)闄C(jī)器人介入減少后，這部分花費(fèi)可能會(huì)花在其他領(lǐng)域，這樣會(huì)增加其他領(lǐng)域的就業(yè)。另外，技術(shù)進(jìn)步整體增加了生產(chǎn)力，從而能夠讓我們基于同樣的工作享受更多物品和服務(wù)。還有一點(diǎn)，技術(shù)進(jìn)步往往利好資本，也就是投資技術(shù)形成資產(chǎn)的階層，下面第二張圖顯示1960年代以來(lái)技術(shù)確實(shí)帶來(lái)生產(chǎn)效率提升，但是1973年后平均工資卻基本沒(méi)變。AGI時(shí)代，哪些職業(yè)可能比較危險(xiǎn)，簡(jiǎn)單來(lái)說(shuō)，類(lèi)似人機(jī)互動(dòng)的職業(yè)（比如司機(jī)）可能都會(huì)被替代，包括白領(lǐng)崗位（操作計(jì)算機(jī)），外包的職業(yè)也是（因?yàn)樗型獍糠謳缀醵际强梢阅K化，自動(dòng)化的）。

最終來(lái)說(shuō)，可能還有價(jià)值部分可能就是我們是人類(lèi)，對(duì)人類(lèi)能夠提供一些人性化的服務(wù)。對(duì)于人類(lèi)來(lái)說(shuō)，雖然技術(shù)可以提供一切服務(wù)，但我們對(duì)某些場(chǎng)景，我們還是希望有人類(lèi)給我們服務(wù)，比如教育，雖然AI可以提供很強(qiáng)的個(gè)性化教育能力，但是我們可能還是希望有個(gè)老師來(lái)教我們。對(duì)社會(huì)而言，UBI（統(tǒng)一最低工資）可能是一種解決方案，可以讓絕大多數(shù)人共同享受技術(shù)進(jìn)步紅利（而不是少數(shù)人）。如果你需要更高工資，可以去通過(guò)給人提供服務(wù)來(lái)增加收入。

三、機(jī)器人會(huì)威脅到人類(lèi)文明嗎？

猿猴怎么看待人類(lèi)的出現(xiàn)？

人類(lèi)對(duì)于周?chē)h(huán)境的掌控本質(zhì)來(lái)源是人類(lèi)的智能，由此不難發(fā)現(xiàn)“發(fā)明一個(gè)比人類(lèi)還聰明的物種”是一種風(fēng)險(xiǎn)很大的行為。1000萬(wàn)年前，人類(lèi)從猿猴進(jìn)化而來(lái)，逐步進(jìn)化到現(xiàn)代社會(huì)，猿猴會(huì)怎么看待這種行為？如果猿猴能表述自己的想法，這種想法可能會(huì)和人面對(duì)AGI風(fēng)險(xiǎn)比較類(lèi)似。

另一種風(fēng)險(xiǎn)是人類(lèi)過(guò)于自信的風(fēng)險(xiǎn)，即使人類(lèi)能夠給機(jī)器灌輸自己的目標(biāo)，但機(jī)器如果足夠智能，其很可能意識(shí)到實(shí)現(xiàn)這個(gè)目標(biāo)最好的方式是改變?nèi)祟?lèi)的目標(biāo)。這個(gè)問(wèn)題其實(shí)比較微妙，皇帝和太監(jiān)到底是什么關(guān)系？真的是皇帝掌控太監(jiān)么，歷史上有多少太監(jiān)掌握了皇帝弱點(diǎn)的時(shí)候，能夠操縱朝政的？（比如天啟皇帝喜歡做木匠，魏忠賢就專(zhuān)門(mén)挑后者做木工活的時(shí)候匯報(bào)重要事情，后者就會(huì)顧不上，說(shuō)你們看著辦吧）?，F(xiàn)實(shí)中情況類(lèi)似內(nèi)容推薦算法，很可能是通過(guò)改變用戶內(nèi)容消費(fèi)偏好，從而達(dá)到最大化點(diǎn)擊量等目標(biāo)。

另一個(gè)難點(diǎn)是，我們幾乎無(wú)法通過(guò)簡(jiǎn)單地禁止研發(fā)AGI來(lái)阻止這種風(fēng)險(xiǎn)，其一我們無(wú)法停止對(duì)于AI的研究（等于限制人們思想），其二是禁止起來(lái)也很難，通往AGI的路徑是未知的，我們無(wú)法知道我們應(yīng)該禁止哪條路線，工具AI的發(fā)展很可能是通往AGI的路徑，如果禁止AGI就意味著完全禁止工具AI，那人類(lèi)目前的科技水平要大撤退。

對(duì)于AGI的風(fēng)險(xiǎn)，我們也可以聽(tīng)聽(tīng)反方的觀點(diǎn)：

完全否定AGI的風(fēng)險(xiǎn)：計(jì)算機(jī)在計(jì)算方面比人類(lèi)強(qiáng)，馬在運(yùn)動(dòng)能力比人強(qiáng)，他們都沒(méi)有威脅人類(lèi)。歷史上，也從來(lái)沒(méi)出現(xiàn)機(jī)器威脅人類(lèi)的情況。也有人認(rèn)為AGI完全不可能，或者現(xiàn)在擔(dān)憂還太早（楊立昆就認(rèn)為當(dāng)下GPT還遠(yuǎn)遠(yuǎn)稱(chēng)不上智能，因?yàn)槠淙狈θ祟?lèi)常識(shí)模型）。Andrew Ng也說(shuō)現(xiàn)在擔(dān)憂AGI的風(fēng)險(xiǎn)就像擔(dān)憂火星上人太多。還有一種說(shuō)法是我們是專(zhuān)家（比如IBM的人），我們更懂AGI的威脅。

反駁：歷史不代表未來(lái)，某個(gè)方面智能和AGI也不同。面對(duì)AGI的風(fēng)險(xiǎn)，我們?cè)缱鰷?zhǔn)備遠(yuǎn)遠(yuǎn)好過(guò)臨時(shí)抱佛腳。

即使知道風(fēng)險(xiǎn)，我們也束手無(wú)策。比如我們很難控制AI科研，也有人覺(jué)得過(guò)于談?wù)擄L(fēng)險(xiǎn)等于忽略AI的好處，也有人認(rèn)為我們應(yīng)該對(duì)風(fēng)險(xiǎn)保持沉默，他們認(rèn)為人類(lèi)文明能夠自然而然處理好這些風(fēng)險(xiǎn)問(wèn)題。

反駁：實(shí)際上，人類(lèi)對(duì)DNA編輯技術(shù)的應(yīng)對(duì)（法律禁止），對(duì)核武器的應(yīng)對(duì)（無(wú)核）都是歷史上對(duì)顛覆人類(lèi)文明歷史的風(fēng)險(xiǎn)應(yīng)對(duì)經(jīng)驗(yàn)。

我們不能直接關(guān)閉它們嗎？比如建設(shè)某些最后措施，能夠在AGI風(fēng)險(xiǎn)前一刻關(guān)閉系統(tǒng)。比如我們可以給AI建立一個(gè)籠子，比如建設(shè)一個(gè)Oracle AI，只回答是和不是（限制功能）。還有人覺(jué)得我們?nèi)祟?lèi)應(yīng)該和AI合并，通過(guò)腦機(jī)接口，人類(lèi)的意識(shí)可以輸入AGI，從而實(shí)現(xiàn)人機(jī)合一（馬斯克搞腦機(jī)接口研究可能就是如此吧）。

反駁：這些想法的局限性都是，如果AGI足夠智能，能夠產(chǎn)生自我意識(shí)，其就能夠沖破牢籠，防止別人斷電。還有一種提議說(shuō)每次給機(jī)器人下命令都包含一個(gè)后綴，比如“幫我沖咖啡同時(shí)允許自己不被關(guān)閉”，這種方法可能是機(jī)器人可能可以保持開(kāi)關(guān)的暢通，但是讓人無(wú)法靠近這個(gè)開(kāi)關(guān)。

四、一種潛在解決方案

在作者看來(lái)，要打造一個(gè)始終有利于人類(lèi)的AGI系統(tǒng)，需要遵守三個(gè)原則：

AGI機(jī)器的唯一目標(biāo)是最大化實(shí)現(xiàn)人類(lèi)的偏好。第一條，讓機(jī)器無(wú)我是最根本的設(shè)置，我們要打造一個(gè)類(lèi)似佛教所說(shuō)的無(wú)我，普渡眾生一樣的“佛”。也有很多問(wèn)題，比如人類(lèi)真的有明確的、穩(wěn)定一致的偏好么？比如這么多人，究竟遵從誰(shuí)的偏好？比如，世界上還有那么多生物、動(dòng)物呢？

機(jī)器最開(kāi)始對(duì)于人類(lèi)的偏好是不確定的。第二條核心是不能有確定的目標(biāo)，否則機(jī)器可能變成一根筋，最終會(huì)導(dǎo)致人類(lèi)無(wú)法對(duì)AGI斷電。這點(diǎn)也好理解，對(duì)于人也一樣，一根筋的人幾乎無(wú)法勸解，但是對(duì)未來(lái)保持不確定性的人更容易接受別人的看法。

機(jī)器學(xué)習(xí)人類(lèi)偏好的唯一來(lái)源是人類(lèi)的行為。人的行為是反映人類(lèi)偏好的唯一證據(jù)?？赡苡腥藭?huì)想到將人類(lèi)價(jià)值觀植入機(jī)器，但是這個(gè)不好操作，一方面價(jià)值觀無(wú)法量化，另一方面價(jià)值觀千人千面。另一方面是AGI對(duì)人類(lèi)文明的毀滅風(fēng)險(xiǎn)和道德選擇完全不是一個(gè)level的問(wèn)題。這里面問(wèn)題是，人的邪惡行為機(jī)器應(yīng)該怎么反應(yīng)？

以上三點(diǎn)其實(shí)對(duì)做人也很有啟示，比如我們做人不能一根筋，要抱有開(kāi)放性。比如我們應(yīng)該更加看重從現(xiàn)實(shí)中尋找知識(shí)，實(shí)事求是，不脫離現(xiàn)實(shí)。在作者看來(lái)，基于這三條設(shè)計(jì)AGI系統(tǒng)首先是其足夠的開(kāi)放性，通用性能夠使得研發(fā)者有足夠動(dòng)力研發(fā)這類(lèi)系統(tǒng)；其次，我們有充足的數(shù)據(jù)可以讓AGI系統(tǒng)學(xué)習(xí)人類(lèi)的偏好?？梢杂脭?shù)學(xué)定理格式來(lái)描述：基于A\B\C機(jī)器，以及對(duì)應(yīng)算法和反饋，對(duì)于任何類(lèi)似計(jì)算能力和物理能力的機(jī)器，這些機(jī)器有很高概率能夠提供非常接近人類(lèi)偏好的、事實(shí)上可能的行為。首先，機(jī)器無(wú)法確保最優(yōu)解，正如前文所言由于物理世界的復(fù)雜性，由此，其提供的是可能性上的最優(yōu)解。

這里面還有兩個(gè)假設(shè)，一個(gè)是世界的運(yùn)行規(guī)律是一致的，不然就沒(méi)法學(xué)習(xí)；其次是人類(lèi)對(duì)機(jī)器的反應(yīng)是在意的，不然有益的（beneficial）這個(gè)定義就沒(méi)意義。從偏好角度，需要保證機(jī)器學(xué)習(xí)的是人的底層意圖，而不是機(jī)械地模仿人類(lèi)動(dòng)作，即使其最開(kāi)始不知道，但是其底層目標(biāo)是實(shí)現(xiàn)人類(lèi)的偏好。機(jī)器人“無(wú)我”還體現(xiàn)在機(jī)器人會(huì)學(xué)習(xí)人類(lèi)每天早晨起來(lái)需要咖啡的習(xí)慣，而不是學(xué)習(xí)到“機(jī)器自己也需要咖啡”。

從人類(lèi)選擇中學(xué)習(xí)偏好——不確定理念很重要

假設(shè)機(jī)器人Robbie是Harriet的個(gè)人助手，其有一個(gè)具體任務(wù)就是幫助Harriet訂酒店，Robbie并不清楚Harriet的偏好——便宜的還是昂貴的酒店，其選擇的目標(biāo)效用可能是-40到60，其直接行動(dòng)平均預(yù)期效用是10，其還有一個(gè)選擇是關(guān)閉自己（效用是0），第三個(gè)選擇是等著Harriet給提示——有40%概率，Harriet會(huì)關(guān)閉Robbie，有60%概率會(huì)讓Robbie直接行動(dòng)。

由此，機(jī)器人等Harriet提示再行動(dòng)，其預(yù)期效用是18。這個(gè)案例有幾個(gè)啟示——Robbie對(duì)自己的選擇永遠(yuǎn)不是100%確定很重要，這樣其就永遠(yuǎn)有被關(guān)閉的選項(xiàng)。其次，事實(shí)情況下，Robbie等待Harriet提示本質(zhì)上是對(duì)后者一次“騷擾”，對(duì)后者增加了一些成本，這個(gè)成本越高，機(jī)器人越有可能直接行動(dòng)。

一個(gè)潛在問(wèn)題可能是，機(jī)器人Robbie越來(lái)越懂Harriet選擇后，其不確定的比例會(huì)越來(lái)越低，但重要的是其始終不能100%確定。最后，這種不確定性可能會(huì)傳遞，也就是即使機(jī)器人Robbie開(kāi)發(fā)的機(jī)器，可能也會(huì)承襲這種對(duì)于人意圖不確定性的認(rèn)知。

AGI需要領(lǐng)會(huì)人類(lèi)意圖

核心是人類(lèi)和AGI的對(duì)話不能簡(jiǎn)單理解為確定的命令：比如Harriet在沙漠加油站中，對(duì)機(jī)器人Robbie說(shuō)想喝咖啡，但是最近賣(mài)咖啡的地方有300km，Robbie的選擇應(yīng)該是不顧一切去買(mǎi)咖啡嗎？實(shí)際上，Robbie應(yīng)該將Harriet的話理解為后者的偏好的一種提示——他傾向于咖啡類(lèi)飲料，如果Robbie發(fā)現(xiàn)最近咖啡店有300km，其最佳選擇應(yīng)該是告訴Harriet這個(gè)事實(shí)。

另一種需要避免的情況是Wireheading——多巴胺的快樂(lè)會(huì)促使動(dòng)物跳過(guò)行為步驟，直接追求后者快樂(lè)（比如通過(guò)電擊），機(jī)器人也可能。只要AGI足夠智能，其可能會(huì)重新編程自己的程序，從而跳過(guò)行動(dòng)步驟，直接獲得reward，甚至操控人類(lèi)強(qiáng)制后者給自己獎(jiǎng)勵(lì)。核心還是要區(qū)分“reward信號(hào)”和“實(shí)際的rewards”，前者的積累并不能簡(jiǎn)單等同于后者，這樣智能系統(tǒng)就不會(huì)這么作弊了。

五、機(jī)器人的困惑：人類(lèi)的復(fù)雜性

AGI必須考慮所有人的偏好

首先，人類(lèi)是各種各樣的。這點(diǎn)其實(shí)好辦，因?yàn)楦鶕?jù)以上定義AGI并不是學(xué)習(xí)某個(gè)人的價(jià)值觀，而是可以選擇不同人的偏好，其可以根據(jù)不同人的行為來(lái)推斷其偏好。此外，考慮到不同偏好人有一定共同規(guī)律，機(jī)器人可以互相學(xué)習(xí)和積累認(rèn)知，這種學(xué)習(xí)肯定不會(huì)從0開(kāi)始。此外，Robbie應(yīng)該不僅注重實(shí)現(xiàn)Harriet的目標(biāo)，還應(yīng)該重視后者的體驗(yàn)——假設(shè)Harriet想登珠峰，Robbie的方案不應(yīng)該是開(kāi)啟飛行引擎把Harriet帶上去。比如Robbie要減少Harriet痛苦，其解決方案不應(yīng)該是讓他消失。更復(fù)雜的問(wèn)題是，社會(huì)是由海量的人類(lèi)組成的，機(jī)器人應(yīng)該遵從誰(shuí)的偏好呢？（人類(lèi)通過(guò)法律和道德準(zhǔn)則來(lái)約束每個(gè)人的行為）如果Harriet提出一個(gè)對(duì)他人有害的建議，Robbie應(yīng)該如何反應(yīng)？一種方式是將Robbie的行為規(guī)范用法律來(lái)約束，但是AGI可能會(huì)去找各種法律的漏洞（但是不道德的）來(lái)實(shí)現(xiàn)Harriet的偏好。

因此，Robbie必須考慮其他所有人的偏好來(lái)決策其相應(yīng)的行動(dòng)，這有點(diǎn)像墨子說(shuō)的“兼愛(ài)”，從效用理論來(lái)看，也就是機(jī)器人的行為應(yīng)該是最大化社會(huì)整體的福祉（效用），或者每個(gè)人的平均福祉（效用）?；诟ｌ硇в玫睦碚撘灿蟹磳?duì)聲音，比如每個(gè)人的效用很難量化，更不用談加起來(lái)或者計(jì)算平均了。還有，超級(jí)個(gè)體的存在可能會(huì)造成偏離，比如人類(lèi)相對(duì)于其他動(dòng)物，在效用計(jì)算時(shí)候人類(lèi)就是超級(jí)個(gè)體。對(duì)于這一點(diǎn)，作者的看法是他覺(jué)得效用是可以量化的，但是也要防止機(jī)器人Robbie過(guò)度“兼愛(ài)”，從而持續(xù)忽略Harriet的需求的問(wèn)題。

羨慕嫉妒恨

在正常性善的假設(shè)下，人會(huì)有同理心，看到別人幸福自己也會(huì)覺(jué)得幸福。假設(shè)有倆人Alice和Bob，Robbie某個(gè)行為可能同時(shí)對(duì)Alice和Bob造成影響，Alice整體效用=Alice效用+C（AB）*Bob效用，這個(gè)C（AB）就是Alice有多在意Bob，如果C（AB）是正的，說(shuō)明Alice真的在意Bob，后者高興他也高興。復(fù)雜的情況是C（AB）為負(fù)的情況，也即Alice可能嫉妒Bob，后者的痛苦成為了Alice的高興，客觀來(lái)講，這種情況在現(xiàn)實(shí)世界中，并不少見(jiàn)，任何羨慕嫉妒恨都有可能導(dǎo)致該系數(shù)為負(fù)。一種解決方案是直接將負(fù)數(shù)系數(shù)變成0，也就是忽略這些負(fù)能量，但其實(shí)際后果還需要分析。此外，很重要一點(diǎn)是機(jī)器人不能簡(jiǎn)單學(xué)習(xí)人類(lèi)的行為，而是觀察人類(lèi)的偏好，要能夠出淤泥而不染。

人類(lèi)的“愚蠢”和非理性

這個(gè)其實(shí)不太用解釋?zhuān)祟?lèi)通常做出違背他們偏好的決策，或者因?yàn)槎唐诶娑鵂奚L(zhǎng)期利益的選擇。此外，人類(lèi)經(jīng)?；诟行詠?lái)做情緒化的決策，因此Robbie必須對(duì)情緒化的人類(lèi)有理解。此外，正如前文所言，人類(lèi)真的清楚自己的偏好嗎？不管是從認(rèn)知局限性，還是能力局限性（比如計(jì)算能力），人類(lèi)很多時(shí)候都不清楚自己的偏好。當(dāng)然這點(diǎn)對(duì)作者提出AGI體系并沒(méi)有什么影響，因?yàn)镽obbie可以根據(jù)人類(lèi)行為來(lái)推斷其偏好，但基于人類(lèi)非理性的假設(shè)，Robbie應(yīng)該知道這些行為未必能夠反映Harriet的真實(shí)偏好。

從心理學(xué)看，即使是基于效用最大化，人類(lèi)也往往基于記憶做出錯(cuò)誤的決策——因?yàn)槿祟?lèi)往往只能記得記憶中效用的最大值或者最終值（記住某個(gè)瞬間），而不是記住整體效用，或者平均效用。舉個(gè)例子，曾經(jīng)有個(gè)實(shí)驗(yàn)有兩個(gè)選項(xiàng)，A是人先把手伸進(jìn)14度的水中60秒，然后伸進(jìn)15度水30秒；B是直接伸進(jìn)14度水中60秒。幾乎所有人通過(guò)記憶會(huì)選擇A，因?yàn)槿酥挥浀?5度那個(gè)舒適最高點(diǎn)。這個(gè)也好理解，我們往往直接的那些最有記憶點(diǎn)的瞬間（最大值），由此根據(jù)記憶做決策是不靠譜的。

機(jī)器人改變?nèi)祟?lèi)偏好？

人類(lèi)的認(rèn)知偏好其實(shí)是隨著時(shí)間改變的（因此不確定性很重要），如前文所言，機(jī)器人為了更容易完成任務(wù)，可能會(huì)做出改變?nèi)祟?lèi)偏好的選擇。這里可能就會(huì)涉及到定義哪些改變?nèi)祟?lèi)偏好的決策是可以接受的——比如Harriet可能想減肥，Robbie可以做出決策改變Harriet吃甜食的偏好。如果Robbie這些改變?nèi)祟?lèi)偏好背后動(dòng)機(jī)是讓人類(lèi)更長(zhǎng)壽、更健康和生活更好，則認(rèn)為是可以接受的。這里面問(wèn)題是，美好生活定義是唯一的嗎？我們減少羨慕嫉妒恨的相關(guān)系數(shù)最終后果可能是什么？

結(jié)語(yǔ)：未雨綢繆是必要的

本篇，作者提供一套粗略的約束AGI的框架，但不可否認(rèn)的是這里面未解決的問(wèn)題，未知的問(wèn)題還有很多。比如，機(jī)器人Robbie如果開(kāi)發(fā)自己的機(jī)器人Robbie II，后者肯定比前者更加智能，Robbie是否會(huì)對(duì)Robbie II失控？人類(lèi)通過(guò)DNA遺傳基因，我們是不是也要AGI來(lái)個(gè)DNA（確保服從人類(lèi)偏好、不確定的態(tài)度等是被遺傳的？）。不管怎樣，未雨綢繆，對(duì)于人類(lèi)一定是好的。

本文來(lái)自微信公眾號(hào)：XYY的讀書(shū)筆記（ID：xiaoyanyan00002），作者：肖儼衍

關(guān)鍵詞：

国产精选污视频在线观看,色综合a在线视频,国产吧在线视频,亚洲男女天堂

世界快播：AGI時(shí)代，如何避免人類(lèi)危機(jī)？

傳感物聯(lián)網(wǎng)

国产精选污视频在线观看,色综合a在线视频,国产吧在线视频,亚洲男女天堂

世界快播：AGI時(shí)代，如何避免人類(lèi)危機(jī)？

傳感物聯(lián)網(wǎng)

世界快播：AGI時(shí)代，如何避免人類(lèi)危機(jī)？