我可以負責任告訴大家,我們實驗室有全世界最聰明、可以玩遊戲的猴子 | 楊天明

當吃豆人面臨一邊有豆子、一邊有鬼的情況,獼猴會先吃豆子,還是先躲鬼呢?

楊天明· 中國科學院神經科學研究所研究員

格致論道第102期 | 2023年8月12日 廣州

大家好,我是來自中國科學院腦科學與智慧技術卓越創新中心的楊天明。從我們單位的名字,大家就可以猜到我們科研工作主要是兩方面:一方面是研究大腦,另一方面是研究智慧技術,也就是我們說的AI。

我今天主要想跟大家分享的是與腦科學有關的這一部分,特別我們的大腦是怎麼做一些複雜決策的。

我們每天都會做出各種各樣的決策,有些比較簡單,有些會非常複雜,需要考慮各種各樣的因素,綜合在一起才能得到一個好的答案。而我們關心的就是這樣的問題——在這個過程中,我們的大腦是怎麼做的。

為什麼要讓獼猴玩遊戲?

已完成:10%//////////

我們在實驗室裡面是怎麼研究這個問題的呢?

現在遊戲已經相當普遍了,我們在玩遊戲的時候,同樣需要不停地做各種各樣的決定,並且要把很多的因素綜合在一起去考慮,因此我們可以把遊戲作為我們研究決策的一個工具。

https://screenrant.com/best-video-games-2017/

▲ https://screenrant.com/best-video-games-2017/

遊戲還有一個有意思的地方是,它其實在很大程度上是反映現實生活的,遊戲當中的邏輯機制,跟我們現實的真實的物理世界是相通的。所以我們在遊戲當中做的抉擇,也可以反映我們在現實生活當中是怎麼去做決定的。

遊戲最大的一個好處是什麼呢?它完全是我們可控的,因為遊戲是人編寫的,我們完全可以控制遊戲裡面出現什麼,遊戲當中的規則是什麼,如果玩家做了什麼事情,我可以給他什麼樣的獎勵或者懲罰。所以通過遊戲,就可以非常定量地去研究我們是怎麼來做決策的。

那在研究決策的時候,是不是簡單地把一些人拉過來研究他們怎麼玩遊戲就可以了?其實我們還要通過動物來研究,我們選取的動物是獼猴,也是大家在動物園裡面最有可能看到的一種猴子。

獼猴

▲ 獼猴

為什麼會用獼猴呢?一方面,獼猴是一種非常聰明的動物,它可以完成很多人類那些複雜的行為。另一方面,它在進化上的親緣關係和人是非常相近的,它的大腦和人也很相似,所以我們研究獼猴所得到的很多結論可以拓展到人身上。

可能有些人就會問,我知道還有一些動物,比方說黑猩猩更聰明,跟人更像,那我們為什麼不研究黑猩猩呢?但問題是黑猩猩這樣的猿猴是珍稀保護動物,倫理上不允許拿它們做實驗,所以在學術界可以用來做實驗的最聰明的動物就是獼猴。

我們用獼猴做實驗的一個主要目的,是因為我們想知道它們玩遊戲的時候做了什麼樣的事情,大腦發生了什麼樣的變化,哪些腦區、哪些神經元在幫助獼猴做決策。

而記錄神經元活性的這些技術手段,現在只有在獼猴和其他動物上面是可以用到的,在人上面受到很大的限制。所以,我們不得不選用獼猴來代替人做這個研究。

訓練全世界最聰明的會玩遊戲的猴子

已完成:40%

//////////

那接下來,我們就得去找一個同時適合獼猴和人來玩的遊戲,才可以做對比研究。

我們玩的遊戲有很多對獼猴來說不是很適合,主要原因是因為獼猴生活的自然環境跟人還是很不一樣的。比方說,一個拿槍打怪物的射擊類遊戲,射擊這個概念對獼猴來說就非常陌生。如果你去告訴獼猴,開槍會有一個子彈飛出去打中一個怪物,這對獼猴來說就非常難理解。

什麼樣的遊戲對獼猴來說可以學習呢?我們經過很長時間的思考和嘗試,最後選取了一個叫做《吃豆人》的遊戲。這個遊戲在上世紀80年代幾乎是全世界最流行的遊戲了。

吃豆人遊戲規則

▲ 《吃豆人》遊戲規則

在這個遊戲當中,猴子或者人要通過一個遊戲的手柄去控制吃豆人——就是這個黃色的,有個大嘴巴的傢伙——把地圖當中的各種豆子全吃完,就可以獲得勝利。在地圖當中有小豆子,還有一種大豆子。大豆子有一個特殊的功能,它可以把地圖當中的鬼變成藍顏色的。正常的鬼如果撞上游戲就結束了,但是一旦這鬼變成藍顏色之後,你就可以把這鬼吃掉,還可以獲得獎勵。

人玩這個遊戲得到的獎勵就是分數,你玩得越好,分數越高。而猴子玩遊戲,我們就會給它一些美味的果汁作為獎勵。這樣它們就會有動力來玩這個遊戲。

接下來,我給大家看一個小視訊。在這個錄屏裡面是一隻猴子在玩遊戲。為了幫助大家了解猴子在玩遊戲的時候可能在思考什麼,我還在這螢幕上畫了一個小白點,這個小白點就代表這個猴子眼睛注視的位置。我們常說「眼睛是心靈的窗戶」,通過了解猴子在遊戲過程當中看什麼,可以幫助我們知道它是怎麼想的,怎麼決策的。

我們可以看到,剛開始的時候,猴子在控制這個吃豆人,不停地在這個地圖裡面走來走去吃豆子。它偶然吃了一個大豆子讓鬼變成藍色了,但是很快鬼又變成正常狀態,它就要去躲鬼。但它有時候可以預知到這個鬼是這樣走的,所以它知道鬼不會馬上轉彎,甚至還可以去跟著鬼。吃到一個大豆子之後,它發現這個鬼變成藍顏色,就會馬上去把藍顏色的鬼吃掉,它就可以獲得更多的獎勵。

我可能作為一個遊戲主播不是特別專業,但是大家可以從這個例子當中看到獼猴玩這個遊戲還是非常好的。

可能大家會非常好奇,這個獼猴又不會說話,你是怎麼教它玩遊戲的呢?如果我把一個遊戲機放在猴子面前,它自己就會玩嗎?

那肯定不是的。在猴子的世界當中從來沒有遊戲機,它看到一個遊戲手柄,根本都不知道是什麼,連碰都不會去碰它。

所以我們要訓練猴子玩遊戲,就得從最簡單的開始,一步一步地誘導它。比方說一開始我們這遊戲版本就是一個橫著的非常小的迷宮,猴子要做的事情就是把手柄撥到右邊去吃豆子,撥到左邊的話,它會撞上鬼,會死掉,那麼它就應該知道它不要撞上鬼。

這可能在大家看來是非常無聊而且非常簡單的一件事情,但對猴子來說,一開始它要學會也得花一點時間。就比方說你把手柄放在那兒,它不會去抓手柄,也不知道手柄為什麼就會和螢幕上面的吃豆人給關聯在一起了。所以在它沒有這些概念的情況下,我們要琢磨怎麼去教它。

做這個實驗的同學一開始真的是手把手——用他們的手抓著猴子的手,按在這個搖桿上面去撥動搖桿。再教會猴子把搖桿撥到這邊,它就有果汁喝,撥到那邊它就沒有果汁喝,這樣猴子才會有一個初步的概念。

那麼等猴子學會了搖桿之後,我們把這個遊戲稍微加一點難度,現在它要轉個彎。它學會之後,我們再把這個迷宮變成一個方形的環形,它可以在這個迷宮裡面走來走去。同時我們把藍色的鬼加上,這樣它就知道藍色的鬼是什麼樣。就這樣一步一步,我們通過誘導的方式慢慢地教會猴子來玩這個遊戲。

我們在訓練第一隻猴子的時候,因為沒有經驗,所以花了差不多有一年的時間才教會猴子玩這個遊戲。但後來我們慢慢有了經驗,知道怎麼去引導猴子玩遊戲,所以後來的猴子大概只花兩三個月就可以學會。

通過這個嘗試,現在我們的實驗室有全世界最聰明的可以玩遊戲的猴子。

我剛才已經給大家展示了猴子會玩遊戲的視訊,但是我們還需要量化一下這個猴子是不是真的會玩遊戲。

我們首先看一下它對一些基本遊戲規則的理解。這個遊戲主要目的是要把這個迷宮當中的小豆子都吃完,所以我們發現當猴子在一個十字交叉路口的時候,有超過60%的概率是往小豆子最多的那個方向走的,這說明它的確知道哪邊小豆子多,哪邊獎勵多,它應該往哪邊走。

那麼如果有一側有鬼,它就有超過80%的時候往鬼的反方向去走。但如果這個鬼是藍顏色,它就有超過90%的概率去吃這個鬼。因為在這遊戲中吃掉藍色的鬼獎勵是很多的,所以獼猴它非常喜歡去抓這個藍鬼。

通過這些分析,我們就知道這隻猴子對基本的遊戲規則是理解的。

獼猴玩遊戲有哪些取勝策略?

已完成:60%

//////////

但在真實的遊戲過程中,我們不會把這些元素拆分開來看給猴子看,它要在遊戲的動態過程當中去做實時的抉擇。

在有些情況下,比方說一邊有豆子、一邊有鬼,它是應該先吃豆子還是先躲鬼?這個問題非常複雜,因為如果要把所有這些情況排列組合考慮下來,有非常多的可能性,以至於像微軟公司設計的AI玩這個遊戲都不能玩得很好。

那麼我們發現,獼猴其實並沒有把所有的東西都考慮進去,相反地,它會採用一個簡化的策略,比方說猴子它現在定的策略是吃豆子,它就會忽略迷宮裡面現在鬼在哪裡,它就只考慮豆子,豆子哪邊多就往哪邊走,這樣決策就非常簡單了。

還有時候的策略就是躲鬼,在躲鬼的時候,它也不管豆子在哪裡,反正看見鬼從哪邊過來,它就往反方向走。那麼還有抓鬼這樣的策略。

所以猴子在玩遊戲的時候,經常是先確定自己一個大的策略是什麼,然後在這個大策略框架下,再決定它是往上下左右哪個方向走,這樣就方便很多了。

而且我們進一步分析發現,猴子它還會把這些策略給串聯在一起,形成組合策略。比方說獵殺策略,猴子控制吃豆人先去把大豆子吃掉,然後馬上轉向去抓藍顏色的鬼,得到更多的獎勵。所以在這個組合策略裡面,它把這兩個過程串在一起來做,就可以得到很高的分數。

一開始在上面還有一些小豆子,它去把這些小豆子清掉,你可以看見它很熟練地躲避鬼,吃掉小豆子。清完之後,按照正常的思路,它應該往下走對吧?但它沒有,它主動去「自殺」。開始我們覺得有點不可思議,但後來想明白它為什麼會這麼做。

因為它「自殺」之後,遊戲會開始下一盤,重新開始後,吃豆人的定位是從盤面的下面開始,它就不需要從上面費很大的力氣下來,可以從下面開始把下面的豆子吃掉。所以「自殺」反而是一個非常高效的、可以獲得獎勵的組合策略。

在這個策略裡面,它給合了抓鬼「自殺」,然後再吃豆子這樣的組合。

經過很多的定量分析,我們可以把獼猴的策略用這種層級化的方式來表示。獼猴在玩遊戲的時候,會先根據盤面來制定策略,比方說高級的組合策略。

組合策略定下來之後,它就會按照這個順序一個一個去決定當前的策略是什麼;當前的策略決定之後,它就可以把上下左右比較簡單的具體的運動抉擇給定下來。

我們研究了三隻猴子,發現猴子普遍是這樣的。如果我們把它所有的策略畫出來,就會發現它有五種基本策略。某些基本策略可以串聯在一起,甚至還可以把三個策略串聯在一起,形成組合策略。

然後我們又研究了人,我們想知道人是不是也是這樣。我們人類玩家,特別是遊戲高手,肯定比猴子要好很多。

人的這個策略數就要比獼猴的要複雜多了,我們人有七種基本的策略,策略和策略之間可以形成一級組合、二級組合,乃至三級,甚至到跨層級的組合策略。

所以整體上來說,策略層次化越複雜的玩家的得分是越高的。有一些志願者從來沒有玩過這個遊戲,因此他們的表現不是很好。我們做分析的時候,發現他們的策略數更像猴子,特別簡單。所以我們決策的層級關係,其實是可以很好地代表我們解決複雜問題的能力。

大腦究竟是怎麼做決策的

已完成:80%

//////////

我們講了這麼多猴子和我們是如何解決複雜問題的。接下來講一下我們的大腦裡面哪些腦區負責我們的決策。

我們知道,大腦可以分成很多分區。其中我們的前額葉,也就是在我們頭上前額位置,它是我們人類高級認知功能的中樞。

相對於猴子來說,我們的前額葉要發達很多。在這個圖裡可以看到,前額葉幾乎佔了大腦1/3的面積;它也不是一塊鐵板,它還可以再繼續細分為很多不同功能的子區,其中比較靠後的叫做前運動皮層,它和我們手部的運動直接相關。

我們發現,決定我們在玩遊戲的時候是往上走還是往下走這樣特別具體的運動抉擇,就是由前運動皮層的神經元編碼的。在之前,還有人研究發現,如果插一根電極到腦子裡面去刺激前額葉皮層的話,還可以改變運動抉擇。

但是,負責策略的這個腦區在相對更加靠前的地方,叫背側前額葉的腦區。我們發現在那裡有很多神經元編碼了當前的策略,比方說猴子決定是要吃豆子還是躲鬼的策略。

我們剛才還說到有更高級的組合策略,那組合策略在大腦當中哪裡編碼呢?我們現在還沒有一個完整的答案,但我們發現了很多證據,它指向大腦當中一個叫做極前額葉的地方,也就是由大腦最前面的這一部分來編碼的。

這個極前額葉也是我們認為人類和猴子與其他動物有巨大差別的一個關鍵腦區。在我們的決策過程當中,我們存在一個從上到下,從高級策略到低級運動抉擇的這個分層。在我們大腦的前額葉也存在一個從前到後,前面的腦區負責更高級的決策,後面的腦區負責相對低級的抉擇水平。

這個研究給我們很多啟示,一方面它告訴我們,如果我們面對一個複雜的問題可以怎麼去解決——我們可以採用策略去簡化決策。

另一方面,簡化問題決策分層的能力,其實跟我們要解決複雜問題的能力是密切相關的:一個人或者一個動物解決問題的能力越強,就越能夠把一個複雜問題分成很多簡單的問題來做。

同時,我們還發現我們的大腦當中也存在一個對應的層級化的結構,來幫助我們進行決策。

那麼,我們在這些大腦中所做的抉擇研究在現實裡有沒有應用呢?

在生活當中,我們可能會接觸到一些不幸的精神類疾病的患者,比方說強迫症、抑鬱症或者藥物成癮。這些疾病有一個特點,就是這些患者往往不能理性地做出抉擇。

比方明知道這個東西不好,他還是會去選擇它。明知道這個事情是好的,但他就是做不了,所以他們的決策系統有很大的問題。我們的研究就有希望幫助這些患者進行診斷或者治療。

同時,近年來人工智慧的發展特別迅速,尤其今年(2023年)可以說是人工智慧爆發年,我們可能都聽說過ChatGPT這樣的系統,它可以跟人對話,讓我們看到通用人工智慧的希望。

但不管怎麼說,現在人工智慧還有很大的缺點,比方說它的能耗特別大,它需要花費巨大的訓練成本,而且它也不夠靈活,不能適用於我們日常生活當中的各種各樣的場景。所以我們在人當中做的這些研究,也是希望未來能夠融入到人工智慧的開發當中去,為我們研發更好的、更像人的人工智慧作出貢獻。

我也希望我的演講能給大家帶來一些啟發,希望未來大家能夠共同加入到我們的研究當中,探索大腦的奧秘、探索AI,創造更好的未來。

謝謝大家!

Source

Visited 7 times, 1 visit(s) today
Subscribe
Notify of
guest
0 Comments
Most Voted
Newest Oldest
Inline Feedbacks
View all comments
0
Would love your thoughts, please comment.x
()
x