人工智慧與詭計設計 - 斯芬克斯 - 謎團
請選擇 進入手機版 | 繼續訪問電腦版
查看: 135|回覆: 0

[閒聊] 人工智慧與詭計設計

24

主題

65

文章

89

歷練值

線民

Rank: 1

歷練值
89
發表於 2018-4-13 16:41:51 | 顯示全部樓層 |閱讀模式
AlphaGo 使用的強化學習是人工智慧新星?讓專家告訴你為什麼這不是通用解方
朋友貼的文章。得說我看不太懂中間的技術細節,但裡面有些東西頗有意思,摘錄如下:

在與其他 RL 研究人員的交流中,我聽到了一些趣聞,是由於獎勵函數定義不當而造成的新奇行為。
有位同事正在教一個 RL 人工智慧通過一個房間。如果它離開邊界,這事件就終止了。他沒有對事件的這種結束方式加任何懲罰。結果最後學到的 policy 是自我毀滅式的,因為消極的獎勵太豐富了,而積極的獎勵很難獲取,在它看來,快速死亡以 0 獎勵結束,比長時間活動可能造成負獎勵更可取。
一位朋友正在訓練一個模擬機械手臂伸到桌子上方的某個點。這個點是根據桌子定義的,而桌子沒有固定在任何東西上。RL 人工智慧學會了重重地拍桌子,使桌子翻倒,這樣一來它也算移動到目標點了。而目標點正好落到了機械臂的末端。
一位研究人員在使用 RL 訓練模擬機器手臂拿起錘子並把釘子釘進去。最初,獎勵定義為釘子被釘到洞裡的深度。結果,機器人沒有拿起錘子,而是用自己的四肢把釘子釘進去了。於是研究人員增加了獎勵項,鼓勵機器人拿起錘子,然後重新訓練策略。雖然他們得到了拿起錘子的策略,但是機器人只是把錘子扔在了釘子上而不是使用錘子。
誠然,這些都是「聽別人說的」,但是這些行為聽起來都很可信。我已經在 RL 的實驗中失敗了太多次,所以我不會再懷疑這一點。
我知道有人喜歡用迴紋針優化器的故事來危言聳聽。他們總喜歡猜測一些特別失調的 AGI 來編造這樣的故事。現在每天都有很多真實發生的失敗案例,我們沒有理由去憑空想像那樣的故事。

這個可能不是新鮮事,因為從艾西莫夫的機器人系列開始,許多小說家就致力於將謎題設置在人類邏輯與機器邏輯之間的不相容地帶。但隨之而來的挑戰會是,如何把這樣艱澀的科學術語轉換為一般讀者也能理解並享受的邏輯難題呢?
您需要登入後才可以回文 登入 | 立即註冊 Sign in with facebook Sign in with google

本版歷練值規則

快速回應 返回頂部 返回列表