讀天才與算法：人腦與AI的數學思維筆記22_中文房間

1. 華生的工作模式1.1. 請你想象一個巨大的場景，其中有單詞、名字和其他可能的答案，它們散布在各處1.1.1. IBM所做的第一步是以某種連貫的方式排列單詞1.1.2. 第二步是理解每個問題，並爲該問題生成候選位置標記1.1.2.1. 愛因斯坦會演奏小提琴，那麽他就會被定位于“科學家”和“音樂家”這兩個方向1.1.2.2. 但你不會從音樂家的角度繼續推演，而是會從科學家的角度繼續推演1.2. 識別和選擇這些特性和品質是一門藝術1.3. 四個階段1.3.1. 分析問題，以確定可能的答案範圍1.3.2. 在候選範圍裏根據問題選擇大約200個可能的答案1.3.3. 評價這些可能的答案1.3.3.1. 評價過程是將這200個多維點壓縮在一個數值維度上，然後對這些答案進行評分並依次排列，最後對答案的信任值進行評價1.3.3.2. 能與維基百科中的內容進行准確的語義匹配的數據，在其他限制因素也匹配的情況下，很可能會得到非常高的分數1.3.4. 給出答案1.3.4.1. 當評分以及信任值評價高于一個設定的阈值時，算法就會給出建議的答案1.4. “華生”研究團隊提出了50種不同的評分模型1.4.1. 在未知評分情況的狀態下，“華生”會廣泛地選擇候選答案1.4.1.1. 采用廣泛撒網、重點培養的模式運作，即先傾向于選擇包含多種可能的答案，然後利用評分機制選取得分靠前的幾個選項1.4.1.2. 像選擇旅店入住1.4.1.2.1. 首先你需要選擇想入住的區域1.4.1.2.2. 搜集該區域所有旅店的信息1.4.1.2.3. 會根據網上的價格和評價信息進行選擇1.4.1.2.4. 這樣的選擇方式就很有可能有利于一家值得入住但位置偏遠的旅店1.4.1.3. 算法進行評分的方式允許它以自下而上的方式從錯誤中學習並細化參數，有點像轉動刻度盤來重新定義函數1.4.1.4. 其中的藝術在于算法試圖爲你撥動的刻度盤找到最佳的設置，在盡可能多的不同的背景下得到正確的答案1.5. “華生”可以訪問一個容量爲15TB的人類知識數據庫1.5.1. “華生”在參加《危險邊緣》之前，就已經將整個維基百科進行了離線存儲，以供其隨時調用1.5.2. 他根據自己收集到的所有信息將它們進行關聯性的考量，仔細地考慮最可能的選項1.5.2.1. 對于人類選手來說，這是一個即時的、直觀的過程，但我確信在這背後，我的大腦或多或少在做著同樣的事情。1.5.2.1.1. 詹甯斯1.5.3. 關聯性的線索1.5.3.1. 線索中暗示的時間、地點、性別，抑或是體育、文學、政治等範疇1.6. 對于IBM和DeepMind這樣的公司來說，贏得比賽爲其提供了一個相當明確的成功指標1.6.1. 比賽要麽贏要麽輸，沒有模棱兩可的暧昧1.6.2. 贏得比賽這件事給需要銷售産品的公司提供了極好的宣傳噱頭，因爲人人都喜歡“人機大戰”的戲碼1.6.3. 不僅擊敗了所有選手問鼎《危險邊緣》的冠軍，還被應用于醫學診斷領域1.6.4. 一場算法的“時裝秀”，讓計算機公司展示自己傲人的編碼能力1.7. IBM的“華生”已經改變了我們對計算機的認知1.7.1. "華生”對非結構化數據進行處理的能力是它最大的優勢所在1.7.2. 人類可以告知“華生”哪一個信息源更爲可靠1.7.2.1. IBM將這種成果稱爲“認知計算處理”，這是因爲人類在此過程中的角色從調度安排轉變成了訓練1.8. 在未來，我們將減少死記硬背的計算，更多地依靠互動和學習1.8.1. 算法非常聰明，只要有更多的信息，它就能夠做到排除某些答案，或者提高對某些已經提供的待選答案的信心值1.8.2. 當“華生”在當前的應用程序中處理一個困難的問題時，它可以生成一組可能的答案集，也可以使提出的問題趨于簡單明了1.8.2.1. 大多數這種問答系統都是爲處理一類特定的、邊界明確的問題而設計的，這就意味著它只能回答某些類型的問題，而且在輸入問題時必須要以特定的方式進行措辭，方能獲得算法的響應1.8.3. “華生”可以處理“開放域”的問答，這意味著面對“華生”，你想問什麽就可以問什麽1.8.3.1. 它使用“自然語言”處理技術來分解你抛給它的詞句，這樣可以使算法真正理解問題，即便你在問它時使用了不尋常的方式，它也能有所回應1.9. DeepQA是“華生”在生成假設時使用的一項基礎技術1.9.1. 《星際迷航》中的電腦就是一個合適的範例1.9.2. 這個虛擬的計算機系統可以被看作一個交互式的系統，它可以回答任何問題，還可以提供關于任何主題的精確信息2. 巴別魚2.1. 在《銀河系漫遊指南》（The Hitchhiker’s Guide to the Galaxy）裏看到過的“巴別魚”（babel fish）的故事2.1.1. 道格拉斯·亞當斯（Douglas Adams）1952—2001，英國著名的科幻小說作家，幽默諷刺文學的代表人物，第一個成功結合喜劇和科幻的作家2.1.2. “巴別魚”是一種黃色的、類似水蛭的小動物，當它掉到你的耳朵裏時，會以腦電波爲食，即時翻譯出你聽到的任何語種的語言2.1.3. 谷歌最近宣布其發明了一款名爲“Pixel Buds”的耳機，這發明正是道格拉斯·亞當斯（Douglas Adams）夢寐以求的2.2. 鑒于輸入了符合語法的句子，你可能會認爲已經完成了駕馭語言的工作，逐字逐詞對應地翻譯就可以了2.2.1. 簡單的單詞替換常常會把原意攪成一鍋粥2.3. 一個可以有效工作的翻譯算法需要很好地理解詞語之間的關聯性和詞語組合的模式2.4. 現代翻譯算法正在深入研究語言的基本數學形態2.4.1. 通過試驗，我們可以把語言中的單詞繪制成高維幾何空間中的點，然後在彼此具有結構性關系的單詞之間繪制連線2.4.2. 最終將得到一個高維的晶體結構，有趣的是，英語和法語的晶體結構在外觀上非常近似2.4.2.1. 我們必須弄清楚是什麽使它們保持這樣相當高的近似性2.4.3. 有人提議以動物交流的聲音爲對象，繪制高維晶體圖，看看它們的圖像是否與人類交流具有相同或相似的形狀，以便讓我們能夠理解我們的寵物到底在說些什麽2.5. 翻譯不僅要選擇正確的單詞，重要的是要能捕捉到字裏行間的情感2.5.1. 大多數情況下，機器翻譯只要能傳達句子的意思，大體翻譯一下就可以了2.5.2. 作爲算法翻譯成功的代表，谷歌翻譯目前支持103種語言，每天翻譯超過1400億個單詞2.5.3. 實際上，在人工智能解決意識的問題之前，這些算法永遠不可能達到人工翻譯的水平2.5.3.1. 爲了獲得更准確的翻譯，谷歌聘請了人工翻譯人員來改進它的算法，但這並不總能帶來更加令人滿意的結果2.5.3.2. 谷歌翻譯還是越來越擅長人類語言翻譯2.5.4. 翻譯不僅僅是語言之間的遷移，而是思想在語種之間流動2.5.4.1. 除非機器有了靈魂、生出了靈智，否則它將永遠無法深刻理解並充分利用人類交流的精妙2.5.5. 詩歌除了包含意思表達，還包含語音、音韻等內容，不是簡單的內容翻譯就可以3. 斯蒂爾斯的實驗室3.1. 每一台機器人都爲自己獨特的動作創造了一套屬于自己的獨特語言3.2. 通過不斷的更新和學習，機器人發展出了自己的語言3.2.1. 這種語言足夠複雜，甚至包含了像代表“左”和“右”等更爲抽象的單詞3.2.2. 這些詞，是在詞和動作與位置的直接對應關系的基礎上發展而來的3.2.3. 在這個試驗中，任何趨同的進展都是令人興奮的3.2.4. 這些機器人有一種它們可以互相理解的新語言，但研究人員在試驗進行的一周內一直無法理解這種語言，直到他們與機器人進行了極大量的交互，才能解譯這些新詞的含義3.2.5. 一種共同的語言出現了3.3. 斯蒂爾斯的試驗爲洛夫萊斯的預言提供了一個很好的反證3.3.1. 斯蒂爾斯編寫的代碼允許機器生成自己的語言，代碼中出現了一些新的東西，演示證明除了機器以外，沒有任何人類能夠理解它們的共同語言3.3.2. 學習這門語言的唯一方法就是讓機器人演示每個單詞所對應的動作或位置3.4. 谷歌的Google Brain提出了一種新的加密算法，即創建獨有的語言算法，這樣就可以在不被第三方竊密的情況下進行交互通信3.4.1. Alice和Bob的任務是使用這個數字創建一種秘密語言，這種秘密語言只有在知道密鑰的情況下才能被解密3.4.2. 一開始Alice試圖掩蓋信息的企圖很容易被黑掉，但經過15 000次交互以後，Bob就能解讀Alice所發送的信息了，而Eve解讀的概率還是跟瞎猜沒任何區別3.4.3. Alice和Bob使用的神經網絡意味著，它們的交互很快就會被不斷重新定義的語言所掩蓋，所以不止Eve被擋在門外，就算是人類，即使通過查看結果代碼，也不可能解讀出它們正在做的交互3.5. 這些機器人可以安全地交談，而我們人類卻無法竊聽它們的私語4. 中文房間4.1. 在怎樣的情況下，我們應該認定算法理解它實際在做什麽4.1.1. 從約翰·希爾勒設計的“中文房間”試驗中得到結論4.1.2. 華語房間（Chinese room）試驗，是由約翰·希爾勒提出的一個思想試驗，借以反駁強人工智能的觀點4.1.3. 試驗過程4.1.3.1. 想象一下，你被關在一個房間裏，房間裏有一本用英文寫成的從形式上說明中文文字句法和文法組合規則的手冊，以及一大堆中文符號4.1.3.2. 依靠這本手冊的說明，將中文符號組合起來，你就可以和一個講中文普通話的人進行非常有說服力的溝通，而你不需要理解任何一個中文字或詞4.1.4. 一台被編程以文本形式進行回應的計算機，雖然我們很難將其與真正的人類區分開來，但它仍不能被認爲是具有智力或理解力的4.2. “嵌入式”這一思路是對圖靈測試的巨大挑戰4.2.1. 當我在說話的時候，我的大腦到底在做什麽呢？4.2.2. 這個過程中我的大腦是不是在某種程度上也在遵循一套指令？4.2.3. 是否存在一個阈值，超過這個阈值，我們就可以認定計算機是理解中文普通話的？4.3. 當一台計算機談論一把“椅子”時，它不需要知道“椅子”這個東西是供人們坐在上面的一個物理物體4.3.1. 它只需要遵循規則，但遵循規則並不等同于理解4.3.2. 如果算法沒有親身體驗過“椅子”，就不可能完美地使用“椅子”這個詞4.3.2.1. 這就是爲什麽體現智能的問題與人工智能當前的發展趨勢高度相關4.3.3. 所有物理意義上的椅子都是不相同的，但它們在語言上被壓縮成了一個數據點：“椅子”4.3.3.1. 這個數據點可以被另一個人打開，再將“椅子”這個數據點放到他所經曆過的所有“椅子”上4.3.3.2. 有各式各樣的“椅子”，它可以是扶手椅、長凳、木椅或辦公椅，這些會讓人産生不同的聯想4.3.3.3. 維特根斯坦著名的“語言遊戲”4.4. 在某種程度上講，語言就是我們周圍環境的低維度投影4.4.1. 所有的語言都只是拙劣的翻譯4.4.1.1. 弗蘭茲·卡夫卡（Franz Kafka）4.4.2. 一台對具象世界沒有實踐經驗的計算機肯定會在“中文房間”的低維空間裏受阻4.5. 歸根結底，意識的奇特本質允許我們將所有信息整合到一個統一的體驗中4.5.1. 如果我們研究一個單獨的神經元，它肯定不懂英語，但當我們用一個個神經元構建出大腦中樞神經時，我們知道它確實懂得語言4.5.2. 當我坐在房間裏用手冊處理遞進來的中文普通話時，我就像是大腦的一部分，是負責處理中文普通話的神經元的一個子集4.5.3. 換句話說，整個系統是由我、房間和手冊組成的4.5.3.1. 這是整個大腦的組成，而不僅僅是我坐在那裏。4.5.3.2. 在“中文房間”裏，我就相當于計算機的CPU（中央處理器），通過進行基本的計算來執行計算機程序的指令4.6. 也許機器不需要理解它在說什麽，就能寫出令人信服的文學作品

文采家

讀天才與算法：人腦與AI的數學思維筆記22_中文房間

躺柒