人工智能已經(jīng)離我們越來越近
很久以前科學家們就意識到,語音和文字信號進入大腦后,會共享一部分處理路徑,正如你聽有歌詞的歌時很容易干擾你的閱讀。而相關的探索,可以追溯到一百多年前一個年輕人的意外發(fā)現(xiàn)。
1874年,卡爾·韋尼克正在著名神經(jīng)病理學家西奧多·梅內(nèi)特手下學習。他記錄下兩位奇特的病人。他們好像患有某種語言表達障礙,但癥狀和典型的表達性失語癥截然不同:他們說話寫字其實都很流暢,但凈是些胡言亂語。韋尼克最終將這種癥狀(現(xiàn)稱感覺性失語癥)歸因于顳葉后部和頂部的腦損傷。它破壞了病人的語言理解能力,所以患者常常說著寫著就忘了:“我要說啥來著?現(xiàn)代科學家們在地觀察大腦活動的過程中,最后都佐證了大腦中語音-文本“匯合區(qū)”的存在,這些區(qū)域同時負責著對語音和文本的理解。
在觀看外語電影時,我們看著字幕也能很流暢的把電影看完,這里的字幕就涉及語音翻譯技術,把源語言的聲音翻譯成目標語言(如你的母語)的文本。
然而對于計算機而言,語音和文本的表達形式大不相同。文本通常只是幾十個符號,但語音都是連續(xù)的聲音波形,長度可以達到百萬之巨。即使是說一個詞,由誰來說、在什么環(huán)境中、何種語境下說,聽起來也會大相徑庭。此外,語音與文本的編碼方式也不同。文本單詞由詞根和詞綴構成。而語音則包含著一系列的語素,輔以輕重和抑揚頓挫。
對人類來說輕而易舉的事情,人工智能來做卻可能難上加難。文本和語音的差異之大,在文本處理方面的研究碩果累累時,語音上的表現(xiàn)卻落后不少。要想彌合差距,就需要統(tǒng)一理解語音和文本,就像我們的大腦那樣。
現(xiàn)在我們研究人工智能時就已經(jīng)開始從解剖學和神經(jīng)學中獲取靈感來優(yōu)化模型,人工智能已經(jīng)離我們越來越近。