這大概是世界上最聰明的一塊玻璃,它可以用來識別數(shù)字,并且無需耗電,也不用傳感器,只要光亮即可。
這個玻璃 AI 研究將人工智能嵌入了一個非計算機的物理裝置中,自帶科幻色彩。它能夠實時區(qū)分手寫數(shù)字,也就是說,一塊小小的玻璃實現(xiàn)了傳統(tǒng) AI 的相機、傳感器和深度神經(jīng)網(wǎng)絡的功能整合。當數(shù)字變換時,系統(tǒng)能及時作出反饋。
圖 | 從左到右分別為:喻宗夫、Ang Chen 和 Efram Khoram。他們開發(fā)了這款智能玻璃。 (來源:SAM MILLION WEAVER)
核心算法:光的散射
光學神經(jīng)計算最重要的特點是,幾乎不消耗能量,且因其有內在的并行性可大大加快計算速度。與此前光學神經(jīng)計算不同,喻宗夫團隊的研究沒有遵循數(shù)字神經(jīng)網(wǎng)絡架構,也不采用分層前饋網(wǎng)絡,而是利用光學反射連接各個激活單元。正是這種光反射作為反饋機制,從而導致了豐富的波動結果。
這是一種無需分層的連續(xù)人工神經(jīng)計算系統(tǒng)。這套系統(tǒng)利用了特意嵌入玻璃中的石墨烯和小氣泡。當目標圖像的光線穿過玻璃 AI 時,其路徑就會被這些氣泡和石墨烯反射或折射而造成彎曲,彎曲后的光線會聚焦到玻璃另一側 10 個點中的某個點上。
圖丨玻璃 AI 的原理。(a)傳統(tǒng)的人工神經(jīng)網(wǎng)絡架構,其中信息只能向前傳播; (b)玻璃 AI 系統(tǒng)的光學神經(jīng)網(wǎng)絡,采用通過具有線性和非線性散射體的光進行神經(jīng)計算。
圖丨玻璃 AI 的工作過程。(a)系統(tǒng)經(jīng)過訓練以識別手寫數(shù)字,輸入波將圖像編碼為光能強度分布。(b)數(shù)字 2 的兩個樣本。 可以看出,兩個 2 的光能場分布不同,但是它們被識別為 2。(c)兩個 8 的光能場分布不同,它們都被識別為 8。(來源:喻宗夫)
這 10 個點對應了從 0 到 9 這 10 個數(shù)字。就像一把鑰匙開一把鎖,如果某個數(shù)字的光線沒有對焦到相應的數(shù)字,研究者就調整系統(tǒng)中的雜質大小和位置。研究者對此進行了成千上萬次訓練,最終玻璃 AI 學會了精確的數(shù)字對應。即使手寫數(shù)字風格不同,這套系統(tǒng)也能準確聚焦、識別。
這是一種以簡單結構獲得復雜行為表現(xiàn)的研究。在機器學習的過程中,研究人員訓練的是物理材料,而不是數(shù)字代碼。也就是說,光傳播的波動力學實現(xiàn)了人工神經(jīng)計算的功能。相對于數(shù)字計算,這是顛覆性的觀念。
研究人員認為,這套系統(tǒng)在現(xiàn)實中的應用還不確定,但理論上可以制作成生物識別鎖,進行人臉識別。只是這個系統(tǒng)還缺乏計算上的靈活性,以及面對多線程或不同的任務。
顯然,這個玻璃 AI 看起來和我們此前認識的 AI 系統(tǒng)不一樣,它為何會被稱為 AI 系統(tǒng)?這個系統(tǒng)有人臉識別的潛力嗎?研究者下一步會如何開發(fā)這個系統(tǒng)?帶著諸多問題,DeepTech 專訪了作者喻宗夫。
模糊識別很難,是 AI 的體現(xiàn)
DeepTech:能不能介紹你們課題組的工作內容以及你們的研究目標?利用光來做 AI 系統(tǒng),這個思路是怎么產(chǎn)生的?
喻宗夫:我們希望在納米光學技術和機器學習的交叉口創(chuàng)新,希望對光敏材料、傳感器件、光學成像系統(tǒng)和機器學習全棧優(yōu)化。以前硬件和軟件的研究比較分立,我們希望把軟硬件看作一個整體,以具體應用為目標導向,從新整體考慮視覺感知。在這個大方向下面,我們組成員們展開思路,不拘泥于現(xiàn)有光感、成像、識別的架構體系,于是 Erfan 和其他組員就想出了這個點子。
DeepTech:與其他的光計算相比,你們這個研究是怎樣的特點?
喻宗夫:以前的光計算本質上還是數(shù)字計算,只是把電子換成了光子,從電路改成了光路。用光作為載體來計算有幾十年歷史了,這次我們利用的是結構材料本身特性。
首先第一點,我們的玻璃 AI 不存在以前神經(jīng)網(wǎng)絡的分層概念,它整個就是一體化的。另外,我們整個優(yōu)化方法的過程也不是按照模擬數(shù)字神經(jīng)網(wǎng)絡的思路,而是優(yōu)化麥克斯韋方程,去控制光的物理散射過程。
從實現(xiàn)的結果上來說更不一樣。就是說我這個裝置可以做得非常小,也不需要用任何能量,因為以前的結構需要分層,體積和能耗就比較大。
DeepTech:這個玻璃 AI 看起來和我們此前認識的 AI 系統(tǒng)不一樣,它為何會被稱為 AI 系統(tǒng)?能不能說,這只是一套數(shù)字密碼系統(tǒng)?
喻宗夫:模式識別是典型的 AI 應用。這和密碼系統(tǒng)完全相反,我們需要這個玻璃有很大的容錯性:一個數(shù)字誰來寫,都要認出來,這種模糊識別很難,是 AI 的體現(xiàn)。 相反,密碼則要一個比特也不能差,卻容易實現(xiàn)多了。
DeepTech:這個 AI 系統(tǒng)與計算機是什么關系呢?該系統(tǒng)的訓練學習過程是一個調整玻璃內石墨烯雜質的過程,而不是其他 AI 系統(tǒng)那樣在計算機輸入數(shù)據(jù)、在終端輸出結果那樣的過程,對嗎?
喻宗夫:光在玻璃里面?zhèn)鞑ゾ褪且粋€偏微分方程控制的波動過程,而神經(jīng)網(wǎng)絡和偏微分方程有很大的相似性。我們利用這種相似性,以波動方程為載體實現(xiàn)神經(jīng)網(wǎng)絡的計算效果。
光打到玻璃里的小孔上,就會被散射開。小孔就像數(shù)字神經(jīng)網(wǎng)絡里的節(jié)點,它們把輸入混合起來,產(chǎn)生輸出。我們這個訓練過程,就要去做和神經(jīng)網(wǎng)絡一樣的梯度下降,去調整玻璃里面的小孔和非線性材料的位置與大小。
DeepTech:這個思路很出奇,做出這樣的系統(tǒng)需要哪些研究基礎呢?
喻宗夫:其實做這個事情需要很多領域的配合。我們不是僅僅把數(shù)字改換成光子,我們還要去解電磁場方程。所以對機器學習、電磁場方程這兩塊領域都要熟悉。 我們希望在這個交叉領域繼續(xù)研究創(chuàng)新。
DeepTech:似乎這個 AI 系統(tǒng)不需要那么巨量規(guī)模的訓練,是這樣理解嗎?
喻宗夫:不是,我們也需要很多訓練。因為這個是在電磁場介質里面?zhèn)鞑?,我們要仿真整個電磁場傳播的過程,然后在這個基礎上要對偏微分方程整體做優(yōu)化,所以計算量其實是非常大的。我們用的是機器學習的方法,但解的是電磁場的優(yōu)化問題,所以這兩塊結合起來很有挑戰(zhàn),需要從頭寫整個訓練工具。
一個新的概念
DeepTech:這個研究是一個怎么定位?是技術的突破,還是說創(chuàng)造了一個新的工具?
喻宗夫:我覺得這是一種新的概念。我們是用玻璃本身來實現(xiàn)人工智能的計算,而以前的人工智能都是用計算機完成的,那么現(xiàn)在是利用非數(shù)字模擬的物理作用就可以實現(xiàn)這件事情,所以說在這方面是一個突破。如此引申的話,很多其他物理作業(yè)比如聲波也可以這樣操作。
DeepTech:能說這是一個計算機嗎?
喻宗夫:對。通用的計算機可以做很多事情,我們這個系統(tǒng)只能做一件事情,所以在這一點上它跟計算機是有差別的。但是目前來說,計算機的發(fā)展也漸漸地趨向于只做一件事情。比如說挖比特幣的礦機。
我覺得,這個不是為了取代已有的圖像識別系統(tǒng),更多的可能是一些更廣闊、以前沒有應用的方式。比如說,雖然說我們現(xiàn)在有了數(shù)字鎖,但是沒電或者斷網(wǎng)就不能用。我們這個人臉識別鎖就像傳統(tǒng)物理鎖,只要有鑰匙它就一直可以用。
所以可能是在這種更加特殊的時候,如果你擔心 AI 系統(tǒng)被攻擊的話,那么這個系統(tǒng)完全沒有可能從外界去攻擊或干擾,它對安全性很有保障。
DeepTech:除了數(shù)字識別,這個系統(tǒng)如果用來開發(fā)人臉識別的話,還需要做哪些工作?以及其挑戰(zhàn)有多大?
喻宗夫:人臉識別在概念上的可行性已經(jīng)可以通過現(xiàn)在的工作證明。人臉識別的應用需要不少工程工作,可能超出一個學術問題了。比如訓練的樣本的光場建模需要大量的計算。
DeepTech:你們下一步會如何開發(fā)這個系統(tǒng)?這個系統(tǒng)將來如何能便捷應用到普通民眾中,能成為一款便攜式的智能產(chǎn)品嗎?
喻宗夫:這個概念為我們自己打開了一個思路:不一定要有數(shù)字和芯片才能智能。智能可以無所不在,我們稱之為物理驅動智能。 我們今天證明玻璃可以識別圖像,就是麥克斯韋電磁場定律賦予的。還有很多物品可以利用物理定律的來智能化。
數(shù)字芯片是人類的智能產(chǎn)品,物理定律的智能產(chǎn)品一定更廣闊。我們覺得利用物理來做智能計算很有意思,而且有廣泛的應用價值。
專家點評:
阮智超(浙江大學物理學系教授):本研究原創(chuàng)性較高,與 2018 年一篇 Science 研究有異曲同工之妙,后者創(chuàng)造了一種 3D 打印的全光學衍射深度神經(jīng)網(wǎng)絡架構。在喻宗夫研究中,如要應用到如人臉識別等復雜場景,需要進行復雜的調參,這對于這種玻璃 AI 裝置有挑戰(zhàn)性。
喻宗夫簡介:
喻宗夫(ZongFu YU),威斯康星大學麥迪遜分校電子及計算機工程系副教授。2004 年本科畢業(yè)于中國科學技術大學物理學系,博士畢業(yè)于美國斯坦福大學,主要研究領域是微納光子學、機器視覺和新能源。他是非互易納米光子學開創(chuàng)人之一,提出了納米太陽能電池的效率理論,并開發(fā)了多模視覺相機,應用于下一代的機器視覺。