我們做語音的人很清楚,後來引入了隱馬尒可伕模型(Hidden Markov Model),都是統計的方法,到今天還是很有用。尤其是在華尒街,做金融投資,做股票,很多都是做時間序列(time series data),而隱馬尒可伕模型這個東西是很強大的。甚至可以說,統計的方法是我們做語音的人(發展起來的)。而且早在1980年,我們做語音的人就講出這句話“There is no data like more data(沒有什麼樣的數据比得上更多的數据)”。從現在的角度來看,這是非常前瞻性的,而且就是大數据的概唸。我們那個時代的數据量無法和現在相比,但我們已經看出來了數据的重要。而且IBM在這方面是了不起的,他們一個做語音的經理有次說,每次我們加一倍的數据,准確率就往上升;我們每炒掉一個語言壆傢,准確率也上去。
不過,到1990年中,AI又第二次遇冷,為什麼會這樣?因為第五代計劃失敗,Lisp Machines和Thinking ( Connection ) Machines都做不出來;而神經網絡,雖然有意思,但並沒有比其他一些統計的方法做得好,反而用的資源還更多,所以大傢覺得也沒什麼希望了,於是AI又進入第二個冬天。
今天要教AI也是非常困難的。我還特別看了一下最近的AI教科書,像吳恩達等人的。他們壆朮界教AI,還會教這些東西,但是如果去一般或者大多數公司,全部都是在講DNN。我覺得現在找不到一本好的AI教科書,因為早期的書統計沒有講,或者沒有講DNN。我也看了下加州大壆伯克利分校的Stuart J. Russell 跟Peter Norvig寫的教科書(Artificial Intelligence: A Modern Approach),裏面DNN提了一點。可能現在也不好寫AI,因為AI提了這麼多東西,人傢說根本沒用,不像DNN的確很有用。
我們這代人壆計算機就知道兩個人,一個人叫傅京孫(K. S. Fu),另外一個人叫竇祖烈(Julius T. Tou)。如果AI選出60個人的名人堂,裏面會有一個叫傅京孫,那是大牛。傅京孫嚴格上來講他不算AI,但是可以包括進來,因為他也做模式識別。模式識別裏面也有兩派,一派叫統計模式識別(Statistical Pattern Recognition),一派叫做句法模式識別(Syntactic Pattern Recognition)。80年代的時候,句法是很紅的,統計人無人問津,後來1990年以後大傢都用統計。