1
| 本文作者: 林藠頭 | 2016-07-20 22:35 | 專題:「CCF - GAIR」全球人工智能與機器人峰會報道專題 |
今天,第四范式發布了一款人工智能開發平臺“先知”,這是AI領域首個面向開發者的開發平臺。第四范式對先知設置了參數自動化的算法,并搭建了比Spark快數百倍的機器學習的基礎架構,它降低了人工參與的特征工程和模型訓練過程,還能提供自動或半自動的特征工程、模型選擇調參工具,降低了對數據科學家的依賴。
先知面向實際問題能提供更好的應用型解決方案,從業人員利用這個平臺,1-2個月就能成為數據科學家。創始人戴文淵因此開玩笑說:“我們的愿景就是讓我們自己的科學家失業。”
第四范式號召“AI for everyone”,想要打破AI小圈子的限制。戴文淵說:“我們不是要成立一個小圈子,我們這些人在這個小圈子里面玩AI,而是我們要讓AI的門檻降低,讓每個人都能夠參與進來。”而第四范式首席科學家楊強也把““規避人工智能被某些集團壟斷、引導人工智能走向大眾”當成自己作為一個科學家的使命。
在今天的發布會上,第四范式請來了創新工場創始人李開復、第一財經首席執行官周健工,紅杉資本創始合伙人沈南鵬因為惡劣天氣耽誤了航班,但也在發布會進行到一半時趕到了會場,每個嘉賓都有備而來,各自做了主題演講。加上戴文淵和楊強兩人,這次發布會的規格撐得起四分之一場人工智能峰會了。

發布會結束后,雷鋒網和第四范式首席科學家楊強教授聊了更多關于“先知”和遷移學習的問題。楊強教授是香港科技大學計算機與工程系主任,首位美國人工智能協會(AAAI)華人Fellow,唯一AAAI華人Councilor, 國際頂級學術會議KDD、IJCAI等大會主席,曾創建華為諾亞方舟實驗室并任主任科學家。
雷鋒網:楊教授你說數據是資本是石油,有數據的人能提供越來越多的服務,這句話是不是意味著在AI領域平臺性的公司還是留給大公司?
楊強:其實任何成功的人工智能應用離不開自學習,有足夠多的數據、有足夠多的需求、龐大的計算資源,同時要有頂尖的數據科學家來建立系統,這些都是必要條件,是必不可少的。如果我們這樣走下去,沒有任何新的措施、技術和平臺,我們就會看到富人越來越富。富是什么意思?科學家越來越多;像現在大學教授不斷地辭職去哪里?去Google;數據也不斷地積累,積累到哪里?Google、百度;就形成了這樣“富者愈富”的局面。
現階段是這樣的,因為只有大公司才有能力收集這些數據,而且這個現象會越來越嚴重。他有能力收數據,他的數據越來越多,他通過數據又可以產生新的服務,反過來這些數據又可以吸引更多的數據,所以雪球越滾越大,這不是很健康的事情。我們也想突破這一點,使得那些不是大公司的、沒有具有那么大的財力的公司也可以享受到人工智能的益處,這個我們叫AI for someone,對某些人來說AI是可以產生盈利的,這個比以前的AI for no one還是有進步的,我們的理念是AI for everyone。
雷鋒網:這個領域有希望出現獨角獸么?
楊強:我覺得獨角獸基本已經出現了,下面要看獨角獸是不是會持續出現,比如說Google就是一家獨角獸,因為搜索本身就是大數據和人工智能的結合,包括Google現在眾多的產品都是大數據在驅動的,另外我們看到的滴滴打車也是一個數據驅動的公司,因為只有數據他們才能更好地協調和調度。像阿里巴巴也是一個人工智能的獨角獸公司,因為它是利用了大量的電商數據去做更好的推薦平臺和運輸平臺。這樣的話它的服務就會越來越好,越來越有效率。
雷鋒網:剛剛在臺上戴總提到深度學習現在存在一些局限,局限表現在什么地方?
楊強:說深度學習有一些局限這個觀點是成立的。它的局限來自于幾個方面,因為一個模型畢竟是一個現實的反映,等于是現實的鏡像,它能夠描述現實的能力越強就越準確。但是我們看到深度學習有一個限制,因為機器學習都是用變量來描述世界的,深度學習能handle的變量數是有限的,深度也是有限的,另外它對數據的需求量隨著模型的增大而增大,我們現實中有那么大、那么質量高的數據的情況還不多。實際上一方面是數據量,一方面是數據里面的變量,深度學習來描述數據的復雜度還不夠復雜,所以這方面還是有局限性的。
雷鋒網:但深度學習它是不是目前最好的機器學習的方法?
楊強:應該說目前對某些問題是最好的,比方說人臉識別、語音識別,但是對其他的問題并不是最好的,比方說對于有延遲的反饋,比如機器人的行動。AlphaGo下圍棋也不是深度學期包打所有的,它還有強化學習的一部分,反饋是直到最后那一步才知道你的輸贏。還有很多其他的學習任務都不一定是深度學習才能來完成的。
雷鋒網:就現在的數據分析的水平,能不能準確地預測出世界杯或者是歐洲杯的結果?我之前看到有團隊預測歐洲杯結果,覺得似乎缺了一些科學性。
楊強:如果這些球員還有他們的對手還有裁判已經掌握了大量的數據的話,還是可以預測的,但是對于每一個球隊來說我們掌握的數據還是比較少的,我們只能做一些推測比如說和巴西隊很相近的是阿根廷隊,跟德國隊很接近的可能是荷蘭隊,這種推測本身可能就有不準的地方。再乘以十幾年的數據積累,可能十幾年前的德國隊和現在的德國隊也有大的不同,另外他們遇到不同的裁判和教練,也許他們的表現就不一樣了,所以你說的科學性不夠還是因為數據不夠的原因。
雷鋒網:您剛剛在臺上也對無監督學習做了一個判斷,現在有很多的科學家在致力于做這方面的研究,你說實際上有成功案例的不太多?
楊強:無監督學習應該說是在學術界很高的目標,但是在工業界成功的案例還不多,可是在工業界不多并不表明在學術界不應該做,相反學術界正應該去做,攻工業界沒有做的東西。但現階段來說,我們在很多的深度學習的領域還是有監督的情況下任務完成得就好很多,無監督的成功的案例還是比較少的。
雷鋒網:我知道您在做讓AI有情緒的研究,您介紹一下您的研究進展么?
楊強:我們現在跟人機交互的一些教授,我們那邊有一個人機交互的實驗室,有一些教授在研究說怎么樣去識別人的情緒,比如說通過計算機圖像、語音和人的姿態可以識別這個人是高興還是累了還是厭倦了,同時也可以通過規則和機器學習的方法讓機器人針對人的感情疏解他的煩惱,或者是增強他的快樂,我們在做這些方面的研究,然后應用在機器人尤其是對話系統上。
雷鋒網:其實AI本身是不可能具備情感的是么?
楊強:對,它本身是沒有情感的,它的情感是我們人設計進去的,所以在別人看來它好象有情感,可是我們設計者只有它是沒有的,我們是自己一個數學公式放進去的。
雷鋒網:這個情感識別技術現在成熟么?
楊強:我覺得這個還不夠成熟,是因為這方面的數據收集不夠多,可能有一些小的例子,在這些例子上成功地展示有情緒、有情感的機器人,但是通用的我覺得我們還有待時日來收集這些數據。
雷鋒網:關于知識遷移我在網上找到的信息不大多,應該是英文的資料比較多一些,(非專業的人理解起來有些困難),您能簡單介紹一下它主要是解決哪些問題的么?
楊強:它主要解決兩個問題,比方說我們新開一個網店,我們賣一種新的糕點,可能我們沒有任何的數據,這樣的話我們就沒有辦法對用戶進行推薦。但如果我們知道用戶在另外一個領域比方說飲料,已經有了很多很多的數據,我們利用這個數據建了一個模型,我們就知道用戶飲料的習慣和糕點的習慣可能是有關聯的,我們就可以把飲料的推薦模型給成功地遷移到糕點的領域,使得對于糕點隨著數據不多,但是可以成功的推薦一些用戶可能喜歡的糕點。
一個領域已經有很多的數據,能成功地建一個模型,另一個領域數據不多,但是和前面那個領域是關聯的,我們就可以把那個模型給遷移過來。這個解決的問題是數據少的問題。
第二個能解決的問題是個性化的問題,我們每個人都希望自己的手機能夠記住我們的一些習慣,這樣不用我們每次都去設定它,我們怎么才能讓手機記住這一點呢?其實可以通過遷移學習把一個通用用戶的使用手機的模型遷移到個性化的數據上面。這個以后會用得越來越多。
楊強教授是我們下個月在深圳舉辦的CCF-GAIR人工智能與機器人峰會的主講嘉賓,關于遷移學習、強化學習、情感識別等等更多的研究進展和應用狀況,我們留待大會透露。現在購票參會將立享7折優惠;如果能夠湊齊5人參會,還可以選擇更多優惠的5折團體票。
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。