1
| 本文作者: 宗仁 | 2016-08-16 18:00 | 專題:CCF-GAIR | 全球人工智能與機器人峰會 |
李航,華為技術有限公司諾亞方舟實驗室主任,北京大學、南京大學兼職教授。他日本京都大學電氣電子工程系畢業,日本東京大學獲得計算機科學博士學位。李航博士的研究方向包括信息檢索,自然語言處理,統計機器學習,及數據挖掘。他一直活躍在相關學術領域,曽出版過三部學術專著,并在頂級國際學術會議和國際學術期刊上發表過上百篇學術論文,擁有40項授權美國專利。
近日,在雷鋒網舉辦的CCF-Gair大會上,李航接受了雷鋒網在后臺關于AIR方面的對話,闡述了華為在大數據,機器學習,人工智能三塊工作的內部聯系。
華為的大數據主要是用在幫華為,電信,運營商去提高效率,基于這些企業多年積累的大數據去解決業務、運營上的各種問題,做智能化升級的事情,用大數據去解決各種業務遇到的問題,公司里面所有的業務應該是能(和我們實驗室)聯系在一起的。
以客戶之一上海聯通舉例,那里有500萬的用戶,通過這些手機大量的數據來確定這些人在一天內的流動,然后我們可以去做很多的事情……
通常我們所說的大數據很多時候都是小數據,比如你自己手機里的數據你不愿意給別人去看,把所有小數據加起來才是大數據,但你不能隨便把每個人的數據都拿出來,有版權,有隱私等各種問題。
而訓練模型的時候需要大規模的數據,這時我們只能學一個通用的模型,學好了再把它遷移到每一個個體的數據案例上,再進一步去學習,目前這個(遷移學習應用)還沒有具體的案例。
但具體地,現在華為基于大數據用機器學習在做的事情有:
其一,用文字或者自然語言檢索分類照片。該方式不使用人工或機器學習的形式預先為每個照片設置一個標簽,然后通過標簽來處理照片。而是采用深度學習模型的方式處理照片,利用照片承載的內容產生自然分類。
其二,神經機器翻譯。
其三,神經響應機,即一個自動生成式系統,這是業界第一臺公開發表的能夠自動生成回復的智能應答機,而不是通過大數據搜索配對實現的。
主要是研究的時候驅動力會著重跟公司的業務掛鉤。
這些研究有長期的有短期的。
比如公司未來十年發展業務方向需要什么樣的技術,然后反推過來需要什么樣的技術。(實驗室研究方向,跟華為其它業務一樣,還是客戶導向的?)對,可以這樣說。
前一任主任楊強教授和您的管理風格有何不同?
每個人都有自己的作風,大的方向是一樣的,大家都是想要把自己的研究做好,把研發推動。他也是學者,我也是學者。
我們的背景不太一樣,他的方向主要在遷移學習,我的方向主要在自然語義處理,信息檢索等,方向會跟人研究的內容和興趣關聯比較大。
四年前我們在一起建立了華為諾亞方舟實驗室,現在各自的領域大家還堅持在做,這個是不會有變化的。
沒有絕對的比率,實驗室的目標還是圍繞公司業務來的。
如果是10年規劃的產品,目的是圍繞未來去做,去投資,反過來就是我們需要在哪些領域去做嘗試。但如果光瞄準未來10年,目標就容易很空。
如果是3年到5年規劃的產品,則是要有一些階段性的成果,甚至還有一年,半年要出階段性成果的,這個時候會根據情況去調整,但大的方向往往都是比較明確的,主要關注人工智能、機器學習、數據挖掘等前沿科技領域的研究。
然后根據這三個方向去決定,要往哪個領域加大力度去投入,要跟哪些實際的產品去合作,平衡好長期研究和實際應用開發的兩類項目,相對來說,產品開發的比例會大一些。
現在華為有兩個是產品(一款產品是華為手機上的App市場。另一款產品是華為“手機服務”。)另外也有在做的業界領先的深度學習,自然語義處理相關的一些合作,這些雖然還在技術研發階段,快一點一兩年也能成功。
人工智能現在的核心技術就是機器學習,這兩者目前幾乎是畫等號的,未來可能還有其它的手段可以做地更好,只是現在沒看到而已。
機器學習往往需要數據,或者說大數據,跟大數據相關。
很多大數據在沒被利用的時候就是一些垃圾,如果能被有效利用,用機器學習的技術,基于此做一些智能型的東西,它就是人工智能了。
人工智能的手段基本都是這個套路,基本上都是跟這三個(大數據,機器學習,人工智能)相關的。具體怎么稱呼,主要看你強調什么東西。

雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。