3
| 本文作者: 高婓 | 2016-10-07 14:42 |

包云崗老師,CCF理事,2016 CNCC大會的特邀嘉賓,于2003年獲南京大學理學學士,2008年獲中科院計算所博士學位,2010-2012年普林斯頓大學計算機系博士后,現為中科院計算所研究員,博士生導師,先進計算機系統研究中心副主任。研究方向主要是計算機系統結構。包老師在國際一流計算機系統會議期刊發表了10余篇論文,曾兩次獲計算所優秀論文一等獎,獲2013年CCF-Intel青年學者獎。同時擔任CCF普及工作委員會主任,《中國計算機學會通訊》編委。
當前云計算面臨著一個世界級難題:資源利用率與用戶體驗之間的矛盾。那么問題來了,魚與熊掌是否可以兼得,答案好像并不是那么簡單,就連Google、百度、阿里這樣的科技巨頭也都為之頭疼。我們有幸采訪到CCF理事、中科院計算所研究員包云崗老師,包老師在2016 CNCC大會上的報告:云計算與標簽化馮諾依曼體系結構,中提出的標簽化馮諾依曼體系結構(LvNA)將有希望解決這個難題,成為計算機科學領域的一個新突破。
包老師:其實,云計算背后的英雄是數據中心(data center)。國內常將數據中心理解為存放數據的地方,這是對數據中心的錯誤認知。在國際上,數據中心是指一種超級計算機,例如Google稱數據中心為“Datacenter as a computer”,最終目的是使用戶或開發者像利用一臺計算機那樣便利地使用數據中心。要做到這一點,背后需要非常多的技術,Google在這一塊兒已經用了10年的朝這個方向努力,究其目的是希望使數據中心的運用變得更為便利,運行成本更低。所以,我們不能簡單地將數據中心看做存放大數據的地方。
在英特爾看來,未來將進入數據中心時代,更具體地講,未來會呈現兩種模式,計算一部分放在手機移動終端或物聯網的物端,另外一部分將放在后方的數據中心里。在數據中心上面將運行各種各樣的應用,如可以在數據中心運行云計算,大數據分析,高性能計算如HPC,各種網絡功能如NFV。在未來,數據中心將變成一種最基礎的基礎設施,很多后端的應用都可以在數據中心上實現。
現在,大家對數據中心的理解有些片面,所以數據中心所遇到的挑戰就被大家忽視了。事實上,互聯網用戶體驗與數據中心的技術與性能是密切相關的。 例如,我們在手機上按一個按鈕,微信上點一個帖子,大概有一半的時間都耗費在數據中心里面。然而,我們現在的數據中心尚存在這樣一個難題:沒有辦法同時保證用戶體驗與資源利用率(具體來講為CPU利用率)。如果提高資源利用率,用戶的體驗(響應時間)就會下降。就像馬路的交通一樣,如果使很多車輛同時在路上行駛,馬路的利用率被提高了,但是人們的出行體驗就會降低了。
包老師:我認為,認識到這樣一個難題有一個傳遞的過程,這個問題最早是在Google遇到的,當云計算或數據中心的發展達到一定規模時,這個問題才會體現出來,很多企業現在其實還沒有達到這個階段。這是一個需求傳遞的過程,Google 很早就發現這樣的問題,已在著手處理這個問題,并呼吁需要體系結構創新與硬件支持。國內百度、阿里,華為這些領先型企業已經開始投入大量的技術試圖解決這個難題,再過幾年,會有更多的企業關注這個難題。目前,這個問題還是比較前沿的。
(注:在采訪過程中,包老師將這個問題調整為:標簽化馮諾依曼體系結構(LvNA)是如何提高數據中心服務器的CPU利用率的?)
包老師:其實這個問題不太恰當,因為普通用戶很多時候不會去關注手中的手機,筆記本電腦CPU的利用率有多高。但是,像微軟,Google這些大公司會非常關注CPU的利用率。CPU利用率低這個問題更多是從數據中心的角度出發的。
當前面臨這樣一個矛盾:一方面,建立一個數據中心的成本非常高。如阿里在張北建立的數據中心耗資180億,微軟現在在全球數據中心上的投入有300億美元,Google僅在2014年一年內在構建數據中心基礎設施方面的投入高達110億美。另一方面,數據中心CPU的利用率極低,例如亞馬遜擁有幾百萬臺服務器,投資達幾百億美元,但是,幾年前一份報告揭示其在數據中心上運行的云計算業務CPU利用率只占百分之十幾,相當于百分之八九十的利用率都被浪費了,但這樣能保障較好的用戶體驗。
過去幾年,這些大公司已投入了大量精力來應對該問題。Google為了解決這個資源利用率與用戶體驗之間的難題,對數據中心整個軟件棧進行優化,從底層虛擬化、操作系統,到上層分布式架構。但2015年美國工程院院士、google的數據中心專家Dick Sites在多個報告中承認,在一個共享的服務器上實現程序間的性能隔離真的很難,Google在軟件優化上已經盡力了,亟需硬件支持。
我們提出標簽化馮諾依曼體系結構(LvNA),希望能夠從硬件層面為解決上述問題提供關鍵技術。用交通做類比,LvNA就是希望能夠在馬路上已經很擁堵的情況下,還可以保證很關鍵的車輛(好比一些要求非常高的應用)能夠順利通過。通過運用標簽化機制,增強這種控制機制,即使在提高CPU利用率的情況下,依然能夠保證用戶要求體驗效果高的一些應用高速運行。
其實,我們的生活中也存在標簽化機制。在馬路上,我們會看到救護車、消防車,警車、私家車等涂裝是不一樣的,這就是一種標簽化機制。然后,我們有相關的交通規則,能夠保證這些車,比如救護車、消防車、警車在鳴笛時,其他車輛讓行,如果大家都遵守這種規則的話,便能夠在緊急情況下保證這些車輛順暢通行。
我們就是想要把交通規則應用到計算機體系結構中,為一些關鍵的應用加上標簽,并制定相關通行規則,保證用戶體驗要求非常高的一些應用先通過。這種情況下,能夠保證提高CPU利用率的前提下,一些關鍵應用不會受到影響,從而實現共享硬件資源的按需分配與性能隔離。
包老師:實際上,每一種硬件提出之后都需要相應的軟件來適配,需要軟件將這些硬件的功能發揮出來。通觀計算機系統的發展史,幾乎都是硬件提供新的功能,軟件隨后發生相應的改變。當計算機體系結構帶了標簽后,能夠通過標簽實現性能隔離,增強控制,這樣之后,軟件也需要進行相應的調整,即要求軟件能夠與所設定的標簽關聯起來,如該打什么樣的標簽,如何根據不同的標簽制定不同的規則,這就是我們通常講的軟件定義。
包老師:這種新架構的核心優勢在于能夠增強計算機軟件對體系架構的控制能力。原來一些應用在計算機內部的資源利用方面呈現一種無序共享狀態,就像馬路上的車輛不遵守交通規則一窩蜂地通行一樣,這樣會降低資源利用率。傳統的體系架構沒有太關注這個問題,而事實上,這是數據中心里存在的一個非常核心的問題,倘若這個問題得不到解決,整個數據中心的資源利用效率將大大降低,成本將變得很高,用戶的體驗也無法得到提升。我們提出這樣一個新體系架構是從問題出發的,針對數據中心當前面臨的這樣一個嚴峻的問題,經過分析、調研之后,發現問題的癥結所在——無序共享,然后慢慢解決這個問題,最后,經過總結才提出這個新架構——標簽化馮諾依曼體系結構。
學術界與產業界都非常關注這種新架構,包老師有信心未來標簽化馮諾依曼體系結構將為計算機服務器研究與應用帶來革新。
本文由雷鋒網獨家編寫,未經許可拒絕轉載!
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。