0
工業4.0所倡導的工業智能化背后,離不開高性能計算(HPC)、大數據和云計算融合的“大計算”。9月24日,由亞洲超算協會聯合浪潮等主辦的2015高性能計算用戶大會在北京舉行,大會圍繞目前的新技術趨勢提出“大計算”理念。高性能計算可以顯著降低工業設計、研發和生產的成本,并大幅度提升效率,是實現工業4.0最重要的創新工具之一。

挑戰計算力的黑洞
可以說,“大計算”成為一種趨勢,它在技術體現在兩個方面:
第一是云計算、大數據和高性能計算等多種計算形式在逐步融合。
互聯網技術、遙感技術的快速發展和對其他行業的滲透,帶來了數據的爆炸式增長,也帶動了人工智能等一批新技術的興起,復雜的應用使得單一架構的數據中心難以勝任處理工作,需要將不同的計算方式予以融合。
第二是基礎架構如計算、網絡、存儲等的界限也越來越模糊,走向軟件定義的趨勢。
同時,大計算也代表著一個更大計算力的時代 —— 百億億次。數據的爆炸式增長帶來的直接結果,就是對計算力的需求更加旺盛。就以深度學習來說,它往往意味著計算力黑洞。
—— 有多黑洞呢?
當今最著名的GoogleBrain使用的并行計算平臺使用了16000個CPU,共計10億的節點,來進行深度學習模型網絡的構建。然而人腦大致有1000億神經元(對應深度學習模型中的CPU),每個神經元有大約5000個神經突觸(對應計算網絡中的的節點)。曾經有人估算過,如果將一個人的大腦中所有神經突觸依次連成一條直線,可以從地球到月亮,再從月亮返回地球。同時,人腦的計算能耗比還非常低,相當于世界上最快的超級計算機天河2號的200萬倍。
日本和德國的研究人員曾在“京”(日本最快超級計算機)上進行了歷史上規模最大的一次人腦神經模擬計算 —— 使用“京”的82944個處理器+1PB內存模擬人腦的17.3億神經細胞。結果,京完成1秒的人腦模擬計算需要耗費40分鐘,而如果假設完成時間與被模擬神經規模成線性比例的話,那么模擬整個大腦1秒的運作則需耗時2.5天。

在人類社會的數據量以EB級的速度增長的情況下,需要一種新型的低成本、高效率計算架構(主要是芯片、網絡技術的顛覆性變革),才能完成數據處理的工作。
過去一年,聽到的越來越多的詞語就是“深度學習”、“人工智能”。很多人也提出需求:我有大數據的需求,能不能和HPC進行統一的整合給我提供管理?我在深度學習上遇到性能的問題,用HPC的技術能不能更好的解決和實現?
實際上不同的計算方式給我們提出了挑戰。比如國內現在很多互聯網企業的采購單元已經從原來的單機變成了機柜單元,下一步可以想像他的采購模式可能是要布滿傳感器。這就代表了在企業集團架構上的融合進化的趨勢。最早的時候,在服務器上面,它是節點的耦合,具備自己獨立的處理和存儲。那么到了Rack的時候,機柜計算單元可以實現池化,它的整個機柜互聯,通過無交換機的方式實現整個網絡的拓撲和設計,做到整個數據中CPU的共享、存儲式的共享、IO的共享并進行全局供應鏈的管理。

新計算時代的挑戰
高性能計算(High Performance Computing)指使用很多處理器(作為單個機器的一部分)或者某一集群中組織的幾臺計算機(作為單個計算資源操作)的計算系統和環境。HPC在若干年前已經成為了一個概念,高性能計算最早期已經具備了相關特性。
不同的計算方式在耦合,計算架構在融合和進化。在這樣一個新的計算時代我們會面臨什么挑戰?
首先是如何用一個大計算解決所有的企業計算架構問題。不同的應用具備不同的計算特征,所以我們需要適合的計算資源提供這樣的計算服務。
第二是硬件架構需要面對多樣的計算挑戰。例如大數據,傳統的科學工程計算和深度學習,它對后臺的計算架構需求不一樣的。
第三是如何在混合的計算產品上保證應用的靈活性。

我們缺少的是適應性的計算環境
“計算+”的策略,其核心理念就是改變原來服務器是服務器,存儲是存儲,網絡是網絡的狀況,讓他們演化會合為一體,通過軟件定義的方式實現后臺整個計算架構。
這樣的趨勢在過去幾年已經是屢見不鮮,越來越多網絡公司把自己賣給服務器公司,越來越多存儲公司也想把自己賣給計算公司。這代表著一個明顯的信號:未來世界網絡可以通過軟件來定義,存儲也可以通過軟件定義,只要基于計算架構,就可以通過軟件來定義所有的計算架構。
在這樣一個策略下,需要提供一個適應性的計算環境,在硬件架構上面是一個融合的基礎架構,在軟件設計層面能夠實現軟件定義HPC。

適應的計算環境
不同的計算中不同應用對于計算特征的需求完全不同,不可能一個環境可以做一切的事情。這樣的情況下,需要提供的是一個有更多可能性和選擇性的計算環境。
融合基礎架構
現在已經很明顯的趨勢叫計算+,也就是計算、存儲、網絡正在融合。面向計算的機柜式基礎架構,它是在一個機柜里面用相同的物理規格實現不同的計算功能,有兩路、四路、交換節點和存儲節點,可以通過軟件定義的方式實現資源池化和共享。在整個基礎設施方面,有全機柜的統一供電和風扇共享,實現全局管理的融合,對于整機柜所有的計算資源實現統一管理。
軟件定義的HPC
軟件定義這個詞非常熱,具體到HPC上來說,最核心部分就是軟件定義HPC,提供軟件的環境。
1、軟件定義的數據服務。
在大數據的應用里面,大概70%的時間是消耗到IO(input/output,即信息的輸入與輸出)上面的,這是應該解決的問題。現在通過軟件定義存儲的方式,可以讓高性能計算、大數據和云計算這樣不同的接口支持不同的數據格式,為不同的應用提供統一的存儲空間。這樣不管前面計算集群上面運行HPC、還是大數據、還是深度學習,在后端存儲的數據服務上是統一的存儲設備,只是通過不同的軟件定義的方式去提供。
2、軟件定義的網絡服務。
在云、大數據、互聯網這個領域大家原來使用習慣是軟件定義,這帶來IO不那么好。如果通過HPC,用軟件定義網絡服務的方式,能夠實現更加接近于應用的、適合它的網絡拓撲。比如可以實現3D的架構,有別于傳統的2D架構,它的節點擴展性少了很多制約。在3D上面實現極大規模的網絡擴展,基于不同的應用環境,通過軟件定義它的不同拓撲,使得通過資源感知的方式,將通訊密集的應用放在網絡平臺上,這樣計算應用的時候保證網絡通信延遲更低,帶寬更高。
3、軟件定義的資源服務。
它可以在不用應用之間實現資源統一分配和調配,能夠在物理機和虛擬機之間實現資源分配和遷移,并且實現計算在本地和云端靈活的遷移和調度。
通過軟件定義的數據服務,軟件定義的網絡服務和軟件定義的資源服務這三個方面,加上適應性的計算環境、融合的基礎架構之上實現軟件定義的HPC是目前的思考。HPC在若干年前已經成為了一個概念,在目前的這樣一個大計算的趨勢和挑戰下,可以做到HPC到深度學習,HPC到大數據。
【本文作者劉軍,浪潮高性能服務器產品總經理】
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。