• 深度
  • 行業
  • 行業
  • 互動

未來10年的存儲創新,就被這個技術承包了

科技云報道 2019-07-24

2019年,隨著在NVMe技術方面的突破和演進,超大規模數據中心和高性能計算用戶很快將從中受益。在后摩爾定律時期,在CPU性能增長放緩的背景下,NVMe技術以及NVMe over fabric技術的發展,將成為推動IT技術創新的新動力。當然,所有這一切背后都是有實際需求在推動。

?

翻開歷史來看,NVMe的發展可謂是非常迅速。2014年,第一批NVMe技術方案還只是服務器上的一個驅動而已,這個驅動負責處理存儲訪問操作。

如今,許多超大規模數據中心,做高性能計算解決方案的廠商都在節點上測試NVMe。由于NVMe的方案是針對節點規模擴展的,這就帶來很高的靈活性,同時還有非常高的性能提升優化空間。

雖然NVMe對于那些需要用到非易失性存儲的應用帶來了很大幫助,但是,下一階段NVMe over fabric的帶來的影響將更為深遠。

以太網的帶寬爆炸式增長,100GB/s還有400GB/s之類的似乎也都不遠了。存儲如果能用上這樣的能力,在服務器看來,就像是在本地一樣了。

市場上Mellanox,Pure Storage,Excelero都有類似的創新,以太網的方案整體來說都比較簡單,這些創新方案的思路就是用簡潔的方式來匯集存儲資源,雖然是遠程訪問,但是看起來就像是訪問本地存儲一樣。

降低存儲網絡復雜度帶來的好處非常明顯,它有助于打造更大規模存儲集群,用更少的資源做更多的事兒。

未來,隨著NVMe over fabrics成本大幅降低,NVMe將在技術方案和市場上釋放更大的能量。

成本下降,這意味著就可以投入大規模使用了。超大規模數據中心由于采購量大,可以用和SATA相同的價格用上NVMe,對于一般用戶來說,多花點錢用3GB/s帶寬替代500MB/s的SATA也非常合適。

雖說NVMe的成本會降低,前景一片大好,不過真正想把一個新技術推向市場,起碼市場上得有好幾個同類方案。大家一起來教育市場,然后才有向傳統存儲體系架構發起挑戰的資格。

?

NVMe化解傳統存儲架構的新挑戰

在市場上可以看到,Excelero在研究NVMe over fabric方面的技術,Mellanox,Pure Storage還有NetApp也在研究,具體的做法都不太一樣。不過,面對實際用戶需求,要解決的問題會有許多相似之處。

比如,Excelero有一家歐洲的大型銀行客戶,這家銀行需要跑SAS分析負載,依靠傳統方案做一些日常分析的話大概需要四十個小時,由于速度太慢,日常性的報告不能及時提供,以至于影響了歐盟的有關規定。

在這一場景下,單單說不怕浪費,多掛點NVMe盤已經解決不了問題了。

這家銀行的方案是,在GPFS上構建SAS網絡集群,同一時間可能有八個節點在同一個數據集上工作,數據集是不能分割的,由于這是延遲和帶寬敏感型應用,當對一天的數據進行檢索的時候,對存儲帶寬,隨機IO性能都提出了很高要求。

Excelero的方案提供的共享資源池正好解決了這一問題,降低了小IO讀寫的延遲,讀寫帶寬的主要瓶頸也就是網絡了。不過,生成分析報告的時間縮短到了6個小時。

Excelero的方案非常有代表性,值得借鑒,足以說明NVMe over fabric的價值點,使得用NVMe over fabric構建的遠程存儲提供的共享資源池,能利用上像GPFS這樣的大規模并行系統。

集群存儲的另一種做法是,在每一個主機上都復制一份數據集。這種做法,首先資源開銷非常巨大,為了讓每份數據都保持一致,所以主機互聯的技術經常需要傳輸大量的指令,效率非常低下,集中共享的存儲非常有必要。

?

類似的,一家名為CMA的公司正在研究用NVMe技術支持Oracle Exadata的集群方案。

NVIDIA的DGX系統能讓多個GDX-1同時工作,也是一個集群系統,也有人在思考如何讓GDX更好地用上NVMe的能力。

比如,金融領域有時候需要將一個工作負載分散到多臺DGX-1上,有的朋友可能會馬上想到DGX-1農場,DGX-1農場的問題是只能用SATA盤,如果換成NVMe的話,帶寬和延遲將發生非常大的變化。

雖然DGX-2開始支持NVMe了,但是數量非常有限,只能使用機箱里提供的那有限的幾塊NVMe SSD。

能不能讓所有的DGX-2都用到NVMe資源池,讓所有的機器都自由訪問共享內存呢?這也是個有趣的問題。可能不久后,NVIDIA也會推出類似的方案。

人工智能場景將成為推動

NVMe存儲創新的一大動力

人工智能將是推動NVMe over fabric發展的又一大因素。人工智能技術的發展,對于那些做算法回溯測試,還有做醫學成像、地理信息系統(GIS)的行業帶來了很大幫助。

但是由于訓練時候需要處理大量圖像,這對于存儲帶來很大挑戰,人工智能的能力受到了限制。

雖然有ResNet這樣的基準測試會使用許多小的圖片來做測試,讓人看到一些性能表現,但在很多時候,真正用的其實有很多大圖像。

比如,MRI還有衛星圖像的分辨率非常大,圖像大小可能是好幾兆甚至幾十兆,拿這些數據來做訓練的話,對存儲系統的延遲和帶寬要求是非常高的。

在銀行的賬戶交易系統中,也需要擴展集群來處理實時的請求,構建一個集中的資源池來應對隨機訪問需求。如果是一個幾十TB的數據集,不可能在每個主機上復制一份數據并且及時同步數據,唯一合理的做法是搭建一個獨立的存儲資源池。

?

簡單來說,NVMe之所以將獲得飛速發展,核心原因還是需求推動的,那些特定工作負載,還有業務量巨大的公司都必須重新構建基礎架構。

如今的IT領域,主流的創新主要來自云和超大規模數據中心領域,新技術很多時候都會在這一領域出現或者發揚光大,NVMe的發展也將隨之爆發。

但因為現有IT架構的影響以及新的解決方案的成熟度,想真正在市場上看到NVMe的能力還得再等等。

可以肯定的是,NVMe將帶來許多新的突破,這個突破將對IT領域影響深遠,是否是影響未來十年的技術也未可知。

【科技云報道原創】

微信公眾賬號:科技云報道

(免責聲明:此文內容為第三方自媒體作者發布的觀察或評論性文章,所有文字和圖片版權歸作者所有,且僅代表作者個人觀點,與極客網無關。文章僅供讀者參考,并請自行核實相關內容。投訴郵箱:editor@fromgeek.com)

來源:科技云報道

標簽云計算
  • 科技云報道
    郵箱:caoceng@fromgeek.com
    有10年以上科技在記者、云計算專家傾情加盟,世界500強與4A公司營銷人所組成的前沿科技媒體,深入報道云計算、人工智能、大數據、AR/VR等垂直領域
    分享本文到