他們稱之為世界上第一個大腦層面的解決方案
大多數芯片公司可以通過更小的工藝技術在同一區(qū)域容納更多的晶體管,以實現更強的性能和更低的能耗可是,有這樣一家追求大的創(chuàng)業(yè)企業(yè):在工藝技術更小的情況下,讓面積更大,功率更大,讓單個AI芯片實現前所未有的性能
北京時間8月25日,人工智能芯片設計的明星初創(chuàng)公司大腦系統(tǒng)推出AI算力解決方案——CS—2,構建了一塊面積幾乎和iPad一樣大的芯片他們稱之為世界上第一個大腦層面的解決方案
之所以稱之為腦級,是因為大腦將單個CS—2人工智能計算機支持的神經網絡參數規(guī)模擴大到了現有最大模型的100倍,——個達到了120萬億個參數,而人腦有100萬億個突觸CS—2配備了世界上最大的芯片WSE—2
大腦WSE—2和目前最大的圖形處理器
除了增加單臺人工智能計算機的參數容量外,大腦系統(tǒng)公司還宣布可以構建由192臺CS—2人工智能計算機組成的集群,即構建1.63億核的計算集群。
在過去的幾年里,已經向我們表明,對于NLP模型,洞察力與參數成正比參數越多,結果越好,他們的合作伙伴,阿貢國家實驗室副主任RickStevens說,大腦的發(fā)明將使參數容量增加100倍,這可能有改變行業(yè)的潛力我們將首次能夠探索大腦大小的模型,并為研究和洞察開辟一條廣闊的新途徑
阿貢國家實驗室成立于1946年,是美國能源部下屬的17個國家實驗室之一,由芝加哥大學運營根據現有數據,阿貢國家實驗室負責研究美國第一臺E級新一代超級計算機Aurora
對計算能力和單個AI芯片性能的無止境追求,歸根結底在于人工智能時代計算量的指數級增長。
OpenAI擬合實際數據后的報告顯示,AI計算量每年增長10倍從AlexNet到AlphaGo Zero,最先進的AI模型的計算需求增長了30萬倍伴隨著最近幾年來超大規(guī)模AI模型參數超過1萬億,小型AI計算集群很難支持單個模型的高速訓練大腦系統(tǒng)發(fā)布的人工智能解決方案在模型大小,計算集群能力和大規(guī)模編程的簡單性方面都躍上了一個新的臺階
AI電腦CS—2功能強大,擁有專為深度學習設計的超級大腦—— WSE—2芯片WSE—2采用7納米工藝,面積46225平方毫米,包含2.6萬億個晶體管,集中在85萬個處理單元
WSE—2的面積是目前NVIDIA最大的GPU特斯拉A100的近56倍它的內核是A100的近123倍,內存容量是A100的1000倍,內存帶寬約為A100的1.3萬倍,結構帶寬約為A100的4.6萬倍無論是內核數量還是片上內存容量都遠高于目前為止性能最強的GPU,通信速度更快,計算能力更好
如今,自動駕駛,視頻推薦等人工智能的重要應用都落后于深度學習技術,現代深度學習模型大多基于人工神經網絡在訓練大型AI模型時,經常會用到成千上萬的機器集群協(xié)同工作,比如谷歌運營的數據中心這個集群就像一個大腦,分散在多個房間,連接在一起電子可以以光速運動,但即便如此,跨芯片通信速度很慢,消耗大量能量伴隨著最近幾年來超大規(guī)模AI模型參數超過1萬億,目前的集群難以支持單個模型的高速訓練
大腦系統(tǒng)公司的聯合創(chuàng)始人安德魯費爾德曼說,更大的網絡,如GPT—3,改變了自然語言處理的模式,使以前無法想象的事情成為可能在業(yè)內,1萬億參數的模型正在陸續(xù)出現
2016年,Andrew Feldman,Gary Lauterbach,Michael James,SeanLie和Jean—Philippe Fricker在硅谷創(chuàng)立了大腦系統(tǒng)公司,制造適合深度學習的人工智能芯片,Andrew Feldman擔任首席執(zhí)行官在大腦公司成立之前,這五位創(chuàng)始人都在微服務器制造商SeaMicro工作,該公司于2012年被半導體公司AMD收購
當行業(yè)內的其他公司在制造一個晶圓來生產盡可能多的芯片時,大腦卻朝著另一個方向發(fā)展:將整個晶圓做成一個大芯片,這在芯片設計領域掀起了一場革命。
除了全球最大的WSE—2芯片的支持之外,這款AI解決方案的背后,最近還有四大創(chuàng)新被大腦所披露:全新的軟件執(zhí)行架構Weight Streaming,記憶擴展技術大腦記憶,cerebras SwaLx,一種高性能互連結構技術,可選稀疏性,一種動態(tài)稀疏收集技術。
Weight Streaming技術首次實現了片外存儲模型參數的能力,并提供了與片內相同的訓練和推理性能這種新的執(zhí)行模型分解了計算和參數存儲,并消除了延遲和內存帶寬問題
多192個CS—2,而無需更改軟件。
CambrianAI創(chuàng)始人兼首席分析師Karl Freund表示:使用大型集群解決AI問題的最大挑戰(zhàn)之一是為特定神經網絡設置,配置和優(yōu)化它們所需的復雜性和時間而Weight Streaming允許在CS—2集群令人難以置信的計算資源之間進行更直接的工作分配,Weight Streaming消除了我們今天在構建和有效使用巨大集群方面必須面對的所有復雜性——推動行業(yè)向前發(fā)展,我認為這將是一個轉型之旅
MemoryX是一種內存擴展技術,包含高達2.4PB的DRAM和閃存,以保存海量模型的權重,以及處理權重更新的內部計算能力SwarmX是一種高性能,人工智能優(yōu)化的通信結構,可將Cerebras Swarm片上結構擴展到片外,使Cerebras能夠在多達192個CS—2上連接多達1.63億個AI優(yōu)化內核,協(xié)同工作以訓練單個神經網絡Selectable Sparsity使用戶能夠在他們的模型中選擇權重稀疏程度,并直接減少FLOPs和解決時間
AI計算機CS—2
CS—2 的內部視圖:從左到右分別是門,風扇,泵,電源,主機架,熱交換器,發(fā)動機缸體,后格柵
CS—2 的前視圖: 下半部分是風扇,右上方是泵用來輸送水,左上方的電源和 I/O 提供電力和數據。
側視圖:水運動組件,空氣運動基礎設施和風扇和熱交換器
CS—2的發(fā)動機缸體
啟用WSE所需的創(chuàng)新之所以成為可能,是因為完整系統(tǒng)解決方案提供了靈活性CS—2 的每個組件——從電源和數據傳輸到冷卻再到軟件,都經過協(xié)同設計和優(yōu)化,以充分利用這個龐大的深度學習芯片
WSE—2 編譯過程的概述
可視化工具使研究人員可以回視編譯器CGC編譯過程的每個步驟
CS—2 集群可以在模型并行和數據并行模式下運行
聲明:本網轉發(fā)此文章,旨在為讀者提供更多信息資訊,所涉內容不構成投資、消費建議。文章事實如有疑問,請與有關方核實,文章觀點非本網觀點,僅供讀者參考。