他們稱之為世界上第一個大腦層面的解決方案
大多數(shù)芯片公司可以通過更小的工藝技術(shù)在同一區(qū)域容納更多的晶體管,以實(shí)現(xiàn)更強(qiáng)的性能和更低的能耗可是,有這樣一家追求大的創(chuàng)業(yè)企業(yè):在工藝技術(shù)更小的情況下,讓面積更大,功率更大,讓單個AI芯片實(shí)現(xiàn)前所未有的性能
北京時間8月25日,人工智能芯片設(shè)計的明星初創(chuàng)公司大腦系統(tǒng)推出AI算力解決方案——CS—2,構(gòu)建了一塊面積幾乎和iPad一樣大的芯片他們稱之為世界上第一個大腦層面的解決方案
之所以稱之為腦級,是因?yàn)榇竽X將單個CS—2人工智能計算機(jī)支持的神經(jīng)網(wǎng)絡(luò)參數(shù)規(guī)模擴(kuò)大到了現(xiàn)有最大模型的100倍,——個達(dá)到了120萬億個參數(shù),而人腦有100萬億個突觸CS—2配備了世界上最大的芯片WSE—2
大腦WSE—2和目前最大的圖形處理器
除了增加單臺人工智能計算機(jī)的參數(shù)容量外,大腦系統(tǒng)公司還宣布可以構(gòu)建由192臺CS—2人工智能計算機(jī)組成的集群,即構(gòu)建1.63億核的計算集群。
在過去的幾年里,已經(jīng)向我們表明,對于NLP模型,洞察力與參數(shù)成正比參數(shù)越多,結(jié)果越好,他們的合作伙伴,阿貢國家實(shí)驗(yàn)室副主任RickStevens說,大腦的發(fā)明將使參數(shù)容量增加100倍,這可能有改變行業(yè)的潛力我們將首次能夠探索大腦大小的模型,并為研究和洞察開辟一條廣闊的新途徑
阿貢國家實(shí)驗(yàn)室成立于1946年,是美國能源部下屬的17個國家實(shí)驗(yàn)室之一,由芝加哥大學(xué)運(yùn)營根據(jù)現(xiàn)有數(shù)據(jù),阿貢國家實(shí)驗(yàn)室負(fù)責(zé)研究美國第一臺E級新一代超級計算機(jī)Aurora
對計算能力和單個AI芯片性能的無止境追求,歸根結(jié)底在于人工智能時代計算量的指數(shù)級增長。
OpenAI擬合實(shí)際數(shù)據(jù)后的報告顯示,AI計算量每年增長10倍從AlexNet到AlphaGo Zero,最先進(jìn)的AI模型的計算需求增長了30萬倍伴隨著最近幾年來超大規(guī)模AI模型參數(shù)超過1萬億,小型AI計算集群很難支持單個模型的高速訓(xùn)練大腦系統(tǒng)發(fā)布的人工智能解決方案在模型大小,計算集群能力和大規(guī)模編程的簡單性方面都躍上了一個新的臺階
AI電腦CS—2功能強(qiáng)大,擁有專為深度學(xué)習(xí)設(shè)計的超級大腦—— WSE—2芯片WSE—2采用7納米工藝,面積46225平方毫米,包含2.6萬億個晶體管,集中在85萬個處理單元
WSE—2的面積是目前NVIDIA最大的GPU特斯拉A100的近56倍它的內(nèi)核是A100的近123倍,內(nèi)存容量是A100的1000倍,內(nèi)存帶寬約為A100的1.3萬倍,結(jié)構(gòu)帶寬約為A100的4.6萬倍無論是內(nèi)核數(shù)量還是片上內(nèi)存容量都遠(yuǎn)高于目前為止性能最強(qiáng)的GPU,通信速度更快,計算能力更好
如今,自動駕駛,視頻推薦等人工智能的重要應(yīng)用都落后于深度學(xué)習(xí)技術(shù),現(xiàn)代深度學(xué)習(xí)模型大多基于人工神經(jīng)網(wǎng)絡(luò)在訓(xùn)練大型AI模型時,經(jīng)常會用到成千上萬的機(jī)器集群協(xié)同工作,比如谷歌運(yùn)營的數(shù)據(jù)中心這個集群就像一個大腦,分散在多個房間,連接在一起電子可以以光速運(yùn)動,但即便如此,跨芯片通信速度很慢,消耗大量能量伴隨著最近幾年來超大規(guī)模AI模型參數(shù)超過1萬億,目前的集群難以支持單個模型的高速訓(xùn)練
大腦系統(tǒng)公司的聯(lián)合創(chuàng)始人安德魯費(fèi)爾德曼說,更大的網(wǎng)絡(luò),如GPT—3,改變了自然語言處理的模式,使以前無法想象的事情成為可能在業(yè)內(nèi),1萬億參數(shù)的模型正在陸續(xù)出現(xiàn)
2016年,Andrew Feldman,Gary Lauterbach,Michael James,SeanLie和Jean—Philippe Fricker在硅谷創(chuàng)立了大腦系統(tǒng)公司,制造適合深度學(xué)習(xí)的人工智能芯片,Andrew Feldman擔(dān)任首席執(zhí)行官在大腦公司成立之前,這五位創(chuàng)始人都在微服務(wù)器制造商SeaMicro工作,該公司于2012年被半導(dǎo)體公司AMD收購
當(dāng)行業(yè)內(nèi)的其他公司在制造一個晶圓來生產(chǎn)盡可能多的芯片時,大腦卻朝著另一個方向發(fā)展:將整個晶圓做成一個大芯片,這在芯片設(shè)計領(lǐng)域掀起了一場革命。
除了全球最大的WSE—2芯片的支持之外,這款A(yù)I解決方案的背后,最近還有四大創(chuàng)新被大腦所披露:全新的軟件執(zhí)行架構(gòu)Weight Streaming,記憶擴(kuò)展技術(shù)大腦記憶,cerebras SwaLx,一種高性能互連結(jié)構(gòu)技術(shù),可選稀疏性,一種動態(tài)稀疏收集技術(shù)。
Weight Streaming技術(shù)首次實(shí)現(xiàn)了片外存儲模型參數(shù)的能力,并提供了與片內(nèi)相同的訓(xùn)練和推理性能這種新的執(zhí)行模型分解了計算和參數(shù)存儲,并消除了延遲和內(nèi)存帶寬問題
多192個CS—2,而無需更改軟件。
CambrianAI創(chuàng)始人兼首席分析師Karl Freund表示:使用大型集群解決AI問題的最大挑戰(zhàn)之一是為特定神經(jīng)網(wǎng)絡(luò)設(shè)置,配置和優(yōu)化它們所需的復(fù)雜性和時間而Weight Streaming允許在CS—2集群令人難以置信的計算資源之間進(jìn)行更直接的工作分配,Weight Streaming消除了我們今天在構(gòu)建和有效使用巨大集群方面必須面對的所有復(fù)雜性——推動行業(yè)向前發(fā)展,我認(rèn)為這將是一個轉(zhuǎn)型之旅
MemoryX是一種內(nèi)存擴(kuò)展技術(shù),包含高達(dá)2.4PB的DRAM和閃存,以保存海量模型的權(quán)重,以及處理權(quán)重更新的內(nèi)部計算能力SwarmX是一種高性能,人工智能優(yōu)化的通信結(jié)構(gòu),可將Cerebras Swarm片上結(jié)構(gòu)擴(kuò)展到片外,使Cerebras能夠在多達(dá)192個CS—2上連接多達(dá)1.63億個AI優(yōu)化內(nèi)核,協(xié)同工作以訓(xùn)練單個神經(jīng)網(wǎng)絡(luò)Selectable Sparsity使用戶能夠在他們的模型中選擇權(quán)重稀疏程度,并直接減少FLOPs和解決時間
AI計算機(jī)CS—2
CS—2 的內(nèi)部視圖:從左到右分別是門,風(fēng)扇,泵,電源,主機(jī)架,熱交換器,發(fā)動機(jī)缸體,后格柵
CS—2 的前視圖: 下半部分是風(fēng)扇,右上方是泵用來輸送水,左上方的電源和 I/O 提供電力和數(shù)據(jù)。
側(cè)視圖:水運(yùn)動組件,空氣運(yùn)動基礎(chǔ)設(shè)施和風(fēng)扇和熱交換器
CS—2的發(fā)動機(jī)缸體
啟用WSE所需的創(chuàng)新之所以成為可能,是因?yàn)橥暾到y(tǒng)解決方案提供了靈活性CS—2 的每個組件——從電源和數(shù)據(jù)傳輸?shù)嚼鋮s再到軟件,都經(jīng)過協(xié)同設(shè)計和優(yōu)化,以充分利用這個龐大的深度學(xué)習(xí)芯片
WSE—2 編譯過程的概述
可視化工具使研究人員可以回視編譯器CGC編譯過程的每個步驟
CS—2 集群可以在模型并行和數(shù)據(jù)并行模式下運(yùn)行
聲明:本網(wǎng)轉(zhuǎn)發(fā)此文章,旨在為讀者提供更多信息資訊,所涉內(nèi)容不構(gòu)成投資、消費(fèi)建議。文章事實(shí)如有疑問,請與有關(guān)方核實(shí),文章觀點(diǎn)非本網(wǎng)觀點(diǎn),僅供讀者參考。