當(dāng)前位置：時代焦點(diǎn)網(wǎng) -> 財(cái)經(jīng)

采用英特爾全新的性能核微架構(gòu)功耗降低80%

發(fā)布時間：2021-08-20 18:34 來源：IT之家閱讀量：18973

IT之家2021年8月19日在英特爾架構(gòu)日，英特爾公司高級副總裁，加速計(jì)算系統(tǒng)與圖形事業(yè)部總經(jīng)理Raja Koduri和幾位英特爾架構(gòu)師介紹了兩款全新x86內(nèi)核架構(gòu)的細(xì)節(jié)。

英特爾首款性能混合架構(gòu)，代號Alder Lake，智能英特爾硬件線程調(diào)度器，藍(lán)寶石急流，專為數(shù)據(jù)中心設(shè)計(jì)的下一代英特爾至強(qiáng)可擴(kuò)展處理器，基礎(chǔ)設(shè)施處理器，即將推出的顯卡架構(gòu)包括XeHPG微架構(gòu)和XeHPC微架構(gòu)，Alchemist SoC和Ponte Vecchio SoC。

X86內(nèi)核

能效核心

全新英特爾能效核心微體系結(jié)構(gòu)，以前代號為格雷斯蒙特。高能效內(nèi)核可以利用各種技術(shù)進(jìn)步，在不消耗處理器功率的情況下確定工作負(fù)載的優(yōu)先級，并通過每周期指令數(shù)改進(jìn)功能直接提高性能，包括:

具有5000個條目的分支目標(biāo)緩沖區(qū)支持更精確的分支預(yù)測

64KB指令高速緩存，在不消耗內(nèi)存子系統(tǒng)功率的情況下保存可用指令

英特爾首款按需指令長度解碼器可以生成預(yù)解碼信息

英特爾的集群無序執(zhí)行解碼器在保持能效的同時，每個周期最多可解碼6條指令

寬后端有五組五寬分配和八組寬度撤回，256個無序窗口條目和17個執(zhí)行端口

支持英特爾控制流執(zhí)行技術(shù)和英特爾虛擬化技術(shù)重定向保護(hù)等功能

實(shí)現(xiàn)了支持整數(shù)人工智能運(yùn)算的AVX指令集和新擴(kuò)展

與英特爾最具生產(chǎn)力的CPU核心Skylake相比，在單線程性能下，高能效核心可以在相同功耗下實(shí)現(xiàn)40%的性能提升，或者以不到40%的功耗提供相同的性能與兩個運(yùn)行四個線程的Skylake內(nèi)核相比，四個高能效內(nèi)核提供的吞吐性能可以以更低的功耗同時提升80%的性能，在提供相同吞吐性能的情況下，功耗降低80%

性能核心

英特爾新的性能核心微體系結(jié)構(gòu)，曾被代號為黃金灣。性能核心具有更廣泛，更深入和更智能的體系結(jié)構(gòu):

更寬:解碼器從4增加到6，6Op緩存增加到8

更深:更大的物理寄存器文件，512個條目的重新排序緩沖區(qū)

更智能:提高分支預(yù)測的準(zhǔn)確性，降低有效一級延遲，優(yōu)化二級全寫預(yù)測帶寬

性能核心是英特爾有史以來構(gòu)建的最高性能CPU核心，它通過以下功能突破了低延遲和單線程應(yīng)用性能的限制:

與當(dāng)前的第11代英特爾酷睿處理器架構(gòu)相比，在通用性能的ISO頻率下，它在各種工作負(fù)載下實(shí)現(xiàn)了約19%的平均改進(jìn)

顯示更高的并行度和執(zhí)行并行度的增加

配備英特爾高級矩形擴(kuò)展，內(nèi)置下一代AI加速技術(shù)，用于學(xué)習(xí)推理和訓(xùn)練。AMX包括專用硬件和新的指令集架構(gòu)，以顯著改善矩陣乘法

減少時間延遲，并為具有大數(shù)據(jù)和大代碼量的應(yīng)用程序提供更好的支持

客戶

阿爾德湖客戶端SoC

英特爾下一代客戶端架構(gòu)代號為Alder Lake，是英特爾首款性能混合架構(gòu)，首次集成了性能核心和能效核心兩種核心類型阿爾德湖基于英特爾7進(jìn)程技術(shù)，支持最新內(nèi)存和最快I/O

阿爾德湖支持所有客戶端設(shè)備，從超便攜筆記本到發(fā)燒友再到商用臺式機(jī)。它采用單一且高度可擴(kuò)展的SoC架構(gòu)，并提供三種類型的產(chǎn)品設(shè)計(jì)形式:

高性能，雙芯片，插座式臺式機(jī)處理器，具有領(lǐng)先的性能和能效支持高規(guī)格內(nèi)存和I/O

高性能筆記本處理器，BGA封裝，并增加影像單元，更大的Xe顯卡和Thunderbolt 4連接

輕薄低功耗筆記本處理器，采用高密度封裝，優(yōu)化了輸入/輸出和功率傳輸

英特爾需要在不影響功耗的情況下滿足計(jì)算和運(yùn)算的要求

I/O 代理對帶寬的需求為了解決這一挑戰(zhàn)，英特爾設(shè)計(jì)了三種獨(dú)立的內(nèi)部總線，每一種都采用基于需求的實(shí)時啟發(fā)式后處理方式

。計(jì)算內(nèi)部總線可支持高達(dá) 1000GBps—— 即每個內(nèi)核或每集群 100GBps，通過最后一級緩存將內(nèi)核和顯卡連接到內(nèi)存

具有高動態(tài)頻率范圍，并且能夠動態(tài)選擇數(shù)據(jù)路徑，根據(jù)實(shí)際總線結(jié)構(gòu)負(fù)載而進(jìn)行時延和帶寬優(yōu)化
根據(jù)利用率動態(tài)調(diào)整最后一級緩存策略 —— 也就是包含或不包含

。I/O 內(nèi)部總線支持可高達(dá) 64GBps，連接不同類型的 I/O 和內(nèi)部設(shè)備，能在不干擾設(shè)備正常運(yùn)行的情況下無縫改變速度，選擇內(nèi)部總線速度來匹配所需的數(shù)據(jù)傳輸量

。內(nèi)存結(jié)構(gòu)可提供高達(dá) 204GBps 的數(shù)據(jù)，并動態(tài)擴(kuò)展其總線寬度和速度，以支持高帶寬，低時延或低功耗的多個操作點(diǎn)

英特爾硬件線程調(diào)度器

為使性能核和能效核與操作系統(tǒng)無縫協(xié)作，英特爾開發(fā)了一種改進(jìn)的調(diào)度技術(shù)，稱之為英特爾硬件線程調(diào)度器硬件線程調(diào)度器直接內(nèi)置于硬件中，可提供對內(nèi)核狀態(tài)和線程指令混合比的低級遙測，讓操作系統(tǒng)能夠在恰當(dāng)?shù)臅r間將合適的線程放置在合適的內(nèi)核上硬件線程調(diào)度器具有動態(tài)性和自適應(yīng)性 —— 它會根據(jù)實(shí)時的計(jì)算需求調(diào)整調(diào)度決策 —— 而非一種簡單的，基于規(guī)則的靜態(tài)方法

傳統(tǒng)意義上，操作系統(tǒng)會根據(jù)有限的可用數(shù)據(jù)做出決策，如前臺和后臺任務(wù)。硬件線程調(diào)度器可通過以下方式增加新維度:

使用硬件遙測工具將需要更高性能的線程引導(dǎo)到當(dāng)時適合的性能核上
更精細(xì)地監(jiān)控指令組合，每內(nèi)核當(dāng)前狀態(tài)以及相關(guān)的微架構(gòu)遙測，從而幫助操作系統(tǒng)做出更智能的調(diào)度決策
通過與微軟合作，優(yōu)化英特爾硬件線程調(diào)度器在 Windows11 上的性能
擴(kuò)展 PowerThrottling API，使得開發(fā)人員能夠?yàn)槠渚€程明確指定服務(wù)質(zhì)量屬性
應(yīng)用全新 EcoQoS 分類，該分類可讓調(diào)度程序獲悉線程是否更傾向于能效

XeHPG 微架構(gòu)和 Alchemist SoC

XeHPG 是一款全新的獨(dú)立顯卡微架構(gòu)XeHPG 微架構(gòu)為 Alchemist 系列 SoC 提供動力，首批相關(guān)產(chǎn)品將于 2022 年第一季度上市，并采用新的品牌名 —— 英特爾銳炫XeHPG 微架構(gòu)采用全新的 Xe 內(nèi)核，是一款聚焦計(jì)算，可編程且可擴(kuò)展的元件

客戶端顯卡路線圖包括 Alchemist，Battlemage，Celestial 和 Druid SoC在演講中，英特爾展示了微架構(gòu)細(xì)節(jié)，并分享了在試產(chǎn)階段的 Alchemist SoC 上運(yùn)行的演示視頻，包括真實(shí)游戲展示，虛幻引擎 5 測試良好，全新的基于神經(jīng)網(wǎng)絡(luò)的超取樣技術(shù) XeSS 等

基于 XeHPG 微架構(gòu)的 Alchemist SoC 能夠提供可擴(kuò)展性和計(jì)算效率，并擁有以下關(guān)鍵架構(gòu)特征:

多達(dá) 8 個具有固定功能的渲染切片，專為 DirectX 12 Ultimate 設(shè)計(jì)
全新 Xe 內(nèi)核，擁有 16 個矢量引擎和 16 個矩陣引擎，高速緩存和共享內(nèi)部顯存
支持 DirectX Raytracing和 Vulkan Ray Tracing 的新光線追蹤單元
通過架構(gòu)，邏輯設(shè)計(jì)，電路設(shè)計(jì)，制程工藝技術(shù)和軟件優(yōu)化，相比 XeLP 微架構(gòu)實(shí)現(xiàn) 1.5 倍的頻率提升和 1.5 倍的每瓦性能提升
使用臺積電的 N6 制程節(jié)點(diǎn)上進(jìn)行制造

XeSS

XeSS 利用 Alchemist 的內(nèi)置 XMX AI 加速，帶來了一種可實(shí)現(xiàn)高性能和高保真視覺的全新升頻技術(shù)其使用深度學(xué)習(xí)來合成接近原生高分辨率渲染質(zhì)量的圖像英特爾表示，憑借 XeSS ，那些只能在低畫質(zhì)設(shè)置或低分辨率下玩的游戲也能在更高畫質(zhì)設(shè)置和分辨率下順利運(yùn)行

XeSS 的工作原理是通過從相鄰像素，以及對前一幀進(jìn)行運(yùn)動補(bǔ)償，來重建子像素細(xì)節(jié)
重構(gòu)由經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)執(zhí)行，可提供高性能和高畫質(zhì)，同時性能提升高達(dá)兩倍
XeSS 憑借 DP4a 指令，在包括集成顯卡在內(nèi)的各種硬件上提供基于 AI 的超級采樣
多家早期的游戲開發(fā)商已開始使用 XeSS，本月將向獨(dú)立軟件供應(yīng)商提供 XMX 初始版本的 SDK，DP4a 版本將于今年晚些時候推出

數(shù)據(jù)中心

下一代英特爾至強(qiáng)可擴(kuò)展處理器

Sapphire Rapids 的核心是一個分區(qū)塊，模塊化的 SoC 架構(gòu)，采用英特爾的嵌入式多芯片互連橋接封裝技術(shù)，在保持單晶片 CPU 接口優(yōu)勢的同時，具有顯著的可擴(kuò)展性Sapphire Rapids 提供了一個單一，平衡的統(tǒng)一內(nèi)存訪問架構(gòu)，每個線程均可完全訪問緩存，內(nèi)存和 I/O 等所有單元上的全部資源，由此實(shí)現(xiàn)整個 SoC 具有一致的低時延和高橫向帶寬

Sapphire Rapids 基于 Intel 7 制程工藝技術(shù)，采用英特爾全新的性能核微架構(gòu)。

Sapphire Rapids 提供數(shù)據(jù)中心相關(guān)加速器，包括新的指令集架構(gòu)和集成 IP，以在各種客戶工作負(fù)載和使用中提升性能。新的內(nèi)置加速器引擎包括:

英特爾加速器接口架構(gòu)指令集—— 支持對加速器和設(shè)備的有效調(diào)度，同步和信號傳遞
英特爾高級矩陣擴(kuò)展——Sapphire Rapids 中引入的新加速引擎，可為深度學(xué)習(xí)算法核心的 Tensor 處理提供大幅加速其可以在每個周期內(nèi)進(jìn)行 2000 次 INT8 運(yùn)算和 1000 次 BFP16 運(yùn)算，實(shí)現(xiàn)計(jì)算能力的大幅提升
英特爾數(shù)據(jù)流加速器—— 旨在卸載最常見的數(shù)據(jù)移動任務(wù)，這些任務(wù)會導(dǎo)致數(shù)據(jù)中心規(guī)模部署中的開銷。英特爾 DSA 改進(jìn)了對這些開銷任務(wù)的處理，以提供更高的整體工作負(fù)載性能，并可以在 CPU，內(nèi)存和緩存以及所有附加的內(nèi)存，存儲和網(wǎng)絡(luò)設(shè)備之間移動數(shù)據(jù)

基礎(chǔ)設(shè)施處理器

IPU 是一種可編程的網(wǎng)絡(luò)設(shè)備，旨在使云和通信服務(wù)提供商減少在中央處理器方面的開銷英特爾推出了以下 IPU 家族的新成員

Mount Evans 是英特爾的首個 ASIC IPUMount Evans 是與一家云服務(wù)提供商共同設(shè)計(jì)和開發(fā)的

超大規(guī)模就緒，提供高性能網(wǎng)絡(luò)和存儲虛擬化卸載，同時保持高度控制
提供業(yè)界一流的可編程數(shù)據(jù)包處理引擎，支持防火墻和虛擬路由等用例
使用硬件加速的 NVMe 存儲接口，該接口擴(kuò)展自英特爾傲騰技術(shù)，以模擬 NVMe 設(shè)備
采用英特爾高性能 Quick Assist 技術(shù)，部署高級加密和壓縮加速
可使用現(xiàn)有普遍部署的 DPDK，SPDK 等軟件環(huán)境進(jìn)行編程，并且可以采用英特爾 Barefoot Switch 部門開創(chuàng)的 P4 編程語言來配置管線

Oak Springs Canyon 是一個 IPU 參考平臺，基于英特爾至強(qiáng) D 處理器和英特爾 Agilex FPGA 構(gòu)建:

卸載 Open Virtual Switch等網(wǎng)絡(luò)虛擬化功能以及 NVMe over Fabric 和 RoCE v2 等存儲功能，并提供硬化的加密模塊，提供 2x 100Gb 以太網(wǎng)網(wǎng)絡(luò)接口
能夠使用英特爾開放式 FPGA 開發(fā)堆棧定制其解決方案
使用現(xiàn)有普遍部署的軟件環(huán)境進(jìn)行編程，包括已在 x86 上優(yōu)化的 DPDK 和 SPDK

IT之家了解到，英特爾 N6000 加速開發(fā)平臺，代號為Arrow Creek，是專為搭載至強(qiáng)服務(wù)器設(shè)計(jì)的 SmartNIC。其特性包括:

英特爾 Agilex FPGA。用于高性能的 100GB 網(wǎng)絡(luò)加速的英特爾以太網(wǎng) 800 系列控制器
支持多種基礎(chǔ)設(shè)施工作負(fù)載，使通信服務(wù)提供商能夠提供靈活的加速工作負(fù)載，如 Juniper Contrail，OVS 和 SRv6，它以英特爾 PAC—N3000 的成功為基礎(chǔ)

XeHPC 和 Ponte Vecchio

Ponte Vecchio 基于 XeHPC 微架構(gòu)英特爾公布了 XeHPC 微架構(gòu)的 IP 模塊信息，包括每個 Xe 核的 8 個矢量和矩陣引擎，切片和堆棧信息，以及包括計(jì)算，基礎(chǔ)和 XeLink 單元的處理節(jié)點(diǎn)的單元信息在架構(gòu)日上，英特爾表示，早期的 Ponte Vecchio 芯片展示了領(lǐng)先的性能，在流行的 AI 基準(zhǔn)測試中創(chuàng)造了推理和訓(xùn)練吞吐量的行業(yè)記錄英特爾 A0 芯片性能提供了高于 45 TFLOPS 的 FP32 吞吐量，高于 5 TBps 的內(nèi)存結(jié)構(gòu)帶寬，以及高于 2 TBps 的連接帶寬同時，英特爾分享了一段演示視頻，展示了 ResNet 推理性能超過 43，000 張圖像/秒和超過每秒 3400 張圖像/秒的 ResNet 訓(xùn)練

Ponte Vecchio 由多個復(fù)雜的設(shè)計(jì)組成，這些設(shè)計(jì)以單元形式呈現(xiàn)，然后通過嵌入式多芯片互連橋接單元進(jìn)行組裝，實(shí)現(xiàn)單元之間的低功耗，高速連接這些設(shè)計(jì)均被集成于 Foveros 封裝中，為提高功率和互連密度形成有源芯片的 3D 堆疊高速 MDFI 互連允許 1 到 2 個堆棧的擴(kuò)展

計(jì)算單元是一個密集的多個 Xe 內(nèi)核，是 Ponte Vecchio 的核心。

一塊單元有 8 個 Xe 內(nèi)核，總共有 4MB 一級緩存，是提供高效計(jì)算的關(guān)鍵
基于臺積電先進(jìn)的 N5 制程工藝技術(shù)
英特爾已通過設(shè)計(jì)基礎(chǔ)設(shè)施設(shè)置和工具流程以及方法，為測試和驗(yàn)證該節(jié)點(diǎn)的單元鋪平了道路
該單元具有極其緊湊的 36 微米凸點(diǎn)間距，可與 Foveros 進(jìn)行 3D 堆疊

基礎(chǔ)單元是 Ponte Vecchio 的連接組織它是基于 Intel 7 制程工藝的大型芯片，針對 Foveros 技術(shù)進(jìn)行了優(yōu)化

基礎(chǔ)單元是所有復(fù)雜的 I/O 和高帶寬組件與 SoC 基礎(chǔ)設(shè)施 ——PCIe Gen5，HBM2e 內(nèi)存，連接不同單元 MDFI 鏈路和 EMIB 橋接
采用高 2D 互連的超高帶寬 3D 連接時延很低，使其成為一臺無限連接的機(jī)器
英特爾技術(shù)開發(fā)團(tuán)隊(duì)致力于滿足帶寬，凸點(diǎn)間距和信號完整性方面的要求
Xe 鏈路單元提供了 GPU 之間的連接，支持每單元 8 個鏈路。
對 HPC 和 AI 計(jì)算的擴(kuò)展至關(guān)重要
旨在實(shí)現(xiàn)支持高達(dá) 90G 的更高速 SerDes
該單元已被添加到極光百億億次級超級計(jì)算機(jī)的擴(kuò)展解決方案中

Ponte Vecchio 已走下生產(chǎn)線進(jìn)行上電驗(yàn)證，并已開始向客戶提供限量樣品Ponte Vecchio 預(yù)計(jì)將于 2022 年面向 HPC 和 AI 市場發(fā)布

oneAPI

目前，NVIDIA GPU，AMD GPU 和 Arm CPU 均有 Data Parallel C++和 oneAPI 庫同時，英特爾還提供了商業(yè)產(chǎn)品，包括基本的 oneAPI 基礎(chǔ)工具包，它在規(guī)范語言和庫之外增加了編譯器，分析器，調(diào)試器和移植工具

英特爾的 oneAPI 工具包擁有超過 20 萬次單獨(dú)安裝
市場上部署的 300 多個應(yīng)用程序采用了 oneAPI 的統(tǒng)一編程模型
超過 80 個 HPC 和 AI 應(yīng)用程序使用英特爾 oneAPI 工具包在 Xe HPC 微架構(gòu)上運(yùn)行
5 月份發(fā)布的 1.1 版臨時規(guī)范為深度學(xué)習(xí)工作負(fù)載和高級光線追蹤庫添加了新的圖形接口，預(yù)計(jì)將在年底完成

聲明：本網(wǎng)轉(zhuǎn)發(fā)此文章，旨在為讀者提供更多信息資訊，所涉內(nèi)容不構(gòu)成投資、消費(fèi)建議。文章事實(shí)如有疑問，請與有關(guān)方核實(shí)，文章觀點(diǎn)非本網(wǎng)觀點(diǎn)，僅供讀者參考。

天堂中文最新版,果冻传媒在线观看视频,AA区一区二区三无码精片,欧美折磨另类系列sm

采用英特爾全新的性能核微架構(gòu)功耗降低80%

最新文章

熱門文章