Arm at HC35 (2023): CSS-Genesis

原文:Arm at HC35 (2023): CSS-Genesis
ChatGPT 翻譯:無校正

說 Arm 在通用 CPU 核心方面擁有極高的人氣,這樣的說法其實還是有點低估了實際情況。Arm 在推出新一代核心方面一直全速前進,無論是面向終端使用者的 Cortex 系列產品,還是備受歡迎的企業級產品 Neoverse 系列。

但僅有核心並不足以構成一個完整的系統。因此,Arm 開發了大量其他的 IP 區塊,供整合商使用,以製作完整的設計。例如,他們的 DSU-110 和 CMN-700 提供了連接核心與其他系統組件的互連。他們的 MMU-700 處理外設的虛擬地址到物理地址的轉換。GIC-700 則提供了中斷控制器功能。

然而,像 MediaTek 和 Qualcomm 這樣的客戶仍然需要整合所有必要的元件來創建一個完整的晶片。配置這些獨立的組件、將它們連接起來並驗證整個系統,這需要大量的精力和時間。相比之下,AMD 和 Intel 則是創建現成的晶片並控制大部分的平台設計,使得客戶可以快速上手。因此,典型的 Arm 核心設計的上市時間通常比 x86 雙頭壟斷的設計要長得多。一個很好的例子是 Neoverse N2 核心設計,這是 Arm 在 2021 年 4 月宣布的,但據我們所知,直到阿里雲的 Yitian 710 推出時才出現在實際的晶片中,這我們之前也有報導過。

現在,Arm 通過推出 CSS-Genesis N2 向 x86 雙頭壟斷又邁進了一步。這是一個新的設計服務,Arm 將其作為一種減少通用處理器和定製加速器開發時間的方法進行推廣。今天,我們來看看在 Hot Chips 35 上展示的 Arm 的 CSS-Genesis。

Reducing Time to Market

CSS-Genesis 允許 Arm 的客戶獲得一個預製且經過驗證的 RTL 設計,這可以比購買單獨的核心設計的典型過程更快地實現矽晶片的生產。作為他們展示的一部分,Arm 宣稱,一個典型的 CSS-Genesis 客戶可以節省 80 個工程年(由工程師團隊集體投入的時間),相比於之前客戶必須使用的可比較的 IP 許可(即購買單獨的核心設計和其他組件並由客戶自行組裝)。

Arm 的 CSS-Genesis N2 是一個計算子系統,配備最多 64 個 Neoverse N2 核心、四個 DDR5 記憶體控制器和 64 條 PCIe 5.0 通道。它利用 Arm 的 CMN-700 網格互連將所有這些組件連接在一起,並使用 Cortex M7 微控制器(SCP 和 MCP)來管理時鐘和電壓。該系統還包括一個 IO 區塊,內含中斷控制器(NI-700)、系統 MMU(MMU-700)和其他地址轉換邏輯,使 CSS-Genesis 客戶能夠整合額外的晶片內加速器並連接 PCIe 設備。所有這些都已由 Arm 在台積電的 N5 工藝上進行測試,以獲取面積指標和其他實現特性。結果是一個現成的處理器模塊,可以作為獨立晶片實現,也可以與其他定制加速器(例如機器學習或影像處理加速器)一起整合到更大的處理器中。

對於配置最大緩存的 64 核心設計,Arm 表示當使用台積電的 N5 工藝實現時,核心、互連和最後一級快取(LLC)佔用的面積估計為 198 平方毫米。CMN-700 網格配置了 32 個核心磚,每個核心磚佔用 6.2 平方毫米,包含兩個 N2 核心和兩個 1 MB 的 LLC 切片。作為比較,單個 AMD Zen 4C 核心佔用 2.48 平方毫米的面積,而一個包含 8 個 Zen 4 核心、32MB LLC 和互連的 Zen 4 CCD 小晶片佔用 69.5 平方毫米的面積。如果我們假設 16 核心的 Bergamo 小晶片與常規的 Zen 4 小晶片尺寸相同,那麼 Bergamo 需要大約多 40% 的面積來實現 16 個核心。部分原因是 Zen 4C 核心比 Neoverse N2 核心功能強大得多,且 Bergamo 每個核心的 L3 緩存是其兩倍。然而,AMD 也使用了一些面積來實現跨小晶片接口和微控制器,而這些是 CSS-Genesis N2 的可選部分。

無論如何,Arm 的 CSS Genesis 應該需要更少的矽晶面積,從而成本也低於 Bergamo,這對於那些可以在 ARM 上運行其工作負載且不需要 Bergamo 更高性能的客戶來說,是一個具有吸引力的解決方案。

Supporting Components

毫無意外地,Arm 在 CSS-Genesis 中塞滿了自家元件。MMU-700、GIC-700、NIC-450 和 CMN-700 全都是 Arm 自製的。Cortex-M7 核心則負責管理電源、時鐘和電壓。

預先配置和整合所有這些元件將為 CSS-Genesis 客戶節省時間和工程努力。此外,這也提供了一個使用 Arm 的 IP 而不是其他來源區塊的動機。這在服務器市場中可能並不太重要,因為在該市場中,除了 CPU 和互連之外的區塊對系統性能的影響較小。然而,一個假設用於移動設備的 CSS-Genesis 設計將非常有趣,因為這可以讓 Arm 的 Mali GPU 獲得更多的市場份額。

Chiplet Scaling

CSS-Genesis N2 的最大配置為 64 核心,這比 Ampere Altra 的 80 核心略遜一籌,且顯著落後於 AMD 的 96 到 128 核心 Zen 4 部件。為了實現更高的核心數設計,CSS-Genesis N2 可以使用類似於 AMD Magny Cours(K10 服務器)或 Interlagos(Bulldozer 服務器)的多晶片策略。一個插槽可以包含兩個 CSS-Genesis N2 晶片,使每插槽的核心數達到 128 個。

雙插槽配置可以提供每個節點 256 核心,這與 AMD Bergamo 的核心數量相當。與 Intel 和過去數年的 AMD 其他平台不同,CSS-Genesis N2 無法擴展到超過雙插槽的平台。

128 核心已經很多了,但 Bergamo 的 Zen 4c 核心可能比 N2 更強勁,這要歸功於其強大的向量單元和更大的亂序引擎。Intel 未來的 Sierra Forest 可能每個插槽會有 144 個核心,而 Ampere 的 Siryn 可以擴展到 192 個核心。

CSS-Genesis’s Targets

CSS-Genesis 的配置針對廣泛的市場,從服務器到像智能交換機等較小的應用。

針對如此多的市場需求靈活性,因此 CSS-Genesis 提供了 24、32 和 64 核心數量的選擇。最小的 24 核心選項佔用 53 平方毫米的面積,在高 CPU 吞吐量不重要時可以降低成本。我懷疑即使對於像智能網絡接口卡(NIC)這樣的產品,24 核心也會過多,因為這些產品通常需要專用的芯片或 FPGA 來處理複雜任務。也許我們將來會看到更低核心數量的選項。

Final Words on CSS Genesis

CSS-Genesis 是一個引人注目的服務,很可能能夠讓新一代 Arm 核心設計在比現有設計更短的時間內進入市場。對於初創企業和超大規模用戶來說,它可能提供了很大價值,使它們能夠通過自己(大部分)的設計多樣化其計算基礎設施。然而,仍有待觀察的是這項服務的需求強度,隨著這個領域競爭日益激烈,這可能是未來面臨的最大風險。超大規模用戶將會衡量像 AMD 的 Bergamo 這樣的產品與 CSS-Genesis 的差異,並考慮它是否相對於 AMD 提供的完整平台而言具有哪些好處。盡管 Arm 透露他們已經有了 CSS-Genesis 的客戶,但他們並未透露任何客戶的名稱。根據我們對 Yitian 710 的了解,有些迹象表明它可能是使用了這項服務建造的,這樣的猜測確實有一定的合理性。

在與 Arm 的討論中,他們表示如果有需求,這項服務在未來有擴展的意圖。雖然他們沒有具體說明可能的擴展方式,但我們可以想象,他們可能會考慮擴展到其他 Neoverse 設計,例如 V2 或其他未來的核心。這無疑會增加服務的潛在市場,但目前尚不清楚 Arm 是否會更大膽地跨足,並試圖在消費者、物聯網或嵌入式市場複製這項服務。我們希望在未來 Arm 能夠支持更高核心數,考慮到 Intel 和 AMD 在這一領域的進展速度。如果 CSS-Genesis 取得成功,我們甚至可能會看到 Arm 採取下一步,未來提供半定制的成品矽片產品作為服務。無論如何,CSS-Genesis 提高了 Arm 在通用服務器 CPU 市場上的競爭力,使其更接近匹敵 Intel、AMD 和現有合作夥伴如高通的能力。

我們要感謝 Arm 為我們提供的簡報和在 Hot Chips 上的演示,並期待看到未來的設計和服務。如果您喜歡我們的文章和新聞工作,並且想要支持我們的努力,請考慮前往我們的 Patreon 或 PayPal 支持我們。如果您想與 Chips and Cheese 的工作人員和幕後人員交流,請考慮加入我們的 Discord。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *