全新平臺(tái)緊密集成硬件與軟件,不僅加速產(chǎn)品上市時(shí)間,同時(shí)滿足整個(gè)生態(tài)系統(tǒng)日益增長(zhǎng)的端側(cè) AI 體驗(yàn)需求 作者:Arm 終端事業(yè)部產(chǎn)品管理高級(jí)總監(jiān) Kinjal Dave ![]() 移動(dòng)設(shè)備正逐步演進(jìn)為由人工智能 (AI) 所驅(qū)動(dòng)的工具,能夠適配、預(yù)測(cè)并提升人們與世界互動(dòng)的方式。而隨著端側(cè) AI 變得更加先進(jìn)和成熟,移動(dòng)芯片所面臨的壓力也在不斷加劇。 加速產(chǎn)品周期(即每新一代旗艦移動(dòng)設(shè)備的推出速度都快于上一代)意味著芯片供應(yīng)商和 OEM 廠商必須在更緊迫的時(shí)間內(nèi)實(shí)現(xiàn)創(chuàng)新,幾乎沒有出錯(cuò)余地。在面積和散熱受限的移動(dòng)設(shè)備尺寸條件下,要實(shí)現(xiàn)為保持 AI 性能而采用的先進(jìn)封裝技術(shù),是一項(xiàng)極具挑戰(zhàn)的任務(wù)。與此同時(shí),向 3 納米等更小工藝節(jié)點(diǎn)的發(fā)展也帶來了復(fù)雜的設(shè)計(jì)難題。 這正是 Arm 推出集成平臺(tái)的原因,通過將 Arm CPU 和 GPU IP,與物理實(shí)現(xiàn)和部署就緒的軟件棧相結(jié)合,從而加快產(chǎn)品上市進(jìn)程,并在最新的先進(jìn)工藝節(jié)點(diǎn)上實(shí)現(xiàn)業(yè)界領(lǐng)先的性能。而 Arm Lumex 就是Arm 新的專用計(jì)算子系統(tǒng) (Compute Subsystem, CSS) 平臺(tái),旨在滿足旗艦移動(dòng)設(shè)備和 PC 上持續(xù)增長(zhǎng)的端側(cè) AI 體驗(yàn)需求。 為 AI 優(yōu)先時(shí)代重新設(shè)計(jì) Lumex 為模塊化且高度可配置的平臺(tái)提供最新的協(xié)同設(shè)計(jì)、協(xié)同優(yōu)化的 Arm 計(jì)算 IP 和先進(jìn)特性: • 新的 Armv9.3 C1 CPU 集群:提供領(lǐng)先的每時(shí)鐘周期指令數(shù) (IPC) 性能,并內(nèi)建第二代 Arm 可伸縮矩陣擴(kuò)展 (SME2) 單元,在 CPU 集群上帶來響應(yīng)更迅速的加速 AI 體驗(yàn)。 • 新的 Arm Mali G1-Ultra:在實(shí)現(xiàn)更快的 AI 推理能力的同時(shí),通過新一代的光線追蹤功能,帶來桌面級(jí)別的視覺效果與更豐富的游戲體驗(yàn)。 • 新的系統(tǒng) IP 包含 Arm SI L1 系統(tǒng)互連與 Arm MMU L1 系統(tǒng)內(nèi)存管理單元:旨在消除系統(tǒng)性能瓶頸,以及降低推理密集型和計(jì)算密集型工作負(fù)載中的延遲。 • 3 納米就緒的 CPU 和 GPU 物理實(shí)現(xiàn):專為實(shí)現(xiàn)業(yè)界領(lǐng)先的功耗、性能與面積 (PPA) 而打造,并加速在芯片上實(shí)現(xiàn)旗艦級(jí)性能的進(jìn)程。 ![]() 跨 CPU 和 GPU 技術(shù)加速實(shí)際場(chǎng)景的 AI 性能 在 CPU 方面,啟用 SME2 技術(shù)的 Armv9.3 C1 CPU 集群結(jié)合了 Arm KleidiAI 對(duì)主流框架和運(yùn)行時(shí)庫(kù)的原生支持,在包括典型機(jī)器學(xué)習(xí) (ML) 推理、語(yǔ)音及生成式 AI 等在內(nèi)的廣泛 AI 工作負(fù)載中,相較于上一代 CPU 集群,在相同條件下實(shí)現(xiàn)了顯著的速度提升。同時(shí)帶來了五倍的 AI 性能提升,以及三倍的能效優(yōu)化。這些基于 SME2 的改進(jìn)使得用戶能在其常用的消費(fèi)類電子設(shè)備上享受更流暢的 AI 交互體驗(yàn),并獲得更長(zhǎng)的續(xù)航時(shí)間。 ![]() 此外,得益于微架構(gòu)優(yōu)化和核心間更緊密的集成,Arm C1 CPU 集群在性能與能效方面樹立了新標(biāo)桿,具體表現(xiàn)為: • 在六項(xiàng)行業(yè)領(lǐng)先性能基準(zhǔn)測(cè)試中,相較于上一代 CPU 集群,在相同條件下的性能水平,平均提升 30%; • 在主流應(yīng)用(包括游戲和視頻流媒體)中,相較于上一代 CPU 集群,在相同條件下平均速度提升了 15%; • 在視頻播放、社交媒體和網(wǎng)頁(yè)瀏覽等日常移動(dòng)工作負(fù)載中,相較于上一代 CPU 集群,在相同條件下的功耗,平均降低 12%; • 相較于上一代 Arm Cortex-X925 CPU,Arm C1-Ultra CPU 帶來兩位數(shù)的 IPC 性能提升。 Mali G1-Ultra 進(jìn)一步提升了 AI 性能與效率,相較于上一代 Arm Immortalis-G925 GPU,其在 AI 和 ML 網(wǎng)絡(luò)中的推理速度加快了 20%。 在游戲方面,得益于新的 Arm 光線追蹤單元 v2 (Ray Tracing Unit v2, RTUv2),Mali G1-Ultra 將光線追蹤性能提升了兩倍,為移動(dòng)設(shè)備帶來了高端桌面級(jí)視覺效果;在主流行業(yè)基準(zhǔn)測(cè)試與游戲應(yīng)用(包括《暗區(qū)突圍》、《堡壘之夜》、《原神》、《崩壞:星穹鐵道》等)中,Mali G1-Ultra 實(shí)現(xiàn)了 20% 的圖形性能增長(zhǎng)。 Lumex 的可擴(kuò)展系統(tǒng)主干 要支持 AI 優(yōu)先體驗(yàn),不能只局限于計(jì)算 IP 的迭代,移動(dòng)系統(tǒng)級(jí)芯片 (SoC) 必須在整個(gè)互連和內(nèi)存架構(gòu)層面持續(xù)演進(jìn)。 正因如此,Arm 推出新的可擴(kuò)展系統(tǒng)互連,專為滿足高要求 AI 和其他計(jì)算密集型工作負(fù)載的帶寬與延遲需求而優(yōu)化,可確保在 Lumex 上保持性能領(lǐng)先,同時(shí)不影響系統(tǒng)響應(yīng)速度。新的 SI L1 系統(tǒng)互連配備業(yè)內(nèi)先進(jìn)的,且具有出色面積效率的系統(tǒng)級(jí)緩存 (SLC) ,相比標(biāo)準(zhǔn)編譯的 RAM,其泄漏功耗降低了 71%,大幅減少了待機(jī)功耗。 對(duì)于合作伙伴而言,該系統(tǒng)互連技術(shù)提供高度靈活的可擴(kuò)展解決方案,可針對(duì)各類手機(jī)和消費(fèi)類電子設(shè)備優(yōu)化 PPA 需求。SI L1 系統(tǒng)互連面向旗艦移動(dòng)設(shè)備,具備完全集成的可選 SLC 并支持 Arm 內(nèi)存標(biāo)記擴(kuò)展 (Memory Tagging Extension, MTE) 特性,可提供一流的安全性;而 Arm NoC S3 片上網(wǎng)絡(luò)互連則面向注重成本且非一致性的移動(dòng)系統(tǒng)。 ![]() 除新的互連技術(shù)外,Arm 還推出了新一代 Arm MMU L1 系統(tǒng)內(nèi)存管理單元,該技術(shù)可在各類手機(jī)及消費(fèi)類電子設(shè)備上實(shí)現(xiàn)安全,且成本高效的可擴(kuò)展虛擬化。 通過物理實(shí)現(xiàn)成就業(yè)界領(lǐng)先的 PPA Lumex 提供針對(duì) 3 納米工藝優(yōu)化、生產(chǎn)就緒的 CPU 和 GPU 實(shí)現(xiàn),已為多家晶圓代工廠所支持,如此一來,Arm 的芯片合作伙伴和 OEM 廠商能夠: • 將這些實(shí)現(xiàn)作為靈活的構(gòu)建模塊,以便專注于 CPU 和 GPU 集群層面的差異化設(shè)計(jì); • 實(shí)現(xiàn)卓越的頻率和 PPA; • 在向最新 3 納米工藝節(jié)點(diǎn)過渡時(shí),助力確保芯片一次流片成功。 開發(fā)者即刻暢享 Lumex 優(yōu)勢(shì) 為充分釋放 Lumex 性能潛力,開發(fā)者需在實(shí)際設(shè)備上市前提前獲取其功能。為此 Arm 推出全新系列的軟件與工具,助力開發(fā)者即刻著手原型設(shè)計(jì)、構(gòu)建 AI 工作負(fù)載,以及利用 Lumex CSS 平臺(tái)的完整 AI 功能。具體包括: • 完整的 Android 16 就緒軟件棧,涵蓋可信固件至應(yīng)用程序?qū)樱?br /> • 完整且免費(fèi)的啟用 SME2 的 KleidiAI 軟件庫(kù); • 全新的自頂向下的遙測(cè)解決方案,用于分析應(yīng)用性能、識(shí)別瓶頸并優(yōu)化算法。 KleidiAI 在推出的第一年便大獲成功,現(xiàn)已集成至所有主流的 AI 框架,并廣泛應(yīng)用于各類應(yīng)用程序、設(shè)備,以及安卓等系統(tǒng)服務(wù)。這為接下來開展工作夯實(shí)根基,當(dāng)基于 Lumex 的設(shè)備在未來數(shù)月上市時(shí),應(yīng)用程序即刻就能在其 AI 工作負(fù)載上實(shí)現(xiàn)性能和效率提升。 在圖形處理方面,隨著未來的安卓版本將支持 RenderDoc,以及通過 Lumex 提供 Vulkan計(jì)數(shù)器、Streamline 和 Perfetto 等統(tǒng)一可觀測(cè)性工具,開發(fā)者能夠?qū)崟r(shí)分析工作負(fù)載、調(diào)優(yōu)延遲,并精確平衡電池續(xù)航與視覺效果。 ![]() 為新一代移動(dòng)智能奠定基礎(chǔ) 移動(dòng)計(jì)算正邁入一個(gè)全新的時(shí)代,而智能的構(gòu)建、擴(kuò)展與交付方式正在定義這個(gè)新時(shí)代。隨著 AI 成為所有體驗(yàn)的基礎(chǔ),平臺(tái)必須具備預(yù)測(cè)、適配、擴(kuò)展和加速未來發(fā)展的能力。 Lumex 正是基于這一未來愿景而設(shè)計(jì),讓整個(gè)生態(tài)系統(tǒng)全面受惠。無論是打造、擴(kuò)展創(chuàng)新設(shè)備的 OEM 廠商,還是構(gòu)建新一代應(yīng)用的開發(fā)者,Lumex 都能助力 Arm 生態(tài)系統(tǒng)更輕松地交付差異化的 AI 優(yōu)先平臺(tái)與體驗(yàn)——以更智能的性能實(shí)現(xiàn)更快速的大規(guī)模部署。 |