首發(fā)耐用科技 3.0,新一代耐用戰(zhàn)神 OPPO A5 Pro 正式發(fā)布
5T 算力 BPU x 14 億參數(shù) LLM,地平線旭日 3 成功部署大語言模型
為大模型在端側實現(xiàn)產(chǎn)品級應用拓展了更廣闊的想象空間。
近日,地平線成功在旭日 3 中的 BPU??計算單元上呐赡,部署運行參數(shù)規(guī)模高達 14 億的大語言模型(Large Language Model , LLM)退客。
這不僅是業(yè)界在端側成功部署大模型的一次突破性實踐,更驗證了 BPU??對先進神經(jīng)網(wǎng)絡算法的高效支持链嘀,為大模型在端側實現(xiàn)產(chǎn)品級應用拓展了更廣闊的想象空間萌狂。
大模型端側部署的技術實踐對加速智能化產(chǎn)業(yè)變革具有重要意義。
端側部署具備實時性怀泊、低時延優(yōu)勢茫藏,能夠靈活支持弱網(wǎng)或無網(wǎng)等豐富場景,為終端用戶提供更流暢霹琼、穩(wěn)定的交互體驗务傲;同時端側支持信息本地化處理,可有效保護用戶數(shù)據(jù)與隱私安全枣申;端側計算還將大幅緩解云端算力壓力售葡,端云協(xié)同更會驅動產(chǎn)業(yè)降本提效,加速實現(xiàn)大模型技術的應用普惠忠藤。
然而挟伙,大模型端側推理部署仍面臨巨大挑戰(zhàn)。
區(qū)別于云端推理部署計算資源應用盡用熄驼,端側部署大模型并實現(xiàn)產(chǎn)品級應用像寒,則需綜合考量不同應用間的計算資源分配烘豹,以及計算效率瓜贾、帶寬占用與功耗等各項指標。如何在眾多約束條件下最大程度地提高大模型端側推理效率是面臨的首要技術挑戰(zhàn)携悯。此外祭芦,推理過程將大量占用內(nèi)存帶寬,如何在不影響推理結果的前提下減少內(nèi)存訪問憔鬼,降低帶寬依賴龟劲,進而減少推理耗時胃夏,則需要在軟件工程層面進行系統(tǒng)優(yōu)化。
作為軟硬協(xié)同技術路徑的堅定踐行者昌跌,地平線通過硬件資源的最大化利用和軟件工程的極致優(yōu)化仰禀,并成功在 5 TOPS 算力的邊緣計算芯片上部署高達 14 億級參數(shù)的大語言模型。
這源于旭日 3 所搭載的雙核 BPU??伯努利計算單元對神經(jīng)網(wǎng)絡計算的原生性支持蚕愤,能夠在處理大語言模型方面提供高性能答恶、低功耗的計算處理能力。另一方面萍诱,地平線通過軟硬協(xié)同編譯悬嗓,采用算子重寫、算子重排裕坊、算子融合和 KV-Cache 等技術包竹,進一步優(yōu)化了模型結構,實現(xiàn)推理速度的成倍提升籍凝。
從資源占用情況看周瞎,該大語言模型在旭日 3 上的應用效果表現(xiàn)優(yōu)異,CPU 占用單核 60%静浴、BPU 占用單核 50%堰氓,為后續(xù)其他應用預留充足的算力資源;同時在 5GB/s 內(nèi)存帶寬基礎上實現(xiàn)了約 4~5 字/秒的生成速度苹享,可充分滿足實時性需求双絮;在最能體現(xiàn)真實效能的 FPS/Watt 指標上,該模型的運行效能相較于 LLaMA.cpp 等純 CPU 方案提升了 2.5 倍得问。這也意味著囤攀,旭日 3 對此大預言模型的支持性可達到產(chǎn)品級應用水平。
地平線現(xiàn)已通過 GitHub 開放該模型的推理代碼宫纬,開發(fā)者可通過 RDK X3 系列開發(fā)者套件焚挠,即刻前往「NodeHub 全開源機器人應用中心」推薦項目(https://developer.horizon.cc/nodehubdetail/181982806623334400),嘗鮮體驗大語言模型在旭日 3 上的實際運行效果漓骚,更期待各位開發(fā)者參與「星光之路」活動蝌衔,一同探索大模型在旭日 3 的上層應用落地!
編輯:達達 / 深圳灣