沉浸式全息影像、虛擬數字人員工、數字藏品、虛擬營業廳、城市數字孿生、超寫實數字人......近日舉辦的2022世界人工智能大會成了眾多元宇宙應用的博物館。在亦真亦幻的展示中,元宇宙的精彩已經撲面而來。
不過,元宇宙的完全落地還需滿足多重條件,其中之一就是要得到端側和邊緣側AI的強力支撐。因為,AI部署在端側可以提升用戶數據的安全性,并助力高效地利用有限的網絡資源和帶寬;而在邊緣側,AI則能及時處理多種元宇宙場景下的海量數據,并推動AI整體的規?;渴鸷吞嵘贫酥悄芩?。
其實,支撐元宇宙只是端側和邊緣側AI的應用目標之一。隨著AI技術不斷融入邊緣側和端側,各節點都將獲得空前強大的計算和決策能力。在此過程中,作為AI技術的具體載體,邊緣側和端側AI芯片將發揮無可比擬的作用。
邊緣側和端側AI的崛起
邊緣側是一個經常被提起又難以被理解的概念,在物聯網的世界特指為設備端的附近,而為應用開發者和服務提供商在網絡的邊緣側提供云服務和IT環境服務就稱為邊緣計算。當邊緣計算、AI和應用場景相結合,就產生了邊緣側AI。由于邊緣側覆蓋了各種應用場合和設備,邊緣側AI得到了無比廣闊的發展空間。
邊緣側AI運行在邊緣設備上,相較于云端的AI,其數據安全性更高,功耗更低,時延更短,可靠性更高,帶寬需求更低,還可以更大限度的利用數據,以及進一步縮減數據處理成本。
相對來說,端側AI更容易理解,活躍在我們的手機和其他各種終端設備上的AI技術就是端側AI。與邊緣側AI相同,端側AI運行在本地設備上,使得其更加安全、高效,也不會對帶寬有過分依賴。
由于傳感器技術的進步和5G的普及,邊緣側AI開始大規模部署,并為制造、醫療健康、金融服務、交通、能源等行業開發出新的業務模式,如制造行業的預測維護和醫療行業的AI診療等。同時,端側 AI 在底層技術和業務應用等方面也取得了快速發展,逐漸從嘗試性應用變成驅動業務創新的核心推動力之一,計算攝影、智能門禁、車載ADAS等應用就是最好的證明。
這些端側和邊緣側AI的主流應用中都采用了智能視覺技術,結合圖像識別與AI訓練,構建起強大的智能視覺應用生態。
因為感知場景非常碎片化,面對越發復雜的場景應用,智能視覺所面臨的技術挑戰也日益艱巨。比如,在暗光、逆光場景下輸出高質量圖像就是行業公認的難題。解決的辦法之一就是采取多光譜融合技術,將可見光與紅外光感知信息進行融合,在不增加光污染的同時,解決低照環境下由于可見光感光能力不足所造成的細節損失的問題,實現圖像色彩與細節的最佳平衡。愛芯元智采用AI ISP的方式,對傳統ISP的某些能力進行增強,能夠實現黑光全彩的效果。
同樣,為了做到對不同目標的區分和運動場景下的目標識別,結構化識別、多算法融合也是必要的技術。諸如此類的AI算法越來越多,就意味著需要強大的AI算力作為支撐,也意味著作為端側和邊緣側AI最直接載體的AI芯片必須要在算力和感知方面不斷創新,才能發揮出算法的最大作用。
算力和感知:NPU和ISP的完美融合
在端側和邊緣側AI芯片中,負責提供算力的主要是NPU單元。它是整個AI芯片中非常重要的一個模塊,能夠很好地支持最新的深度學習算法,且算力表現遠超傳統的CPU/GPU。
不過NPU也面臨著內存墻和功耗墻的挑戰,要發揮NPU的潛力,降低開發成本,需要特殊的技術——混合精度。
混合精度就是將不同精度的浮點數/定點進行數值計算。業內專家通過研究發現,通過合理分配不同環節的數值精度,就可在保證最終計算結果準確度的條件下,實現整體計算的加速。
愛芯元智設計了混合精度的NPU,可以在端側邊緣側成本受限的情況下提供充沛的有效算力,支持更多的智能算法。
該NPU是一個異構多核的系統,除了專注于網絡本身加速的CONV計算核外,還配有豐富的在Vector內核上實現的CV算子,同時還會有SDMA等用于數據的搬運,使得算力在AI圖像處理中能夠有更好的提升。
為了降低NPU系統對 CPU的占用,愛芯元智還專門設計了多核硬件同步的機制,這樣整個應用的絕大部分Pipeline都可以跑在NPU上,不對CPU占用,從而讓整個應用跑得更快。
NPU的強大算力在智能視覺應用中有了巨大的發揮空間。因為智能視覺的感知是由AI ISP所負責,為了能應對更加復雜的場景應用,需要將服務器上的AI分析處理能力前移放入ISP中,沒有強大算力的支撐,這就是一個無法完成的任務。
比如,在智慧城市場景中,使用AI ISP可以解決暗光背景下的噪聲問題,輸出清晰的畫面,但使用AI ISP的技術,就必須用AI算法全分辨率、全幀率地對視頻進行處理。僅一個500萬像素的視頻碼流,要做到全分辨率、全幀率的處理,就會對NPU的算力提出非常高的要求。
另一方面,要對場景進行智能分析,就要把一些行業專家系統用神經網絡的方式進行構建。這個AI專家系統要足夠聰明,對應的就是一個龐大的神經網絡,要讓其順利運轉,也會對NPU算力提出很高的要求。
當然,僅有強大的算力也是不夠的,要讓AI ISP發揮最大的潛力,還需要對算法進行選擇,如果將所有算法進行裝載,勢必會加重芯片的運算負擔和功耗,反而會影響芯片的表現。
愛芯元智公司進行了很好的創新,其沒有將AI ISP整體的Pipeline進行替換,只擇其中重要的模塊進行AI增強,將有限的算力集中于整個AI ISP中最關鍵、人眼最可知的這些功能中,以實現整個AI ISP的最佳效果。這樣不但能使得畫質明顯改善,還能隨AI模型迭代實現快速升級。
為了讓NPU和ISP實現強強聯合,愛芯元智還開發了聯合架構設計,最終大幅提升了傳統ISP中多個關鍵模塊的性能,將AI畫質提升算法應用到4K視頻顯示上。
愛芯元智的兩個主要產品完美體現了上述設計思路。其中,AX620A是目前在智慧城市等應用中的主流產品,擁有一個四核Cortex-A7CPU,32bitLPDDR4x,包含H.264、H.265編碼功能,算力為14.4TOps,有兩路的MIPI,一路的USB,具有快速喚醒、低功耗的特點。
另一款產品是AX170A,為影像方面專用的人工智能芯片,集成了四核Cortex A7 CPU、自研AI-ISP和混合精度NPU,同時片上搭載LPDDR4專用內存,可以支持4路MIPI信號輸入;最高算力可達28.8TOPS,獨立DDR帶寬最高可達到8.5GBps,可對4K 30fps的影像進行實時畫質優化,配合主控芯片可實現超級夜景視頻和優秀的暗光拍攝功能。
寫在最后
端側和邊緣側AI正在隨日益增長的實時性業務需求而變得愈發重要,IDC 預測,到 2023 年,接近20%的用于人工智能工作負載的服務器將部署在邊緣。
可以預期,AI芯片將有更廣闊的市場空間,同時也要增加與算法和應用場景的契合度。對于廠商來說,可以針對不同應用自主開發算法,只是這樣將耗費大量的資源,也不可能實現全覆蓋。是否還可存在別的路徑呢?
在這方面,愛芯元智的做法可以值得借鑒。其提供了對多種框架生成的AI算法的支持,也可以廣泛接收來自于不同廠商的算法,通過離線編譯優化的工具進行編譯,或利用其提供的分析工具對性能做一些分析,從而實現算法在芯片上的部署和快速迭代。
在自主開發的基礎上,增加兼容性,這也許就是今后端側和邊緣側AI芯片發展的新方向。(校對/薩米)
標簽: #科技快訊
鄭重聲明:圖文由自媒體作者發布,我們尊重原作版權,但因數量龐大無法逐一核實,圖片與文字所有方如有疑問可與我們聯系,核實后我們將予以刪除。
猜你喜歡
關于我們 版權申明 科技時報版權所有 粵ICP備2021112027號