国产成人精品a视频一区www_国产区视频在线观看_99色视频_欲色av_亚洲一区电影_亚洲综合视频一区

當AI遇上AR:從微軟HoloLens HPU說起

來源:網絡

點擊:1096

A+ A-

所屬頻道:新聞中心

關鍵詞: AI,AR,微軟HoloLens,HPU,處理器架構

    AI+AR

    人工智能(AI)與增強現實(AR)的概念在最近乃是當紅炸子雞,火遍大江南北。AI 與 AR 的概念區別不小,但是也有不少交集。目前,AI 最熱門的應用就是在計算機視覺(Computer Vision,CV)領域,而 AR 的實現(圖像渲染)自然也離不開 CV 。舉個例子吧!《龍珠》想必大家都看過(如果你沒看過說明你很年輕!大叔很羨慕你!),里面的戰斗力探測眼鏡就是 AI + AR 的一個極好例子:戰斗力探測眼鏡用基于 CV 的 AI 首先做物體識別,把眼鏡視野里面的戰斗對象與背景區分開,然后用一套AI算法去評估該對象的戰斗力,最后把戰斗力標注到眼鏡視野里的目標周圍(什么?戰斗力只有5?),從而實現 AR 。

    當AI遇上AR:從微軟HoloLens Processing Unit (HPU)說起

    《龍珠》里的戰斗力探測眼鏡是AI+AR應用的一個極好例子

    HoloLens 與 HPU

    如今,實現戰斗力探測的 AI + AR 技術已經不再為賽亞人所獨有,地球人也擁有了這項技術!例如,微軟的 HoloLens 在已公布的 AI + AR 設備中可謂佼佼者,憑借微軟的金字招牌以及酷炫的演示動畫吸引了無數科技愛好者的眼球。

    目前,用于 AI/AR 的處理器架構該如何設計仍然處于探索階段,Intel 想借機推自己基于 CPU 的方案,Nvidia 想利用 GPU 彎道超車,而 Qualcomm 也拼接 Snapdragon 平臺在一邊虎視眈眈。在今年的商用芯片峰會 HotChips 上,微軟公布了應用在 HoloLens 中的處理器芯片(HoloLens ProCESsing Unit, HPU)。HPU 的架構和 CPU 以及 GPU 都不相同,可謂是開創了 AI/AR 領域芯片的新范式.接下來將詳細分析 HPU 芯片架構并展望未來 AI/AR 芯片設計中的范式轉換。

    當AI遇上AR:從微軟HoloLens Processing Unit (HPU)說起

    HoloLens可以實現眾多AI/AR應用

    微軟公布的 HoloLens 系統架構如下圖所示。就在絕大多數移動設備的處理器都基于 ARM 結構的今天,HoloLens 的主處理器使用的仍然是 Intel 的 Cherry Trail SoC(包括CPU與集成的GPU),讓人感嘆維持了二十余年的 Wintel 聯盟堅不可破。微軟最新公布的 HPU 也可以在圖上看到,HPU 嚴格來說是一款協處理器,其作用是協助主處理器加速運算一些專門的運算(如用于 CV 的矩陣運算,用于 CNN 的卷積運算等)。

    由于 CPU 必須要考慮通用性而無法對一些 AR/VR 運算進行優化,因此在應用場景中會大量遇到的專門運算如果都交給 CPU 做會使系統的整體性能變得很差,于是我們需要設計一款專用的加速器來協助加速這些運算,微軟在這里的加速器就是 HPU 。HPU 通過 PCIe 高速接口與主處理器所在的 SoC 通信,不過 PCIe 的功耗其實是比較大的,未來可望會用上更先進的互聯技術。

    微軟公布的 HPU 處理能力達到每秒 1T(10^12)次像素運算,功耗則小于 4W。HPU 能夠融合來自 5 個攝像頭、一個深度傳感器以及運動傳感器的輸入信息,將信息壓縮并傳送到主處理器。此外 HPU 還能實現 AI 手勢識別。據說微軟曾評估了來自于各大廠商的商用芯片,卻沒有找到任何一款產品能滿足系統算法對性能的要求。這款微軟自己開發的 HPU 是采用臺積電 28nm 工藝,內含 24 顆可重配置的 Tensilica 數字信號處理器(DSP)核心以及高達 8MB 的 Cache。除此以外,還有專用加速器用于給各類專門任務加速。

    當AI遇上AR:從微軟HoloLens Processing Unit (HPU)說起

    HoloLens 系統架構,HPU 與顯示設備緊密耦合并且和主處理器 Intel Cherry Trail SoC 由高速 PCIe 接口互聯

    HPU 有何不同

    如果仔細觀察 HPU 架構,會發現它與目前借著 AI/AR 及人工智能風口飛地很高的 GPU 有點像,但并不相同。說它們“有點像”是因為 HPU 和 GPU 都有不少計算核心,這樣可以實現數據的并行處理。HPU 和 GPU 要處理的都是畫面中的一個個像素,而像素之間其實并沒有關聯性,因此可以由并行處理來提高執行效率。與之相對的是 CPU,為了照顧通用性 CPU 無法放置大量的計算核心來實現大規模并行運算,因此完全用 CPU 來處理 AI/AR 操作會導致速度很慢。另一方面,HPU 與 GPU 之間也有很大的不同。首先,HPU 上的計算核心是可配置 DSP 而非類似 Nvidia GPU 里面的 CUDA core。另外,HPU 的片上Cache(用于快速存取數據)高達 8MB,遠大于 GPU 的片上 Cache 容量(Tegra X1 上Cache 僅有 2 MB)。這是為什么呢?

    歸根到底,這些都是因為應用的區別。GPU 就像一艘巨輪,設施豪華(運算精度高),耗油巨大(功耗巨大),在處理海量的數據時可以實現非常高的吞吐率,但是實時性并不好:你可以想象巨輪在行駛前需要做許多準備工作,并不是指令一下說走就走(延遲較大)。當然在需要處理的數據量足夠大時,這些準備時間相對于計算時間來說可以忽略不計。HPU 就像一艘小船,輕便而省油(功耗較小),而且指令一下可以說走就走(延遲較小),雖然運算的吞吐量不能和 GPU 相比但是實時性很好。

    在 HoloLens 中,實時性非常重要:例如,在你的頭部移動時,你顯示的內容也要相應改變,如果在你頭部移動和現實內容改變之間存在明顯延遲則使用者會感到暈眩(這也是為什么很多人在玩 3D 游戲時會頭暈的原因)。另外,由于 HoloLens 是移動設備,因此芯片的功耗需要嚴格控制,功耗巨大的 GPU 架構并不適合。

    當AI遇上AR:從微軟HoloLens Processing Unit (HPU)說起

    HPU 芯片結構,可見 DSP 計算核心以及大容量片上 Cache(SRAM)

    讓我們來看看 HPU 和 GPU 的幾點不同是如何對應應用場合的要求的。首先,HPU 選擇了可重配置的 DSP。使用可重配置的 DSP 可以根據應用場合切換配置來實現性能-功耗的最優折衷,可以說 HPU 使用可配置 DSP 是為了實現在給定功耗下的最佳性能。其次,HPU 使用很大的片上 Cache。使用片上 Cache 可以實現低延遲數據存取,從而滿足HoloLens 對于實時性的要求。HPU 與顯示設備緊密耦和也能幫助降低延遲。與之相反,通常 GPU 的片上 Cache 都較小,而絕大部分數據都存在片外 DRAM 中并使用高速 GDDR 接口實現數據傳送。這樣做既增大了數據存取延時又消耗了很大的功耗,并不適合 HoloLens 這樣的應用。

    最后,值得注意的是,HPU 還集成了許多專用加速器。這些專用加速器可以幫助 HPU 快速執行一些算法(單靠 DSP 往往無法滿足這些算法的性能需求)。這使得 HPU 又有點像 Qualcomm 的 Snapdragon SoC,因為 Snapdragon 也是在芯片上會集成許多特定算法(如視頻編解碼,AES 加密)的加速器。這些加速器的功耗往往很低,但是使用這些加速器也是要付出代價的:專用加速器在不需要使用的時候會處于閑置狀態無法用做其他用途,這部分用于專用加速器的芯片面積在加速器閑置的時候相當于是浪費了。因此,專用加速器就能量而言效率非常高(即完成運算需要的能量很小),但是就芯片面積而言效率很差(即增加了芯片成本)。因此集成哪些專用加速器需要經過性能-功耗-成本三方面的仔細折衷。HPU 集成的這些專用加速器相信會在一些關鍵的應用中起很大的加速作用,從而保證 HoloLens 能以很高的性能實現算法同時消耗很低的功耗。

    根據微軟的數據,使用專用加速器配合 DSP 可以實現 200 倍以上的性能改善,效果可謂驚人。

    芯片 IP 隨著 AI/AR 概念變得更重要

    近來 AI/AR 技術發展非常快。為了實現新的算法以及滿足新的應用需求,往往要速度更快功耗更低的硬件,這就需要相應的芯片也能快速迭代以滿足算法和應用的需求。另一方面,許多傳統只在軟件領域活動的巨頭(如 Google,Facebook)在這波風潮里也在向著硬件領域蠢蠢欲動,為了使自己的 AI/AR 硬件性能達標,使用通用的 CPU/GPU 很困難,必須有定制芯片。以往的先三年技術積累再開始量產芯片的做法根本無法跟上現在的高速節奏,必須有能從頭開始在一年內就交付的快速芯片設計方法。為了滿足這兩個需求,使用芯片 IP 幾乎是必須的。當使用購買的芯片 IP 時,設計者只需把精力集中在整體架構設計上,所有沒有時間或者資源做具體設計的芯片模塊都可以向第三方購買。相比從頭設計所有模塊,基于 IP 的芯片設計方法大大加快了設計速度,而整個芯片中第三方 IP 所占的比例也會越來越多。

    在之前的芯片巨頭靠出售芯片盈利,而芯片中每一個第三方 IP 都要付出權利金,因此高通這類公司不到萬不得已不會使用第三方 IP,而是會傾向于自己做模塊。舉例來說,高通芯片面積中使用第三方 IP(不包括ARM的架構授權)的比例通常小于 5%。然而,這些從軟件領域過來做硬件的巨頭制造芯片并不指望靠芯片盈利,而是要用在自家硬件里。對于它們來說,硬件是否能盈利甚至都不重要,它們需要的是營造自己的生態圈搶占市場。因此,對它們來說芯片最關鍵的是性能要強,而且上市速度要快,所以它們完全不介意買許多第三方 IP。

    前面討論的微軟 HPU 就是一個極好的例子。微軟的芯片設計團隊相對于 Intel 和高通等半導體業界巨頭來說非常小,但是借助于從 Cadence 購買的 Tensillica DSP IP,微軟仍然能夠在短時間內快速完成高性能大型芯片的設計,而且第三方 IP 占的芯片面積高達 60% 以上。可以說,隨著 AI/AR 概念越來越普及,相應的芯片 IP 也會越來越熱門。

    除了 Tensillica 之外,也有其他公司在提供 AI/AR 方面的芯片 IP。老牌 DSP 和通訊 IP 供應商最近發布了針對 AI 和 CV 的 XM6 DSP 平臺。該 DSP 平臺為深度學習優化,從而可以較高效地完成 AI/AR 運算。在各大高校和科研機構,AI IP 的開發也是一個熱點,例如 MIT 由 Yu-Hsin Chen 開發的 Eyeriss 深度學習加速器 IP 可以以很低的功耗完成高速卷積運算,自從在 2015 年的 ISSCC(國際固態半導體電路會議)上發表后收到了巨大的關注。我們預期在不久的將來,AI/AR IP 領域會越來越紅火。

    結語

    作為 AI/AR 處理器芯片的先鋒,HPU 的架構與 GPU 相似(多核并行運算)但又有很大不同(使用定點 DSP 和大容量片上 Cache),另一方面它又從用于手機的多媒體 SoC(如 Snapdragon)借鑒了集成專用加速器的方法,可謂是博采眾長又不拘泥于一家之說。另外,為了追上算法和應用的發展,AI/AR 芯片可能會大量使用第三方芯片 IP。我們預期在未來的 AI/AR 處理器芯片架構中看到如下的設計范式轉移:GPU 追求高吞吐量-> AI/AR 芯片追求低延時;CPU/GPU 追求通用性-> AI/AR 處理器為特定應用集成大量專用加速器;CPU/GPU 模塊多為自己設計-> AI/AR 處理器大量使用第三方 IP。

    (審核編輯: 林靜)

    聲明:除特別說明之外,新聞內容及圖片均來自網絡及各大主流媒體。版權歸原作者所有。如認為內容侵權,請聯系我們刪除。

    主站蜘蛛池模板: 国产一区精品视频 | 精品日韩一区二区三区 | 一区二区视频 | 欧美久久综合 | 欧美视频在线一区 | 中文字幕在线三区 | 国产精品久久久久久一区二区三区 | 91最新网站 | 欧美一区二区免费 | 欧美日韩电影一区二区三区 | 最新国产中文字幕 | 黄色av网站在线免费观看 | 久久精品国产99国产 | 日韩精品极品在线观看 | 国产一区国产二区在线观看 | 亚洲精品视频在线看 | 一级片在线观看 | 欧美激情一区二区三级高清视频 | 色婷婷一区二区三区 | 日韩超碰在线观看 | 夜夜夜久久久 | 国产精品激情偷乱一区二区∴ | 爱爱视频天天看 | 日韩欧美精品在线视频 | 看a网站 | 久久亚洲美女视频 | 国产精品一区一区三区 | 国产精品美女视频 | 午夜av亚洲女人剧场se | 亚洲欧美中文字幕在线观看 | 国产干干干 | 精品国产一区二区三区久久久 | 久久人人爽人人爽人人片av软件 | 天天干 夜夜操 | 不卡一区二区三区四区 | 久久久天堂国产精品女人 | 欧美在线a | 在线只有精品 | 欧美电影一区 | 国产精品日韩精品 | 日韩在线成人 |