訂閱
糾錯
加入自媒體

“米爾”當6 TOPS不再是極限:RK3576+Hailo-8,讓高幀率攝像頭真正“實時”

2026-04-08 11:18
來源: 米爾MYiR

在邊緣計算領域,算力與實時性之間的博弈從未停止。近期基于米爾MYD-LR3576 開發(fā)板+PCIe M.2接口Hailo-8算力卡進行了一系列深度測試,一組實測數(shù)據(jù),或許能幫你重新審視邊緣AI的“性能天花板”。

image.png

圖:米爾基于RK3576開發(fā)板

一、RK3576 的算力極限在哪里?

RK3576內置NPU由2核組成,具備6 TOPS 算力,在常規(guī)輕量級模型推理中表現(xiàn)不俗。但在實際項目中,我們通過多路并發(fā)測試發(fā)現(xiàn),當4路YOLOv5模型同時推理時,NPU負載率已超過75%。一旦增加到第5路,整體延遲急劇飆升,系統(tǒng)響應明顯劣化。

在單路推理場景下,YOLOv5(640×640)耗時約26ms,折算下來僅能穩(wěn)定處理30fps的攝像頭數(shù)據(jù)。

這意味著什么?

當攝像頭升級到60fps甚至120fps的高幀率場景時,單靠RK3576的NPU已經無法做到逐幀實時處理。要么丟幀,要么延遲不斷累積——這在工業(yè)高速檢測、智慧交通、機器人導航等對實時性要求嚴苛的應用中,是不可接受的。

image.png

二、Hailo-8算力卡介紹

Hailo-8 是一款專為邊緣 AI 推理設計的專用加速器,擁有26TOPS算力,面向嵌入式設備和低功耗場景,提供高效、可擴展的 AI 計算能力。官方網址:https://hailo.ai/。為什么 Hailo-8 能在相同功耗下實現(xiàn)數(shù)倍于傳統(tǒng) NPU 的性能?答案不在算力數(shù)字,而在架構:

1. 數(shù)據(jù)流架構(Dataflow Architecture)

傳統(tǒng)NPU像“工廠”從倉庫(DDR)來回搬運數(shù)據(jù),效率受限于搬運速度。而Hailo-8的數(shù)據(jù)流架構讓數(shù)據(jù)在芯片內部“流水線式”流動,大幅減少對外部內存的依賴。簡單說:算力不再是瓶頸,內存帶寬才是——而Hailo-8繞開了這個瓶頸。

2. 無外部 DRAM 依賴

Hailo-8不依賴外部大帶寬內存,推理過程中幾乎不與CPU/NPU爭搶DDR資源。在多路視頻并發(fā)場景下,這意味著系統(tǒng)不會因為“搶內存”而掉幀,整體穩(wěn)定性大幅提升。

三、實測數(shù)據(jù):讓性能說話

在相同模型條件下(YOLOv5s):

加速模塊/算力卡

單幀耗時

等效 FPS

RK3576 NPU

26ms

~38 FPS

Hailo-8

8.241ms

~121 FPS

在更復雜模型(YOLOv8s)測試中,Hailo-8算力卡benchmark測試如下:

root@rk3576:~# hailortcli benchmark ./yolov8s.hef

Starting Measurements...

=======

Summary

=======

FPS(hw_only)=208.543

(streaming) = 208.1

Latency (hw) = 7.03997

msDevice 0000:01:00.0:

Power in streaming mode (average) = 3.07729 W

(max) = 3.13305 W

7毫秒的推理延遲意味著:即使是120fps的高速攝像頭,系統(tǒng)也能輕松應對,做到逐幀實時處理。

我們還運行了Hailo-8自帶的攝像頭實時推理示例,效果如下:

image.png

四、應用場景:當實時性成為剛需

這套方案能解決哪些實際問題?我們來看幾個典型場景:

工業(yè)高速視覺檢測:120fps工業(yè)相機捕捉高速產線上的工件,Hailo-8的8ms推理延遲確保缺陷被實時發(fā)現(xiàn)并剔除,避免漏檢流入下一道工序。

智慧交通卡口:車輛高速通過時,系統(tǒng)需毫秒級完成檢測+識別+跟蹤。208 FPS的吞吐能力讓單節(jié)點可同時處理多模型,不丟車、不漏牌。

安防邊緣節(jié)點:4路以上4K視頻同時分析,Hailo-8的高吞吐讓單節(jié)點覆蓋范圍翻倍,大幅降低每路視頻的硬件成本。

五、總結:彈性算力,從容應對高幀率挑戰(zhàn)

通過以上測試,我們可以清晰地看到:

引入Hailo-8算力卡后,YOLOv5推理時間縮短至8ms,YOLOv8實測達到208 FPS的吞吐量,不僅輕松覆蓋120fps攝像頭的全幀率推理,更預留了充足的算力余量。

彈性算力,按需選擇:成本敏感項目可單獨使用RK3576;高幀率、低延遲場景只需增加Hailo-8模塊,無需更換主控。

突破架構局限,實現(xiàn)真正實時:Hailo-8的數(shù)據(jù)流架構將有效算力利用率提升至80%以上,配合RK3576的PCIe 2.1接口,讓推理延遲從毫秒級壓縮至微秒級。

為未來預留空間:算法快速迭代的今天,RK3576+Hailo-8的組合為未來兩年的算法升級提供了充足的算力冗余,保護客戶的硬件投資。

聲明: 本文系OFweek根據(jù)授權轉載自其它媒體或授權刊載,目的在于信息傳遞,并不代表本站贊同其觀點和對其真實性負責,如有新聞稿件和圖片作品的內容、版權以及其它問題的,請聯(lián)系我們。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號