基于宇航级FPGA的YOLOv5s网络模型硬件加速
由于遥感图像具有分辨率高和背景信息复杂的特点,其对目标检测的精确性和鲁棒性要求越来越高,因此遥感图像处理领域逐渐引入了卷积神经网络算法。然而此类算法通常模型复杂且计算量庞大,难以在空间与资源受限的星上平台高效运行。针对这一问题,提出一种基于宇航级现场可编程门阵列(Filed Programmable Gate Array, FPGA)的卷积神经网络硬件加速架构,并选用YOLOv5s作为目标网络,采用输入与输出通道并行展开以及数据流水线控制的策略进行架构设计。实验结果表明,在使用该处理架构加速YOLOv5s的推理阶段,卷积模块的工作频率可以达到200 MHz,其运算性能高达394.4GOPS(G...
Main Authors: | , , , |
---|---|
Format: | Article |
Language: | English |
Published: |
Science Press
2023-11-01
|
Series: | Kongjian kexue xuebao |
Subjects: | |
Online Access: | https://www.sciengine.com/doi/10.11728/cjss2023.05.2022-0044 |
_version_ | 1797629607453655040 |
---|---|
author | 蒋 康宁 周 海 卞 春江 汪 伶 |
author_facet | 蒋 康宁 周 海 卞 春江 汪 伶 |
author_sort | 蒋 康宁 |
collection | DOAJ |
description | 由于遥感图像具有分辨率高和背景信息复杂的特点,其对目标检测的精确性和鲁棒性要求越来越高,因此遥感图像处理领域逐渐引入了卷积神经网络算法。然而此类算法通常模型复杂且计算量庞大,难以在空间与资源受限的星上平台高效运行。针对这一问题,提出一种基于宇航级现场可编程门阵列(Filed Programmable Gate Array, FPGA)的卷积神经网络硬件加速架构,并选用YOLOv5s作为目标网络,采用输入与输出通道并行展开以及数据流水线控制的策略进行架构设计。实验结果表明,在使用该处理架构加速YOLOv5s的推理阶段,卷积模块的工作频率可以达到200 MHz,其运算性能高达394.4GOPS(Giga Operations Per Second),FPGA的功耗为14.662 W,数字信号处理(Digital Signal Processing, DSP)计算矩阵的平均计算效率高达96.29%。 |
first_indexed | 2024-03-11T10:56:38Z |
format | Article |
id | doaj.art-cf3f91d0fd754571986f3631942e6f4a |
institution | Directory Open Access Journal |
issn | 0254-6124 |
language | English |
last_indexed | 2024-03-11T10:56:38Z |
publishDate | 2023-11-01 |
publisher | Science Press |
record_format | Article |
series | Kongjian kexue xuebao |
spelling | doaj.art-cf3f91d0fd754571986f3631942e6f4a2023-11-13T08:58:36ZengScience PressKongjian kexue xuebao0254-61242023-11-014395096210.11728/cjss2023.05.2022-0044eb33e642基于宇航级FPGA的YOLOv5s网络模型硬件加速蒋 康宁0周 海1卞 春江2汪 伶3["中国科学院国家空间科学中心 北京 100190","中国科学院大学 北京 100049"]["中国科学院国家空间科学中心 北京 100190"]["中国科学院国家空间科学中心 北京 100190"]["中国科学院国家空间科学中心 北京 100190","中国科学院大学 北京 100049"]由于遥感图像具有分辨率高和背景信息复杂的特点,其对目标检测的精确性和鲁棒性要求越来越高,因此遥感图像处理领域逐渐引入了卷积神经网络算法。然而此类算法通常模型复杂且计算量庞大,难以在空间与资源受限的星上平台高效运行。针对这一问题,提出一种基于宇航级现场可编程门阵列(Filed Programmable Gate Array, FPGA)的卷积神经网络硬件加速架构,并选用YOLOv5s作为目标网络,采用输入与输出通道并行展开以及数据流水线控制的策略进行架构设计。实验结果表明,在使用该处理架构加速YOLOv5s的推理阶段,卷积模块的工作频率可以达到200 MHz,其运算性能高达394.4GOPS(Giga Operations Per Second),FPGA的功耗为14.662 W,数字信号处理(Digital Signal Processing, DSP)计算矩阵的平均计算效率高达96.29%。https://www.sciengine.com/doi/10.11728/cjss2023.05.2022-0044星上系统卷积神经网络硬件加速现场可编程门阵列 |
spellingShingle | 蒋 康宁 周 海 卞 春江 汪 伶 基于宇航级FPGA的YOLOv5s网络模型硬件加速 Kongjian kexue xuebao 星上系统 卷积神经网络 硬件加速 现场可编程门阵列 |
title | 基于宇航级FPGA的YOLOv5s网络模型硬件加速 |
title_full | 基于宇航级FPGA的YOLOv5s网络模型硬件加速 |
title_fullStr | 基于宇航级FPGA的YOLOv5s网络模型硬件加速 |
title_full_unstemmed | 基于宇航级FPGA的YOLOv5s网络模型硬件加速 |
title_short | 基于宇航级FPGA的YOLOv5s网络模型硬件加速 |
title_sort | 基于宇航级fpga的yolov5s网络模型硬件加速 |
topic | 星上系统 卷积神经网络 硬件加速 现场可编程门阵列 |
url | https://www.sciengine.com/doi/10.11728/cjss2023.05.2022-0044 |
work_keys_str_mv | AT jiǎngkāngníng jīyúyǔhángjífpgadeyolov5swǎngluòmóxíngyìngjiànjiāsù AT zhōuhǎi jīyúyǔhángjífpgadeyolov5swǎngluòmóxíngyìngjiànjiāsù AT biànchūnjiāng jīyúyǔhángjífpgadeyolov5swǎngluòmóxíngyìngjiànjiāsù AT wānglíng jīyúyǔhángjífpgadeyolov5swǎngluòmóxíngyìngjiànjiāsù |