【机情无限 精彩毕设】机械2026届毕业设计(论文)中期检查优秀案例分享第三十四期——基于深度学习的低空无人机目标探测技术研究

学生姓名:赵成鲁
班 级:测控2022-01班
指导教师:曾祥光
毕设题目:基于深度学习的低空无人机目标探测技术研究
一、概况
1.选题意义
随着低空经济与无人机技术的迅猛发展,无人机已经在民用、军用等多领域广泛应用。无人机有着体积小、灵活性高、价格低廉、便于操作等优点,在城市高层楼宇灭火、物流配送、农田农药喷洒、灾害地点救援等方面已广泛应用。2019年,我国无人机产业的产值为500亿元人民币。中国工程院院士刘大响在2022年的第四届世界无人机大会上发表的《无人机迎来历史性发展的新机遇》演讲指出中国无人机市场规模有望达到968亿元人民币。
小型无人机市场的持续发展与小型无人机数量的快速增长给生产生活带来了便利。但同时由于其具有高隐蔽性、携带便捷、动机性强等特点,且无人机培训市场不完善、具备专业的飞行技术的操作人员极少,再加上无人机系统存在技术漏洞,电子围栏以及限高等容易被破解。这些因素导致了未经报备、未经批准的无人机“黑飞”“滥飞”等事件频繁发生。例如,2025年8月,上海环球金融中心400米高空两架无人机对撞,砸坏楼顶防水层。自2016年起该中心已记录95起无人机坠落事故,超七成集中在近三年,更有甚者,杭州飞手违规升至500米闯入军事空域,被罚款没收设备。2020年6月,4名加拿大男子通过无人机向当地一所监狱运送武器、毒品等。无人机的小体积与放飞门槛低使其成为不法分子用于侵犯个人隐私、窃取国家机密、干扰航空秩序的违法犯罪工具。尤其是“低慢小”无人机目标,具有飞行高度低、移动速度慢、目标尺寸小等特点,传统探测手段(如雷达、红外)存在检测率低、误报率高、跟踪不稳定等问题。
近年来,在人工智能与多学科交叉融合的背景下,计算机视觉作为关键技术领域取得了显著进展。其中,目标检测与跟踪作为核心研究方向,旨在使机器能够自动识别图像或视频序列中的特定目标,并持续预测其位置与轨迹。得益于深度学习,尤其是卷积神经网络(CNN)与Transformer架构的突破,人工智能技术在无人驾驶、智能监控、目标检测等领域的应用已经成为主流。
在此背景下,基于计算机视觉的无人机目标检测与跟踪技术逐渐成为低空安全防控体系中的研究热点与关键支撑手段。相较于雷达、无线电频谱监测等传统手段,视觉传感器具有成本低、部署灵活、信息维度丰富等优势,尤其适用于城市复杂环境和近距离、低空场景的无人机监测任务。通过对可见光或红外图像序列进行分析,计算机视觉方法能够直接获取无人机的外观、运动状态及空间位置信息,为后续的识别、跟踪、行为分析与处置决策提供重要依据。
2.任务分解
毕业设计整体分为四个部分:无人机目标检测算法研究与实现、无人机目标跟踪算法研究与实现、检测追踪协同、前端交互界面设计。
二、已完成工作
1.无人机目标检测算法研究与实现
Grounding DINO是一种基于视觉-语言预训练的开放集目标检测方法,其核心思想是将Transformer编解码器结构与跨模态文本图像对比学习相结合。模型通过文本编码器将用户输入的文本提示(如“drone”,“UAV”)映射为语义嵌入,同时通过图像编码器提取多尺度视觉特征,在解码器中利用交叉注意力机制对文本与图像特征进行深度融合,输出与文本语义对应的目标边界框和类别分数。在低空场景中纹理特征不明显的小目标无人机,跨模态引导方式使得模型能够利用语义先验增强对弱显著性目标的感知能力。
根据无人机特点,构建了包括“drone”“quadcopter”“unmanned aerial vehicle”等多组文本提示,引导模型进行语义感知式目标检测。在 Anti-UAV 公开数据集上开展了系统实验。为探索注意力机制对无人机小目标检测性能的影响,在 Grounding DINO 框架中分别替换或引入了Deformable Attention与EMA Attention模块,并进行了全参微调对比。实验结果如表1所示。其中,Deformable Attention 经微调后性能最优,精确率达到 96.05%,召回率达到 96.44%,F1 值为 0.9624,显著优于未微调的预训练版本以及 EMA Attention模块。EMA Attention在轻量化方面具有优势,其精确率为 87.67%,召回率为 77.28%,F1 值为 0.8215,推理速度更快、显存占用更低,适合对实时性要求较高的边缘部署场景。
进一步将最优模型(Deformable Attention微调后)与传统单阶段检测模型 YOLOv11n 进行对比。YOLOv11n 作为 YOLO 系列的最新轻量化版本,具有结构简洁、实时性高的特点,但在小目标无人机检测任务中,由于缺乏语义引导和多模态信息,对复杂背景下的弱特征目标容易产生漏检。对比结果表明:本文改进的 Grounding DINO 模型在精确率(96.05% vs 86.18%)、召回率(96.44% vs 48.33%)和 F1 值(0.9624 vs 0.6193)上均大幅领先 YOLOv11n,尤其是在召回率方面提升了近一倍,说明模型对小目标无人机的漏检率显著降低。然而,Grounding DINO 的推理速度约为 YOLOv11n 的 1/5,甚至更低,显存占用更高,需根据实际应用场景权衡精度与效率。

表1 不同模型对比实验性能指标
图2 Grouding DINO模型
图3 无人机目标检测前端
2.无人机目标跟踪算法研究与实现
针对有遮挡、小目标的无人机跟踪任务,选用 MixFormer V2 作为目标跟踪模型,目前已完成了该算法的复现与工程实现。MixFormer V2 是一种基于 Transformer 架构的端到端跟踪方法,其核心设计包含混合注意力模块(Mixed Attention Module),能够同时对目标的外观特征与搜索区域的上下文信息进行联合建模。与传统 Siamese 网络或相关滤波方法相比,MixFormer V2 摒弃了复杂的模板更新策略,通过注意力机制自适应地融合模板帧与当前帧的特征,从而在目标发生尺度变化、局部遮挡或快速运动时保持较强的判别能力。针对无人机目标尺度小、易被背景干扰的特点,MixFormer V2的多层Transformer 编码器‑解码器结构能够捕获长距离依赖关系,提升对弱纹理目标的区分度。模型输入为视频序列以及由检测阶段(如Grounding DINO)提供的首帧目标边界框,输出为后续每一帧中预测的目标边界框位置与置信度。目前已完成模型的环境部署与单示例运行验证,下一步将在Anti-UAV公开数据集上系统评估其在可见光与红外视频下的跟踪精度(成功率、中心误差)以及对遮挡、快速运动等挑战场景的鲁棒性,并与SORT、DeepSORT等传统跟踪方法进行对比分析。
图4 Mixformer V2模型
图5 无人机目标跟踪前端
二、下一步工作计划
1.无人机目标检测+跟踪协同
完成Mixformer V2的训练以及本机部署并以Grounding DINO的检测结果作为跟踪器的初始目标框,设计“检测初始化→跟踪预测→检测重置”的协同机制,当跟踪置信度低于阈值或跟踪丢失时,自动调用 Grounding DINO 重新检测目标并更新跟踪器。并将MixFormer V2与现有跟踪模型(如SORT、DeepSORT)进行性能指标对比。评价指标包括精度(Precision)、跟踪丢失次数、实时帧率(FPS)等。
2.前后端开发
本系统采用前后端分离架构:后端基于 Flask 框架提供API 接口,集成 Grounding DINO 目标检测模型与 MixFormer V2 目标跟踪模型;前端使用原生 HTML/CSS/JavaScript 构建用户界面,支持图像与视频的上传及结果可视化,通过调用后端 API 获取检测框与轨迹数据,并在画布上实时绘制无人机目标的位置与运动轨迹,从而实现检测与跟踪效果的直观演示。目前已完成的界面还比较简陋,下一步需要根据用户习惯、美观程度做进一步调整。
问题一:目前你的数据集是有多少张图片,数量够不够?场景的丰富情况怎样?
回答:目前我的数据集是有50k图片用来检测模型的训练,视频序列是有636个,用来训练跟踪模型。场景很丰富,包含了城市低空、夜间光照、背景相似等复杂场景。
问题二:你的后续的工作检测跟踪协同是打算怎么设计?
回答:我是这么设计检测和跟踪协同工作的:先是检测模型持续检测画面用来将目前检测到的无人机输出供用户选择要跟踪哪一架无人机,选定后则使用跟踪模型持续地跟踪。一旦发现跟踪置信度连续好几帧(比如三帧)都低于 0.3,或者目标跑出画面了,就进入“丢失态”;这时候就会触发“重置”,重新调用 Grounding DINO 去检测无人机,计算出现的无人机与之前选定的无人机的相似度,如果原来的目标还存在,则拿到新的目标框之后重新初始化跟踪器。如果不存在,则进入检测状态持续检测,等待用户选择跟踪目标。
通过这次中期答辩的准备,我对自己毕业设计的整体思路和当前进展有了更清晰的认识。目前我已经完成了基于Grounding DINO的无人机目标检测模块,以及MixFormer V2跟踪模块的独立复现与验证,但在检测和跟踪的协同联动上还没有完全打通。在准备答辩和梳理报告的过程中,我意识到真正有挑战的不是单独跑通一个模型,而是如何设计一套合理的机制,让检测器和跟踪器在实际视频流中配合起来——什么时候靠跟踪,什么时候重新检测,这中间还有很多细节需要调试。目前我的协同模块还在开发中,计划在下一阶段完成状态机的设计与实现。通过这次中期,我也更清楚自己下一步的重点:先把检测-跟踪协同做通,再把前后端展示完善,最后把论文写完整。总的来说,这次中期让我对自己的不足和后续方向都有了更具体的认识,也更有动力把剩下的工作做扎实。