YOLOv26技术文档
[TOC] 核心摘要 范式变革: YOLO26是全新一代实时目标检测模型,代表了目标检测技术的范式性变革。 核心创新: 首次实现"原生端到端无NMS"推理,移除了非极大值抑制后处理步骤,提升了速度与稳定性。 性能卓越: 通过HyperACE和FullPAD等创新架构,显著提升了模型对高阶语义关联的建模能力。 YOLO26是Ultralytics团队于2025年9月发布、2026年1月正式开源的全新一代实时目标检测模型,它代表了目标检测技术的范式性变革。与前代YOLO系列相比,YOLO26彻底移除了非极大值抑制(NMS)这一后处理步骤,首次实现了"原生端到端无NMS"的推理能力,同时保留了轻量级设计和高效训练策略。这一突破不仅解决了NMS带来的延迟不稳定性与超参敏感问题,还通过HyperACE(超图自适应相关性增强)和FullPAD(全流程聚合与分发)两大创新架构,显著提升了模型对高阶语义关联的建模能力,尤其在复杂场景下表现优异。此外,YOLO26还引入了STAL(空间-尺度自适应标签分配)和ProgLoss(渐进式损失平衡)...
YOLOv13技术文档
[TOC] 核心摘要 核心创新: 引入HyperACE超图机制与FullPAD范式,首次将超图计算应用于实时目标检测,实现全局高阶关联建模。 性能突破: 相比YOLOv12,参数量减少12%,COCO数据集mAP提升1.5%,边缘设备推理速度提升40%,实现精度与速度的平衡。 架构设计: 采用基于深度可分离卷积的轻量化设计,并发布Nano、Small、Large、X-Large四种变体,全面覆盖从边缘到云端的部署需求。 YOLOv13是Ultralytics团队于2025年推出的最新实时目标检测模型,它继承了YOLO系列"一步到位"的核心思想,同时在特征关联建模和网络架构设计上实现了革命性突破。YOLOv13引入了HyperACE(超图自适应相关性增强)机制和FullPAD(全流程聚合与分发)范式,首次将超图计算技术应用于实时目标检测领域,解决了传统YOLO系列模型在复杂场景下高阶语义关联建模能力不足的问题。此外,YOLOv13还采用了基于深度可分离卷积的轻量化设计,使模型在保持高精度的同时实现了更低的计算复杂度和更小的模型体积。 YOLOv1...
YOLOv12技术文档
[TOC] 核心摘要 核心范式: 首个以注意力机制为核心的实时目标检测模型,开创“注意力+实时检测”新范式。 关键创新: 引入区域注意力(A²)机制和残差高效层聚合网络(R-ELAN)两大核心技术。 性能突破: 在相似推理速度下,mAP提升约1.2%,小目标检测性能提升12%。 YOLOv12(You Only Look Once v12)是Ultralytics团队于2025年初推出的首个以注意力机制为核心的实时目标检测模型,它成功解决了注意力机制在实时检测任务中面临的计算复杂度高、内存访问效率低等核心挑战。YOLOv12通过引入区域注意力(A²)机制和残差高效层聚合网络(R-ELAN)两大核心技术,在保持与传统CNN架构相当推理速度的同时,实现了显著的精度提升。与前代YOLOv11相比,YOLOv12在相似推理速度下mAP提升约1.2%,同时小目标检测性能提升12%,为实时目标检测领域带来了革命性突破。 关键结论 (Key Takeaway) YOLOv12是首个以注意力机制为核心的实时目标检测模型,它通过引入区域注意力(A²)机制和残差高效层聚合网络(R-...
YOLOv11技术文档
[TOC] 1.概述 YOLOv11 是 Ultralytics 公司于 2024年9月30日正式发布的新一代目标检测框架。作为 YOLO 系列的第11代迭代,YOLOv11 在保持与 YOLOv8/v9/v10 高度兼容的 API 设计基础上,通过三大核心技术创新实现了精度与效率的双重突破:在 COCO 数据集上 mAP 指标平均提升 2-3 个百分点,同时推理速度提升约 15%,参数量减少 22%。 YOLOv11 的核心定位是**“面向复杂场景的轻量化实时检测”**,特别针对小目标检测、遮挡目标识别和密集场景分析进行了深度优化。其创新设计包括: C3k2结构:替代 YOLOv8 的 C2f 模块,通过参数 c3k 控制浅层网络特性,优化计算效率。 新增C2PSA模块:在传统 C2 结构中嵌入位置敏感注意力机制(PSA),增强全局上下文建模能力。 深度可分离卷积应用:在分类分支中替换标准卷积为 DWConv,减少参数量 40%,降低显存占用 30%。 模型结构调整:通过调整 depth、width、max_channels 的比例参数,实现不同规模模型的性能平衡。 YOL...
YOLOv10技术文档
[TOC] 核心摘要 端到端革命: 通过无NMS训练策略,彻底消除后处理,实现真正的端到端实时检测,显著降低延迟。 效率与精度: 通过轻量化模型设计,在保持高精度的同时,参数量和计算量显著降低,实现双赢。 硬件适配: 提供从边缘设备到高性能GPU服务器的全系列预训练模型,满足不同硬件的部署需求。 1. 概述 YOLOv10(You Only Look Once v10)是清华大学THU-MIG团队与Ultralytics合作开发的新一代实时端到端目标检测框架,于2024年5月正式发布。作为YOLO系列的里程碑式迭代,YOLOv10通过创新性的无NMS(非极大值抑制)训练策略和效率-精度驱动的模型设计,在保持高精度的同时显著降低了计算复杂度,实现了真正的端到端实时检测。 YOLOv10的核心突破在于: 完全消除NMS后处理:通过"一致双分配"策略,使模型在训练时利用多标签监督,推理时直接输出最终检测框,无需依赖后处理 全面优化计算路径:通过轻量化分类头、空间-通道解耦下采样、基于秩的块设计等技术,实现参数与计算量的显著降低 多硬件适配:从边缘设...
YOLO系列论文解读(v1-v9)
[TOC] YOLO 简史 YOLO(You Only Look Once)是一种流行的目标检测和图像分割模型,于 2015 年推出,因其高速和高精度而广受欢迎。 YOLOv2于2016年发布,通过引入批量归一化(batch normalization)、锚框(anchor boxes)和维度聚类(dimension clusters),改进了原始模型。 YOLOv3于2018年推出,通过使用更高效的主干网络、多个锚点(multiple anchors)和空间金字塔池化(spatial pyramid pooling),进一步提高了模型的性能。 YOLOv4于 2020 年发布,引入了诸如 Mosaic 数据增强、一种新的无锚框检测头(anchor-free detection head)以及一种新的 损失函数等创新。 YOLOv5 进一步提高了模型的性能,并添加了新功能,例如超参数优化、集成实验跟踪和自动导出为流行的导出格式。 YOLOv6 由美团于 2022 年开源,并已应用于该公司的许多自动送货机器人中。 YOLOv7 添加了其他任务,例如在 ...
几何图形相似性判断
1有两个CAD矢量图形,图形相似但是绘制存在旋转和缩放,怎么判断其相似性 判断两个矢量图形的相似性是计算机图形学、CAD、BIM、图像识别等领域的重要问题。由于矢量图形由点、线、曲线、多边形等几何元素构成,不能像像素图像那样直接用像素差比较,需要从几何结构、拓扑关系、形状特征等多个维度综合判断。 ✅ 一、相似性的定义(根据场景不同) 场景 相似性含义 几何匹配 形状、尺寸、角度接近 拓扑结构 连接方式、邻接关系一致 语义结构 功能相同(如“门”、“墙”) 变换不变性 平移、旋转、缩放后仍视为相似 ✅ 二、判断矢量图形相似性的常用方法 1. 基于几何特征的比较 (1) Hausdorff 距离(推荐) 衡量两个点集之间的最大最小距离,适合比较线段、多边形轮廓。 1234567from scipy.spatial.distance import directed_hausdorff# shape1, shape2 是两组点 [(x,y), ...]dist = max( directed_hausdorff(shape1, shape2)[...
python编程规范
Python 作为一门强调“可读性”和“简洁性”的语言,拥有非常完善的代码规范与最佳实践体系。遵循主流规范不仅能提升代码质量,还能增强团队协作效率。 以下是目前 Python 主流的编码规范、风格指南和工程实践,涵盖语法、命名、结构、文档、测试等多个方面。 ✅ 一、PEP 8:官方代码风格指南(最核心) 📚 官方文档:PEP 8 – Style Guide for Python Code 这是 Python 官方推荐的代码风格标准,几乎所有 Python 项目都以此为基础。 1. 缩进 使用 4 个空格缩进(不要用 Tab) 不要混用空格和 Tab 1234567# ✅ 正确if x > 0: print("positive")# ❌ 错误if x > 0: print("positive") # 使用了 Tab 2. 行宽 每行不超过 79 个字符(代码),注释/文档字符串不超过 72 超长表达式可用括号隐式换行 12345# ✅long_list = [ "item1", ...
VS Code 常用快捷键
Visual Studio Code(VS Code)是开发者广泛使用的轻量级但功能强大的代码编辑器。掌握其常用快捷键可以极大提升编码效率。 以下整理了 Windows / Linux 和 macOS 两大平台的常用快捷键(括号内为 macOS 键位): 🚀 一、通用导航与编辑 功能 Windows/Linux macOS 说明 保存文件 Ctrl + S Cmd + S 保存当前文件 撤销 Ctrl + Z Cmd + Z 撤销上一步操作 重做 Ctrl + Y 或 Ctrl + Shift + Z Cmd + Y 或 Cmd + Shift + Z 重做 复制一行 Ctrl + C(无选中) Cmd + C(无选中) 复制整行 剪切一行 Ctrl + X(无选中) Cmd + X(无选中) 剪切整行 删除一行 Ctrl + Shift + K Cmd + Shift + K 删除当前行 向上/下移动一行 Alt + ↑ / ↓ Option + ↑ / ↓ 移动当前行 复制一行到上下 Alt + Shift + ↑ / ↓ Op...
Multi-Head Latent Attention (MLA)详解
Multi-Head Latent Attention (MLA)详解 论文 DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model github: DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model 参考博客: https://www.bilibili.com/video/BV1wjQvY6Enm https://bruceyuan.com/post/hands-on-deepseek-mla-projection-absorption.html https://kexue.fm/archives/10091 https://github.com/madsys-dev/deepseekv2-profile/blob/main/workspace/blog/optimizing-mla.md 1234洞见:1.位置编码目前是添加...
