MuSGD优化器
核心摘要 核心创新: 引入梯度范数自适应动量调节机制,动态平衡训练稳定与收敛速度,专为轻量化模型设计。 性能优势: 相比传统SGDM,收敛速度提升约30%,显存占用降低15-20%,训练效率显著提高。 应用价值: 优先选择MuSGD训练轻量化模型,尤其在边缘设备上,可获得更快的收敛速度和更高的稳定性。 MuSGD(动量自适应SGD)是YOLO26专为边缘设备和轻量化模型设计的优化器,在传统SGD基础上引入"梯度范数自适应动量调节"机制,通过动态调整动量系数平衡训练初期的稳定性与训练后期的收敛速度,为轻量化模型提供了高效的训练方案。 一、MuSGD优化器的核心公式 MuSGD优化器的核心公式包含三个关键部分:梯度范数自适应动量系数计算、动量累积和参数更新。其完整数学表达式为: βt=βmax1+adapt_factor⋅∥∇θJ∥2(动量系数动态调整)vt=βt⋅vt−1+η⋅∇θJ(θt−1)(动量累积)θt=θt−1−vt(参数更新)\begin{align*} \beta_t &= \frac{\beta_{\text{max}}}...
深度学习常用损失函数
本文系统梳理深度学习各任务领域的核心损失函数,包含精确数学公式、符号定义、特性分析及实践指南,适用于研究参考与工程实现。 一、分类任务 1. 交叉熵损失(Cross-Entropy Loss) 多分类(单标签) L=−1N∑i=1N∑c=1Cyi,clog(pi,c)\mathcal{L} = -\frac{1}{N}\sum_{i=1}^{N}\sum_{c=1}^{C} y_{i,c} \log(p_{i,c}) L=−N1i=1∑Nc=1∑Cyi,clog(pi,c) 符号: NNN=样本数,CCC=类别数,yi,cy_{i,c}yi,c=真实标签(one-hot),pi,cp_{i,c}pi,c=Softmax输出概率 特性: 梯度 ∇L∝(pi,c−yi,c)\nabla \mathcal{L} \propto (p_{i,c} - y_{i,c})∇L∝(pi,c−yi,c),误差越大梯度越强 框架实现:PyTorch CrossEntropyLoss = LogSoftmax + NLLLoss(输入为logits,避免数值不稳定) ...
矩阵相关
低秩近似的方法: 伪逆矩阵:https://kexue.fm/archives/10366 SVD分解:https://kexue.fm/archives/10407 CR分解:https://kexue.fm/archives/10427 插值分解(ID):https://kexue.fm/archives/10501 CUR分解:https://kexue.fm/archives/10662 Monarch矩阵:https://kexue.fm/archives/10249 Lora: 梯度视角下的Lora:https://kexue.fm/archives/9590 学习率对Lora的影响:https://kexue.fm/archives/10001 核心结论:对于Lora AB,B的学习率 ηBη_BηB 要大于A的学习率 ηAη_AηA : ηB/ηA≈n/mn/rη_B/η_A ≈ n/m \sqrt{n/r}ηB/ηA≈n/mn/r Lora改进1:https://kexue.fm/archives/10226 ...
Muon优化器
参考: https://kexue.fm/archives/10592 https://kexue.fm/archives/10739 https://kexue.fm/archives/10922 https://kexue.fm/archives/10996 核心摘要 核心思想:将参数更新从逐元素提升到矩阵层面,通过正交化梯度矩阵实现更高效、更稳定的参数更新。 关键创新:使用Newton-Schulz迭代法近似求解梯度矩阵的正交化形式,在保持计算效率的同时提升收敛速度。 实际效益:训练效率提升约2倍,显著降低大模型研发成本,并可直接复用AdamW的超参数,降低工程成本。 MUON优化器:矩阵正交化与高效训练的数学革命 在深度学习优化算法领域,随着模型规模的指数级增长,传统优化器如AdamW在处理超大规模模型时逐渐显现出局限性。2024年,Keller Jordan提出了一种革命性的新优化器——MUON(Matrix Update with Orthogonalization),其核心思想是将参数更新从逐元素处理提升到矩阵层面,通过正交化...
YOLOv26技术文档
[TOC] 核心摘要 范式变革: YOLO26是全新一代实时目标检测模型,代表了目标检测技术的范式性变革。 核心创新: 首次实现"原生端到端无NMS"推理,移除了非极大值抑制后处理步骤,提升了速度与稳定性。 性能卓越: 通过HyperACE和FullPAD等创新架构,显著提升了模型对高阶语义关联的建模能力。 YOLO26是Ultralytics团队于2025年9月发布、2026年1月正式开源的全新一代实时目标检测模型,它代表了目标检测技术的范式性变革。与前代YOLO系列相比,YOLO26彻底移除了非极大值抑制(NMS)这一后处理步骤,首次实现了"原生端到端无NMS"的推理能力,同时保留了轻量级设计和高效训练策略。这一突破不仅解决了NMS带来的延迟不稳定性与超参敏感问题,还通过HyperACE(超图自适应相关性增强)和FullPAD(全流程聚合与分发)两大创新架构,显著提升了模型对高阶语义关联的建模能力,尤其在复杂场景下表现优异。此外,YOLO26还引入了STAL(空间-尺度自适应标签分配)和ProgLoss(渐进式损失平衡)...
YOLOv13技术文档
[TOC] 核心摘要 核心创新: 引入HyperACE超图机制与FullPAD范式,首次将超图计算应用于实时目标检测,实现全局高阶关联建模。 性能突破: 相比YOLOv12,参数量减少12%,COCO数据集mAP提升1.5%,边缘设备推理速度提升40%,实现精度与速度的平衡。 架构设计: 采用基于深度可分离卷积的轻量化设计,并发布Nano、Small、Large、X-Large四种变体,全面覆盖从边缘到云端的部署需求。 YOLOv13是Ultralytics团队于2025年推出的最新实时目标检测模型,它继承了YOLO系列"一步到位"的核心思想,同时在特征关联建模和网络架构设计上实现了革命性突破。YOLOv13引入了HyperACE(超图自适应相关性增强)机制和FullPAD(全流程聚合与分发)范式,首次将超图计算技术应用于实时目标检测领域,解决了传统YOLO系列模型在复杂场景下高阶语义关联建模能力不足的问题。此外,YOLOv13还采用了基于深度可分离卷积的轻量化设计,使模型在保持高精度的同时实现了更低的计算复杂度和更小的模型体积。 YOLOv1...
YOLOv12技术文档
[TOC] 核心摘要 核心范式: 首个以注意力机制为核心的实时目标检测模型,开创“注意力+实时检测”新范式。 关键创新: 引入区域注意力(A²)机制和残差高效层聚合网络(R-ELAN)两大核心技术。 性能突破: 在相似推理速度下,mAP提升约1.2%,小目标检测性能提升12%。 YOLOv12(You Only Look Once v12)是Ultralytics团队于2025年初推出的首个以注意力机制为核心的实时目标检测模型,它成功解决了注意力机制在实时检测任务中面临的计算复杂度高、内存访问效率低等核心挑战。YOLOv12通过引入区域注意力(A²)机制和残差高效层聚合网络(R-ELAN)两大核心技术,在保持与传统CNN架构相当推理速度的同时,实现了显著的精度提升。与前代YOLOv11相比,YOLOv12在相似推理速度下mAP提升约1.2%,同时小目标检测性能提升12%,为实时目标检测领域带来了革命性突破。 关键结论 (Key Takeaway) YOLOv12是首个以注意力机制为核心的实时目标检测模型,它通过引入区域注意力(A²)机制和残差高效层聚合网络(R-...
YOLOv11技术文档
[TOC] 1.概述 YOLOv11 是 Ultralytics 公司于 2024年9月30日正式发布的新一代目标检测框架。作为 YOLO 系列的第11代迭代,YOLOv11 在保持与 YOLOv8/v9/v10 高度兼容的 API 设计基础上,通过三大核心技术创新实现了精度与效率的双重突破:在 COCO 数据集上 mAP 指标平均提升 2-3 个百分点,同时推理速度提升约 15%,参数量减少 22%。 YOLOv11 的核心定位是**“面向复杂场景的轻量化实时检测”**,特别针对小目标检测、遮挡目标识别和密集场景分析进行了深度优化。其创新设计包括: C3k2结构:替代 YOLOv8 的 C2f 模块,通过参数 c3k 控制浅层网络特性,优化计算效率。 新增C2PSA模块:在传统 C2 结构中嵌入位置敏感注意力机制(PSA),增强全局上下文建模能力。 深度可分离卷积应用:在分类分支中替换标准卷积为 DWConv,减少参数量 40%,降低显存占用 30%。 模型结构调整:通过调整 depth、width、max_channels 的比例参数,实现不同规模模型的性能平衡。 YOL...
YOLOv10技术文档
[TOC] 核心摘要 端到端革命: 通过无NMS训练策略,彻底消除后处理,实现真正的端到端实时检测,显著降低延迟。 效率与精度: 通过轻量化模型设计,在保持高精度的同时,参数量和计算量显著降低,实现双赢。 硬件适配: 提供从边缘设备到高性能GPU服务器的全系列预训练模型,满足不同硬件的部署需求。 1. 概述 YOLOv10(You Only Look Once v10)是清华大学THU-MIG团队与Ultralytics合作开发的新一代实时端到端目标检测框架,于2024年5月正式发布。作为YOLO系列的里程碑式迭代,YOLOv10通过创新性的无NMS(非极大值抑制)训练策略和效率-精度驱动的模型设计,在保持高精度的同时显著降低了计算复杂度,实现了真正的端到端实时检测。 YOLOv10的核心突破在于: 完全消除NMS后处理:通过"一致双分配"策略,使模型在训练时利用多标签监督,推理时直接输出最终检测框,无需依赖后处理 全面优化计算路径:通过轻量化分类头、空间-通道解耦下采样、基于秩的块设计等技术,实现参数与计算量的显著降低 多硬件适配:从边缘设...
YOLO系列论文解读(v1-v9)
[TOC] YOLO 简史 YOLO(You Only Look Once)是一种流行的目标检测和图像分割模型,于 2015 年推出,因其高速和高精度而广受欢迎。 YOLOv2于2016年发布,通过引入批量归一化(batch normalization)、锚框(anchor boxes)和维度聚类(dimension clusters),改进了原始模型。 YOLOv3于2018年推出,通过使用更高效的主干网络、多个锚点(multiple anchors)和空间金字塔池化(spatial pyramid pooling),进一步提高了模型的性能。 YOLOv4于 2020 年发布,引入了诸如 Mosaic 数据增强、一种新的无锚框检测头(anchor-free detection head)以及一种新的 损失函数等创新。 YOLOv5 进一步提高了模型的性能,并添加了新功能,例如超参数优化、集成实验跟踪和自动导出为流行的导出格式。 YOLOv6 由美团于 2022 年开源,并已应用于该公司的许多自动送货机器人中。 YOLOv7 添加了其他任务,例如在 ...
