遗世独立 - 憧憬是距离理解最遥远的感情

Created2026-02-06|paper

[TOC] 核心摘要核心范式: 首个以注意力机制为核心的实时目标检测模型，开创“注意力+实时检测”新范式。关键创新: 引入区域注意力(A²)机制和残差高效层聚合网络(R-ELAN)两大核心技术。性能突破: 在相似推理速度下，mAP提升约1.2%，小目标检测性能提升12%。 YOLOv12（You Only Look Once v12）是Ultralytics团队于2025年初推出的首个以注意力机制为核心的实时目标检测模型，它成功解决了注意力机制在实时检测任务中面临的计算复杂度高、内存访问效率低等核心挑战。YOLOv12通过引入区域注意力（A²）机制和残差高效层聚合网络（R-ELAN）两大核心技术，在保持与传统CNN架构相当推理速度的同时，实现了显著的精度提升。与前代YOLOv11相比，YOLOv12在相似推理速度下mAP提升约1.2%，同时小目标检测性能提升12%，为实时目标检测领域带来了革命性突破。关键结论 (Key Takeaway) YOLOv12是首个以注意力机制为核心的实时目标检测模型，它通过引入区域注意力（A²）机制和残差高效层聚合网络（R-...

YOLOv11技术文档

Created2026-02-05|paper

[TOC] 1.概述 YOLOv11 是 Ultralytics 公司于 2024年9月30日正式发布的新一代目标检测框架。作为 YOLO 系列的第11代迭代，YOLOv11 在保持与 YOLOv8/v9/v10 高度兼容的 API 设计基础上，通过三大核心技术创新实现了精度与效率的双重突破：在 COCO 数据集上 mAP 指标平均提升 2-3 个百分点，同时推理速度提升约 15%，参数量减少 22%。 YOLOv11 的核心定位是**“面向复杂场景的轻量化实时检测”**，特别针对小目标检测、遮挡目标识别和密集场景分析进行了深度优化。其创新设计包括： C3k2结构：替代 YOLOv8 的 C2f 模块，通过参数 c3k 控制浅层网络特性，优化计算效率。新增C2PSA模块：在传统 C2 结构中嵌入位置敏感注意力机制（PSA），增强全局上下文建模能力。深度可分离卷积应用：在分类分支中替换标准卷积为 DWConv，减少参数量 40%，降低显存占用 30%。模型结构调整：通过调整 depth、width、max_channels 的比例参数，实现不同规模模型的性能平衡。 YOL...

YOLOv10技术文档

Created2026-02-04|paper

[TOC] 核心摘要端到端革命: 通过无NMS训练策略，彻底消除后处理，实现真正的端到端实时检测，显著降低延迟。效率与精度: 通过轻量化模型设计，在保持高精度的同时，参数量和计算量显著降低，实现双赢。硬件适配: 提供从边缘设备到高性能GPU服务器的全系列预训练模型，满足不同硬件的部署需求。 1. 概述 YOLOv10（You Only Look Once v10）是清华大学THU-MIG团队与Ultralytics合作开发的新一代实时端到端目标检测框架，于2024年5月正式发布。作为YOLO系列的里程碑式迭代，YOLOv10通过创新性的无NMS（非极大值抑制）训练策略和效率-精度驱动的模型设计，在保持高精度的同时显著降低了计算复杂度，实现了真正的端到端实时检测。 YOLOv10的核心突破在于：完全消除NMS后处理：通过"一致双分配"策略，使模型在训练时利用多标签监督，推理时直接输出最终检测框，无需依赖后处理全面优化计算路径：通过轻量化分类头、空间-通道解耦下采样、基于秩的块设计等技术，实现参数与计算量的显著降低多硬件适配：从边缘设...

YOLO系列论文解读(v1-v9)

Created2026-02-03|paper

[TOC] YOLO 简史 YOLO（You Only Look Once）是一种流行的目标检测和图像分割模型，于 2015 年推出，因其高速和高精度而广受欢迎。 YOLOv2于2016年发布，通过引入批量归一化(batch normalization)、锚框(anchor boxes)和维度聚类(dimension clusters)，改进了原始模型。 YOLOv3于2018年推出，通过使用更高效的主干网络、多个锚点(multiple anchors)和空间金字塔池化(spatial pyramid pooling)，进一步提高了模型的性能。 YOLOv4于 2020 年发布，引入了诸如 Mosaic 数据增强、一种新的无锚框检测头(anchor-free detection head)以及一种新的损失函数等创新。 YOLOv5 进一步提高了模型的性能，并添加了新功能，例如超参数优化、集成实验跟踪和自动导出为流行的导出格式。 YOLOv6 由美团于 2022 年开源，并已应用于该公司的许多自动送货机器人中。 YOLOv7 添加了其他任务，例如在 ...

GRPO算法公式详解

Created2025-10-17|LLM

GRPO（Group Relative Policy Optimization）算法是在 PPO 基础上进行扩展，特别适用于多响应生成场景（如对话系统、多候选回复排序、A/B 测试等），其中模型需要为同一个 query 生成多个候选输出（称为“组”或“group”），并根据某种相对奖励机制进行优化。简单公式 LGRPO(θ)=Eq∼P(Q),{oi}i=1G∼πθold(⋅∣q)[1G∑i=1G(min⁡(πθ(oi∣q)πθold(oi∣q)A~i,clip(⋅)A~i)−βDKL(πθ∣∣πref))]\mathcal{L}_{GRPO}(\theta) = \mathbb{E}_{q \sim P(Q), \{o_i\}_{i=1}^G \sim \pi_{\theta_{old}}(\cdot|q)}\left[\frac{1}{G}\sum_{i=1}^G \left(\min\left(\frac{\pi_\theta(o_i|q)}{\pi_{\theta_{old}}(o_i|q)} \tilde{A}_i, \text{clip}(\cdot)\tild...

几何图形相似性判断

Created2025-08-29|work

1有两个CAD矢量图形，图形相似但是绘制存在旋转和缩放，怎么判断其相似性判断两个矢量图形的相似性是计算机图形学、CAD、BIM、图像识别等领域的重要问题。由于矢量图形由点、线、曲线、多边形等几何元素构成，不能像像素图像那样直接用像素差比较，需要从几何结构、拓扑关系、形状特征等多个维度综合判断。 ✅ 一、相似性的定义（根据场景不同）场景相似性含义几何匹配形状、尺寸、角度接近拓扑结构连接方式、邻接关系一致语义结构功能相同（如“门”、“墙”）变换不变性平移、旋转、缩放后仍视为相似 ✅ 二、判断矢量图形相似性的常用方法 1. 基于几何特征的比较 (1) Hausdorff 距离（推荐）衡量两个点集之间的最大最小距离，适合比较线段、多边形轮廓。 1234567from scipy.spatial.distance import directed_hausdorff# shape1, shape2 是两组点 [(x,y), ...]dist = max( directed_hausdorff(shape1, shape2)[...

Python编程规范

Created2025-08-28|Python

Python 作为一门强调“可读性”和“简洁性”的语言，拥有非常完善的代码规范与最佳实践体系。遵循主流规范不仅能提升代码质量，还能增强团队协作效率。以下是目前 Python 主流的编码规范、风格指南和工程实践，涵盖语法、命名、结构、文档、测试等多个方面。 ✅ 一、PEP 8：官方代码风格指南（最核心） 📚 官方文档：PEP 8 – Style Guide for Python Code 这是 Python 官方推荐的代码风格标准，几乎所有 Python 项目都以此为基础。 1. 缩进使用 4 个空格缩进（不要用 Tab）不要混用空格和 Tab 1234567# ✅ 正确if x > 0: print("positive")# ❌ 错误if x > 0: print("positive") # 使用了 Tab 2. 行宽每行不超过 79 个字符（代码），注释/文档字符串不超过 72 超长表达式可用括号隐式换行 12345# ✅long_list = [ "item1", ...

VS Code 常用快捷键

Created2025-08-27

Visual Studio Code（VS Code）是开发者广泛使用的轻量级但功能强大的代码编辑器。掌握其常用快捷键可以极大提升编码效率。以下整理了 Windows / Linux 和 macOS 两大平台的常用快捷键（括号内为 macOS 键位）： 🚀 一、通用导航与编辑功能 Windows/Linux macOS 说明保存文件 Ctrl + S Cmd + S 保存当前文件撤销 Ctrl + Z Cmd + Z 撤销上一步操作重做 Ctrl + Y 或 Ctrl + Shift + Z Cmd + Y 或 Cmd + Shift + Z 重做复制一行 Ctrl + C（无选中） Cmd + C（无选中）复制整行剪切一行 Ctrl + X（无选中） Cmd + X（无选中）剪切整行删除一行 Ctrl + Shift + K Cmd + Shift + K 删除当前行向上/下移动一行 Alt + ↑ / ↓ Option + ↑ / ↓ 移动当前行复制一行到上下 Alt + Shift + ↑ / ↓ Op...

Multi-Head Latent Attention (MLA)详解

Created2025-08-05|paper

Multi-Head Latent Attention (MLA)详解论文 DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model github: DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model 参考博客： https://www.bilibili.com/video/BV1wjQvY6Enm https://bruceyuan.com/post/hands-on-deepseek-mla-projection-absorption.html https://kexue.fm/archives/10091 https://github.com/madsys-dev/deepseekv2-profile/blob/main/workspace/blog/optimizing-mla.md 1234洞见：1.位置编码目前是添加...

pytorch-常用激活函数

Created2025-08-05|Python

激活函数的原则：单调函数（或有极小一部分不单调）非线性函数具有良好的梯度 1. Sigmoid 函数 Sigmoid 是早期神经网络中常用的激活函数，其数学表达式为： f(x)=11+e−xf(x) = \frac{1}{1 + e^{-x}} f(x)=1+e−x1 优点：输出值在 (0, 1) 区间内，适合用于二分类问题的概率预测。缺点：容易出现梯度消失问题，计算量相对较大。 2. Tanh（双曲正切）函数 Tanh 的数学表达式如下： f(x)=tanh⁡(x)=ex−e−xex+e−x f(x) = \tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}} f(x)=tanh(x)=ex+e−xex−e−x 优点：将输入值压缩到 (-1, 1)，对于后续的优化过程较为友好。缺点：与 Sigmoid 类似，两端的导数接近于零，可能导致梯度消失问题。 3. ReLU（修正线性单元） ReLU 是当前深度学习中最常用的激活函数之一，定义为： f(x)=max⁡(0,x) f(x) = \max(0, x) f(x...