avatar
Articles
66
Tags
66
Categories
5
首页
入门实践
随笔
论文解读
计算机
  • 算法
  • 数据结构
  • 操作系统
  • 计算机组成原理
  • 计算机网络
页面
  • 归档
  • 标签
  • 分类
编程语言
  • Java
  • Python
遗世独立
首页
入门实践
随笔
论文解读
计算机
  • 算法
  • 数据结构
  • 操作系统
  • 计算机组成原理
  • 计算机网络
页面
  • 归档
  • 标签
  • 分类
编程语言
  • Java
  • Python

遗世独立

模型训练相关问题
Created2026-03-13|work
一、LoRA相关问题 Q: 介绍LoRA的原理,什么是低秩分解? 答案: LoRA(Low-Rank Adaptation) 是微软2021年提出的参数高效微调(PEFT)技术。 核心原理: h=W0x+ΔWx=W0x+αr(BA)xh = W_0x + ΔWx = W_0x + \frac{α}{r} (BA) x h=W0​x+ΔWx=W0​x+rα​(BA)x W₀:预训练模型的冻结权重矩阵(d×k) ΔW:权重更新量,分解为两个低秩矩阵 B(d×r) 和 A(r×k) r:秩,远小于d和k(通常r=8, 16, 32) 为什么"低秩"有效: 经验观察:大模型微调时的权重更新矩阵本质上是低秩的 参数效率:可训练参数减少100-1000倍 推理无开销:训练后可将BA合并回W₀,不增加推理延迟 初始化方法: 矩阵A:随机高斯分布初始化(均值0,标准差σ) 矩阵B:全零初始化 目的:训练开始时BA=0,模型行为与原始预训练模型完全一致 缩放因子: 使用 α/r 缩放(α通常为16或32),稳定训练 二、模型架构对比(Qwen vs LLaMA v...
Gated DeltaNet详解
Created2026-03-05|paper
作者博客:https://sustcsonglin.github.io/blog/ 官方仓库:https://github.com/NVlabs/GatedDeltaNet Flash Linear Attention (FLA) 库:https://github.com/fla-org/flash-linear-attention 参考pdf:https://sustcsonglin.github.io/assets/pdf/talk_linear_transformer.pdf 应用场景:Qwen3.5,Kimi Linear 核心思想 Gated DeltaNet 是 DeltaNet 的升级版,核心洞察是:门控机制(Gating) 与 Delta 规则(Delta Rule) 在记忆管理中是互补的: 门控机制:实现快速的全局记忆衰减(遗忘) Delta 规则:实现精确的局部记忆更新(纠错) 两者的结合解决了纯 DeltaNet “缺乏快速清除过时信息能力” 的问题。 数学原理 1. 基础:Linear Attention 的 RNN 形式 标准 Linear At...
Claude Code应用指南
Created2026-02-12|Python
参考视频:https://www.bilibili.com/video/BV1zqeMzfEiQ 参考文档:https://my.feishu.cn/wiki/BxLTwlkvkiQhJkkJ7vgc95aZnMe 环境配置 npm 安装(需要 Node.js 18+) 1npm install -g @anthropic-ai/claude-code 3. 验证安装 1claude --version 4. 配置 API Key Windows (CMD): 1set ANTHROPIC_API_KEY=sk-xxxx-xxxxxx macOS/Linux (Bash/Zsh): 12echo "export ANTHROPIC_API_KEY='sk-xxxx-xxxxxx'" >> ~/.bashrcsource ~/.bashrc 二、替换/切换模型 Claude Code 支持三种模型,你可以根据任务需求随时切换 : 模型 特点 适用场景 价格 Opus 4.6 最强推理能力,支持 1M 上下文 复...
MuSGD优化器
Created2026-02-12|Python
核心摘要 核心创新: 引入梯度范数自适应动量调节机制,动态平衡训练稳定与收敛速度,专为轻量化模型设计。 性能优势: 相比传统SGDM,收敛速度提升约30%,显存占用降低15-20%,训练效率显著提高。 应用价值: 优先选择MuSGD训练轻量化模型,尤其在边缘设备上,可获得更快的收敛速度和更高的稳定性。 MuSGD(动量自适应SGD)是YOLO26专为边缘设备和轻量化模型设计的优化器,在传统SGD基础上引入"梯度范数自适应动量调节"机制,通过动态调整动量系数平衡训练初期的稳定性与训练后期的收敛速度,为轻量化模型提供了高效的训练方案。 一、MuSGD优化器的核心公式 MuSGD(Matrix Update)优化器的核心公式包含三个关键部分:梯度范数自适应动量系数计算、动量累积和参数更新。其完整数学表达式为: βt=βmax1+adapt_factor⋅∥∇θJ∥2(动量系数动态调整)vt=βt⋅vt−1+η⋅∇θJ(θt−1)(动量累积)θt=θt−1−vt(参数更新)\begin{align*} \beta_t &= \frac{\bet...
深度学习常用损失函数
Created2026-02-11|Python
本文系统梳理深度学习各任务领域的核心损失函数,包含精确数学公式、符号定义、特性分析及实践指南,适用于研究参考与工程实现。 一、分类任务 1. 交叉熵损失(Cross-Entropy Loss) 多分类(单标签) L=−1N∑i=1N∑c=1Cyi,clog⁡(pi,c)\mathcal{L} = -\frac{1}{N}\sum_{i=1}^{N}\sum_{c=1}^{C} y_{i,c} \log(p_{i,c}) L=−N1​i=1∑N​c=1∑C​yi,c​log(pi,c​) 符号: NNN=样本数,CCC=类别数,yi,cy_{i,c}yi,c​=真实标签(one-hot),pi,cp_{i,c}pi,c​=Softmax输出概率 特性: 梯度 ∇L∝(pi,c−yi,c)\nabla \mathcal{L} \propto (p_{i,c} - y_{i,c})∇L∝(pi,c​−yi,c​),误差越大梯度越强 框架实现:PyTorch CrossEntropyLoss = LogSoftmax + NLLLoss(输入为logits,避免数值不稳定) ...
矩阵相关
Created2026-02-10|Python
低秩近似的方法: 伪逆矩阵:https://kexue.fm/archives/10366 SVD分解:https://kexue.fm/archives/10407 CR分解:https://kexue.fm/archives/10427 插值分解(ID):https://kexue.fm/archives/10501 CUR分解:https://kexue.fm/archives/10662 Monarch矩阵:https://kexue.fm/archives/10249 Lora: 梯度视角下的Lora:https://kexue.fm/archives/9590 学习率对Lora的影响:https://kexue.fm/archives/10001 核心结论:对于Lora AB,B的学习率 ηBη_BηB​ 要大于A的学习率 ηAη_AηA​ : ηB/ηA≈n/mn/rη_B/η_A ≈ n/m \sqrt{n/r}ηB​/ηA​≈n/mn/r​ Lora改进1:https://kexue.fm/archives/10226 ...
Muon优化器
Created2026-02-10|Python
参考: https://kexue.fm/archives/10592 https://kexue.fm/archives/10739 https://kexue.fm/archives/10922 https://kexue.fm/archives/10996 核心摘要 核心思想:将参数更新从逐元素提升到矩阵层面,通过正交化梯度矩阵实现更高效、更稳定的参数更新。 关键创新:使用Newton-Schulz迭代法近似求解梯度矩阵的正交化形式,在保持计算效率的同时提升收敛速度。 实际效益:训练效率提升约2倍,显著降低大模型研发成本,并可直接复用AdamW的超参数,降低工程成本。 Muon优化器:矩阵正交化与高效训练的数学革命 在深度学习优化算法领域,随着模型规模的指数级增长,传统优化器如AdamW在处理超大规模模型时逐渐显现出局限性。2024年,Keller Jordan提出了一种革命性的新优化器——Muon(Matrix Update with Orthogonalization),其核心思想是将参数更新从逐元素处理提升到矩阵层面,通过正交化...
YOLOv26技术文档
Created2026-02-08|paper
[TOC] 核心摘要 范式变革: YOLO26是全新一代实时目标检测模型,代表了目标检测技术的范式性变革。 核心创新: 首次实现"原生端到端无NMS"推理,移除了非极大值抑制后处理步骤,提升了速度与稳定性。 性能卓越: 通过HyperACE和FullPAD等创新架构,显著提升了模型对高阶语义关联的建模能力。 YOLO26是Ultralytics团队于2025年9月发布、2026年1月正式开源的全新一代实时目标检测模型,它代表了目标检测技术的范式性变革。与前代YOLO系列相比,YOLO26彻底移除了非极大值抑制(NMS)这一后处理步骤,首次实现了"原生端到端无NMS"的推理能力,同时保留了轻量级设计和高效训练策略。这一突破不仅解决了NMS带来的延迟不稳定性与超参敏感问题,还通过HyperACE(超图自适应相关性增强)和FullPAD(全流程聚合与分发)两大创新架构,显著提升了模型对高阶语义关联的建模能力,尤其在复杂场景下表现优异。此外,YOLO26还引入了STAL(空间-尺度自适应标签分配)和ProgLoss(渐进式损失平衡)...
YOLOv13技术文档
Created2026-02-07|paper
[TOC] 核心摘要 核心创新: 引入HyperACE超图机制与FullPAD范式,首次将超图计算应用于实时目标检测,实现全局高阶关联建模。 性能突破: 相比YOLOv12,参数量减少12%,COCO数据集mAP提升1.5%,边缘设备推理速度提升40%,实现精度与速度的平衡。 架构设计: 采用基于深度可分离卷积的轻量化设计,并发布Nano、Small、Large、X-Large四种变体,全面覆盖从边缘到云端的部署需求。 YOLOv13是Ultralytics团队于2025年推出的最新实时目标检测模型,它继承了YOLO系列"一步到位"的核心思想,同时在特征关联建模和网络架构设计上实现了革命性突破。YOLOv13引入了HyperACE(超图自适应相关性增强)机制和FullPAD(全流程聚合与分发)范式,首次将超图计算技术应用于实时目标检测领域,解决了传统YOLO系列模型在复杂场景下高阶语义关联建模能力不足的问题。此外,YOLOv13还采用了基于深度可分离卷积的轻量化设计,使模型在保持高精度的同时实现了更低的计算复杂度和更小的模型体积。 YOLOv1...
YOLOv12技术文档
Created2026-02-06|paper
[TOC] 核心摘要 核心范式: 首个以注意力机制为核心的实时目标检测模型,开创“注意力+实时检测”新范式。 关键创新: 引入区域注意力(A²)机制和残差高效层聚合网络(R-ELAN)两大核心技术。 性能突破: 在相似推理速度下,mAP提升约1.2%,小目标检测性能提升12%。 YOLOv12(You Only Look Once v12)是Ultralytics团队于2025年初推出的首个以注意力机制为核心的实时目标检测模型,它成功解决了注意力机制在实时检测任务中面临的计算复杂度高、内存访问效率低等核心挑战。YOLOv12通过引入区域注意力(A²)机制和残差高效层聚合网络(R-ELAN)两大核心技术,在保持与传统CNN架构相当推理速度的同时,实现了显著的精度提升。与前代YOLOv11相比,YOLOv12在相似推理速度下mAP提升约1.2%,同时小目标检测性能提升12%,为实时目标检测领域带来了革命性突破。 关键结论 (Key Takeaway) YOLOv12是首个以注意力机制为核心的实时目标检测模型,它通过引入区域注意力(A²)机制和残差高效层聚合网络(R-...
12…7
avatar
神火不知灭
日常记录学习用博客,仅用来练习使用
Articles
66
Tags
66
Categories
5
Follow Me
Announcement
技术笔记,日常记录
Recent Posts
模型训练相关问题2026-03-13
Gated DeltaNet详解2026-03-05
Claude Code应用指南2026-02-12
MuSGD优化器2026-02-12
深度学习常用损失函数2026-02-11
Categories
  • Java5
  • Python15
  • paper23
  • work4
  • 考研1
Tags
Detection Muon CVPR2020 AI GCN ICDAR 2019 Mybatis 建筑 深度学习 CAD LLM ICLR 2017 Java transformer 面经 论文翻译 考研 AdamW CVPR 2021 计网 入门实践 python YOLO Spring 踩坑记录 GNN GAN NeurIPS 2017 OCR SGD CVPR 2018 SpringBoot Adam CRNN CTPN work 学习笔记 NLP Loss CV
Archives
  • March 2026 2
  • February 2026 11
  • August 2025 5
  • July 2025 1
  • April 2025 9
  • December 2024 1
  • November 2024 1
  • August 2024 4
Website Info
Article Count :
66
Unique Visitors :
Page Views :
Last Update :
© 2025 - 2026 By 神火不知灭Framework Hexo 8.1.1|Theme Butterfly 5.5.4