遗世独立 - 憧憬是距离理解最遥远的感情

Created2026-03-16|LLM

一、DPO的核心动机 DPO由Rafailov等人于2023年5月提出，旨在解决传统RLHF（基于PPO）的复杂性问题： RLHF-PPO的痛点 DPO的解决方案需要训练独立的奖励模型无需奖励模型，直接从偏好数据学习 PPO训练不稳定（梯度爆炸、策略崩溃）稳定的分类损失，类似SFT 需要在线采样（on-policy）离线学习，直接使用偏好对超参数敏感（学习率、KL系数等）超参数少，主要调节β\betaβ 需加载4个模型（policy、ref、reward、critic）只需2个模型（policy、ref）核心洞察：语言模型本身可以隐式地作为奖励模型。二、DPO的数学推导步骤1：RLHF的标准目标 RLHF的目标是找到最优策略π∗\pi^*π∗，最大化期望奖励同时约束与参考策略πref\pi_{ref}πref的KL散度： π∗=arg⁡max⁡πEx∼D,y∼π(y∣x)[r(x,y)]−βDKL[π(y∣x)∥πref(y∣x)]\pi^* = \arg\max_\pi \mathbb{E}_{x\sim D, y\s...

模型训练相关问题

Created2026-03-13|LLM

一、LoRA相关问题 Q: 介绍LoRA的原理，什么是低秩分解？答案： LoRA（Low-Rank Adaptation）是微软2021年提出的参数高效微调（PEFT）技术。核心原理： h=W0x+ΔWx=W0x+αr(BA)xh = W_0x + ΔWx = W_0x + \frac{α}{r} (BA) x h=W0x+ΔWx=W0x+rα(BA)x W₀：预训练模型的冻结权重矩阵（d×k） ΔW：权重更新量，分解为两个低秩矩阵 B(d×r) 和 A(r×k), 第一步不能为0，所有A不为0 r：秩，远小于d和k（通常r=8, 16, 32）为什么"低秩"有效：经验观察：大模型微调时的权重更新矩阵本质上是低秩的参数效率：可训练参数减少100-1000倍推理无开销：训练后可将BA合并回W₀，不增加推理延迟初始化方法：矩阵A：随机高斯分布初始化（均值0，标准差σ）矩阵B：全零初始化目的：训练开始时BA=0，模型行为与原始预训练模型完全一致缩放因子：使用 α/r 缩放（α通常为16或32），稳定训练二、模型架构对比...

Gated DeltaNet详解

Created2026-03-05|paper

作者博客：https://sustcsonglin.github.io/blog/ 官方仓库：https://github.com/NVlabs/GatedDeltaNet Flash Linear Attention (FLA) 库：https://github.com/fla-org/flash-linear-attention 参考pdf：https://sustcsonglin.github.io/assets/pdf/talk_linear_transformer.pdf 应用场景：Qwen3.5，Kimi Linear 核心思想 Gated DeltaNet 是 DeltaNet 的升级版，核心洞察是：门控机制（Gating）与 Delta 规则（Delta Rule）在记忆管理中是互补的：门控机制：实现快速的全局记忆衰减（遗忘） Delta 规则：实现精确的局部记忆更新（纠错）两者的结合解决了纯 DeltaNet “缺乏快速清除过时信息能力” 的问题。数学原理 1. 基础：Linear Attention 的 RNN 形式标准 Linear At...

Claude Code应用指南

Created2026-02-12|Python

参考视频：https://www.bilibili.com/video/BV1zqeMzfEiQ 参考文档：https://my.feishu.cn/wiki/BxLTwlkvkiQhJkkJ7vgc95aZnMe 环境配置 npm 安装（需要 Node.js 18+） 1npm install -g @anthropic-ai/claude-code 3. 验证安装 1claude --version 4. 配置 API Key Windows (CMD)： 1set ANTHROPIC_API_KEY=sk-xxxx-xxxxxx macOS/Linux (Bash/Zsh)： 12echo "export ANTHROPIC_API_KEY='sk-xxxx-xxxxxx'" >> ~/.bashrcsource ~/.bashrc 二、替换/切换模型 Claude Code 支持三种模型，你可以根据任务需求随时切换：模型特点适用场景价格 Opus 4.6 最强推理能力，支持 1M 上下文复...

MuSGD优化器

Created2026-02-12|Python

核心摘要核心创新: 引入梯度范数自适应动量调节机制，动态平衡训练稳定与收敛速度，专为轻量化模型设计。性能优势: 相比传统SGDM，收敛速度提升约30%，显存占用降低15-20%，训练效率显著提高。应用价值: 优先选择MuSGD训练轻量化模型，尤其在边缘设备上，可获得更快的收敛速度和更高的稳定性。 MuSGD（动量自适应SGD）是YOLO26专为边缘设备和轻量化模型设计的优化器，在传统SGD基础上引入"梯度范数自适应动量调节"机制，通过动态调整动量系数平衡训练初期的稳定性与训练后期的收敛速度，为轻量化模型提供了高效的训练方案。一、MuSGD优化器的核心公式 MuSGD(Matrix Update)优化器的核心公式包含三个关键部分：梯度范数自适应动量系数计算、动量累积和参数更新。其完整数学表达式为： βt=βmax1+adapt_factor⋅∥∇θJ∥2（动量系数动态调整）vt=βt⋅vt−1+η⋅∇θJ(θt−1)（动量累积）θt=θt−1−vt（参数更新）\begin{align*} \beta_t &= \frac{\bet...

深度学习常用损失函数

Created2026-02-11|Python

本文系统梳理深度学习各任务领域的核心损失函数，包含精确数学公式、符号定义、特性分析及实践指南，适用于研究参考与工程实现。一、分类任务 1. 交叉熵损失（Cross-Entropy Loss）多分类（单标签） L=−1N∑i=1N∑c=1Cyi,clog⁡(pi,c)\mathcal{L} = -\frac{1}{N}\sum_{i=1}^{N}\sum_{c=1}^{C} y_{i,c} \log(p_{i,c}) L=−N1i=1∑Nc=1∑Cyi,clog(pi,c) 符号： NNN=样本数，CCC=类别数，yi,cy_{i,c}yi,c=真实标签（one-hot），pi,cp_{i,c}pi,c=Softmax输出概率特性：梯度 ∇L∝(pi,c−yi,c)\nabla \mathcal{L} \propto (p_{i,c} - y_{i,c})∇L∝(pi,c−yi,c)，误差越大梯度越强框架实现：PyTorch CrossEntropyLoss = LogSoftmax + NLLLoss（输入为logits，避免数值不稳定） ...

矩阵相关

Created2026-02-10|Python

低秩近似的方法：伪逆矩阵：https://kexue.fm/archives/10366 SVD分解：https://kexue.fm/archives/10407 CR分解：https://kexue.fm/archives/10427 插值分解（ID）：https://kexue.fm/archives/10501 CUR分解：https://kexue.fm/archives/10662 Monarch矩阵：https://kexue.fm/archives/10249 Lora: 梯度视角下的Lora：https://kexue.fm/archives/9590 学习率对Lora的影响：https://kexue.fm/archives/10001 核心结论：对于Lora AB，B的学习率 ηBη_BηB 要大于A的学习率 ηAη_AηA : ηB/ηA≈n/mn/rη_B/η_A ≈ n/m \sqrt{n/r}ηB/ηA≈n/mn/r Lora改进1：https://kexue.fm/archives/10226 ...

Muon优化器

Created2026-02-10|Python

参考： https://kexue.fm/archives/10592 https://kexue.fm/archives/10739 https://kexue.fm/archives/10922 https://kexue.fm/archives/10996 核心摘要核心思想：将参数更新从逐元素提升到矩阵层面，通过正交化梯度矩阵实现更高效、更稳定的参数更新。关键创新：使用Newton-Schulz迭代法近似求解梯度矩阵的正交化形式，在保持计算效率的同时提升收敛速度。实际效益：训练效率提升约2倍，显著降低大模型研发成本，并可直接复用AdamW的超参数，降低工程成本。 Muon优化器：矩阵正交化与高效训练的数学革命在深度学习优化算法领域，随着模型规模的指数级增长，传统优化器如AdamW在处理超大规模模型时逐渐显现出局限性。2024年，Keller Jordan提出了一种革命性的新优化器——Muon（Matrix Update with Orthogonalization），其核心思想是将参数更新从逐元素处理提升到矩阵层面，通过正交化...

YOLOv26技术文档

Created2026-02-08|paper

[TOC] 核心摘要范式变革: YOLO26是全新一代实时目标检测模型，代表了目标检测技术的范式性变革。核心创新: 首次实现"原生端到端无NMS"推理，移除了非极大值抑制后处理步骤，提升了速度与稳定性。性能卓越: 通过HyperACE和FullPAD等创新架构，显著提升了模型对高阶语义关联的建模能力。 YOLO26是Ultralytics团队于2025年9月发布、2026年1月正式开源的全新一代实时目标检测模型，它代表了目标检测技术的范式性变革。与前代YOLO系列相比，YOLO26彻底移除了非极大值抑制（NMS）这一后处理步骤，首次实现了"原生端到端无NMS"的推理能力，同时保留了轻量级设计和高效训练策略。这一突破不仅解决了NMS带来的延迟不稳定性与超参敏感问题，还通过HyperACE（超图自适应相关性增强）和FullPAD（全流程聚合与分发）两大创新架构，显著提升了模型对高阶语义关联的建模能力，尤其在复杂场景下表现优异。此外，YOLO26还引入了STAL（空间-尺度自适应标签分配）和ProgLoss（渐进式损失平衡）...

YOLOv13技术文档

Created2026-02-07|paper

[TOC] 核心摘要核心创新: 引入HyperACE超图机制与FullPAD范式，首次将超图计算应用于实时目标检测，实现全局高阶关联建模。性能突破: 相比YOLOv12，参数量减少12%，COCO数据集mAP提升1.5%，边缘设备推理速度提升40%，实现精度与速度的平衡。架构设计: 采用基于深度可分离卷积的轻量化设计，并发布Nano、Small、Large、X-Large四种变体，全面覆盖从边缘到云端的部署需求。 YOLOv13是Ultralytics团队于2025年推出的最新实时目标检测模型，它继承了YOLO系列"一步到位"的核心思想，同时在特征关联建模和网络架构设计上实现了革命性突破。YOLOv13引入了HyperACE（超图自适应相关性增强）机制和FullPAD（全流程聚合与分发）范式，首次将超图计算技术应用于实时目标检测领域，解决了传统YOLO系列模型在复杂场景下高阶语义关联建模能力不足的问题。此外，YOLOv13还采用了基于深度可分离卷积的轻量化设计，使模型在保持高精度的同时实现了更低的计算复杂度和更小的模型体积。 YOLOv1...