分类: AI

11 篇文章

基于Flow Matching的扩散模型Forward、Inverse原理及代码
Stable Diffusion 3及3.5开始,包括flux编辑模型,都不再采用传统DDPM的噪声扩散模式,而是采用流匹配的形式。Flow Matching总结是:简单有效。 这篇文章里都采用sd3.5作为backbone进行研究。 原理 Flow Matching 核心机制 —— 从“预测噪声”到“预测速度场” 在 SD 1.5 和 SDXL …
DPO微调
https://arxiv.org/pdf/2305.18290 DPO的核心 DPO核心创新在于将"语言模型暗藏着奖励模型"这一理论洞见转化为实用的训练方法,使得模型对齐过程变得更加简单、高效和稳定。 DPO如何解决RLHF的核心问题 DPO(直接偏好优化)通过以下方式简化和解决RLHF的问题: 数学转换:DPO发现了一种巧妙的数学变换,将RLH…
thumbnail
Chapter-6,7
分类问题 Logistic Regression:其实是classfication问题,不是Regression问题。 过度拟合 避免过度拟合,可以在代价函数中给予惩罚项。参数值一定要选合适的,否则可能依然过度拟合或者基本没拟合bias较大。
thumbnail
Chapter-5
编程章节,代码和作业在jupyter上
thumbnail
Chapter-4
解代价函数有两种方法:梯度下降法和正规方程解法。各有 特点 两者的特点 正规方程在矩阵不可逆的情况:变量间线性相关
thumbnail
Chapter-2
2-1模型描述 单变量线性回归 2-2代价函数 最小化方差。代价函数=$min\sum_{i=1}^{n}(h_\theta (x^i)-y^i)$ 2-3,2-4代价函数 由图可以看出$\theta_1$取1时代价函数取得最小值 二元代价函数图 2-5梯度下降 常规算法,不仅用在线性回归,还用在很多机器学习中 一直梯度下降直到收敛 梯度下降过程中…