DPO微调
https://arxiv.org/pdf/2305.18290 DPO的核心 DPO核心创新在于将"语言模型暗藏着奖励模型"这一理论洞见转化为实用的训练方法,使得模型对齐过程变得更加简单、高效和稳定。 DPO如何解决RLHF的核心问题 DPO(直接偏好优化)通过以下方式简化和解决RLHF的问题: 数学转换:DPO发现了一种巧妙的数学变换,将RLH…
|
1028 字
|
5 分钟
再战机器学习——手撕算法(找工作篇)
K-Means 模板题:K-Means Clustering def k_means_clustering(points: list[tuple[float, float]], k: int, initial_centroids: list[tuple[float, float]], max_iterations: …
|
639 字
|
8 分钟
再战机器学习——决策树(找工作篇)
决策树一般的三种算法:ID3,C4.5,CART。 ID3 sklearn手搓 # from sklearn.metric import accuracy_score import numpy as np import pandas as pd from sklearn.datasets import load_iris datas=load_ir…
|
108 字
|
4 分钟
深度学习——手撕Transformer(找工作篇)
参考链接 https://hwcoder.top/Manual-Coding-1 单头注意力机制 Q, K, V的理解。 假设Q由如下矩阵组成(不考虑batchsize):Q[0]:词1:[dim1, dim2, dim3...] Q[1]:词2:[dim1, dim2, dim3...] 同理K: K[0]:词1:[dim1, dim2, dim…
|
1071 字
|
23 分钟
Chapter-6,7
分类问题 Logistic Regression:其实是classfication问题,不是Regression问题。 过度拟合 避免过度拟合,可以在代价函数中给予惩罚项。参数值一定要选合适的,否则可能依然过度拟合或者基本没拟合bias较大。
|
81 字
|
1 分钟内
Chapter-4
解代价函数有两种方法:梯度下降法和正规方程解法。各有 特点 两者的特点 正规方程在矩阵不可逆的情况:变量间线性相关
|
58 字
|
几秒读完
Chapter-2
2-1模型描述 单变量线性回归 2-2代价函数 最小化方差。代价函数=$min\sum_{i=1}^{n}(h_\theta (x^i)-y^i)$ 2-3,2-4代价函数 由图可以看出$\theta_1$取1时代价函数取得最小值 二元代价函数图 2-5梯度下降 常规算法,不仅用在线性回归,还用在很多机器学习中 一直梯度下降直到收敛 梯度下降过程中…
|
217 字
|
1 分钟内
Chapter-1
监督学习 监督学习:给算法数据集,预测更多的结果。 给定一些列房价,以达到预测更多房价 给定肿瘤大小,预测良性与否 回归:regression,回归这个术语指我们设法预测连续值得属性。 分类:可以理解为有限的结果集 课堂问题: choose answer for the questions 答案:C 非监督学习 非监督学习:没有给定数据集的正确性,…
|
199 字
|
1 分钟内