DPO微调
https://arxiv.org/pdf/2305.18290 DPO的核心 DPO核心创新在于将"语言模型暗藏着奖励模型"这一理论洞见转化为实用的训练方法,使得模型对齐过程变得更加简单、高效和稳定。 DPO如何解决RLHF的核心问题 DPO(直接偏好优化)通过以下方式简化和解决RLHF的问题: 数学转换:DPO发现了一种巧妙的数学变换,将RLH…
|
1028 字
|
5 分钟
To do list
待补题 Atcoder https://atcoder.jp/contests/abc408/tasks/abc408_e https://atcoder.jp/contests/abc406/tasks/abc406_e https://atcoder.jp/contests/abc404/tasks/abc404_e 牛客 codeforces
|
30 字
|
几秒读完
一些比较重要的进阶算法
树状数组 参考理解链接:https://www.acwing.com/file_system/file/content/whole/index/content/551838/ int lowbit(int x) { return x&-x; } int ask(int k) //区间查询 { int res=0; for(int i=k;i…
|
180 字
|
4 分钟
ssh免密登录失效问题
参考链接:https://www.cnblogs.com/wanglouxiaozi/p/16935527.html 不行大概率是目录权限的问题。ssh为了安全起见对用户目录和.ssh目录及其子文件的权限作了要求。如果不对,免密登录不生效。详情可参考上面博客。 我这边的原因:authorized_keys的权限是664,改为644就OK了 3. S…
|
373 字
|
2 分钟
新服务器配置(用于深度学习)
安装Anaconda Miniconda下载链接:https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/ 换源 pip源 清华源,华为源 (换成对应服务器的源速度可以大大提高,华为云这里有 70MB/s) 设为默认 升级 pip 到最新的版本后进行配置: python -m pip inst…
|
243 字
|
5 分钟
再战机器学习——手撕算法(找工作篇)
K-Means 模板题:K-Means Clustering def k_means_clustering(points: list[tuple[float, float]], k: int, initial_centroids: list[tuple[float, float]], max_iterations: …
|
639 字
|
8 分钟
WordPress Latex 显示问题
https://snailwish.com/252/
|
4 字
|
几秒读完
再战基础算法(找工作篇)
总结一些自己容易遗忘但挺重要的算法。 手撕经典算法 快速排序 核心代码: void qsort(int ll, int rr) { if(ll>=rr) return; int x=a[ll+rr>>1], l=ll-1, r=rr+1; while(l<r) { do l++; while(a[l]<x); do r-…
|
2956 字
|
25 分钟
再战机器学习——决策树(找工作篇)
决策树一般的三种算法:ID3,C4.5,CART。 ID3 sklearn手搓 # from sklearn.metric import accuracy_score import numpy as np import pandas as pd from sklearn.datasets import load_iris datas=load_ir…
|
108 字
|
4 分钟
深度学习——手撕Transformer(找工作篇)
参考链接 https://hwcoder.top/Manual-Coding-1 单头注意力机制 Q, K, V的理解。 假设Q由如下矩阵组成(不考虑batchsize):Q[0]:词1:[dim1, dim2, dim3...] Q[1]:词2:[dim1, dim2, dim3...] 同理K: K[0]:词1:[dim1, dim2, dim…
|
1071 字
|
23 分钟