年度归档: 2025 年

10 篇文章

DPO微调
https://arxiv.org/pdf/2305.18290 DPO的核心 DPO核心创新在于将"语言模型暗藏着奖励模型"这一理论洞见转化为实用的训练方法,使得模型对齐过程变得更加简单、高效和稳定。 DPO如何解决RLHF的核心问题 DPO(直接偏好优化)通过以下方式简化和解决RLHF的问题: 数学转换:DPO发现了一种巧妙的数学变换,将RLH…
To do list
待补题 Atcoder https://atcoder.jp/contests/abc408/tasks/abc408_e https://atcoder.jp/contests/abc406/tasks/abc406_e https://atcoder.jp/contests/abc404/tasks/abc404_e 牛客 codeforces
一些比较重要的进阶算法
树状数组 参考理解链接:https://www.acwing.com/file_system/file/content/whole/index/content/551838/ int lowbit(int x) { return x&-x; } int ask(int k) //区间查询 { int res=0; for(int i=k;i…
ssh免密登录失效问题
参考链接:https://www.cnblogs.com/wanglouxiaozi/p/16935527.html 不行大概率是目录权限的问题。ssh为了安全起见对用户目录和.ssh目录及其子文件的权限作了要求。如果不对,免密登录不生效。详情可参考上面博客。 我这边的原因:authorized_keys的权限是664,改为644就OK了 3. S…
新服务器配置(用于深度学习)
安装Anaconda Miniconda下载链接:https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/ 换源 pip源 清华源,华为源 (换成对应服务器的源速度可以大大提高,华为云这里有 70MB/s) 设为默认 升级 pip 到最新的版本后进行配置: python -m pip inst…
再战基础算法(找工作篇)
总结一些自己容易遗忘但挺重要的算法。 手撕经典算法 快速排序 核心代码: void qsort(int ll, int rr) { if(ll>=rr) return; int x=a[ll+rr>>1], l=ll-1, r=rr+1; while(l<r) { do l++; while(a[l]<x); do r-…