DPO微调
https://arxiv.org/pdf/2305.18290 DPO的核心 DPO核心创新在于将"语言模型暗藏着奖励模型"这一理论洞见转化为实用的训练方法,使得模型对齐过程变得更加简单、高效和稳定。 DPO如何解决RLHF的核心问题 DPO(直接偏好优化)通过以下方式简化和解决RLHF的问题: 数学转换:DPO发现了一种巧妙的数学变换,将RLH…
2025-9-16 14:44
|
1028 字
|
5 分钟
圆明园
人多的地方是真多,但人少的地方是很清净,舒适 所到之处 小动物 水上一只鸟,树上一只鸟,水里一条鱼 景区深处
2025-6-02 19:47
|
55 字
|
几秒读完
字节实习记录
实习第一站:北京字节 后续慢慢更新... Go go go 出发喽 第一次坐大型机,波音777。登机口是最远的那个,属实是有点离谱。不过国航的餐食味道还可以。最后一张图是北京首都的机场快线,和长沙的那个磁悬浮有点像,不过它不是磁悬浮。 为什么要画个分割线。。。租房实在难。 实习第一天 最后一天下午茶 刚上了几天班就马上最后一天下午茶了,福利也越来越…
2025-5-28 17:50
|
163 字
|
1 分钟内
To do list
待补题 Atcoder https://atcoder.jp/contests/abc408/tasks/abc408_e https://atcoder.jp/contests/abc406/tasks/abc406_e https://atcoder.jp/contests/abc404/tasks/abc404_e 牛客 codeforces
2025-5-19 13:54
|
30 字
|
几秒读完
一些比较重要的进阶算法
树状数组 参考理解链接:https://www.acwing.com/file_system/file/content/whole/index/content/551838/ int lowbit(int x) { return x&-x; } int ask(int k) //区间查询 { int res=0; for(int i=k;i…
2025-5-10 16:47
|
180 字
|
4 分钟
ssh免密登录失效问题
参考链接:https://www.cnblogs.com/wanglouxiaozi/p/16935527.html 不行大概率是目录权限的问题。ssh为了安全起见对用户目录和.ssh目录及其子文件的权限作了要求。如果不对,免密登录不生效。详情可参考上面博客。 我这边的原因:authorized_keys的权限是664,改为644就OK了 3. S…
2025-5-04 10:51
|
373 字
|
2 分钟
新服务器配置(用于深度学习)
安装Anaconda Miniconda下载链接:https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/ 换源 pip源 清华源,华为源 (换成对应服务器的源速度可以大大提高,华为云这里有 70MB/s) 设为默认 升级 pip 到最新的版本后进行配置: python -m pip inst…
2025-5-03 22:33
|
243 字
|
5 分钟
再战机器学习——手撕算法(找工作篇)
K-Means 模板题:K-Means Clustering def k_means_clustering(points: list[tuple[float, float]], k: int, initial_centroids: list[tuple[float, float]], max_iterations: …
2025-5-02 23:30
|
639 字
|
8 分钟
WordPress Latex 显示问题
https://snailwish.com/252/
2025-5-02 18:41
|
16 字
|
几秒读完