2025 年 – Co's fossula

DPO微调

https://arxiv.org/pdf/2305.18290 DPO的核心 DPO核心创新在于将"语言模型暗藏着奖励模型"这一理论洞见转化为实用的训练方法，使得模型对齐过程变得更加简单、高效和稳定。 DPO如何解决RLHF的核心问题 DPO（直接偏好优化）通过以下方式简化和解决RLHF的问题：数学转换：DPO发现了一种巧妙的数学变换，将RLH…

2025-9-16 14:44

|

强化学习

1028 字

|

5 分钟

To do list

待补题 Atcoder https://atcoder.jp/contests/abc408/tasks/abc408_e https://atcoder.jp/contests/abc406/tasks/abc406_e https://atcoder.jp/contests/abc404/tasks/abc404_e 牛客 codeforces

2025-5-19 13:54

|

杂题区

30 字

|

几秒读完

一些比较重要的进阶算法

树状数组参考理解链接：https://www.acwing.com/file_system/file/content/whole/index/content/551838/ int lowbit(int x) { return x&-x; } int ask(int k) //区间查询 { int res=0; for(int i=k;i…

2025-5-10 16:47

|

算法进阶

180 字

|

4 分钟

ssh免密登录失效问题

参考链接：https://www.cnblogs.com/wanglouxiaozi/p/16935527.html 不行大概率是目录权限的问题。ssh为了安全起见对用户目录和.ssh目录及其子文件的权限作了要求。如果不对，免密登录不生效。详情可参考上面博客。我这边的原因：authorized_keys的权限是664，改为644就OK了 3. S…

2025-5-04 10:51

|

技术

373 字

|

2 分钟

ssh

新服务器配置（用于深度学习）

安装Anaconda Miniconda下载链接：https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/ 换源 pip源清华源，华为源（换成对应服务器的源速度可以大大提高，华为云这里有 70MB/s）设为默认升级 pip 到最新的版本后进行配置： python -m pip inst…

2025-5-03 22:33

|

技术

243 字

|

5 分钟

conda

再战机器学习——手撕算法（找工作篇）

K-Means 模板题：K-Means Clustering def k_means_clustering(points: list[tuple[float, float]], k: int, initial_centroids: list[tuple[float, float]], max_iterations: …

2025-5-02 23:30

|

机器学习

639 字

|

8 分钟

WordPress Latex 显示问题

https://snailwish.com/252/

2025-5-02 18:41

|

技术

4 字

|

几秒读完

latex

再战基础算法（找工作篇）

总结一些自己容易遗忘但挺重要的算法。手撕经典算法快速排序核心代码： void qsort(int ll, int rr) { if(ll>=rr) return; int x=a[ll+rr>>1], l=ll-1, r=rr+1; while(l<r) { do l++; while(a[l]<x); do r-…

2025-5-02 17:22

|

技术

2956 字

|

25 分钟

再战机器学习——决策树（找工作篇）

决策树一般的三种算法：ID3，C4.5，CART。 ID3 sklearn手搓 # from sklearn.metric import accuracy_score import numpy as np import pandas as pd from sklearn.datasets import load_iris datas=load_ir…

2025-4-29 22:35

|

机器学习

108 字

|

4 分钟

ID3 决策树

深度学习——手撕Transformer（找工作篇）

参考链接 https://hwcoder.top/Manual-Coding-1 单头注意力机制 Q, K, V的理解。假设Q由如下矩阵组成（不考虑batchsize）：Q[0]：词1：[dim1, dim2, dim3...] Q[1]：词2：[dim1, dim2, dim3...] 同理K： K[0]：词1：[dim1, dim2, dim…

2025-4-17 12:02

|

深度学习

1071 字

|

23 分钟

attention transformer

年度归档： 2025 年