Commit c6bfb282 authored by chenzk's avatar chenzk
Browse files

v1.0.2

parent 901a9991
......@@ -6,7 +6,7 @@
- https://arxiv.org/abs/2501.05366
## 模型结构
本项目实验效果时采用Qwen2.5 作为示例,模型结构类似Llama系列,采用极简Decoder-only结构,Llama源自基本的transformer结构,主体为attention(QKV自点积)+ffn(全连接),最后外加一个softmax进行概率转换输出即可,为了使数据分布归一化方便训练收敛,在attention、ffn、softmax前分别再加一个RMS Norm。
本项目实验效果时LLM模型采用Qwen2.5 作为示例,模型结构类似Llama系列,采用极简Decoder-only结构,Llama源自基本的transformer结构,主体为attention(QKV自点积)+ffn(全连接),最后外加一个softmax进行概率转换输出即可,为了使数据分布归一化方便训练收敛,在attention、ffn、softmax前分别再加一个RMS Norm。
<div align=center>
<img src="./doc/llama3.png"/>
</div>
......@@ -84,6 +84,9 @@ pip install whl/vllm-0.6.2+das.opt1.cd549d3.dtk24043-cp310-cp310-linux_x86_64.wh
...
```
## 训练
## 推理
### 单机多卡
**Search-o1 (Ours)**
......
# 模型编码
modelCode=1233
# 模型名称
modelName=search-o1_pytorch
modelName=Search-o1_pytorch
# 模型描述
modelDescription=动态获取和整合外部知识,无需训练即可赋予开源模型CoT“慢思考”能力,属于推理版o1。
# 应用场景
......
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment