Commit e8615221 authored by zhougaofeng's avatar zhougaofeng
Browse files

Update README.md

parent ea90bad6
...@@ -6,10 +6,20 @@ ...@@ -6,10 +6,20 @@
- [https://arxiv.org/pdf/2402.03300] - [https://arxiv.org/pdf/2402.03300]
## 模型结构
DeepSeekMath在DeepSeek-Coder-Base-v1.5-7B的基础上进行预训练,使用了来自Common Crawl的120B与数学相关的token,以及自然语言和代码数据。竞赛级别的MATH基准测试的准确率优于更大参数量的qwen-72B、Llemma-34B等模型
<div align=center>
<img src="./doc/model_accuracy.png"/>
</div>
## 算法原理 ## 算法原理
DeepSeek-Coder-Base-v1.5-7B的基础上进行预训练,使用了来自Common Crawl的120B与数学相关的token,以及自然语言和代码数据。引入了群组相对策略优化(GRPO),它在增强数学推理能力的同时,还优化了PPO的内存使用。 首先,DeepSeekMath通过精心设计的 数据选择管道,充分利用了公开可用的网络数据的巨大潜力。其次,引入了群组相对策略优化(GRPO),GRPO放弃了价值模型,而是从组分数估计基线,它在增强数学推理能力的同时,还优化了PPO的内存使用。
<div align=center>
<img src="./doc/model_grpo.png"/>
</div>
## 环境配置 ## 环境配置
......
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment