Update README.md

e8615221 · zhougaofeng · ea90bad6 · e8615221
Commit e8615221 authored Jul 01, 2024 by zhougaofeng
Hide whitespace changes
Inline Side-by-side

Showing with 11 additions and 1 deletion

README.md README.md +11 -1

No files found.
--- a/README.md
+++ b/README.md
@@ -6,10 +6,20 @@

 - [https://arxiv.org/pdf/2402.03300]

+## 模型结构
+
+DeepSeekMath在DeepSeek-Coder-Base-v1.5-7B的基础上进行预训练,使用了来自Common Crawl的120B与数学相关的token，以及自然语言和代码数据。竞赛级别的MATH基准测试的准确率优于更大参数量的qwen-72B、Llemma-34B等模型
+<div align=center>
+    <img src="./doc/model_accuracy.png"/>
+</div>
+
 ## 算法原理

-在DeepSeek-Coder-Base-v1.5-7B的基础上进行预训练，使用了来自Common Crawl的120B与数学相关的token，以及自然语言和代码数据。引入了群组相对策略优化（GRPO），它在增强数学推理能力的同时，还优化了PPO的内存使用。
+首先，DeepSeekMath通过精心设计的 数据选择管道，充分利用了公开可用的网络数据的巨大潜力。其次，引入了群组相对策略优化（GRPO），GRPO放弃了价值模型，而是从组分数估计基线，它在增强数学推理能力的同时，还优化了PPO的内存使用。

+<div align=center>
+    <img src="./doc/model_grpo.png"/>
+</div>

 ## 环境配置