Commit 2700739c authored by zzg_666's avatar zzg_666
Browse files

modified

parent 36c1ad9e
...@@ -11,8 +11,7 @@ SmolLM3是一个3B参数的语言模型,旨在突破小型模型的界限。 ...@@ -11,8 +11,7 @@ SmolLM3是一个3B参数的语言模型,旨在突破小型模型的界限。
该模型为仅解码器架构的Transformer模型,采用分组查询注意力机制与3:1比例的归一化位置编码,在包含网络文本、代码、数学及推理数据的阶段式课程学习框架下,使用11.2万亿token进行了预训练。后训练阶段包含1400亿token的中期推理专项训练,并依次进行了监督微调与基于锚点偏好优化的对齐训练。 该模型为仅解码器架构的Transformer模型,采用分组查询注意力机制与3:1比例的归一化位置编码,在包含网络文本、代码、数学及推理数据的阶段式课程学习框架下,使用11.2万亿token进行了预训练。后训练阶段包含1400亿token的中期推理专项训练,并依次进行了监督微调与基于锚点偏好优化的对齐训练。
### 主要特点 ### 主要特点
- 指令优化模型,专为混合推理场景设计
**完全开源模型:** 开放所有权重,并公开完整训练细节(含公开数据配比方案及训练配置) **完全开源模型:** 开放所有权重,并公开完整训练细节(含公开数据配比方案及训练配置)
**长上下文支持:** 基于64K上下文长度训练,通过YARN外推法可扩展至128K token **长上下文支持:** 基于64K上下文长度训练,通过YARN外推法可扩展至128K token
**多语言原生支持:** 覆盖英语、法语、西班牙语、德语、意大利语、葡萄牙语六种语言 **多语言原生支持:** 覆盖英语、法语、西班牙语、德语、意大利语、葡萄牙语六种语言
......
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment