modified

2700739c · zzg_666 · 36c1ad9e · 2700739c
Commit 2700739c authored Dec 05, 2025 by zzg_666
Hide whitespace changes
Inline Side-by-side

Showing with 1 addition and 2 deletions

README.md README.md +1 -2

No files found.
--- a/README.md
+++ b/README.md
@@ -11,8 +11,7 @@ SmolLM3是一个3B参数的语言模型，旨在突破小型模型的界限。
 该模型为仅解码器架构的Transformer模型，采用分组查询注意力机制与3:1比例的归一化位置编码，在包含网络文本、代码、数学及推理数据的阶段式课程学习框架下，使用11.2万亿token进行了预训练。后训练阶段包含1400亿token的中期推理专项训练，并依次进行了监督微调与基于锚点偏好优化的对齐训练。
 ### 主要特点
- 指令优化模型，专为混合推理场景设计  
 **完全开源模型：** 开放所有权重，并公开完整训练细节（含公开数据配比方案及训练配置）  
 **长上下文支持：** 基于64K上下文长度训练，通过YARN外推法可扩展至128K token  
 **多语言原生支持：** 覆盖英语、法语、西班牙语、德语、意大利语、葡萄牙语六种语言