Skip to content
GitLab
Menu
Projects
Groups
Snippets
Loading...
Help
Help
Support
Community forum
Keyboard shortcuts
?
Submit feedback
Contribute to GitLab
Sign in / Register
Toggle navigation
Menu
Open sidebar
ModelZoo
SmolLM3_vllm
Commits
2700739c
Commit
2700739c
authored
Dec 05, 2025
by
zzg_666
Browse files
modified
parent
36c1ad9e
Changes
1
Hide whitespace changes
Inline
Side-by-side
Showing
1 changed file
with
1 addition
and
2 deletions
+1
-2
README.md
README.md
+1
-2
No files found.
README.md
View file @
2700739c
...
@@ -11,8 +11,7 @@ SmolLM3是一个3B参数的语言模型,旨在突破小型模型的界限。
...
@@ -11,8 +11,7 @@ SmolLM3是一个3B参数的语言模型,旨在突破小型模型的界限。
该模型为仅解码器架构的Transformer模型,采用分组查询注意力机制与3:1比例的归一化位置编码,在包含网络文本、代码、数学及推理数据的阶段式课程学习框架下,使用11.2万亿token进行了预训练。后训练阶段包含1400亿token的中期推理专项训练,并依次进行了监督微调与基于锚点偏好优化的对齐训练。
该模型为仅解码器架构的Transformer模型,采用分组查询注意力机制与3:1比例的归一化位置编码,在包含网络文本、代码、数学及推理数据的阶段式课程学习框架下,使用11.2万亿token进行了预训练。后训练阶段包含1400亿token的中期推理专项训练,并依次进行了监督微调与基于锚点偏好优化的对齐训练。
### 主要特点
### 主要特点
-
指令优化模型,专为混合推理场景设计
**完全开源模型:**
开放所有权重,并公开完整训练细节(含公开数据配比方案及训练配置)
**完全开源模型:**
开放所有权重,并公开完整训练细节(含公开数据配比方案及训练配置)
**长上下文支持:**
基于64K上下文长度训练,通过YARN外推法可扩展至128K token
**长上下文支持:**
基于64K上下文长度训练,通过YARN外推法可扩展至128K token
**多语言原生支持:**
覆盖英语、法语、西班牙语、德语、意大利语、葡萄牙语六种语言
**多语言原生支持:**
覆盖英语、法语、西班牙语、德语、意大利语、葡萄牙语六种语言
...
...
Write
Preview
Markdown
is supported
0%
Try again
or
attach a new file
.
Attach a file
Cancel
You are about to add
0
people
to the discussion. Proceed with caution.
Finish editing this message first!
Cancel
Please
register
or
sign in
to comment