Commit 36c1ad9e authored by zzg_666's avatar zzg_666
Browse files

first commit

parent 929c923b
......@@ -12,10 +12,10 @@ SmolLM3是一个3B参数的语言模型,旨在突破小型模型的界限。
### 主要特点
- 指令优化模型,专为混合推理场景设计
**完全开源模型:** 开放所有权重,并公开完整训练细节(含公开数据配比方案及训练配置)
**长上下文支持:** 基于64K上下文长度训练,通过YARN外推法可扩展至128K token
**多语言原生支持:** 覆盖英语、法语、西班牙语、德语、意大利语、葡萄牙语六种语言
- 指令优化模型,专为混合推理场景设计
**完全开源模型:** 开放所有权重,并公开完整训练细节(含公开数据配比方案及训练配置)
**长上下文支持:** 基于64K上下文长度训练,通过YARN外推法可扩展至128K token
**多语言原生支持:** 覆盖英语、法语、西班牙语、德语、意大利语、葡萄牙语六种语言
......
doc/arch.png

1.35 MB | W: | H:

doc/arch.png

304 KB | W: | H:

doc/arch.png
doc/arch.png
doc/arch.png
doc/arch.png
  • 2-up
  • Swipe
  • Onion skin
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment