Commit 8328c1a8 authored by zzg_666's avatar zzg_666
Browse files

修改

parent fc485190
......@@ -10,9 +10,9 @@ EXAONE4.0通过集成非推理模式与推理模式,实现了EXAONE3.5的卓
1. 混合注意力机制。
在32B模型中,我们采用混合注意力方案,以3:1的比例结合局部注意力(滑动窗口注意力)与全局注意力(全注意力)。为提升全局上下文理解能力,全局注意力模块未使用RoPE(旋转位置编码)。
2. QK重归一化。
我们将传统Pre-LN方案中的层归一化位置重新调整
- 直接对注意力与 MLP 输出应用 LayerNorm
- 在Q(查询)与K(键)投影后立即引入RMS归一化
我们将传统Pre-LN方案中的层归一化位置重新调整
直接对注意力与 MLP 输出应用 LayerNorm
在Q(查询)与K(键)投影后立即引入RMS归一化
该设计虽增加计算开销,但能显著提升下游任务性能。
## 环境依赖
......
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment