Commit fc485190 authored by zzg_666's avatar zzg_666
Browse files

修改

parent 470da82a
......@@ -7,10 +7,10 @@ EXAONE4.0通过集成非推理模式与推理模式,实现了EXAONE3.5的卓
- 32B中规模模型:针对高性能场景优化
- 1.2B小规模模型:专为端侧应用设计
<p style="text-indent: 0;">相较于前代模型,EXAONE4.0架构进行了以下革新:
1. 混合注意力机制
1. 混合注意力机制
在32B模型中,我们采用混合注意力方案,以3:1的比例结合局部注意力(滑动窗口注意力)与全局注意力(全注意力)。为提升全局上下文理解能力,全局注意力模块未使用RoPE(旋转位置编码)。
2. QK重归一化
我们将传统Pre-LN方案中的层归一化位置重新调整:
2. QK重归一化
我们将传统Pre-LN方案中的层归一化位置重新调整:
- 直接对注意力与 MLP 输出应用 LayerNorm
- 在Q(查询)与K(键)投影后立即引入RMS归一化
该设计虽增加计算开销,但能显著提升下游任务性能。
......
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment