修改

8328c1a8 · zzg_666 · fc485190 · 8328c1a8
Commit 8328c1a8 authored Jan 31, 2026 by zzg_666
Hide whitespace changes
Inline Side-by-side

Showing with 3 additions and 3 deletions

README.md README.md +3 -3

No files found.
--- a/README.md
+++ b/README.md
@@ -10,9 +10,9 @@ EXAONE4.0通过集成非推理模式与推理模式，实现了EXAONE3.5的卓
 1. 混合注意力机制。
 在32B模型中，我们采用混合注意力方案，以3:1的比例结合局部注意力（滑动窗口注意力）与全局注意力（全注意力）。为提升全局上下文理解能力，全局注意力模块未使用RoPE（旋转位置编码）。  
 2. QK重归一化。
-我们将传统Pre-LN方案中的层归一化位置重新调整：    
- 直接对注意力与 MLP 输出应用 LayerNorm
- 在Q（查询）与K（键）投影后立即引入RMS归一化  
+我们将传统Pre-LN方案中的层归一化位置重新调整，    
+直接对注意力与 MLP 输出应用 LayerNorm，
+并在Q（查询）与K（键）投影后立即引入RMS归一化。  
 该设计虽增加计算开销，但能显著提升下游任务性能。

 ## 环境依赖