Commit 470da82a authored by zzg_666's avatar zzg_666
Browse files

修改

parent 969bbdd7
...@@ -6,7 +6,7 @@ ...@@ -6,7 +6,7 @@
EXAONE4.0通过集成非推理模式与推理模式,实现了EXAONE3.5的卓越可用性与EXAONE Deep 的先进推理能力。为迈向智能体AI时代,EXAONE4.0引入了智能体工具调用等关键特性,并将多语言支持扩展至西班牙语(除英语、韩语外)。EXAONE4.0系列包含两种规模: EXAONE4.0通过集成非推理模式与推理模式,实现了EXAONE3.5的卓越可用性与EXAONE Deep 的先进推理能力。为迈向智能体AI时代,EXAONE4.0引入了智能体工具调用等关键特性,并将多语言支持扩展至西班牙语(除英语、韩语外)。EXAONE4.0系列包含两种规模:
- 32B中规模模型:针对高性能场景优化 - 32B中规模模型:针对高性能场景优化
- 1.2B小规模模型:专为端侧应用设计 - 1.2B小规模模型:专为端侧应用设计
相较于前代模型,EXAONE4.0架构进行了以下革新: <p style="text-indent: 0;">相较于前代模型,EXAONE4.0架构进行了以下革新:
1. 混合注意力机制 1. 混合注意力机制
在32B模型中,我们采用混合注意力方案,以3:1的比例结合局部注意力(滑动窗口注意力)与全局注意力(全注意力)。为提升全局上下文理解能力,全局注意力模块未使用RoPE(旋转位置编码)。 在32B模型中,我们采用混合注意力方案,以3:1的比例结合局部注意力(滑动窗口注意力)与全局注意力(全注意力)。为提升全局上下文理解能力,全局注意力模块未使用RoPE(旋转位置编码)。
2. QK重归一化 2. QK重归一化
......
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment