Update README.md

34cedc49 · zhougaofeng · dfd2629b · 34cedc49
Commit 34cedc49 authored Nov 26, 2024 by zhougaofeng
Hide whitespace changes
Inline Side-by-side

Showing with 1 addition and 1 deletion

README.md README.md +1 -1

No files found.
--- a/README.md
+++ b/README.md
@@ -11,7 +11,7 @@
 Yi 模型采用了基于 LLaMA 实现的修改版decoder-only Transformer 架构。主要改进包括：
 注意力机制：
-    Yi 在 6B 和 34B 模型中引入了分组查询注意力（GQA），以减少训练和推理成本，同时未观察到性能下降。
+    Yi 在 6B 和 34B 模型中引入了分组查询注意力（GQA），以减少训练和推理成本，7B 和 13B 使用全注意力。
 激活函数：
    使用 SwiGLU 作为后注意力层，调整激活大小以与现有模型保持一致，并补偿由 GQA 引起的参数减少。