Commit 34cedc49 authored by zhougaofeng's avatar zhougaofeng
Browse files

Update README.md

parent dfd2629b
...@@ -11,7 +11,7 @@ ...@@ -11,7 +11,7 @@
Yi 模型采用了基于 LLaMA 实现的修改版decoder-only Transformer 架构。主要改进包括: Yi 模型采用了基于 LLaMA 实现的修改版decoder-only Transformer 架构。主要改进包括:
注意力机制: 注意力机制:
Yi 在 6B 和 34B 模型中引入了分组查询注意力(GQA),以减少训练和推理成本,同时未观察到性能下降 Yi 在 6B 和 34B 模型中引入了分组查询注意力(GQA),以减少训练和推理成本,7B 和 13B 使用全注意力
激活函数: 激活函数:
使用 SwiGLU 作为后注意力层,调整激活大小以与现有模型保持一致,并补偿由 GQA 引起的参数减少。 使用 SwiGLU 作为后注意力层,调整激活大小以与现有模型保持一致,并补偿由 GQA 引起的参数减少。
......
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment