Update README.md

9b1fb145 · zhougaofeng · 58e8d13e · 9b1fb145
Commit 9b1fb145 authored Nov 26, 2024 by zhougaofeng
Hide whitespace changes
Inline Side-by-side

Showing with 13 additions and 0 deletions

README.md README.md +13 -0

No files found.
--- a/README.md
+++ b/README.md
@@ -6,6 +6,19 @@
 - [https://arxiv.org/abs/2403.04652]
+## 模型架构
+Yi 模型采用了基于 LLaMA 实现的修改版解码器-only Transformer 架构。主要改进包括：
+注意力机制：
+    Yi 在 6B 和 34B 模型中引入了分组查询注意力（GQA），以减少训练和推理成本，同时未观察到性能下降。
+激活函数：
+    使用 SwiGLU 作为后注意力层，调整激活大小以与现有模型保持一致，并补偿由 GQA 引起的参数减少。
+位置嵌入和长上下文：
+    采用 RoPE 并调整基频以支持长达 200K 的上下文窗口。通过持续预训练和轻量级微调，模型在长上下文检索性能上接近完美，表明模型具有内在的建模长依赖关系的能力。
 ## 算法原理
 Yi-1.5是一个 decoder-only 的 transformer 模型，使用 SwiGLU激活函数、GQA、RoPE等是Yi的升级版本，它在Yi的基础上进行了持续预训练，使用了500B（即500十亿）个高质量语料库的token，并且在300万个多样化的微调样本上进行了微调。与Yi相比，Yi-1.5在编程、数学、推理和指令遵循能力方面表现更强，同时仍然保持了在语言理解、常识推理和阅读理解方面的卓越能力。