update readme

c196698c · zhuwenwen · b8b237bf · c196698c
Commit c196698c authored Apr 25, 2024 by zhuwenwen
Hide whitespace changes
Inline Side-by-side

Showing with 3 additions and 3 deletions

README.md README.md +3 -3

No files found.
--- a/README.md
+++ b/README.md
@@ -15,12 +15,12 @@ LLAMA网络基于 Transformer 架构。提出了各种改进，并用于不同
 SwiGLU 激活函数 [PaLM]。使用 SwiGLU 激活函数替换 ReLU 非线性以提高性能。使用 2 /3 4d 的维度而不是 PaLM 中的 4d。
 旋转嵌入。移除了绝对位置嵌入，而是添加了旋转位置嵌入 (RoPE)，在网络的每一层。

-![img](./docs/images/llama_str.png)
+![img](./docs/llama_str.png)

 ## 算法原理
 LLama是一个基础语言模型的集合,参数范围从7B到65B。在数万亿的tokens上训练出的模型，并表明可以专门使用公开可用的数据集来训练最先进的模型，而不依赖于专有的和不可访问的数据集。

-![img](./docs/images/llama_pri.png)
+![img](./docs/llama_pri.png)

 ## 环境配置

@@ -57,9 +57,9 @@ docker run -it --name llama --privileged --shm-size=64G  --device=/dev/kfd --dev
 ### 离线批量推理
 ```bash
 python offline_inference.py
+```
 其中，`prompts`为提示词；`temperature`为控制采样随机性的值，值越小模型生成越确定，值变高模型生成更随机，0表示贪婪采样，默认为1；`max_tokens=16`为生成长度，默认为1；
 `model`为模型路径；`tensor_parallel_size=1`为使用卡数，默认为1；`dtype="float16"`为推理数据类型
-```

 ### OpenAI兼容服务
 启动服务：