Commit c196698c authored by zhuwenwen's avatar zhuwenwen
Browse files

update readme

parent b8b237bf
......@@ -15,12 +15,12 @@ LLAMA网络基于 Transformer 架构。提出了各种改进,并用于不同
SwiGLU 激活函数 [PaLM]。使用 SwiGLU 激活函数替换 ReLU 非线性以提高性能。使用 2 /3 4d 的维度而不是 PaLM 中的 4d。
旋转嵌入。移除了绝对位置嵌入,而是添加了旋转位置嵌入 (RoPE),在网络的每一层。
![img](./docs/images/llama_str.png)
![img](./docs/llama_str.png)
## 算法原理
LLama是一个基础语言模型的集合,参数范围从7B到65B。在数万亿的tokens上训练出的模型,并表明可以专门使用公开可用的数据集来训练最先进的模型,而不依赖于专有的和不可访问的数据集。
![img](./docs/images/llama_pri.png)
![img](./docs/llama_pri.png)
## 环境配置
......@@ -57,9 +57,9 @@ docker run -it --name llama --privileged --shm-size=64G --device=/dev/kfd --dev
### 离线批量推理
```bash
python offline_inference.py
```
其中,`prompts`为提示词;`temperature`为控制采样随机性的值,值越小模型生成越确定,值变高模型生成更随机,0表示贪婪采样,默认为1;`max_tokens=16`为生成长度,默认为1;
`model`为模型路径;`tensor_parallel_size=1`为使用卡数,默认为1;`dtype="float16"`为推理数据类型
```
### OpenAI兼容服务
启动服务:
......
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment