Commit 45233e63 authored by wangkx1's avatar wangkx1
Browse files

Update README.md

parent 3c60bd95
Pipeline #1525 canceled with stages
# 基于DCU开源代码适配Ollama # 基于DCU开源代码适配Ollama
现有问题: #### 现有问题:
1. export HIP_VISIBLE_DEVICES=2,3,4,5 等多卡后, ollama依然会优先加载所有模型到2号卡。随机会加载模型到其他卡; 1. export HIP_VISIBLE_DEVICES=2,3,4,5 等多卡后, ollama依然会优先加载所有模型到2号卡。随机会加载模型到其他卡;
2. 自测NV上ollama-v0.3.4的模型调度逻辑: 在多卡环境下, 并非多卡去推理一个模型。而是一张卡推一个模型。一个模型只可能会在1张卡上。假如说同时 run 了8个模型,那均衡分配8个模型到8张卡上面。超出8个模型之后, 同一张卡上会有多个模型。 2. 自测NV上ollama-v0.3.4的模型调度逻辑: 在多卡环境下, 并非多卡去推理一个模型。而是一张卡推一个模型。一个模型只可能会在1张卡上。假如说同时 run 了8个模型,那均衡分配8个模型到8张卡上面。超出8个模型之后, 同一张卡上会有多个模型。
3. v0.1.43不支持gemma2; 3. v0.1.43不支持gemma2;
4. 想要尝试新的ollama模型调度策略,可以使用 https://developer.hpccube.com/codes/OpenDAS/ollama 下的 v0.3.5 版本, 自行验证; 4. 想要尝试新的ollama模型调度策略,可以使用 https://developer.hpccube.com/codes/OpenDAS/ollama 下的 v0.3.5 版本, 自行验证;
#### ollama + open-webui:
见: [./tutorial_ollama/01-ollama_open-webui.md](./tutorial_ollama/01-ollama_open-webui.md)
教程:
## 适配步骤 ## 适配步骤
......
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment