Update README.md

694ec0a9 · wangkx1 · d924b62a · 694ec0a9
Commit 694ec0a9 authored Aug 13, 2024 by wangkx1
Show whitespace changes
Inline Side-by-side

Showing with 7 additions and 3 deletions

README.md README.md +7 -3

No files found.
--- a/README.md
+++ b/README.md
@@ -3,9 +3,13 @@
 #### 现有问题:

 1. export HIP_VISIBLE_DEVICES=2,3,4,5 等多卡后, ollama依然会优先加载所有模型到2号卡。随机会加载模型到其他卡;
-2. 自测NV上ollama-v0.3.4的模型调度逻辑: 在多卡环境下, 并非多卡去推理一个模型。而是一张卡推一个模型。一个模型只可能会在1张卡上。假如说同时 run 了8个模型，那均衡分配8个模型到8张卡上面。超出8个模型之后, 同一张卡上会有多个模型。
-3. v0.1.43不支持gemma2;
-4. 想要尝试新的ollama模型调度策略，可以使用 https://developer.hpccube.com/codes/OpenDAS/ollama 下的 v0.3.5 版本, 自行验证;
+2. v0.1.43不支持gemma2;
+3. 自测NV上ollama-v0.3.4的模型调度逻辑: 在多卡环境下, 并非多卡去推理一个模型。而是一张卡推一个模型。一个模型只可能会在1张卡上。假如说同时 run 了8个模型，那均衡分配8个模型到8张卡上面。超出8个模型之后, 同一张卡上会有多个模型。
+
+本工程的v0.3.5的多卡环境下模型调度策略已经和NV一致.
+
+v0.3.5: https://developer.hpccube.com/codes/wangkx1/ollama_dcu/-/tree/v0.3.5 
+

 #### 拓展: ollama + open-webui: