Skip to content
GitLab
Menu
Projects
Groups
Snippets
Loading...
Help
Help
Support
Community forum
Keyboard shortcuts
?
Submit feedback
Contribute to GitLab
Sign in / Register
Toggle navigation
Menu
Open sidebar
wangkx1
ollama_dcu
Commits
45233e63
Commit
45233e63
authored
Aug 13, 2024
by
wangkx1
Browse files
Update README.md
parent
3c60bd95
Pipeline
#1525
canceled with stages
Changes
1
Pipelines
1
Hide whitespace changes
Inline
Side-by-side
Showing
1 changed file
with
6 additions
and
1 deletion
+6
-1
README.md
README.md
+6
-1
No files found.
README.md
View file @
45233e63
# 基于DCU开源代码适配Ollama
# 基于DCU开源代码适配Ollama
现有问题:
####
现有问题:
1.
export HIP_VISIBLE_DEVICES=2,3,4,5 等多卡后, ollama依然会优先加载所有模型到2号卡。随机会加载模型到其他卡;
1.
export HIP_VISIBLE_DEVICES=2,3,4,5 等多卡后, ollama依然会优先加载所有模型到2号卡。随机会加载模型到其他卡;
2.
自测NV上ollama-v0.3.4的模型调度逻辑: 在多卡环境下, 并非多卡去推理一个模型。而是一张卡推一个模型。一个模型只可能会在1张卡上。假如说同时 run 了8个模型,那均衡分配8个模型到8张卡上面。超出8个模型之后, 同一张卡上会有多个模型。
2.
自测NV上ollama-v0.3.4的模型调度逻辑: 在多卡环境下, 并非多卡去推理一个模型。而是一张卡推一个模型。一个模型只可能会在1张卡上。假如说同时 run 了8个模型,那均衡分配8个模型到8张卡上面。超出8个模型之后, 同一张卡上会有多个模型。
3.
v0.1.43不支持gemma2;
3.
v0.1.43不支持gemma2;
4.
想要尝试新的ollama模型调度策略,可以使用 https://developer.hpccube.com/codes/OpenDAS/ollama 下的 v0.3.5 版本, 自行验证;
4.
想要尝试新的ollama模型调度策略,可以使用 https://developer.hpccube.com/codes/OpenDAS/ollama 下的 v0.3.5 版本, 自行验证;
#### ollama + open-webui:
见:
[
./tutorial_ollama/01-ollama_open-webui.md
](
./tutorial_ollama/01-ollama_open-webui.md
)
教程:
## 适配步骤
## 适配步骤
...
...
Write
Preview
Markdown
is supported
0%
Try again
or
attach a new file
.
Attach a file
Cancel
You are about to add
0
people
to the discussion. Proceed with caution.
Finish editing this message first!
Cancel
Please
register
or
sign in
to comment