README.md 4.23 KB
Newer Older
zzg_666's avatar
first  
zzg_666 committed
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
# KAT-Dev-vllm
## 论文
暂无

## 模型结构
KAT-Dev-32B基于Qwen3-32B架构构建,采用了现代化的Transformer解码器设计。该架构在保持模型强大推理能力的同时,针对代码生成任务进行了深度优化。其核心设计理念是通过分层注意力机制和扩展的上下文窗口,实现对复杂代码结构的精确建模。

<div align=center>
    <img src="./doc/transformers.jpg"/>
</div>

然而,在KAT-Dev的实现中,注意力机制经过了特殊优化,以更好地处理代码的层次化结构。模型采用了分组查询注意力(GQA)机制,在保证生成质量的同时显著降低了推理时的内存占用。
## 算法原理
KAT-Dev-32B是快手Kwaipilot团队推出的开源代码智能大模型,拥有32亿参数,基于Qwen3-32B架构深度优化,采用Transformer解码器设计。该模型在SWE-Bench Verified基准测试中以62.4%的解决率跻身全球开源模型前五,是唯一突破60%的320亿参数模型。其核心设计通过分层注意力机制和扩展上下文窗口(支持128K长度),实现对复杂代码结构的精确建模。模型训练历经中期训练、监督微调、强化微调及大规模智能体强化学习四阶段,覆盖功能实现、缺陷修复、性能优化等八大任务类型,支持Python、JavaScript、Java等主流编程语言。


## 环境配置
### 硬件需求
DCU型号:BW1000,节点数量:1台,卡数:2张。

`-v 路径``docker_name``imageID`根据实际情况修改

### Docker(方法一)
```bash
docker pull image.sourcefind.cn:5000/dcu/admin/base/vllm:0.9.2-ubuntu22.04-dtk25.04.1-rc5-rocblas104381-0915-das1.6-py3.10-20250916-rc2
docker run -it --shm-size 200g --network=host --name {docker_name} --privileged --device=/dev/kfd --device=/dev/dri --device=/dev/mkfd --group-add video --cap-add=SYS_PTRACE --security-opt seccomp=unconfined -u root -v /path/your_code_data/:/path/your_code_data/ -v /opt/hyhal/:/opt/hyhal/:ro {imageID} bash

cd /your_code_path/kat-dev-vllm
```

### Dockerfile(方法二)
```bash
cd docker
docker build --no-cache -t kat-dev:latest .
docker run -it --shm-size 200g --network=host --name {docker_name} --privileged --device=/dev/kfd --device=/dev/dri --device=/dev/mkfd --group-add video --cap-add=SYS_PTRACE --security-opt seccomp=unconfined -u root -v /path/your_code_data/:/path/your_code_data/ -v /opt/hyhal/:/opt/hyhal/:ro {imageID} bash

cd /your_code_path/kat-dev-vllm
```

### Anaconda(方法三)
关于本项目DCU显卡所需的特殊深度学习库可从[光合](https://developer.sourcefind.cn/tool/)开发者社区下载安装。
```bash
DTK: 25.04.1
python: 3.10
vllm: 0.9.2+das.opt1.rc2.dtk25041
torch: 2.5.1+das.opt1.dtk25041
accelerate:1.10.1
transformers: 4.56.1
flash_attn:2.6.1+das.opt16.dtk2504
```
`Tips:以上dtk驱动、python、torch等DCU相关工具版本需要严格一一对应`

## 数据集


## 训练
暂无

## 推理
### vllm推理方法
#### server 单机
样例模型:[KAT-Dev](https://huggingface.co/Kwaipilot/KAT-Dev)

```bash
export HIP_VISIBLE_DEVICES=0,1
export ALLREDUCE_STREAM_WITH_COMPUTE=1

vllm serve Kwaipilot/KAT-Dev --trust-remote-code --dtype bfloat16 --max-seq-len-to-capture 32768 -tp 4 --gpu-memory-utilization 0.85 --override-generation-config '{"temperature": 0.7, "top_p":0.8, "top_k":20, "repetition_penalty": 1.05}' --max-model-len 32768
```

启动完成后可通过以下方式访问:
```bash
curl http://x.x.x.x:8000/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "Kwaipilot/KAT-Dev",
        "messages": [
            {
                "role": "user",
                "content": "请介绍下自己."
                }
            ]
    }'
```

## result
<div align=center>
    <img src="./doc/result.png"/>
</div>

### 精度
DCU与GPU精度一致,推理框架:vllm。

## 应用场景
### 算法类别
对话问答

### 热点应用行业
制造,广媒,家居,教育

## 预训练权重
- [KAT-Dev](https://huggingface.co/Kwaipilot/KAT-Dev)

## 源码仓库及问题反馈
- https://developer.sourcefind.cn/codes/modelzoo/kat-dev-vllm

## 参考资料
- https://huggingface.co/Kwaipilot/KAT-Dev