README.md 4.64 KB
Newer Older
dongchy920's avatar
dongchy920 committed
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
# Qwen2.5-Coder
## 论文
- https://arxiv.org/pdf/2410.13187
## 模型结构
aiXcoder-7B 是一个轻量级且高效的代码大语言模型,专为代码补全、生成和理解设计。支持多种编程语言,包括Python、Java、C/C++、JavaScript、TypeScript、HTML等,适用于多种开发场景。官方文档未完全公开其详细的模型结构超参数。可以参考huggingface上公布的配置参数。
  
## 算法原理
aiXcoder-7B 的性能归功于以下关键训练策略:

多目标训练(Multi-objective Training):
- Next-Token Prediction (NTP):模拟从头编写代码,预测下一个 token。
- Fill-in-the-Middle (FIM):训练模型基于前后上下文预测中间代码片段,适合修改现有代码。
- Structured Fill-in-the-Middle (SFIM):创新的训练目标,基于语法树选择完整代码片段(如函数、循环块)作为 middle,提高生成完整代码的能力。  

数据采样策略:
- 考虑文件间关系(如文件内容相似性、依赖关系、路径相似性),增强跨文件上下文理解。  

数据处理:
- 数据收集流程包括爬取、清洗、去重、代码质量检查和敏感信息移除,处理 2.8TB 自然语言数据和 3.5TB 源代码数据。
- 数据覆盖多种编程语言,确保多语言支持。

## 环境配置
### Docker(方法一)
[光源](https://www.sourcefind.cn/#/service-list)中拉取docker镜像:
```
docker pull image.sourcefind.cn:5000/dcu/admin/base/custom:vllm0.8.5-ubuntu22.04-dtk25.04-rc7-das1.5-py3.10-20250521-fixpy-rocblas0521-beta2
```
创建容器并挂载目录进行开发:
```
docker run -it --name {name} --shm-size=1024G  --device=/dev/kfd --device=/dev/dri/ --privileged --cap-add=SYS_PTRACE --security-opt seccomp=unconfined --ulimit memlock=-1:-1 --ipc=host --network host --group-add video -v /opt/hyhal:/opt/hyhal:ro -v {}:{} {docker_image} /bin/bash
# 修改1 {name} 需要改为自定义名称  
# 修改2 {docker_image} 需要需要创建容器的对应镜像名称  
# 修改3 -v 挂载路径到容器指定路径
pip install -r requirements.txt
```
### Dockerfile(方法二)
```
cd docker
docker build --no-cache -t qwen2_5_coder:1.0 .
docker run -it --name {name} --shm-size=1024G  --device=/dev/kfd --device=/dev/dri/ --privileged --cap-add=SYS_PTRACE --security-opt seccomp=unconfined --ulimit memlock=-1:-1 --ipc=host --network host --group-add video -v /opt/hyhal:/opt/hyhal:ro -v {}:{} {docker_image} /bin/bash 
pip install -r requirements.txt
```
### Anaconda(方法三)
线上节点推荐使用conda进行环境配置。
创建python=3.10的conda环境并激活
```
conda create -n qwen2_5_coder python=3.10
conda activate qwen2_5_coder
```

关于本项目DCU显卡所需的特殊深度学习库可从[光合](https://developer.hpccube.com/tool/)开发者社区下载安装。
```
DTK驱动:dtk25.04
python:python3.10
pytorch:2.4.1
torchvision:0.19.1
sentencepiece>=0.2.0
```
安装其他依赖包
```
pip install -r requirements.txt
```

下载预训练权重文件:[HuggingFace下载](https://huggingface.co/aiXcoder/aixcoder-7b-base)   
可以通过huggingface-cli下载,下载命令:   
```
pip install -U huggingface_hub
export HF_ENDPOINT=https://hf-mirror.com
huggingface-cli download --resume-download aiXcoder/aixcoder-7b-base  --local-dir aiXcoder/aixcoder-7b-base
```
## 数据集 
微调数据集:[bigcode/the-stack-smol](bigcode/the-stack-smol)
可以通过huggingface-cli下载,下载命令:   
```
huggingface-cli download --repo-type dataset --resume-download bigcode/the-stack-smol --local-dir bigcode/the-stack-smol
```
## 训练
```
# 注意:
accelerate launch finetune.py \
        --model_id "aiXcoder/aixcoder-7b-base" \
        --dataset_name "bigcode/the-stack-smol" \
        --subset "data/rust" \
        --dataset_text_field "content" \
        --split "train" \
        --max_seq_length 1024 \
        --max_steps 100 \
        --micro_batch_size 1 \
        --gradient_accumulation_steps 8 \
        --learning_rate 5e-6 \
        --warmup_steps 20 \
        --fim_rate 0.5 \
        --num_proc "$(nproc)"
```

## 推理
```
# 注意:修改为自己的模型路径
python sess_huggingface.py
```

## result
<div align=center>
    <img src="./assets/infer.png"/>
</div> 

## 精度
DCU与GPU精度一致,推理框架:pytorch。

## 应用场景
### 算法类别
代码生成

### 热点应用行业
代码生成,代码修改,教育

## 源码仓库及问题反馈
dongchy920's avatar
dongchy920 committed
118
[https://developer.sourcefind.cn/codes/modelzoo/qwen2.5_coder](https://developer.sourcefind.cn/codes/dongchy920/qwen2.5_coder)
dongchy920's avatar
dongchy920 committed
119
## 参考资料
dongchy920's avatar
dongchy920 committed
120
[https://github.com/aixcoder-plugin/aiXcoder-7B](https://github.com/aixcoder-plugin/aiXcoder-7B)  
dongchy920's avatar
dongchy920 committed
121
122