# 量化

lightx2v支持对linear进行量化推理，支持w8a8和fp8的矩阵乘法。


### 运行量化推理

```shell
# 修改脚本中的路径
bash scripts/run_wan_t2v_save_quant.sh
```

脚本中，有两个执行命令：

#### save quantization weight

将`RUNNING_FLAG`环境变量设置成`save_naive_quant`，`--config_json`指向到该`json`文件: `${lightx2v_path}/configs/wan_t2v_save_quant.json`，其中`quant_model_path`会保存下量化的模型的路径

#### load quantization weight and inference

将`RUNNING_FLAG`环境变量设置成`infer`，`--config_json`指向到第一步中的`json`文件

### 启动量化服务

在存好量化权重之后，和上一步加载步骤一样，将`RUNNING_FLAG`环境变量设置成`infer`，`--config_json`指向到第一步中的`json`文件

比如，将`scripts/start_server.sh`脚本进行如下改动：

```shell
export RUNNING_FLAG=infer

python -m lightx2v.api_server \
--model_cls wan2.1 \
--task t2v \
--model_path $model_path \
--config_json ${lightx2v_path}/configs/wan_t2v_save_quant.json \
--port 8000
```