# Gemma-4 ## 论文 [gemma-4](https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/) ## 模型简介 Gemma 4 模型是多模态模型,用于处理文本和图片输入(小型模型支持音频输入)以及生成文本输出。此版本包含预训练和指令调优的开放权重模型。Gemma 4 的上下文窗口最多可容纳 25.6 万个 token,并支持 140 多种语言。 Gemma 4 同时采用密集型架构和混合专家 (MoE) 架构,非常适合文本生成、编码和推理等任务。这些模型有四种不同的规模:E2B、E4B、26B A4B 和 31B。这些模型的大小各异,因此可部署在从高端手机到笔记本电脑和服务器的各种环境中,从而让更多人能够使用最先进的 AI。 Gemma 4 引入了关键的功能和架构改进: - **推理** - 该系列中的所有模型都设计为高能力推理器,具有可配置的思考模式。 - **扩展的多模态功能** - 处理文本、支持可变宽高比和分辨率的图片(所有型号)、视频和音频(在 E2B 和 E4B 型号上原生支持)。 - **多样化且高效的架构** - 提供不同大小的密集型和混合专家 (MoE) 变体,以实现可伸缩的部署。 - **针对设备端进行了优化** - 较小的模型专为在笔记本电脑和移动设备上高效本地执行而设计。 - **更大的上下文窗口** - 小型模型的上下文窗口为 12.8 万个 token,中型模型的上下文窗口为 25.6 万个 token。 - **增强的编码和智能体功能** - 在编码基准方面取得了显著改进,同时支持原生函数调用,可打造功能强大的自主代理。 - **原生系统提示支持** - Gemma 4 引入了对 system 角色的原生支持,从而实现更结构化和可控的对话。 ## 环境依赖 | 软件 | 版本 | | :------: |:-------:| | DTK | 26.04 | | python | 3.10.12 | | transformers | 5.5.0 | | vllm | 0.18.1+das.3266200.dtk2604 | | triton | 3.4.0+git1ef59765 | | torch | 2.10.0+das.opt1.dtk2604.20260325.g6b060a | 当前仅支持定制镜像: harbor.sourcefind.cn:5443/dcu/admin/base/custom:vllm018-ubuntu22.04-dtk26.04-gemma4-0413 - 挂载地址`-v` 根据实际模型情况修改 ```bash docker run -it \ --shm-size 200g \ --network=host \ --name gemma-4 \ --privileged \ --device=/dev/kfd \ --device=/dev/dri \ --device=/dev/mkfd \ --group-add video \ --cap-add=SYS_PTRACE \ --security-opt seccomp=unconfined \ -u root \ -v /opt/hyhal/:/opt/hyhal/:ro \ -v /path/your_code_data/:/path/your_code_data/ \ harbor.sourcefind.cn:5443/dcu/admin/base/custom:vllm018-ubuntu22.04-dtk26.04-gemma4-0413 bash ``` 更多镜像可前往[光源](https://sourcefind.cn/#/service-list)下载使用。 关于本项目DCU显卡所需的特殊深度学习库可从[光合](https://developer.sourcefind.cn/tool/)开发者社区下载安装。 ## 数据集 暂无 ## 训练 暂无 ## 推理 ### vllm #### 单机推理 ```bash ## serve启动 vllm serve google/gemma-4-31B-it \ -tp 2 \ --attention-backend TRITON_ATTN \ --trust-remote-code \ --enable-prefix-caching \ --enable-chunked-prefill \ --reasoning-parser gemma4 \ --tool-call-parser gemma4 \ --enable-auto-tool-choice ## client访问 curl http://localhost:8000/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "google/gemma-4-31B-it", "messages": [ {"role": "user", "content": "which one is bigger, 9.11 or 9.9? think carefully"} ], "temperature": 0.6 }' ``` ## 效果展示
### 精度 DCU与GPU精度一致,推理框架:vllm。 ## 预训练权重 | 模型名称 | 权重大小 | DCU型号 | 最低卡数需求 | 下载地址 | |:------:|:----:|:------:|:------:|:---------------------:| | gemma-4-31B-it | 31B | BW1000 | 2 | [Hugging Face](https://huggingface.co/google/gemma-4-31B-it) | ## 源码仓库及问题反馈 - https://developer.sourcefind.cn/codes/modelzoo/gemma-4_vllm ## 参考资料 - https://github.com/google-gemma