Skip to content
GitLab
Menu
Projects
Groups
Snippets
Loading...
Help
Help
Support
Community forum
Keyboard shortcuts
?
Submit feedback
Contribute to GitLab
Sign in / Register
Toggle navigation
Menu
Open sidebar
ModelZoo
GLM-4.6V_vllm
Commits
35c01b71
Commit
35c01b71
authored
Mar 03, 2026
by
chenych
Browse files
Update README
parent
80186c8a
Changes
1
Show whitespace changes
Inline
Side-by-side
Showing
1 changed file
with
4 additions
and
0 deletions
+4
-0
README.md
README.md
+4
-0
No files found.
README.md
View file @
35c01b71
...
...
@@ -13,15 +13,19 @@ GLM-4.6V 在训练中将上下文窗口扩展至 128k tokens,并在相近参
除在主流多模态基准测试中达到同规模模型的 SoTA 性能外,GLM-4.6V 还引入了若干关键特性:
-
原生多模态函数调用
支持原生的视觉驱动工具调用。图像、截图和文档页面可直接作为工具输入,无需转换为文本;同时,视觉输出(如图表、搜索图片、渲染页面)可被模型解析并整合进推理链路,从而实现从感知到理解再到执行的闭环。
-
交错式图文内容生成
支持基于复杂多模态输入生成高质量混合媒体内容。GLM-4.6V 能够处理包含文档、用户输入和工具检索图像在内的多模态上下文,并合成任务导向的、图文交错的连贯内容。在生成过程中,模型还能主动调用搜索与检索工具,收集并筛选额外的文本与视觉素材,产出丰富且视觉锚定的内容。
-
多模态文档理解
GLM-4.6V 可处理最多 128K tokens 的多文档或长文档输入,直接将格式丰富的页面作为图像进行解析。它能联合理解文本、版式、图表、表格和插图,无需事先转换为纯文本,即可准确理解复杂且富含图像的文档。
-
前端复现与视觉编辑
可从 UI 截图重建像素级精确的 HTML/CSS 代码,并支持自然语言驱动的编辑。模型通过视觉方式识别布局、组件和样式,生成干净的代码,并可通过简单的用户指令进行迭代式的视觉修改。
## 环境依赖
...
...
Write
Preview
Markdown
is supported
0%
Try again
or
attach a new file
.
Attach a file
Cancel
You are about to add
0
people
to the discussion. Proceed with caution.
Finish editing this message first!
Cancel
Please
register
or
sign in
to comment