Update README

35c01b71 · chenych · 80186c8a · 35c01b71
Commit 35c01b71 authored Mar 03, 2026 by chenych
Hide whitespace changes
Inline Side-by-side

Showing with 4 additions and 0 deletions

README.md README.md +4 -0

No files found.
--- a/README.md
+++ b/README.md
@@ -13,15 +13,19 @@ GLM-4.6V 在训练中将上下文窗口扩展至 128k tokens，并在相近参
 除在主流多模态基准测试中达到同规模模型的 SoTA 性能外，GLM-4.6V 还引入了若干关键特性：
 - 原生多模态函数调用
 支持原生的视觉驱动工具调用。图像、截图和文档页面可直接作为工具输入，无需转换为文本；同时，视觉输出（如图表、搜索图片、渲染页面）可被模型解析并整合进推理链路，从而实现从感知到理解再到执行的闭环。
 - 交错式图文内容生成
 支持基于复杂多模态输入生成高质量混合媒体内容。GLM-4.6V 能够处理包含文档、用户输入和工具检索图像在内的多模态上下文，并合成任务导向的、图文交错的连贯内容。在生成过程中，模型还能主动调用搜索与检索工具，收集并筛选额外的文本与视觉素材，产出丰富且视觉锚定的内容。
 - 多模态文档理解
 GLM-4.6V 可处理最多 128K tokens 的多文档或长文档输入，直接将格式丰富的页面作为图像进行解析。它能联合理解文本、版式、图表、表格和插图，无需事先转换为纯文本，即可准确理解复杂且富含图像的文档。
 - 前端复现与视觉编辑
 可从 UI 截图重建像素级精确的 HTML/CSS 代码，并支持自然语言驱动的编辑。模型通过视觉方式识别布局、组件和样式，生成干净的代码，并可通过简单的用户指令进行迭代式的视觉修改。
 ## 环境依赖