"googlemock/include/gmock/vscode:/vscode.git/clone" did not exist on "d1143988003cad7be2f22cd2d9cc73ed2f256da4"
Commit 35c01b71 authored by chenych's avatar chenych
Browse files

Update README

parent 80186c8a
...@@ -13,15 +13,19 @@ GLM-4.6V 在训练中将上下文窗口扩展至 128k tokens,并在相近参 ...@@ -13,15 +13,19 @@ GLM-4.6V 在训练中将上下文窗口扩展至 128k tokens,并在相近参
除在主流多模态基准测试中达到同规模模型的 SoTA 性能外,GLM-4.6V 还引入了若干关键特性: 除在主流多模态基准测试中达到同规模模型的 SoTA 性能外,GLM-4.6V 还引入了若干关键特性:
- 原生多模态函数调用 - 原生多模态函数调用
支持原生的视觉驱动工具调用。图像、截图和文档页面可直接作为工具输入,无需转换为文本;同时,视觉输出(如图表、搜索图片、渲染页面)可被模型解析并整合进推理链路,从而实现从感知到理解再到执行的闭环。 支持原生的视觉驱动工具调用。图像、截图和文档页面可直接作为工具输入,无需转换为文本;同时,视觉输出(如图表、搜索图片、渲染页面)可被模型解析并整合进推理链路,从而实现从感知到理解再到执行的闭环。
- 交错式图文内容生成 - 交错式图文内容生成
支持基于复杂多模态输入生成高质量混合媒体内容。GLM-4.6V 能够处理包含文档、用户输入和工具检索图像在内的多模态上下文,并合成任务导向的、图文交错的连贯内容。在生成过程中,模型还能主动调用搜索与检索工具,收集并筛选额外的文本与视觉素材,产出丰富且视觉锚定的内容。 支持基于复杂多模态输入生成高质量混合媒体内容。GLM-4.6V 能够处理包含文档、用户输入和工具检索图像在内的多模态上下文,并合成任务导向的、图文交错的连贯内容。在生成过程中,模型还能主动调用搜索与检索工具,收集并筛选额外的文本与视觉素材,产出丰富且视觉锚定的内容。
- 多模态文档理解 - 多模态文档理解
GLM-4.6V 可处理最多 128K tokens 的多文档或长文档输入,直接将格式丰富的页面作为图像进行解析。它能联合理解文本、版式、图表、表格和插图,无需事先转换为纯文本,即可准确理解复杂且富含图像的文档。 GLM-4.6V 可处理最多 128K tokens 的多文档或长文档输入,直接将格式丰富的页面作为图像进行解析。它能联合理解文本、版式、图表、表格和插图,无需事先转换为纯文本,即可准确理解复杂且富含图像的文档。
- 前端复现与视觉编辑 - 前端复现与视觉编辑
可从 UI 截图重建像素级精确的 HTML/CSS 代码,并支持自然语言驱动的编辑。模型通过视觉方式识别布局、组件和样式,生成干净的代码,并可通过简单的用户指令进行迭代式的视觉修改。 可从 UI 截图重建像素级精确的 HTML/CSS 代码,并支持自然语言驱动的编辑。模型通过视觉方式识别布局、组件和样式,生成干净的代码,并可通过简单的用户指令进行迭代式的视觉修改。
## 环境依赖 ## 环境依赖
......
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment