Commit 40c068b8 authored by zzg_666's avatar zzg_666
Browse files

修改

parent 51e49293
...@@ -3,8 +3,8 @@ ...@@ -3,8 +3,8 @@
[HER-RM](https://arxiv.org/pdf/2601.21459) [HER-RM](https://arxiv.org/pdf/2601.21459)
## 模型简介 ## 模型简介
HER-RM 是一款专为评估角色扮演回复而设计的生成式奖励模型。与输出单一标量分数的传统奖励模型不同,HER‑RM 能基于对话上下文动态生成场景化的评估准则,并提供详细的对比分析。 HER-RM 是一款专为评估角色扮演回复而设计的生成式奖励模型。与输出单一标量分数的传统奖励模型不同,HER‑RM 能基于对话上下文动态生成场景化的评估准则,并提供详细的对比分析。
核心特性: 核心特性:
🎯 **情境感知评估**:根据对话上下文动态生成评估准则 🎯 **情境感知评估**:根据对话上下文动态生成评估准则
📝 **精细化分析**:逐条准则进行推理对比分析 📝 **精细化分析**:逐条准则进行推理对比分析
🔄 **成对比较**:比较两个候选回复并判定优胜者 🔄 **成对比较**:比较两个候选回复并判定优胜者
......
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment