Skip to content
GitLab
Menu
Projects
Groups
Snippets
Loading...
Help
Help
Support
Community forum
Keyboard shortcuts
?
Submit feedback
Contribute to GitLab
Sign in / Register
Toggle navigation
Menu
Open sidebar
tsoc
DataAnalysis
Commits
aea23701
Commit
aea23701
authored
Mar 17, 2026
by
sharkgene@qq.com
Browse files
add configuration sample file
parent
c6af0bca
Changes
3
Show whitespace changes
Inline
Side-by-side
Showing
3 changed files
with
26 additions
and
4 deletions
+26
-4
README.md
README.md
+10
-3
plot_comparison.py
plot_comparison.py
+8
-1
sample.json
sample.json
+8
-0
No files found.
README.md
View file @
aea23701
# DataAnalysis
## 概述
将大模型推理测试生成的excel数据文件,按照特定方式生成柱状图进行比较
配置文件data_config.json示例说明:
...
...
@@ -25,15 +26,16 @@
]
}
filter: 过滤条件,不设置或者为空则不过滤
filter: 过滤条件,不设置或者为空则不过滤
, 主要用于复杂大表时只选择关注的数据
dist_cols: 选择输出文件的条件,例如["模型", "卡类型", "卡数"]则将相同的模型、卡类型和卡数的所有数据生成以个文件
group_cols: 可以进行最多2重分组,每层一个图,第2层以不同柱状显示数据。如果命令行参数指定合并,则所有合成一个图,分组之间间隔开
key_cols: 分组内的键值
metric_cols: 度量列,不设置缺省上述4个,会将所有非数值格式转换为0
files: 指定文件信息, 可以使用多个文件
files: 指定文件信息, 可以使用多个文件
(可以参考sample.json)
file: 文件名
sheets: 可以指定处理的sheet,不指定则遍历所有
column_mapping: 列名重映射,用于处理多个文件时表头信息略有差异的情况
column_mapping: 列名重映射,用于处理多个文件时表头信息略有差异的情况, 其他字段以重映射后的名字为准
column_replace: 数据替换,用于处理不同文件命名规则不一致的情形, 过滤数据内容以替换后的为准
参考配置说明:
```
...
...
@@ -50,4 +52,9 @@ options:
--输出目录 输出目录, -d 输出目录 输出图表目录
--合并分组, -m 将第一层分组合并到一张图中
```
## ToDo:
1、对度量列的数据,如果非数值类型,会直接设置为默认0,如果看柱状图发现异常可能是数据原因
2、如果根据条件筛选出来的有多组数据,目前是计算的平均值,需要注意避免因此得出错误的结论
3、目前仅内置了几组color_palette,如果出现重复或者想改配色,直接修改代码
##
plot_comparison.py
View file @
aea23701
...
...
@@ -96,9 +96,16 @@ def generate_chart(df_subset, output_path, colkey, outer_group_cols, inner_group
engine_values
=
df_grouped
[
compare_col
].
unique
()
n_engines
=
len
(
engine_values
)
# 设置配色
color_palette
=
[
'#2E86AB'
,
'#A23B72'
,
'#F18F01'
,
'#C73E1D'
,
'#3B1F2B'
,
'#95C623'
,
'#7B2D26'
]
colors
=
[
color_palette
[
i
%
len
(
color_palette
)]
for
i
in
range
(
n_engines
)]
#seaborn_pastel = ['#a1c9f4', '#ffb482', '#8de5a1', '#ff9f9b', '#d0bbff', '#debb9b', '#fab0e4', '#cfcfcf', '#fffea3', '#b9f2f0' ]
#colors = [seaborn_pastel[i % len(seaborn_pastel)] for i in range(n_engines)]
#seaborn_default = ['#4c72b0', '#dd8452', '#55a868', '#c44e52', '#8172b3', '#937860', '#da8bc3', '#8c8c8c', '#ccb974', '#64b5cd' ]
#colors = [seaborn_default[i % len(seaborn_default)] for i in range(n_engines)]
if
merge_groups
and
n_outer
>
1
:
fig
,
axes
=
plt
.
subplots
(
1
,
4
,
figsize
=
(
8
*
n_outer
+
20
,
10
))
...
...
sample.json
View file @
aea23701
...
...
@@ -16,6 +16,14 @@
},
"column_replace"
:
{
"模型"
:{
"Qwen3_14B"
:
"Qwen3-14B"
,
"Qwen3_32B"
:
"Qwen3-32B"
}
}
},
{
"file"
:
"bw100.xlsx"
,
"sheets"
:
[],
"column_mapping"
:
{
"卡类型"
:
"卡型号"
},
"column_replace"
:
{
"模型"
:{
"Qwen3_14B"
:
"Qwen3-14B"
,
"Qwen3_32B"
:
"Qwen3-32B"
}
}
}
]
}
Write
Preview
Markdown
is supported
0%
Try again
or
attach a new file
.
Attach a file
Cancel
You are about to add
0
people
to the discussion. Proceed with caution.
Finish editing this message first!
Cancel
Please
register
or
sign in
to comment