init

24b257f1 · sunzhq2 · 920b3c0f · 24b257f1 · 24b257f1 · 24b257f1
Commit 24b257f1 authored Nov 19, 2024 by sunzhq2
20 changed files
--- a/ByteMLPerf/byte_infer_perf/general_perf/model_zoo/resnet50-onnxruntime-fp32.json
+++ b/ByteMLPerf/byte_infer_perf/general_perf/model_zoo/resnet50-onnxruntime-fp32.json
+{
+    "model": "resnet50-onnxruntime-fp32",
+    "model_path": "general_perf/model_zoo/regular/open_resnet50/resnet50-torch-fp32.onnx", 
+    "framework": "Onnx",
+    "framework_version": "2.13.1",
+    "model_format": "pt",
+    "model_precision": "FP32",
+    "inputs": "input_1.1",
+    "outputs": "softmax_tensor:0",
+    "input_shape":  {"input_1.1": [1, 3, 224, 224]},
+    "input_type": "FLOAT32",
+    "dataset_name": "open_imagenet",
+    "max_batch_size": 1024,
+    "layout": "NCHW"
+}
--- a/ByteMLPerf/byte_infer_perf/general_perf/model_zoo/resnet50-tf-fp32.json
+++ b/ByteMLPerf/byte_infer_perf/general_perf/model_zoo/resnet50-tf-fp32.json
+{
+    "model": "resnet50-tf-fp32",
+    "model_path": "general_perf/model_zoo/regular/open_resnet50/resnet50-fp32",
+    "framework": "Tensorflow",
+    "framework_version": "2.4.0",
+    "model_format": "saved_model",
+    "model_precision": "FP32",
+    "inputs": "input_tensor:0",
+    "outputs": "softmax_tensor:0",
+    "input_shape": {"input_tensor:0": [1, 224, 224, 3]},
+    "input_type": "FLOAT32",
+    "dataset_name": "open_imagenet",
+    "max_batch_size": 64,
+    "layout": "NHWC"
+}
\ No newline at end of file
--- a/ByteMLPerf/byte_infer_perf/general_perf/model_zoo/resnet50-torch-fp16.json
+++ b/ByteMLPerf/byte_infer_perf/general_perf/model_zoo/resnet50-torch-fp16.json
+{
+    "model": "resnet50-torch-fp16",
+    "model_path": "general_perf/model_zoo/regular/open_resnet50/resnet50.pt",
+    "framework": "Pytorch",
+    "framework_version": "1.8.1",
+    "model_format": "pt",
+    "model_precision": "FP16",
+    "inputs": "input_1.1",
+    "outputs": "softmax_tensor:0",
+    "input_shape":  {"input_1.1": [1, 3, 224, 224]},
+    "input_type": "FLOAT16",
+    "dataset_name": "open_imagenet",
+    "max_batch_size": 1024,
+    "layout": "NCHW"
+}
--- a/ByteMLPerf/byte_infer_perf/general_perf/model_zoo/resnet50-torch-fp32.json
+++ b/ByteMLPerf/byte_infer_perf/general_perf/model_zoo/resnet50-torch-fp32.json
+{
+    "model": "resnet50-torch-fp32",
+    "model_path": "general_perf/model_zoo/regular/open_resnet50/resnet50.pt",
+    "framework": "Pytorch",
+    "framework_version": "2.1.2+cu118",
+    "model_format": "pt",
+    "model_precision": "FP32",
+    "inputs": "input_1.1",
+    "outputs": "softmax_tensor:0",
+    "input_shape":  {"input_1.1": [1, 3, 224, 224]},
+    "input_type": "FLOAT32",
+    "dataset_name": "open_imagenet",
+    "max_batch_size": 1024,
+    "layout": "NCHW"
+}
--- a/ByteMLPerf/byte_infer_perf/general_perf/model_zoo/roberta-torch-fp32.json
+++ b/ByteMLPerf/byte_infer_perf/general_perf/model_zoo/roberta-torch-fp32.json
+{
+    "model": "roberta-torch-fp32",
+    "model_path": "general_perf/model_zoo/popular/open_roberta/roberta-base-squad.pt",
+    "framework": "Pytorch",
+    "framework_version": "2.1.2+cu118",
+    "model_format": "pt",
+    "model_precision": "FP32",
+    "inputs":"input_ids.1,attention_mask.1,token_type_ids.1",
+    "outputs":"start_logits,end_logits",
+    "input_shape": {"input_ids.1": [1,384], "attention_mask.1": [1,384], "token_type_ids.1": [1,384]},
+    "input_type": "LONG,LONG,LONG",
+    "dataset_name": "open_squad",
+    "max_batch_size": 64,
+    "is_quantized": false
+}
\ No newline at end of file
--- a/ByteMLPerf/byte_infer_perf/general_perf/model_zoo/roformer-tf-fp32.json
+++ b/ByteMLPerf/byte_infer_perf/general_perf/model_zoo/roformer-tf-fp32.json
+{
+    "model": "roformer-tf-fp32",
+    "model_path": "general_perf/model_zoo/popular/open_roformer",
+    "framework": "Tensorflow",
+    "framework_version": "2.4.0",
+    "model_format": "saved_model",
+    "model_precision": "FP32",
+    "inputs": "input_segment:0,input_token:0",
+    "outputs": "Identity:0",
+    "input_shape": {"input_segment:0": [1, 1024], "input_token:0": [1, 1024]},
+    "input_type": "FLOAT32,FLOAT32",
+    "dataset_name": "open_cail2019",
+    "max_batch_size": 64
+}
\ No newline at end of file
--- a/ByteMLPerf/byte_infer_perf/general_perf/model_zoo/swin-large-torch-fp32.json
+++ b/ByteMLPerf/byte_infer_perf/general_perf/model_zoo/swin-large-torch-fp32.json
+{
+    "model": "swin-large-torch-fp32",
+    "model_path": "general_perf/model_zoo/popular/swin-large/swin-transformer-large.pt",
+    "framework": "Pytorch",
+    "framework_version": "1.12.0",
+    "model_format": "pt",
+    "model_precision": "FP32",
+    "inputs":"pixel_values.1",
+    "outputs":"logits",
+    "input_shape": {"pixel_values.1": [1,3,384,384]},
+    "input_type": "FLOAT32",
+    "dataset_name": "open_imagenet",
+    "max_batch_size": 64,
+    "is_quantized": false
+}
--- a/ByteMLPerf/byte_infer_perf/general_perf/model_zoo/unet-onnx-fp32.json
+++ b/ByteMLPerf/byte_infer_perf/general_perf/model_zoo/unet-onnx-fp32.json
+{
+    "model": "unet-onnx-fp32",
+    "model_path": "general_perf/model_zoo/sota/unet/model.onnx",
+    "framework": "Onnx",
+    "framework_version": "1.12.0",
+    "model_format": "onnx",
+    "model_precision": "FP32",
+    "inputs":"sample,timestep,encoder_hidden_states",
+    "outputs":"out_sample",
+    "input_shape": {"sample": [1,4,32,32],"timestep":[1],"encoder_hidden_states":[1,77,768]},
+    "input_type": "FLOAT32,INT64,FLOAT32",
+    "dataset_name": null,
+    "max_batch_size": 64,
+    "is_quantized": false
+}
\ No newline at end of file
--- a/ByteMLPerf/byte_infer_perf/general_perf/model_zoo/vae-decoder-onnx-fp32.json
+++ b/ByteMLPerf/byte_infer_perf/general_perf/model_zoo/vae-decoder-onnx-fp32.json
+{
+    "model": "vae-decoder-onnx-fp32",
+    "model_path": "general_perf/model_zoo/sota/stable_diffusion/vae-decoder.onnx",
+    "framework": "Onnx",
+    "framework_version": "1.12.0",
+    "model_format": "onnx",
+    "model_precision": "FP32",
+    "inputs":"latent_sample",
+    "outputs":"Convsample_dim_0,Convsample_dim_1,Convsample_dim_2,Convsample_dim_3",
+    "input_shape": {"latent_sample": [1,4,32,32]},
+    "input_type": "FLOAT32",
+    "dataset_name": null,
+    "max_batch_size": 64,
+    "is_quantized": false
+}
--- a/ByteMLPerf/byte_infer_perf/general_perf/model_zoo/vae-encoder-onnx-fp32.json
+++ b/ByteMLPerf/byte_infer_perf/general_perf/model_zoo/vae-encoder-onnx-fp32.json
+{
+    "model": "vae-encoder-onnx-fp32",
+    "model_path": "general_perf/model_zoo/sota/stable_diffusion/vae-encoder.onnx",
+    "framework": "Onnx",
+    "framework_version": "1.12.0",
+    "model_format": "onnx",
+    "model_precision": "FP32",
+    "inputs":"sample",
+    "outputs":"latent_sample",
+    "input_shape": {"sample": [1,3,256,256]},
+    "input_type": "FLOAT32",
+    "dataset_name": null,
+    "max_batch_size": 64,
+    "is_quantized": false
+}
\ No newline at end of file
--- a/ByteMLPerf/byte_infer_perf/general_perf/model_zoo/videobert-onnx-fp16.json
+++ b/ByteMLPerf/byte_infer_perf/general_perf/model_zoo/videobert-onnx-fp16.json
+{
+    "model": "videobert-onnx-fp16",
+    "model_path": "general_perf/model_zoo/popular/open_videobert/video-bert.onnx",
+    "framework": "Onnx",
+    "framework_version": "1.8.1",
+    "model_format": "onnx",
+    "model_precision": "FP16",
+    "inputs":"image,text",
+    "outputs":"output",
+    "input_shape": {"image": [1,3,224,224], "text": [100, 77]},
+    "input_type": "FLOAT32,LONG",
+    "dataset_name": "open_cifar",
+    "max_batch_size": 64,
+    "is_quantized": false
+}
\ No newline at end of file
--- a/ByteMLPerf/byte_infer_perf/general_perf/model_zoo/videobert-onnx-fp32.json
+++ b/ByteMLPerf/byte_infer_perf/general_perf/model_zoo/videobert-onnx-fp32.json
+{
+    "model": "videobert-onnx-fp32",
+    "model_path": "general_perf/model_zoo/popular/open_videobert/video-bert.onnx",
+    "framework": "Onnx",
+    "framework_version": "1.8.1",
+    "model_format": "onnx",
+    "model_precision": "FP32",
+    "inputs":"image,text",
+    "outputs":"output",
+    "input_shape": {"image": [1,3,224,224], "text": [100, 77]},
+    "input_type": "FLOAT32,LONG",
+    "dataset_name": "open_cifar",
+    "max_batch_size": 64,
+    "is_quantized": false
+}
\ No newline at end of file
--- a/ByteMLPerf/byte_infer_perf/general_perf/model_zoo/widedeep-onnxruntime-fp16.json
+++ b/ByteMLPerf/byte_infer_perf/general_perf/model_zoo/widedeep-onnxruntime-fp16.json
+{
+    "model": "widedeep-tf-fp16",
+    "model_path": "general_perf/model_zoo/regular/open_wide_deep_saved_model",
+    "framework": "Onnx",
+    "framework_version": "2.13.1",
+    "model_format": "saved_model",
+    "model_precision": "FP16",
+    "inputs": "new_categorical_placeholder:0,new_numeric_placeholder:0",
+    "outputs": "import/head/predictions/probabilities:0",
+    "input_shape": {"new_categorical_placeholder:0": [26, 2], "new_numeric_placeholder:0": [1, 13]},
+    "input_type": "INT64,FLOAT32",
+    "dataset_name": "open_criteo_kaggle",
+    "max_batch_size": 260000
+}
\ No newline at end of file
--- a/ByteMLPerf/byte_infer_perf/general_perf/model_zoo/widedeep-tf-fp16.json
+++ b/ByteMLPerf/byte_infer_perf/general_perf/model_zoo/widedeep-tf-fp16.json
+{
+    "model": "widedeep-tf-fp16",
+    "model_path": "general_perf/model_zoo/regular/open_wide_deep_saved_model",
+    "framework": "Tensorflow",
+    "framework_version": "2.13.1",
+    "model_format": "saved_model",
+    "model_precision": "FP16",
+    "inputs": "new_categorical_placeholder:0,new_numeric_placeholder:0",
+    "outputs": "import/head/predictions/probabilities:0",
+    "input_shape": {"new_categorical_placeholder:0": [26, 2], "new_numeric_placeholder:0": [1, 13]},
+    "input_type": "INT64,FLOAT32",
+    "dataset_name": "open_criteo_kaggle",
+    "max_batch_size": 260000
+}
\ No newline at end of file
--- a/ByteMLPerf/byte_infer_perf/general_perf/model_zoo/widedeep-tf-fp32.json
+++ b/ByteMLPerf/byte_infer_perf/general_perf/model_zoo/widedeep-tf-fp32.json
+{
+    "model": "widedeep-tf-fp32",
+    "model_path": "general_perf/model_zoo/regular/open_wide_deep_saved_model",
+    "framework": "Tensorflow",
+    "framework_version": "2.13.1",
+    "model_format": "saved_model",
+    "model_precision": "FP32",
+    "inputs": "new_categorical_placeholder:0,new_numeric_placeholder:0",
+    "outputs": "import/head/predictions/probabilities:0",
+    "input_shape": {"new_categorical_placeholder:0": [26, 2], "new_numeric_placeholder:0": [1, 13]},
+    "input_type": "INT64,FLOAT32",
+    "dataset_name": "open_criteo_kaggle",
+    "max_batch_size": 260000
+}
\ No newline at end of file
--- a/ByteMLPerf/byte_infer_perf/general_perf/model_zoo/yolov5-onnx-fp32.json
+++ b/ByteMLPerf/byte_infer_perf/general_perf/model_zoo/yolov5-onnx-fp32.json
+{
+    "model": "yolov5-onnx-fp32",
+    "model_path": "general_perf/model_zoo/popular/open_yolov5/yolov5s.onnx",
+    "framework": "Onnx",
+    "framework_version": "1.10.2",
+    "model_format": "onnx",
+    "model_precision": "FP32",
+    "inputs":"images",
+    "outputs":"output,345,403,461",
+    "input_shape": {"images": [1,3,640,640]},
+    "input_type": "FLOAT32",
+    "dataset_name": null,
+    "max_batch_size": 64
+}
\ No newline at end of file
--- a/ByteMLPerf/byte_infer_perf/general_perf/onnx.sh
+++ b/ByteMLPerf/byte_infer_perf/general_perf/onnx.sh
+#!/bin/bash
+# # 定义输入模型路径和输出模型路径的基本部分
+# input_model="./model_zoo/regular/open_resnet50/resnet50-torch-fp32.onnx"
+# output_model_base="./model_zoo/regular/open_resnet50/resnet50-mir-fp32"
+# # 定义不同的批量大小
+# batch_sizes=(1 32 64 128 256 512 1024 2048)  # 根据需要可以调整
+# # 循环遍历每个批量大小
+# for bs in "${batch_sizes[@]}"; do
+#     # 构造输出模型文件名
+#     output_model="${output_model_base}-${bs}.onnx"
+#     # 构造 input_shape_dict
+#     input_shape_dict="{'input_1.1': [${bs}, 3, 224, 224]}"
+#     # 执行转换命令
+#     command="python -m paddle2onnx.optimize --input_model ${input_model} --output_model ${output_model} --input_shape_dict=\"${input_shape_dict}\""
+#     # 打印命令以供调试
+#     echo "Executing: ${command}"
+#     # 执行命令
+#     eval "${command}"
+# done
+# # 定义输入模型路径和输出模型路径的基本部分
+# input_model="./model_zoo/regular/open_resnet50/resnet50-torch-fp16.onnx"
+# output_model_base="./model_zoo/regular/open_resnet50/resnet50-mir-fp16"
+# # 定义不同的批量大小
+# batch_sizes=(1 32 64 128 256 512 1024 2048)  # 根据需要可以调整
+# # 循环遍历每个批量大小
+# for bs in "${batch_sizes[@]}"; do
+#     # 构造输出模型文件名
+#     output_model="${output_model_base}-${bs}.onnx"
+#     # 构造 input_shape_dict
+#     input_shape_dict="{'input_1.1': [${bs}, 3, 224, 224]}"
+#     # 执行转换命令
+#     command="python -m paddle2onnx.optimize --input_model ${input_model} --output_model ${output_model} --input_shape_dict=\"${input_shape_dict}\""
+#     # 打印命令以供调试
+#     echo "Executing: ${command}"
+#     # 执行命令
+#     eval "${command}"
+# done
+# 定义输入模型路径和输出模型路径的基本部分
+input_model="/home/workspace/ByteMLPerf/byte_infer_perf/general_perf/test/bert-best-fp16.onnx"
+output_model_base="/home/workspace/ByteMLPerf/byte_infer_perf/general_perf/test/bert-mir-fp16"
+# 定义不同的批量大小
+batch_sizes=(1 32 64 128)  # 根据需要可以调整
+# 循环遍历每个批量大小
+for bs in "${batch_sizes[@]}"; do
+    # 构造输出模型文件名
+    output_model="${output_model_base}-${bs}.onnx"
+    # 构造 input_shape_dict
+    input_shape_dict="{'input_ids.1': [${bs},384], 'attention_mask.1': [${bs},384], 'token_type_ids.1': [${bs},384]}"
+    # 执行转换命令
+    command="python -m paddle2onnx.optimize --input_model ${input_model} --output_model ${output_model} --input_shape_dict=\"${input_shape_dict}\""
+    # 打印命令以供调试
+    echo "Executing: ${command}"
+    # 执行命令
+    eval "${command}"
+done
+# 定义输入模型路径和输出模型路径的基本部分
+# input_model="./model_zoo/regular/open_wide_deep_saved_model/widedeep-onnx-fp32.onnx"
+# output_model_base="./model_zoo/regular/open_wide_deep_saved_model/widedeep-mir-fp32"
+# # 定义不同的批量大小
+# # batch_sizes=(1 1024 20000 40000 80000 120000)  # 根据需要可以调整
+# batch_sizes=(140000 160000 180000 200000 220000 240000 260000)
+# # 循环遍历每个批量大小
+# for bs in "${batch_sizes[@]}"; do
+#     new_value=$((bs * 26))
+#     # 构造输出模型文件名
+#     output_model="${output_model_base}-${bs}.onnx"
+#     # 构造 input_shape_dict
+#     input_shape_dict="{'new_categorical_placeholder:0': [${new_value}, 2], 'new_numeric_placeholder:0': [${bs}, 13]}"
+#     # 执行转换命令
+#     command="python -m paddle2onnx.optimize --input_model ${input_model} --output_model ${output_model} --input_shape_dict=\"${input_shape_dict}\""
+#     # 打印命令以供调试
+#     echo "Executing: ${command}"
+#     # 执行命令
+#     eval "${command}"
+# done
+# 定义输入模型路径和输出模型路径的基本部分
+# input_model="./model_zoo/regular/open_wide_deep_saved_model/widedeep-onnx-fp16.onnx"
+# output_model_base="./model_zoo/regular/open_wide_deep_saved_model/widedeep-mir-fp16"
+# # 定义不同的批量大小
+# # batch_sizes=(1 1024 20000 40000 80000 120000)  # 根据需要可以调整
+# batch_sizes=(1 1024 20000 40000 80000 120000 140000 160000 180000 200000 220000 240000 260000)
+# # 循环遍历每个批量大小
+# for bs in "${batch_sizes[@]}"; do
+#     new_value=$((bs * 26))
+#     # 构造输出模型文件名
+#     output_model="${output_model_base}-${bs}.onnx"
+#     # 构造 input_shape_dict
+#     input_shape_dict="{'new_categorical_placeholder:0': [${new_value}, 2], 'new_numeric_placeholder:0': [${bs}, 13]}"
+#     # 执行转换命令
+#     command="python -m paddle2onnx.optimize --input_model ${input_model} --output_model ${output_model} --input_shape_dict=\"${input_shape_dict}\""
+#     # 打印命令以供调试
+#     echo "Executing: ${command}"
+#     # 执行命令
+#     eval "${command}"
+# done
--- a/ByteMLPerf/byte_infer_perf/general_perf/prepare_model_and_dataset.sh
+++ b/ByteMLPerf/byte_infer_perf/general_perf/prepare_model_and_dataset.sh
+#!/bin/bash
+echo "******************* Downloading Model....  *******************"
+mkdir -p general_perf/model_zoo/regular
+mkdir -p general_perf/model_zoo/popular
+mkdir -p general_perf/model_zoo/sota
+mkdir -p general_perf/download
+#--Basic Model--
+# https://lf-bytemlperf.17mh.cn/obj/bytemlperf-zoo/bert_mhlo.tar
+# https://lf-bytemlperf.17mh.cn/obj/bytemlperf-zoo/resnet50_mhlo.tar
+if [ $1 == "bert-tf-fp32" -o $1 == "bert-torch-fp32" ]; then
+    wget -O general_perf/download/open_bert.tar https://lf-bytemlperf.17mh.cn/obj/bytemlperf-zoo/open_bert.tar
+    tar xf general_perf/download/open_bert.tar -C general_perf/model_zoo/regular/
+elif [ $1 == "resnet50-tf-fp32" -o $1 == "resnet50-torch-fp32" ]; then
+    wget -O general_perf/download/resnet50.tar https://lf-bytemlperf.17mh.cn/obj/bytemlperf-zoo/resnet50.tar
+    tar xf general_perf/download/resnet50.tar -C general_perf/model_zoo/regular/
+elif [ $1 == "widedeep-tf-fp32" ]; then
+    wget -O general_perf/download/open_wide_deep.tar https://lf-bytemlperf.17mh.cn/obj/bytemlperf-zoo/open_wide_deep_saved_model.tar
+    tar xf general_perf/download/open_wide_deep.tar -C general_perf/model_zoo/regular/
+#--Popular Model--
+elif [ $1 == "albert-torch-fp32" ]; then
+    wget -O general_perf/download/open_albert.tar https://lf-bytemlperf.17mh.cn/obj/bytemlperf-zoo/open_albert.tar
+    tar xf general_perf/download/open_albert.tar -C general_perf/model_zoo/popular/ 
+elif [ $1 == "roformer-tf-fp32" ]; then
+    wget -O general_perf/download/open_roformer.tar https://lf-bytemlperf.17mh.cn/obj/bytemlperf-zoo/open_roformer.tar
+    tar xf general_perf/download/open_roformer.tar -C general_perf/model_zoo/popular/
+elif [ $1 == "videobert-onnx-fp32" ]; then
+    wget -O general_perf/download/open_videobert.tar https://lf-bytemlperf.17mh.cn/obj/bytemlperf-zoo/open_videobert.tar
+    tar xf general_perf/download/open_videobert.tar -C general_perf/model_zoo/popular/
+elif [ $1 == "yolov5-onnx-fp32" ]; then
+    wget -O general_perf/download/open_yolov5.tar https://lf-bytemlperf.17mh.cn/obj/bytemlperf-zoo/open_yolov5.tar
+    tar xf general_perf/download/open_yolov5.tar -C general_perf/model_zoo/popular/
+elif [ $1 == "conformer-encoder-onnx-fp32" ]; then
+    wget -O general_perf/download/open_conformer.tar https://lf-bytemlperf.17mh.cn/obj/bytemlperf-zoo/open_conformer.tar
+    tar xf general_perf/download/open_conformer.tar -C general_perf/model_zoo/popular/
+elif [ $1 == "roberta-torch-fp32" ]; then
+    wget -O general_perf/download/open_roberta.tar https://lf-bytemlperf.17mh.cn/obj/bytemlperf-zoo/open_roberta.tar
+    tar xf general_perf/download/open_roberta.tar -C general_perf/model_zoo/popular/
+elif [ $1 == "deberta-torch-fp32" ]; then
+    wget -O general_perf/download/open_deberta.tar https://lf-bytemlperf.17mh.cn/obj/bytemlperf-zoo/open_deberta.tar
+    tar xf general_perf/download/open_deberta.tar -C general_perf/model_zoo/popular/
+elif [ $1 == "swin-large-torch-fp32" ]; then
+    wget -O general_perf/download/open-swin-large.tar https://lf-bytemlperf.17mh.cn/obj/bytemlperf-zoo/open-swin-large.tar
+    tar xf general_perf/download/open-swin-large.tar -C general_perf/model_zoo/popular/
+#--Sota Model--
+elif [ $1 == "vae-encoder-onnx-fp32" -o $1 == "vae-decoder-onnx-fp32" -o $1 == "clip-onnx-fp32" ]; then
+    wget -O general_perf/download/stable_diffusion.tar https://lf-bytemlperf.17mh.cn/obj/bytemlperf-zoo/stable_diffusion.tar
+    tar xf general_perf/download/stable_diffusion.tar -C general_perf/model_zoo/sota/
+elif [ $1 == "unet-onnx-fp32" ]; then
+    wget -O general_perf/download/unet.tar https://lf-bytemlperf.17mh.cn/obj/bytemlperf-zoo/unet.tar
+    tar xf general_perf/download/unet.tar -C general_perf/model_zoo/sota/
+fi
+# Download Datasets
+if [ $2 == "open_imagenet" ] && [ ! -f "general_perf/download/open_imagenet.tar" ] ; then
+    wget -O general_perf/download/open_imagenet.tar https://lf-bytemlperf.17mh.cn/obj/bytemlperf-zoo/open_imagenet.tar
+    tar xf general_perf/download/open_imagenet.tar -C general_perf/datasets/
+elif [ $2 == "open_squad" ] && [ ! -f "general_perf/download/open_squad.tar" ]; then
+    wget -O general_perf/download/open_squad.tar https://lf-bytemlperf.17mh.cn/obj/bytemlperf-zoo/open_squad.tar
+    tar xf general_perf/download/open_squad.tar -C general_perf/datasets/open_squad
+elif [ $2 == "open_criteo_kaggle" ] && [ ! -f "general_perf/download/eval.csv" ]; then
+    wget -O general_perf/download/eval.csv https://lf-bytemlperf.17mh.cn/obj/bytemlperf-zoo/eval.csv
+    cp general_perf/download/eval.csv general_perf/datasets/open_criteo_kaggle/eval.csv
+elif [ $2 == "open_cail2019" ] && [ ! -f "general_perf/download/open_cail2019.tar" ]; then
+    wget -O general_perf/download/open_cail2019.tar https://lf-bytemlperf.17mh.cn/obj/bytemlperf-zoo/open_cail2019.tar
+    tar xf general_perf/download/open_cail2019.tar -C general_perf/datasets/open_cail2019 --strip-components 1
+elif [ $2 == "open_cifar" ] && [ ! -f "general_perf/download/cifar-100-python.tar" ]; then
+    wget -O general_perf/download/cifar-100-python.tar https://lf-bytemlperf.17mh.cn/obj/bytemlperf-zoo/cifar-100-python.tar
+    tar xf general_perf/download/cifar-100-python.tar -C general_perf/datasets/open_cifar
+fi
+echo "Extract Done."
--- a/ByteMLPerf/byte_infer_perf/general_perf/requirements.txt
+++ b/ByteMLPerf/byte_infer_perf/general_perf/requirements.txt
+matplotlib
+pandas
+virtualenv==16.7.9
+scikit-learn
+prompt_toolkit
+tqdm
+opencv-python
+transformers
+tokenization
+fpdf
+typing-extensions==3.7.4.3
+numpy==1.23.0
--- a/ByteMLPerf/byte_infer_perf/general_perf/run_bytemlperf.sh
+++ b/ByteMLPerf/byte_infer_perf/general_perf/run_bytemlperf.sh
+#!/bin/bash
+export PYTHONPATH=/opt/dtk/lib:$PYTHONPAT
+source /home/workspace/dtk-24.04.3/env.sh
+export PYTHONPATH=/home/workspace/dtk-24.04.3/lib:$PYTHONPAT
+export LD_LIBRARY_PATH=/home/workspace/rocblas-install/lib/:$LD_LIBRARY_PATH
+# CUDA_VISIBLE_DEVICES=0 python launch.py --hardware_type DCU --task resnet50-torch-fp32 2>&1 | tee ./log/resnet50-torch-fp32.log
+# CUDA_VISIBLE_DEVICES=0 python launch.py --hardware_type DCU --task resnet50-torch-fp16 2>&1 | tee ./log/resnet50-torch-fp16.log
+# CUDA_VISIBLE_DEVICES=0 python launch.py --hardware_type DCU --task resnet50-onnxruntime-fp32 2>&1 | tee ./log/resnet50-onnxruntime-fp32.log
+# CUDA_VISIBLE_DEVICES=0 python launch.py --hardware_type DCU --task resnet50-onnxruntime-fp16 2>&1 | tee ./log/resnet50-onnxruntime-fp16.log
+# CUDA_VISIBLE_DEVICES=0 python launch.py --hardware_type DCU --task bert-torch-fp32 2>&1 | tee ./log/bert-torch-fp32.log
+# CUDA_VISIBLE_DEVICES=0 python launch.py --hardware_type DCU --task bert-torch-fp16 2>&1 | tee ./log/bert-torch-fp16.log
+# CUDA_VISIBLE_DEVICES=0 python launch.py --hardware_type DCU --task bert-tf-fp32 2>&1 | tee ./log/bert-tf-fp32.log
+# CUDA_VISIBLE_DEVICES=0 python launch.py --hardware_type DCU --task bert-tf-fp16 2>&1 | tee ./log/bert-tf-fp16.log
+# CUDA_VISIBLE_DEVICES=0 python launch.py --hardware_type DCU --task bert-onnxruntime-fp32 2>&1 | tee ./log/bert-onnxruntime-fp32.log
+# CUDA_VISIBLE_DEVICES=0 python launch.py --hardware_type DCU --task bert-onnxruntime-fp16 2>&1 | tee ./log/bert-onnxruntime-fp16.log
+# CUDA_VISIBLE_DEVICES=0 python launch.py --hardware_type DCU --task widedeep-tf-fp32 2>&1 | tee ./log/widedeep-tf-fp32.log
+# CUDA_VISIBLE_DEVICES=0 python launch.py --hardware_type DCU --task widedeep-tf-fp16 2>&1 | tee ./log/widedeep-tf-fp16.log
+# CUDA_VISIBLE_DEVICES=0 python launch.py --hardware_type DCU --task videobert-onnx-fp32 2>&1 | tee ./log/videobert-onnx-fp32.log
+# CUDA_VISIBLE_DEVICES=0 python launch.py --hardware_type DCU --task videobert-onnx-fp16 2>&1 | tee ./log/videobert-onnx-fp16.log
+# CUDA_VISIBLE_DEVICES=0 python launch.py --hardware_type DCU --task conformer-encoder-onnx-fp32 2>&1 | tee ./log/conformer-encoder-onnx-fp32.log
+# CUDA_VISIBLE_DEVICES=0 python launch.py --hardware_type DCU --task roformer-tf-fp32 2>&1 | tee ./log/roformer-tf-fp32.log
+# CUDA_VISIBLE_DEVICES=0 python launch.py --hardware_type DCU --task vae-encoder-onnx-fp32 2>&1 | tee ./log/vae-encoder-onnx-fp32.log
+# CUDA_VISIBLE_DEVICES=0 python launch.py --hardware_type DCU --task vae-decoder-onnx-fp32 2>&1 | tee ./log/vae-decoder-onnx-fp32.log
+# CUDA_VISIBLE_DEVICES=0 python launch.py --hardware_type DCU --task unet-onnx-fp32 2>&1 | tee ./log/unet-onnx-fp32.log
+# CUDA_VISIBLE_DEVICES=0 python launch.py --hardware_type DCU --task clip-onnx-fp32 2>&1 | tee ./log/clip-onnx-fp32.log
+CUDA_VISIBLE_DEVICES=0 python launch.py --hardware_type DCU --task yolov5-onnx-fp32 2>&1 | tee ./log/yolov5-onnx-fp32.log
+# CUDA_VISIBLE_DEVICES=0 python launch.py --hardware_type DCU --task roberta-torch-fp32 2>&1 | tee ./log/roberta-torch-fp32.log
+# CUDA_VISIBLE_DEVICES=0 python launch.py --hardware_type DCU --task deberta-torch-fp32 2>&1 | tee ./log/deberta-torch-fp32.log
+# CUDA_VISIBLE_DEVICES=0 python launch.py --hardware_type DCU --task swin-large-torch-fp32 2>&1 | tee ./log/swin-large-torch-fp32.log