update for multi-language

dd0f8c1d · tink2123 · 8a5566c9 · dd0f8c1d · dd0f8c1d · dd0f8c1d
Commit dd0f8c1d authored Dec 08, 2020 by tink2123
7 changed files
--- a/configs/rec/multi_language/rec_en_number_lite_train.yml
+++ b/configs/rec/multi_language/rec_en_number_lite_train.yml
@@ -15,7 +15,7 @@ Global:
  use_visualdl: False
  infer_img:
  # for data or label process
-  character_dict_path: ppocr/utils/ic15_dict.txt
+  character_dict_path: ppocr/utils/dict/ic15_dict.txt
  character_type: ch
  max_text_length: 25
  infer_mode: False

--- a/configs/rec/multi_language/rec_french_lite_train.yml
+++ b/configs/rec/multi_language/rec_french_lite_train.yml
@@ -15,7 +15,7 @@ Global:
  use_visualdl: False
  infer_img:
  # for data or label process
-  character_dict_path: ppocr/utils/french_dict.txt
+  character_dict_path: ppocr/utils/dict/french_dict.txt
  character_type: french
  max_text_length: 25
  infer_mode: False
@@ -85,7 +85,7 @@ Eval:
  dataset:
    name: SimpleDataSet
    data_dir: ./train_data/
-    label_file_list: ["./train_data/eval_list.txt"]
+    label_file_list: ["./train_data/train_list.txt"]
    transforms:
      - DecodeImage: # load image
          img_mode: BGR

--- a/configs/rec/multi_language/rec_german_lite_train.yml
+++ b/configs/rec/multi_language/rec_german_lite_train.yml
@@ -15,7 +15,7 @@ Global:
  use_visualdl: False
  infer_img:
  # for data or label process
-  character_dict_path: ppocr/utils/german_dict.txt
+  character_dict_path: ppocr/utils/dict/german_dict.txt
  character_type: german
  max_text_length: 25
  infer_mode: False

--- a/configs/rec/multi_language/rec_japan_lite_train.yml
+++ b/configs/rec/multi_language/rec_japan_lite_train.yml
@@ -15,7 +15,7 @@ Global:
  use_visualdl: False
  infer_img:
  # for data or label process
-  character_dict_path: ppocr/utils/japan_dict.txt
+  character_dict_path: ppocr/utils/dict/japan_dict.txt
  character_type: japan
  max_text_length: 25
  infer_mode: False

--- a/configs/rec/multi_language/rec_korean_lite_train.yml
+++ b/configs/rec/multi_language/rec_korean_lite_train.yml
@@ -15,7 +15,7 @@ Global:
  use_visualdl: False
  infer_img:
  # for data or label process
-  character_dict_path: ppocr/utils/korean_dict.txt
+  character_dict_path: ppocr/utils/dict/korean_dict.txt
  character_type: korean
  max_text_length: 25
  infer_mode: False

--- a/ppocr/data/imaug/label_ops.py
+++ b/ppocr/data/imaug/label_ops.py
@@ -79,7 +79,9 @@ class BaseRecLabelEncode(object):
                 character_dict_path=None,
                 character_type='ch',
                 use_space_char=False):
-        support_character_type = ['ch', 'en', 'en_sensitive']
+        support_character_type = [
+            'ch', 'en', 'en_sensitive', 'french', 'german', 'japan', 'french'
+        ]
        assert character_type in support_character_type, "Only {} are supported now but get {}".format(
            support_character_type, self.character_str)
@@ -87,7 +89,7 @@ class BaseRecLabelEncode(object):
        if character_type == "en":
            self.character_str = "0123456789abcdefghijklmnopqrstuvwxyz"
            dict_character = list(self.character_str)
-        elif character_type == "ch":
+        elif character_type in ["ch", "french", "german", "japan", "french"]:
            self.character_str = ""
            assert character_dict_path is not None, "character_dict_path should not be None when character_type is ch"
            with open(character_dict_path, "rb") as fin:

--- a/ppocr/postprocess/rec_postprocess.py
+++ b/ppocr/postprocess/rec_postprocess.py
@@ -23,14 +23,16 @@ class BaseRecLabelDecode(object):
                 character_dict_path=None,
                 character_type='ch',
                 use_space_char=False):
-        support_character_type = ['ch', 'en', 'en_sensitive']
+        support_character_type = [
+            'ch', 'en', 'en_sensitive', 'french', 'german', 'japan', 'french'
+        ]
        assert character_type in support_character_type, "Only {} are supported now but get {}".format(
            support_character_type, self.character_str)
        if character_type == "en":
            self.character_str = "0123456789abcdefghijklmnopqrstuvwxyz"
            dict_character = list(self.character_str)
-        elif character_type == "ch":
+        elif character_type in ["ch", "french", "german", "japan", "french"]:
            self.character_str = ""
            assert character_dict_path is not None, "character_dict_path should not be None when character_type is ch"
            with open(character_dict_path, "rb") as fin:
@@ -150,4 +152,4 @@ class AttnLabelDecode(BaseRecLabelDecode):
        else:
            assert False, "unsupport type %s in get_beg_end_flag_idx" \
                          % beg_or_end
        return idx
\ No newline at end of file