initial commit

70a8a9e0 · wangwei990215 · 70a8a9e0 · 70a8a9e0 · 70a8a9e0 · 70a8a9e0
Commit 70a8a9e0 authored Oct 03, 2024 by wangwei990215
20 changed files
--- a/FunASR/fun_text_processing/inverse_text_normalization/id/verbalizers/date.py
+++ b/FunASR/fun_text_processing/inverse_text_normalization/id/verbalizers/date.py
+import pynini
+from fun_text_processing.inverse_text_normalization.id.graph_utils import (
+    DAMO_NOT_QUOTE,
+    GraphFst,
+    delete_extra_space,
+    delete_space,
+)
+from pynini.lib import pynutil
+
+
+class DateFst(GraphFst):
+    """
+    Finite state transducer for verbalizing date, e.g.
+        date { month: "january" day: "5" year: "2012" preserve_order: true } -> february 5 2012
+        date { day: "5" month: "january" year: "2012" preserve_order: true } -> 5 february 2012
+    """
+
+    def __init__(self):
+        super().__init__(name="date", kind="verbalize")
+        month = (
+            pynutil.delete("month:")
+            + delete_space
+            + pynutil.delete('"')
+            + pynini.closure(DAMO_NOT_QUOTE, 1)
+            + pynutil.delete('"')
+        )
+        day = (
+            pynutil.delete("day:")
+            + delete_space
+            + pynutil.delete('"')
+            + pynini.closure(DAMO_NOT_QUOTE, 1)
+            + pynutil.delete('"')
+        )
+        year = (
+            pynutil.delete("year:")
+            + delete_space
+            + pynutil.delete('"')
+            + pynini.closure(DAMO_NOT_QUOTE, 1)
+            + delete_space
+            + pynutil.delete('"')
+        )
+
+        # month (day) year
+        graph_mdy = (
+            month
+            + pynini.closure(delete_extra_space + day, 0, 1)
+            + pynini.closure(delete_extra_space + year, 0, 1)
+        )
+
+        # (day) month year
+        graph_dmy = (
+            pynini.closure(day + delete_extra_space, 0, 1)
+            + month
+            + pynini.closure(delete_extra_space + year, 0, 1)
+        )
+
+        optional_preserve_order = pynini.closure(
+            pynutil.delete("preserve_order:") + delete_space + pynutil.delete("true") + delete_space
+            | pynutil.delete("field_order:")
+            + delete_space
+            + pynutil.delete('"')
+            + DAMO_NOT_QUOTE
+            + pynutil.delete('"')
+            + delete_space
+        )
+
+        final_graph = (graph_mdy | year | graph_dmy) + delete_space + optional_preserve_order
+
+        delete_tokens = self.delete_tokens(final_graph)
+        self.fst = delete_tokens.optimize()
--- a/FunASR/fun_text_processing/inverse_text_normalization/id/verbalizers/decimal.py
+++ b/FunASR/fun_text_processing/inverse_text_normalization/id/verbalizers/decimal.py
+import pynini
+from fun_text_processing.inverse_text_normalization.id.graph_utils import (
+    DAMO_NOT_QUOTE,
+    GraphFst,
+    delete_space,
+)
+from pynini.lib import pynutil
+
+
+class DecimalFst(GraphFst):
+    """
+    Finite state transducer for verbalizing decimal, e.g.
+        decimal { negative: "true" integer_part: "12"  fractional_part: "5006" quantity: "billion" } -> -12.5006 billion
+    """
+
+    def __init__(self):
+        super().__init__(name="decimal", kind="verbalize")
+        optionl_sign = pynini.closure(pynini.cross('negative: "true"', "-") + delete_space, 0, 1)
+        integer = (
+            pynutil.delete("integer_part:")
+            + delete_space
+            + pynutil.delete('"')
+            + pynini.closure(DAMO_NOT_QUOTE, 1)
+            + pynutil.delete('"')
+        )
+        optional_integer = pynini.closure(integer + delete_space, 0, 1)
+        fractional = (
+            pynutil.insert(".")
+            + pynutil.delete("fractional_part:")
+            + delete_space
+            + pynutil.delete('"')
+            + pynini.closure(DAMO_NOT_QUOTE, 1)
+            + pynutil.delete('"')
+        )
+        optional_fractional = pynini.closure(fractional + delete_space, 0, 1)
+        quantity = (
+            pynutil.delete("quantity:")
+            + delete_space
+            + pynutil.delete('"')
+            + pynini.closure(DAMO_NOT_QUOTE, 1)
+            + pynutil.delete('"')
+        )
+        optional_quantity = pynini.closure(pynutil.insert(" ") + quantity + delete_space, 0, 1)
+        graph = optional_integer + optional_fractional + optional_quantity
+        self.numbers = graph
+        graph = optionl_sign + graph
+        delete_tokens = self.delete_tokens(graph)
+        self.fst = delete_tokens.optimize()
--- a/FunASR/fun_text_processing/inverse_text_normalization/id/verbalizers/electronic.py
+++ b/FunASR/fun_text_processing/inverse_text_normalization/id/verbalizers/electronic.py
+import pynini
+from fun_text_processing.inverse_text_normalization.id.graph_utils import (
+    DAMO_NOT_QUOTE,
+    GraphFst,
+    delete_space,
+)
+from pynini.lib import pynutil
+
+
+class ElectronicFst(GraphFst):
+    """
+    Finite state transducer for verbalizing electronic
+        e.g. tokens { electronic { username: "cdf1" domain: "abc.edu" } } -> cdf1@abc.edu
+    """
+
+    def __init__(self):
+        super().__init__(name="electronic", kind="verbalize")
+        user_name = (
+            pynutil.delete("username:")
+            + delete_space
+            + pynutil.delete('"')
+            + pynini.closure(DAMO_NOT_QUOTE, 1)
+            + pynutil.delete('"')
+        )
+        domain = (
+            pynutil.delete("domain:")
+            + delete_space
+            + pynutil.delete('"')
+            + pynini.closure(DAMO_NOT_QUOTE, 1)
+            + pynutil.delete('"')
+        )
+
+        protocol = (
+            pynutil.delete("protocol:")
+            + delete_space
+            + pynutil.delete('"')
+            + pynini.closure(DAMO_NOT_QUOTE, 1)
+            + pynutil.delete('"')
+        )
+
+        graph = user_name + delete_space + pynutil.insert("@") + domain
+        graph |= protocol
+
+        delete_tokens = self.delete_tokens(graph)
+        self.fst = delete_tokens.optimize()
--- a/FunASR/fun_text_processing/inverse_text_normalization/id/verbalizers/fraction.py
+++ b/FunASR/fun_text_processing/inverse_text_normalization/id/verbalizers/fraction.py
+from fun_text_processing.inverse_text_normalization.id.graph_utils import GraphFst
+
+
+class FractionFst(GraphFst):
+    """
+    Finite state transducer for verbalizing fraction,
+    """
+
+    def __init__(self):
+        super().__init__(name="fraction", kind="verbalize")
--- a/FunASR/fun_text_processing/inverse_text_normalization/id/verbalizers/measure.py
+++ b/FunASR/fun_text_processing/inverse_text_normalization/id/verbalizers/measure.py
+import pynini
+from fun_text_processing.inverse_text_normalization.id.graph_utils import (
+    DAMO_CHAR,
+    GraphFst,
+    delete_space,
+)
+from pynini.lib import pynutil
+
+
+class MeasureFst(GraphFst):
+    """
+    Finite state transducer for verbalizing measure, e.g.
+        measure { negative: "true" cardinal { integer: "12" } units: "kg" } -> -12 kg
+
+    Args:
+        decimal: DecimalFst
+        cardinal: CardinalFst
+    """
+
+    def __init__(self, decimal: GraphFst, cardinal: GraphFst):
+        super().__init__(name="measure", kind="verbalize")
+        optional_sign = pynini.closure(pynini.cross('negative: "true"', "-"), 0, 1)
+        unit = (
+            pynutil.delete("units:")
+            + delete_space
+            + pynutil.delete('"')
+            + pynini.closure(DAMO_CHAR - " ", 1)
+            + pynutil.delete('"')
+            + delete_space
+        )
+        graph_decimal = (
+            pynutil.delete("decimal {")
+            + delete_space
+            + optional_sign
+            + delete_space
+            + decimal.numbers
+            + delete_space
+            + pynutil.delete("}")
+        )
+        graph_cardinal = (
+            pynutil.delete("cardinal {")
+            + delete_space
+            + optional_sign
+            + delete_space
+            + cardinal.numbers
+            + delete_space
+            + pynutil.delete("}")
+        )
+        graph = (graph_cardinal | graph_decimal) + delete_space + pynutil.insert(" ") + unit
+        delete_tokens = self.delete_tokens(graph)
+        self.fst = delete_tokens.optimize()
--- a/FunASR/fun_text_processing/inverse_text_normalization/id/verbalizers/money.py
+++ b/FunASR/fun_text_processing/inverse_text_normalization/id/verbalizers/money.py
+import pynini
+from fun_text_processing.inverse_text_normalization.id.graph_utils import (
+    DAMO_CHAR,
+    GraphFst,
+    delete_space,
+)
+from pynini.lib import pynutil
+
+
+class MoneyFst(GraphFst):
+    """
+    Finite state transducer for verbalizing money, e.g.
+        money { integer_part: "12" fractional_part: "05" currency: "$" } -> $12.05
+
+    Args:
+        decimal: DecimalFst
+    """
+
+    def __init__(self, decimal: GraphFst):
+        super().__init__(name="money", kind="verbalize")
+        unit = (
+            pynutil.delete("currency:")
+            + delete_space
+            + pynutil.delete('"')
+            + pynini.closure(DAMO_CHAR - " ", 1)
+            + pynutil.delete('"')
+        )
+        graph = unit + delete_space + decimal.numbers
+        delete_tokens = self.delete_tokens(graph)
+        self.fst = delete_tokens.optimize()
--- a/FunASR/fun_text_processing/inverse_text_normalization/id/verbalizers/ordinal.py
+++ b/FunASR/fun_text_processing/inverse_text_normalization/id/verbalizers/ordinal.py
+import pynini
+from fun_text_processing.inverse_text_normalization.id.graph_utils import (
+    DAMO_NOT_QUOTE,
+    DAMO_SIGMA,
+    GraphFst,
+    delete_space,
+)
+from pynini.lib import pynutil
+
+
+class OrdinalFst(GraphFst):
+    """
+    Finite state transducer for verbalizing ordinal, e.g.
+       ordinal { integer: "13" } -> 13th
+    """
+
+    def __init__(self):
+        super().__init__(name="ordinal", kind="verbalize")
+        graph = (
+            pynutil.delete("integer:")
+            + delete_space
+            + pynutil.delete('"')
+            + pynini.closure(DAMO_NOT_QUOTE, 1)
+            + pynutil.delete('"')
+        )
+        convert_eleven = pynini.cross("11", "11th")
+        convert_twelve = pynini.cross("12", "12th")
+        convert_thirteen = pynini.cross("13", "13th")
+        convert_one = pynini.cross("1", "1st")
+        convert_two = pynini.cross("2", "2nd")
+        convert_three = pynini.cross("3", "3rd")
+        convert_rest = pynutil.insert("th", weight=0.01)
+
+        suffix = pynini.cdrewrite(
+            convert_eleven
+            | convert_twelve
+            | convert_thirteen
+            | convert_one
+            | convert_two
+            | convert_three
+            | convert_rest,
+            "",
+            "[EOS]",
+            DAMO_SIGMA,
+        )
+        graph = graph @ suffix
+        delete_tokens = self.delete_tokens(graph)
+        self.fst = delete_tokens.optimize()
--- a/FunASR/fun_text_processing/inverse_text_normalization/id/verbalizers/telephone.py
+++ b/FunASR/fun_text_processing/inverse_text_normalization/id/verbalizers/telephone.py
+import pynini
+from fun_text_processing.inverse_text_normalization.id.graph_utils import DAMO_NOT_QUOTE, GraphFst
+from pynini.lib import pynutil
+
+
+class TelephoneFst(GraphFst):
+    """
+    Finite state transducer for verbalizing telephone, e.g.
+        telephone { number_part: "123-123-5678" }
+        -> 123-123-5678
+    """
+
+    def __init__(self):
+        super().__init__(name="telephone", kind="verbalize")
+
+        number_part = (
+            pynutil.delete('number_part: "')
+            + pynini.closure(DAMO_NOT_QUOTE, 1)
+            + pynutil.delete('"')
+        )
+        optional_country_code = pynini.closure(
+            pynutil.delete('country_code: "')
+            + pynini.closure(DAMO_NOT_QUOTE, 1)
+            + pynutil.delete('"')
+            + pynini.accep(" "),
+            0,
+            1,
+        )
+        delete_tokens = self.delete_tokens(optional_country_code + number_part)
+        self.fst = delete_tokens.optimize()
--- a/FunASR/fun_text_processing/inverse_text_normalization/id/verbalizers/time.py
+++ b/FunASR/fun_text_processing/inverse_text_normalization/id/verbalizers/time.py
+import pynini
+from fun_text_processing.inverse_text_normalization.id.graph_utils import (
+    DAMO_CHAR,
+    DAMO_DIGIT,
+    GraphFst,
+    delete_space,
+    insert_space,
+)
+from pynini.lib import pynutil
+
+
+class TimeFst(GraphFst):
+    """
+    Finite state transducer for verbalizing time, e.g.
+        time { hours: "12" minutes: "30" } -> 12:30
+        time { hours: "1" minutes: "12" } -> 01:12
+        time { hours: "2" suffix: "a.m." } -> 02:00 a.m.
+    """
+
+    def __init__(self):
+        super().__init__(name="time", kind="verbalize")
+        add_leading_zero_to_double_digit = (DAMO_DIGIT + DAMO_DIGIT) | (
+            pynutil.insert("0") + DAMO_DIGIT
+        )
+        hour = (
+            pynutil.delete("hours:")
+            + delete_space
+            + pynutil.delete('"')
+            + pynini.closure(DAMO_DIGIT, 1)
+            + pynutil.delete('"')
+        )
+        minute = (
+            pynutil.delete("minutes:")
+            + delete_space
+            + pynutil.delete('"')
+            + pynini.closure(DAMO_DIGIT, 1)
+            + pynutil.delete('"')
+        )
+        suffix = (
+            delete_space
+            + insert_space
+            + pynutil.delete("suffix:")
+            + delete_space
+            + pynutil.delete('"')
+            + pynini.closure(DAMO_CHAR - " ", 1)
+            + pynutil.delete('"')
+        )
+        optional_suffix = pynini.closure(suffix, 0, 1)
+        zone = (
+            delete_space
+            + insert_space
+            + pynutil.delete("zone:")
+            + delete_space
+            + pynutil.delete('"')
+            + pynini.closure(DAMO_CHAR - " ", 1)
+            + pynutil.delete('"')
+        )
+        optional_zone = pynini.closure(zone, 0, 1)
+        graph = (
+            hour @ add_leading_zero_to_double_digit
+            + delete_space
+            + pynutil.insert(":")
+            + (minute @ add_leading_zero_to_double_digit)
+            + optional_suffix
+            + optional_zone
+        )
+        delete_tokens = self.delete_tokens(graph)
+        self.fst = delete_tokens.optimize()
--- a/FunASR/fun_text_processing/inverse_text_normalization/id/verbalizers/verbalize.py
+++ b/FunASR/fun_text_processing/inverse_text_normalization/id/verbalizers/verbalize.py
+from fun_text_processing.inverse_text_normalization.id.verbalizers.cardinal import CardinalFst
+from fun_text_processing.inverse_text_normalization.id.verbalizers.date import DateFst
+from fun_text_processing.inverse_text_normalization.id.verbalizers.decimal import DecimalFst
+from fun_text_processing.inverse_text_normalization.id.verbalizers.electronic import ElectronicFst
+from fun_text_processing.inverse_text_normalization.id.verbalizers.measure import MeasureFst
+from fun_text_processing.inverse_text_normalization.id.verbalizers.money import MoneyFst
+from fun_text_processing.inverse_text_normalization.id.verbalizers.ordinal import OrdinalFst
+from fun_text_processing.inverse_text_normalization.id.verbalizers.telephone import TelephoneFst
+from fun_text_processing.inverse_text_normalization.id.verbalizers.time import TimeFst
+from fun_text_processing.inverse_text_normalization.id.verbalizers.whitelist import WhiteListFst
+from fun_text_processing.inverse_text_normalization.id.graph_utils import GraphFst
+
+
+class VerbalizeFst(GraphFst):
+    """
+    Composes other verbalizer grammars.
+    For deployment, this grammar will be compiled and exported to OpenFst Finate State Archiv (FAR) File.
+    More details to deployment at NeMo/tools/text_processing_deployment.
+    """
+
+    def __init__(self):
+        super().__init__(name="verbalize", kind="verbalize")
+        cardinal = CardinalFst()
+        cardinal_graph = cardinal.fst
+        ordinal_graph = OrdinalFst().fst
+        decimal = DecimalFst()
+        decimal_graph = decimal.fst
+        measure_graph = MeasureFst(decimal=decimal, cardinal=cardinal).fst
+        money_graph = MoneyFst(decimal=decimal).fst
+        time_graph = TimeFst().fst
+        date_graph = DateFst().fst
+        whitelist_graph = WhiteListFst().fst
+        telephone_graph = TelephoneFst().fst
+        electronic_graph = ElectronicFst().fst
+        graph = (
+            time_graph
+            | date_graph
+            | money_graph
+            | measure_graph
+            | ordinal_graph
+            | decimal_graph
+            | cardinal_graph
+            | whitelist_graph
+            | telephone_graph
+            | electronic_graph
+        )
+        self.fst = graph
--- a/FunASR/fun_text_processing/inverse_text_normalization/id/verbalizers/verbalize_final.py
+++ b/FunASR/fun_text_processing/inverse_text_normalization/id/verbalizers/verbalize_final.py
+import pynini
+from fun_text_processing.inverse_text_normalization.id.verbalizers.verbalize import VerbalizeFst
+from fun_text_processing.inverse_text_normalization.id.verbalizers.word import WordFst
+from fun_text_processing.inverse_text_normalization.id.graph_utils import (
+    GraphFst,
+    delete_extra_space,
+    delete_space,
+)
+from pynini.lib import pynutil
+
+
+class VerbalizeFinalFst(GraphFst):
+    """
+    Finite state transducer that verbalizes an entire sentence, e.g.
+    tokens { name: "its" } tokens { time { hours: "12" minutes: "30" } } tokens { name: "now" } -> its 12:30 now
+    """
+
+    def __init__(self):
+        super().__init__(name="verbalize_final", kind="verbalize")
+        verbalize = VerbalizeFst().fst
+        word = WordFst().fst
+        types = verbalize | word
+        graph = (
+            pynutil.delete("tokens")
+            + delete_space
+            + pynutil.delete("{")
+            + delete_space
+            + types
+            + delete_space
+            + pynutil.delete("}")
+        )
+        graph = delete_space + pynini.closure(graph + delete_extra_space) + graph + delete_space
+        self.fst = graph
--- a/FunASR/fun_text_processing/inverse_text_normalization/id/verbalizers/whitelist.py
+++ b/FunASR/fun_text_processing/inverse_text_normalization/id/verbalizers/whitelist.py
+import pynini
+from fun_text_processing.inverse_text_normalization.id.graph_utils import (
+    DAMO_CHAR,
+    DAMO_SIGMA,
+    GraphFst,
+    delete_space,
+)
+from pynini.lib import pynutil
+
+
+class WhiteListFst(GraphFst):
+    """
+    Finite state transducer for verbalizing whitelist
+        e.g. tokens { name: "mrs." } -> mrs.
+    """
+
+    def __init__(self):
+        super().__init__(name="whitelist", kind="verbalize")
+        graph = (
+            pynutil.delete("name:")
+            + delete_space
+            + pynutil.delete('"')
+            + pynini.closure(DAMO_CHAR - " ", 1)
+            + pynutil.delete('"')
+        )
+        graph = graph @ pynini.cdrewrite(pynini.cross("\u00A0", " "), "", "", DAMO_SIGMA)
+        self.fst = graph.optimize()
--- a/FunASR/fun_text_processing/inverse_text_normalization/id/verbalizers/word.py
+++ b/FunASR/fun_text_processing/inverse_text_normalization/id/verbalizers/word.py
+import pynini
+from fun_text_processing.inverse_text_normalization.id.graph_utils import (
+    DAMO_CHAR,
+    DAMO_SIGMA,
+    GraphFst,
+    delete_space,
+)
+from pynini.lib import pynutil
+
+
+class WordFst(GraphFst):
+    """
+    Finite state transducer for verbalizing plain tokens
+        e.g. tokens { name: "sleep" } -> sleep
+    """
+
+    def __init__(self):
+        super().__init__(name="word", kind="verbalize")
+        chars = pynini.closure(DAMO_CHAR - " ", 1)
+        char = (
+            pynutil.delete("name:")
+            + delete_space
+            + pynutil.delete('"')
+            + chars
+            + pynutil.delete('"')
+        )
+        graph = char @ pynini.cdrewrite(pynini.cross("\u00A0", " "), "", "", DAMO_SIGMA)
+
+        self.fst = graph.optimize()
--- a/FunASR/fun_text_processing/inverse_text_normalization/inverse_normalize.py
+++ b/FunASR/fun_text_processing/inverse_text_normalization/inverse_normalize.py
+#!/usr/bin/python
+# -*- coding: utf-8 -*-
+
+from argparse import ArgumentParser
+from time import perf_counter
+from typing import List
+
+from fun_text_processing.text_normalization.data_loader_utils import load_file, write_file
+from fun_text_processing.text_normalization.normalize import Normalizer
+from fun_text_processing.text_normalization.token_parser import TokenParser
+
+
+class InverseNormalizer(Normalizer):
+    """
+    Inverse normalizer that converts text from spoken to written form. Useful for ASR postprocessing.
+    Input is expected to have no punctuation outside of approstrophe (') and dash (-) and be lower cased.
+
+    Args:
+        lang: language specifying the ITN
+        cache_dir: path to a dir with .far grammar file. Set to None to avoid using cache.
+        overwrite_cache: set to True to overwrite .far files
+    """
+
+    def __init__(
+        self,
+        lang: str = "en",
+        cache_dir: str = None,
+        overwrite_cache: bool = False,
+        enable_standalone_number: bool = True,
+        enable_0_to_9: bool = True,
+    ):
+
+        if lang == "en":
+            from fun_text_processing.inverse_text_normalization.en.taggers.tokenize_and_classify import (
+                ClassifyFst,
+            )
+            from fun_text_processing.inverse_text_normalization.en.verbalizers.verbalize_final import (
+                VerbalizeFinalFst,
+            )
+
+        elif lang == "id":
+            from fun_text_processing.inverse_text_normalization.id.taggers.tokenize_and_classify import (
+                ClassifyFst,
+            )
+            from fun_text_processing.inverse_text_normalization.id.verbalizers.verbalize_final import (
+                VerbalizeFinalFst,
+            )
+
+        elif lang == "ja":
+            from fun_text_processing.inverse_text_normalization.ja.taggers.tokenize_and_classify import (
+                ClassifyFst,
+            )
+            from fun_text_processing.inverse_text_normalization.ja.verbalizers.verbalize_final import (
+                VerbalizeFinalFst,
+            )
+
+        elif lang == "es":
+            from fun_text_processing.inverse_text_normalization.es.taggers.tokenize_and_classify import (
+                ClassifyFst,
+            )
+            from fun_text_processing.inverse_text_normalization.es.verbalizers.verbalize_final import (
+                VerbalizeFinalFst,
+            )
+
+        elif lang == "pt":
+            from fun_text_processing.inverse_text_normalization.pt.taggers.tokenize_and_classify import (
+                ClassifyFst,
+            )
+            from fun_text_processing.inverse_text_normalization.pt.verbalizers.verbalize_final import (
+                VerbalizeFinalFst,
+            )
+
+        elif lang == "ru":
+            from fun_text_processing.inverse_text_normalization.ru.taggers.tokenize_and_classify import (
+                ClassifyFst,
+            )
+            from fun_text_processing.inverse_text_normalization.ru.verbalizers.verbalize_final import (
+                VerbalizeFinalFst,
+            )
+
+        elif lang == "de":
+            from fun_text_processing.inverse_text_normalization.de.taggers.tokenize_and_classify import (
+                ClassifyFst,
+            )
+            from fun_text_processing.inverse_text_normalization.de.verbalizers.verbalize_final import (
+                VerbalizeFinalFst,
+            )
+        elif lang == "fr":
+            from fun_text_processing.inverse_text_normalization.fr.taggers.tokenize_and_classify import (
+                ClassifyFst,
+            )
+            from fun_text_processing.inverse_text_normalization.fr.verbalizers.verbalize_final import (
+                VerbalizeFinalFst,
+            )
+        elif lang == "vi":
+            from fun_text_processing.inverse_text_normalization.vi.taggers.tokenize_and_classify import (
+                ClassifyFst,
+            )
+            from fun_text_processing.inverse_text_normalization.vi.verbalizers.verbalize_final import (
+                VerbalizeFinalFst,
+            )
+        elif lang == "ko":
+            from fun_text_processing.inverse_text_normalization.ko.taggers.tokenize_and_classify import (
+                ClassifyFst,
+            )
+            from fun_text_processing.inverse_text_normalization.ko.verbalizers.verbalize_final import (
+                VerbalizeFinalFst,
+            )
+        elif lang == "zh":
+            from fun_text_processing.inverse_text_normalization.zh.taggers.tokenize_and_classify import (
+                ClassifyFst,
+            )
+            from fun_text_processing.inverse_text_normalization.zh.verbalizers.verbalize_final import (
+                VerbalizeFinalFst,
+            )
+        elif lang == "tl":
+            from fun_text_processing.inverse_text_normalization.tl.taggers.tokenize_and_classify import (
+                ClassifyFst,
+            )
+            from fun_text_processing.inverse_text_normalization.tl.verbalizers.verbalize_final import (
+                VerbalizeFinalFst,
+            )
+
+        self.tagger = ClassifyFst(cache_dir=cache_dir, overwrite_cache=overwrite_cache)
+        self.verbalizer = VerbalizeFinalFst()
+        self.parser = TokenParser()
+        self.lang = lang
+        self.convert_number = enable_standalone_number
+        self.enable_0_to_9 = enable_0_to_9
+
+    def inverse_normalize_list(self, texts: List[str], verbose=False) -> List[str]:
+        """
+        NeMo inverse text normalizer
+
+        Args:
+            texts: list of input strings
+            verbose: whether to print intermediate meta information
+
+        Returns converted list of input strings
+        """
+        # print(texts)
+        return self.normalize_list(texts=texts, verbose=verbose)
+
+    def inverse_normalize(self, text: str, verbose: bool) -> str:
+        """
+        Main function. Inverse normalizes tokens from spoken to written form
+            e.g. twelve kilograms -> 12 kg
+
+        Args:
+            text: string that may include semiotic classes
+            verbose: whether to print intermediate meta information
+
+        Returns: written form
+        """
+        print(text)
+        return self.normalize(text=text, verbose=verbose)
+
+
+def str2bool(s, default=False):
+    s = s.lower()
+    if s == "true":
+        return True
+    elif s == "false":
+        return False
+    else:
+        return default
+
+
+def parse_args():
+    parser = ArgumentParser()
+    input = parser.add_mutually_exclusive_group()
+    input.add_argument("--text", dest="input_string", help="input string", type=str)
+    input.add_argument("--input_file", dest="input_file", help="input file path", type=str)
+    parser.add_argument("--output_file", dest="output_file", help="output file path", type=str)
+    parser.add_argument(
+        "--language",
+        help="language",
+        choices=["en", "id", "ja", "de", "es", "pt", "ru", "fr", "vi", "ko", "zh", "tl"],
+        default="en",
+        type=str,
+    )
+    parser.add_argument("--verbose", help="print info for debugging", action="store_true")
+    parser.add_argument(
+        "--overwrite_cache", help="set to True to re-create .far grammar files", action="store_true"
+    )
+    parser.add_argument(
+        "--cache_dir",
+        help="path to a dir with .far grammar file. Set to None to avoid using cache",
+        default=None,
+        type=str,
+    )
+    parser.add_argument(
+        "--enable_standalone_number", type=str, default="True", help="enable standalone number"
+    )
+    parser.add_argument(
+        "--enable_0_to_9", type=str, default="True", help="enable convert number 0 to 9"
+    )
+    return parser.parse_args()
+
+
+if __name__ == "__main__":
+    args = parse_args()
+    start_time = perf_counter()
+    if args.language == "ja":
+        inverse_normalizer = InverseNormalizer(
+            lang=args.language,
+            cache_dir=args.cache_dir,
+            overwrite_cache=args.overwrite_cache,
+            enable_standalone_number=str2bool(args.enable_standalone_number),
+            enable_0_to_9=str2bool(args.enable_0_to_9),
+        )
+    else:
+        inverse_normalizer = InverseNormalizer(
+            lang=args.language, cache_dir=args.cache_dir, overwrite_cache=args.overwrite_cache
+        )
+    print(f"Time to generate graph: {round(perf_counter() - start_time, 2)} sec")
+
+    if args.input_string:
+        print(inverse_normalizer.inverse_normalize(args.input_string, verbose=args.verbose))
+    elif args.input_file:
+        print("Loading data: " + args.input_file)
+        data = load_file(args.input_file)
+
+        print("- Data: " + str(len(data)) + " sentences")
+        prediction = inverse_normalizer.inverse_normalize_list(data, verbose=args.verbose)
+        if args.output_file:
+            write_file(args.output_file, prediction)
+            print(f"- Denormalized. Writing out to {args.output_file}")
+        else:
+            print(prediction)
--- a/FunASR/fun_text_processing/inverse_text_normalization/ja/__init__.py
+++ b/FunASR/fun_text_processing/inverse_text_normalization/ja/__init__.py
+from fun_text_processing.inverse_text_normalization.en.taggers.tokenize_and_classify import (
+    ClassifyFst,
+)
+from fun_text_processing.inverse_text_normalization.en.verbalizers.verbalize import VerbalizeFst
+from fun_text_processing.inverse_text_normalization.en.verbalizers.verbalize_final import (
+    VerbalizeFinalFst,
+)
--- a/FunASR/fun_text_processing/inverse_text_normalization/ja/clean_eval_data.py
+++ b/FunASR/fun_text_processing/inverse_text_normalization/ja/clean_eval_data.py
+from argparse import ArgumentParser
+from typing import List
+
+import regex as re
+from fun_text_processing.text_normalization.data_loader_utils import (
+    EOS_TYPE,
+    Instance,
+    load_files,
+    training_data_to_sentences,
+)
+
+
+"""
+This file is for evaluation purposes.
+filter_loaded_data() cleans data (list of instances) for inverse text normalization. Filters and cleaners can be specified for each semiotic class individually.
+For example, normalized text should only include characters and whitespace characters but no punctuation. 
+            Cardinal unnormalized instances should contain at least one integer and all other characters are removed.
+"""
+
+
+class Filter:
+    """
+    Filter class
+
+    Args:
+        class_type: semiotic class used in dataset
+        process_func: function to transform text
+        filter_func:  function to filter text
+
+    """
+
+    def __init__(self, class_type: str, process_func: object, filter_func: object):
+        self.class_type = class_type
+        self.process_func = process_func
+        self.filter_func = filter_func
+
+    def filter(self, instance: Instance) -> bool:
+        """
+        filter function
+
+        Args:
+            filters given instance with filter function
+
+        Returns: True if given instance fulfills criteria or does not belong to class type
+        """
+        if instance.token_type != self.class_type:
+            return True
+        return self.filter_func(instance)
+
+    def process(self, instance: Instance) -> Instance:
+        """
+        process function
+
+        Args:
+            processes given instance with process function
+
+        Returns: processed instance if instance belongs to expected class type or original instance
+        """
+        if instance.token_type != self.class_type:
+            return instance
+        return self.process_func(instance)
+
+
+def filter_cardinal_1(instance: Instance) -> bool:
+    ok = re.search(r"[0-9]", instance.un_normalized)
+    return ok
+
+
+def process_cardinal_1(instance: Instance) -> Instance:
+    un_normalized = instance.un_normalized
+    normalized = instance.normalized
+    un_normalized = re.sub(r"[^0-9]", "", un_normalized)
+    normalized = re.sub(r"[^a-z ]", "", normalized)
+    return Instance(
+        token_type=instance.token_type, un_normalized=un_normalized, normalized=normalized
+    )
+
+
+def filter_ordinal_1(instance: Instance) -> bool:
+    ok = re.search(r"(st|nd|rd|th)\s*$", instance.un_normalized)
+    return ok
+
+
+def process_ordinal_1(instance: Instance) -> Instance:
+    un_normalized = instance.un_normalized
+    normalized = instance.normalized
+    un_normalized = re.sub(r"[,\s]", "", un_normalized)
+    normalized = re.sub(r"[^a-z ]", "", normalized)
+    return Instance(
+        token_type=instance.token_type, un_normalized=un_normalized, normalized=normalized
+    )
+
+
+def filter_decimal_1(instance: Instance) -> bool:
+    ok = re.search(r"[0-9]", instance.un_normalized)
+    return ok
+
+
+def process_decimal_1(instance: Instance) -> Instance:
+    un_normalized = instance.un_normalized
+    un_normalized = re.sub(r",", "", un_normalized)
+    normalized = instance.normalized
+    normalized = re.sub(r"[^a-z ]", "", normalized)
+    return Instance(
+        token_type=instance.token_type, un_normalized=un_normalized, normalized=normalized
+    )
+
+
+def filter_measure_1(instance: Instance) -> bool:
+    ok = True
+    return ok
+
+
+def process_measure_1(instance: Instance) -> Instance:
+    un_normalized = instance.un_normalized
+    normalized = instance.normalized
+    un_normalized = re.sub(r",", "", un_normalized)
+    un_normalized = re.sub(r"m2", "m²", un_normalized)
+    un_normalized = re.sub(r"(\d)([^\d.\s])", r"\1 \2", un_normalized)
+    normalized = re.sub(r"[^a-z\s]", "", normalized)
+    normalized = re.sub(r"per ([a-z\s]*)s$", r"per \1", normalized)
+    normalized = re.sub(r"[^a-z ]", "", normalized)
+    return Instance(
+        token_type=instance.token_type, un_normalized=un_normalized, normalized=normalized
+    )
+
+
+def filter_money_1(instance: Instance) -> bool:
+    ok = re.search(r"[0-9]", instance.un_normalized)
+    return ok
+
+
+def process_money_1(instance: Instance) -> Instance:
+    un_normalized = instance.un_normalized
+    normalized = instance.normalized
+    un_normalized = re.sub(r",", "", un_normalized)
+    un_normalized = re.sub(r"a\$", r"$", un_normalized)
+    un_normalized = re.sub(r"us\$", r"$", un_normalized)
+    un_normalized = re.sub(r"(\d)m\s*$", r"\1 million", un_normalized)
+    un_normalized = re.sub(r"(\d)bn?\s*$", r"\1 billion", un_normalized)
+    normalized = re.sub(r"[^a-z ]", "", normalized)
+    return Instance(
+        token_type=instance.token_type, un_normalized=un_normalized, normalized=normalized
+    )
+
+
+def filter_time_1(instance: Instance) -> bool:
+    ok = re.search(r"[0-9]", instance.un_normalized)
+    return ok
+
+
+def process_time_1(instance: Instance) -> Instance:
+    un_normalized = instance.un_normalized
+    un_normalized = re.sub(r": ", ":", un_normalized)
+    un_normalized = re.sub(r"(\d)\s?a\s?m\s?", r"\1 a.m.", un_normalized)
+    un_normalized = re.sub(r"(\d)\s?p\s?m\s?", r"\1 p.m.", un_normalized)
+    normalized = instance.normalized
+    normalized = re.sub(r"[^a-z ]", "", normalized)
+    return Instance(
+        token_type=instance.token_type, un_normalized=un_normalized, normalized=normalized
+    )
+
+
+def filter_plain_1(instance: Instance) -> bool:
+    ok = True
+    return ok
+
+
+def process_plain_1(instance: Instance) -> Instance:
+    un_normalized = instance.un_normalized
+    normalized = instance.normalized
+    return Instance(
+        token_type=instance.token_type, un_normalized=un_normalized, normalized=normalized
+    )
+
+
+def filter_punct_1(instance: Instance) -> bool:
+    ok = True
+    return ok
+
+
+def process_punct_1(instance: Instance) -> Instance:
+    un_normalized = instance.un_normalized
+    normalized = instance.normalized
+    return Instance(
+        token_type=instance.token_type, un_normalized=un_normalized, normalized=normalized
+    )
+
+
+def filter_date_1(instance: Instance) -> bool:
+    ok = True
+    return ok
+
+
+def process_date_1(instance: Instance) -> Instance:
+    un_normalized = instance.un_normalized
+    un_normalized = re.sub(r",", "", un_normalized)
+    normalized = instance.normalized
+    normalized = re.sub(r"[^a-z ]", "", normalized)
+    return Instance(
+        token_type=instance.token_type, un_normalized=un_normalized, normalized=normalized
+    )
+
+
+def filter_letters_1(instance: Instance) -> bool:
+    ok = True
+    return ok
+
+
+def process_letters_1(instance: Instance) -> Instance:
+    un_normalized = instance.un_normalized
+    normalized = instance.normalized
+    normalized = re.sub(r"[^a-z ]", "", normalized)
+    return Instance(
+        token_type=instance.token_type, un_normalized=un_normalized, normalized=normalized
+    )
+
+
+def filter_verbatim_1(instance: Instance) -> bool:
+    ok = True
+    return ok
+
+
+def process_verbatim_1(instance: Instance) -> Instance:
+    un_normalized = instance.un_normalized
+    normalized = instance.normalized
+    return Instance(
+        token_type=instance.token_type, un_normalized=un_normalized, normalized=normalized
+    )
+
+
+def filter_digit_1(instance: Instance) -> bool:
+    ok = re.search(r"[0-9]", instance.un_normalized)
+    return ok
+
+
+def process_digit_1(instance: Instance) -> Instance:
+    un_normalized = instance.un_normalized
+    normalized = instance.normalized
+    normalized = re.sub(r"[^a-z ]", "", normalized)
+    return Instance(
+        token_type=instance.token_type, un_normalized=un_normalized, normalized=normalized
+    )
+
+
+def filter_telephone_1(instance: Instance) -> bool:
+    ok = re.search(r"[0-9]", instance.un_normalized)
+    return ok
+
+
+def process_telephone_1(instance: Instance) -> Instance:
+    un_normalized = instance.un_normalized
+    normalized = instance.normalized
+    normalized = re.sub(r"[^a-z ]", "", normalized)
+    return Instance(
+        token_type=instance.token_type, un_normalized=un_normalized, normalized=normalized
+    )
+
+
+def filter_electronic_1(instance: Instance) -> bool:
+    ok = re.search(r"[0-9]", instance.un_normalized)
+    return ok
+
+
+def process_electronic_1(instance: Instance) -> Instance:
+    un_normalized = instance.un_normalized
+    normalized = instance.normalized
+    normalized = re.sub(r"[^a-z ]", "", normalized)
+    return Instance(
+        token_type=instance.token_type, un_normalized=un_normalized, normalized=normalized
+    )
+
+
+def filter_fraction_1(instance: Instance) -> bool:
+    ok = re.search(r"[0-9]", instance.un_normalized)
+    return ok
+
+
+def process_fraction_1(instance: Instance) -> Instance:
+    un_normalized = instance.un_normalized
+    normalized = instance.normalized
+    normalized = re.sub(r"[^a-z ]", "", normalized)
+    return Instance(
+        token_type=instance.token_type, un_normalized=un_normalized, normalized=normalized
+    )
+
+
+def filter_address_1(instance: Instance) -> bool:
+    ok = True
+    return ok
+
+
+def process_address_1(instance: Instance) -> Instance:
+    un_normalized = instance.un_normalized
+    normalized = instance.normalized
+    normalized = re.sub(r"[^a-z ]", "", normalized)
+    return Instance(
+        token_type=instance.token_type, un_normalized=un_normalized, normalized=normalized
+    )
+
+
+filters = []
+filters.append(
+    Filter(class_type="CARDINAL", process_func=process_cardinal_1, filter_func=filter_cardinal_1)
+)
+filters.append(
+    Filter(class_type="ORDINAL", process_func=process_ordinal_1, filter_func=filter_ordinal_1)
+)
+filters.append(
+    Filter(class_type="DECIMAL", process_func=process_decimal_1, filter_func=filter_decimal_1)
+)
+filters.append(
+    Filter(class_type="MEASURE", process_func=process_measure_1, filter_func=filter_measure_1)
+)
+filters.append(Filter(class_type="MONEY", process_func=process_money_1, filter_func=filter_money_1))
+filters.append(Filter(class_type="TIME", process_func=process_time_1, filter_func=filter_time_1))
+
+filters.append(Filter(class_type="DATE", process_func=process_date_1, filter_func=filter_date_1))
+filters.append(Filter(class_type="PLAIN", process_func=process_plain_1, filter_func=filter_plain_1))
+filters.append(Filter(class_type="PUNCT", process_func=process_punct_1, filter_func=filter_punct_1))
+filters.append(
+    Filter(class_type="LETTERS", process_func=process_letters_1, filter_func=filter_letters_1)
+)
+filters.append(
+    Filter(class_type="VERBATIM", process_func=process_verbatim_1, filter_func=filter_verbatim_1)
+)
+filters.append(Filter(class_type="DIGIT", process_func=process_digit_1, filter_func=filter_digit_1))
+filters.append(
+    Filter(class_type="TELEPHONE", process_func=process_telephone_1, filter_func=filter_telephone_1)
+)
+filters.append(
+    Filter(
+        class_type="ELECTRONIC", process_func=process_electronic_1, filter_func=filter_electronic_1
+    )
+)
+filters.append(
+    Filter(class_type="FRACTION", process_func=process_fraction_1, filter_func=filter_fraction_1)
+)
+filters.append(
+    Filter(class_type="ADDRESS", process_func=process_address_1, filter_func=filter_address_1)
+)
+filters.append(Filter(class_type=EOS_TYPE, process_func=lambda x: x, filter_func=lambda x: True))
+
+
+def filter_loaded_data(data: List[Instance], verbose: bool = False) -> List[Instance]:
+    """
+    Filters list of instances
+
+    Args:
+        data: list of instances
+
+    Returns: filtered and transformed list of instances
+    """
+    updates_instances = []
+    for instance in data:
+        updated_instance = False
+        for fil in filters:
+            if fil.class_type == instance.token_type and fil.filter(instance):
+                instance = fil.process(instance)
+                updated_instance = True
+        if updated_instance:
+            if verbose:
+                print(instance)
+            updates_instances.append(instance)
+    return updates_instances
+
+
+def parse_args():
+    parser = ArgumentParser()
+    parser.add_argument(
+        "--input", help="input file path", type=str, default="./en_with_types/output-00001-of-00100"
+    )
+    parser.add_argument("--verbose", help="print filtered instances", action="store_true")
+    return parser.parse_args()
+
+
+if __name__ == "__main__":
+    args = parse_args()
+    file_path = args.input
+
+    print("Loading training data: " + file_path)
+    instance_list = load_files([file_path])  # List of instances
+    filtered_instance_list = filter_loaded_data(instance_list, args.verbose)
+    training_data_to_sentences(filtered_instance_list)
--- a/FunASR/fun_text_processing/inverse_text_normalization/ja/data/__init__.py
+++ b/FunASR/fun_text_processing/inverse_text_normalization/ja/data/__init__.py
--- a/FunASR/fun_text_processing/inverse_text_normalization/ja/data/char/__init__.py
+++ b/FunASR/fun_text_processing/inverse_text_normalization/ja/data/char/__init__.py
--- a/FunASR/fun_text_processing/inverse_text_normalization/ja/data/char/fullwidth_to_halfwidth.tsv
+++ b/FunASR/fun_text_processing/inverse_text_normalization/ja/data/char/fullwidth_to_halfwidth.tsv
+！	!
+＂	"
+＃	#
+＄	$
+％	%
+＆	&
+＇	'
+（	(
+）	)
+＊	*
+＋	+
+，	,
+－	-
+．	.
+／	/
+０	0
+１	1
+２	2
+３	3
+４	4
+５	5
+６	6
+７	7
+８	8
+９	9
+；	;
+＜	<
+＝	=
+＞	>
+？	?
+＠	@
+Ａ	A
+Ｂ	B
+Ｃ	C
+Ｄ	D
+Ｅ	E
+Ｆ	F
+Ｇ	G
+Ｈ	H
+Ｉ	I
+Ｊ	J
+Ｋ	K
+Ｌ	L
+Ｍ	M
+Ｎ	N
+Ｏ	O
+Ｐ	P
+Ｑ	Q
+Ｒ	R
+Ｓ	S
+Ｔ	T
+Ｕ	U
+Ｖ	V
+Ｗ	W
+Ｘ	X
+Ｙ	Y
+Ｚ	Z
+＼	\
+＾	^
+＿	_
+｀	`
+ａ	a
+ｂ	b
+ｃ	c
+ｄ	d
+ｅ	e
+ｆ	f
+ｇ	g
+ｈ	h
+ｉ	i
+ｊ	j
+ｋ	k
+ｌ	l
+ｍ	m
+ｎ	n
+ｏ	o
+ｐ	p
+ｑ	q
+ｒ	r
+ｓ	s
+ｔ	t
+ｕ	u
+ｖ	v
+ｗ	w
+ｘ	x
+ｙ	y
+ｚ	z
+｛	{
+｜	| 
+：	:
+｝	}
+～	~
--- a/FunASR/fun_text_processing/inverse_text_normalization/ja/data/char/halfwidth_to_fullwidth.tsv
+++ b/FunASR/fun_text_processing/inverse_text_normalization/ja/data/char/halfwidth_to_fullwidth.tsv
+!	！
+"	＂
+#	＃
+$	＄
+%	％
+&	＆
+'	＇
+(	（
+)	）
+*	＊
+	＋
+,	，
+-	－
+.	．
+/	／
+0	０
+1	１
+2	２
+3	３
+4	４
+5	５
+6	６
+7	７
+8	８
+9	９
+;	；
+<	＜
+=	＝
+>	＞
+?	？
+@	＠
+A	Ａ
+B	Ｂ
+C	Ｃ
+D	Ｄ
+E	Ｅ
+F	Ｆ
+G	Ｇ
+H	Ｈ
+I	Ｉ
+J	Ｊ
+K	Ｋ
+L	Ｌ
+M	Ｍ
+N	Ｎ
+O	Ｏ
+P	Ｐ
+Q	Ｑ
+R	Ｒ
+S	Ｓ
+T	Ｔ
+U	Ｕ
+V	Ｖ
+W	Ｗ
+X	Ｘ
+Y	Ｙ
+Z	Ｚ
+\	＼
+^	＾
+_	＿
+`	｀
+a	ａ
+b	ｂ
+c	ｃ
+d	ｄ
+e	ｅ
+f	ｆ
+g	ｇ
+h	ｈ
+i	ｉ
+j	ｊ
+k	ｋ
+l	ｌ
+m	ｍ
+n	ｎ
+o	ｏ
+p	ｐ
+q	ｑ
+r	ｒ
+s	ｓ
+t	ｔ
+u	ｕ
+v	ｖ
+w	ｗ
+x	ｘ
+y	ｙ
+z	ｚ
+{	｛
+| 	｜
+:	：
+}	｝
+~	～