Internal change

PiperOrigin-RevId: 330596737

Internal change
PiperOrigin-RevId: 330596737
636ca66f · Vincent Etter · A. Unique TensorFlower · 095bc035 · 636ca66f · 636ca66f
Commit 636ca66f authored Sep 08, 2020 by Vincent Etter Committed by A. Unique TensorFlower Sep 08, 2020
Showing with 51 additions and 1 deletion

official/nlp/data/classifier_data_lib.py official/nlp/data/classifier_data_lib.py +48 -0

official/nlp/data/create_finetuning_data.py official/nlp/data/create_finetuning_data.py +3 -1

No files found.
--- a/official/nlp/data/classifier_data_lib.py
+++ b/official/nlp/data/classifier_data_lib.py
@@ -124,6 +124,54 @@ class DataProcessor(object):
      return lines
+class AxProcessor(DataProcessor):
+  """Processor for the AX dataset (GLUE diagnostics dataset)."""
+  def get_train_examples(self, data_dir):
+    """See base class."""
+    return self._create_examples(
+        self._read_tsv(os.path.join(data_dir, "train.tsv")), "train")
+  def get_dev_examples(self, data_dir):
+    """See base class."""
+    return self._create_examples(
+        self._read_tsv(os.path.join(data_dir, "dev.tsv")), "dev")
+  def get_test_examples(self, data_dir):
+    """See base class."""
+    return self._create_examples(
+        self._read_tsv(os.path.join(data_dir, "test.tsv")), "test")
+  def get_labels(self):
+    """See base class."""
+    return ["contradiction", "entailment", "neutral"]
+  @staticmethod
+  def get_processor_name():
+    """See base class."""
+    return "AX"
+  def _create_examples(self, lines, set_type):
+    """Creates examples for the training/dev/test sets."""
+    text_a_index = 1 if set_type == "test" else 8
+    text_b_index = 2 if set_type == "test" else 9
+    examples = []
+    for i, line in enumerate(lines):
+      # Skip header.
+      if i == 0:
+        continue
+      guid = "%s-%s" % (set_type, self.process_text_fn(line[0]))
+      text_a = self.process_text_fn(line[text_a_index])
+      text_b = self.process_text_fn(line[text_b_index])
+      if set_type == "test":
+        label = "contradiction"
+      else:
+        label = self.process_text_fn(line[-1])
+      examples.append(
+          InputExample(guid=guid, text_a=text_a, text_b=text_b, label=label))
+    return examples
 class ColaProcessor(DataProcessor):
  """Processor for the CoLA data set (GLUE version)."""

--- a/official/nlp/data/create_finetuning_data.py
+++ b/official/nlp/data/create_finetuning_data.py
@@ -51,7 +51,7 @@ flags.DEFINE_string(
    "for the task.")
 flags.DEFINE_enum("classification_task_name", "MNLI",
-                  ["COLA", "MNLI", "MRPC", "PAWS-X", "QNLI", "QQP", "RTE",
+                  ["AX", "COLA", "MNLI", "MRPC", "PAWS-X", "QNLI", "QQP", "RTE",
                   "SST-2", "STS-B", "WNLI", "XNLI", "XTREME-XNLI",
                   "XTREME-PAWS-X"],
                  "The name of the task to train BERT classifier. The "
@@ -182,6 +182,8 @@ def generate_classifier_dataset():
        max_seq_length=FLAGS.max_seq_length)
  else:
    processors = {
+        "ax":
+            classifier_data_lib.AxProcessor,
        "cola":
            classifier_data_lib.ColaProcessor,
        "mnli":