move original files to examples

0c47afbb · Rick Ho · 969ef607 · 969ef607 · 969ef607 · 969ef607
Commit 0c47afbb authored Jan 25, 2021 by Rick Ho
20 changed files
--- a/pytorch/cuda/run.sh
+++ b/pytorch/cuda/run.sh
-#!/bin/bash
-if [ ! -z $OMPI_COMM_WORLD_LOCAL_RANK ]
-then
-	export CUDA_VISIBLE_DEVICES=$OMPI_COMM_WORLD_LOCAL_RANK
-fi
-
-export PYTHONPATH=$PWD/build/lib.linux-x86_64-3.7
-export LD_LIBRARY_PATH=/home/laekov/.local/lib/python3.7/site-packages/torch/lib:$LD_LIBRARY_PATH
-if [ -z $1 ]
-then
-	python3 moe_test.py 2>logs/$OMPI_COMM_WORLD_RANK.log
-else
-	python3 $@ 2>logs/$OMPI_COMM_WORLD_RANK.log
-fi
--- a/pytorch/cuda/setup.py
+++ b/pytorch/cuda/setup.py
-from setuptools import setup
-from torch.utils.cpp_extension import BuildExtension, CUDAExtension
-import os
-
-CUDA_HELPER = os.environ.get('CUDA_HELPER', '/usr/local/cuda/samples/common/inc')
-cxx_flags = [
-        '-I{}'.format(CUDA_HELPER)
-        ]
-if os.environ.get('USE_NCCL', '0') == '1':
-    cxx_flags.append('-DMOE_USE_NCCL')
-
-setup(
-    name='moe_cuda',
-    ext_modules=[
-        CUDAExtension(
-            name='moe_cuda', 
-            sources=[
-                'moe.cpp',
-                'cuda_stream_manager.cpp',
-                'moe_cuda_kernel.cu',
-                ],
-            extra_compile_args={
-                'cxx': cxx_flags,
-                'nvcc': cxx_flags
-                }
-            )
-        ],
-    cmdclass={
-        'build_ext': BuildExtension
-    })
--- a/tf/README.md
+++ b/tf/README.md
-
-## Introduction
-
-This directory contains our TF implementation of Transformer-XL. Note that our state-of-the-art results reported in the paper were obtained by training the model on a large-scale TPU cluster, and our gpu codebase currently does not support distributed training. Here we provide two sets of hyperparameters and scripts:
- `*large_tpu.sh` are for the SoTA setting on TPUs. These are exactly the commands we used to obtained our best results.
- `*base_gpu.sh` are for the base models which can be run on a few GPUs.
-
-
-## Prerequisite
-
- Python 2.7
- Tensorflow [1.12.0](https://github.com/tensorflow/tensorflow/releases/tag/v1.12.0)
-
-
-
-## Obtain and evaluate pretrained SoTA models
-
-#### 1. Download preprocessed data (vocab) & pretrained models
-
-(a) Set your own `DATA_ROOT` in `sota/download.sh` (default to `./`), which will be the root diretory of downloaded model.
-
-(b) Then, download the model & data by `bash sota/download.sh`. After downloading, the expected directory structure is as follows
-
-```markdown
-pretrained_xl
-  tf_enwik8/
-    data/
-      cache.pkl
-      corpus-info.json
-    model/
-      checkpoint
-      model.ckpt*
-  tf_wt103/
-  	...
-  ...
-```
-
-**Note**: we include preprocessed data in the download files to make sure the **same vocabulary** is used. Please see the code `tf/data_utils.py` to understand the data structure.
-
-
-
-#### 2. Run evaluation scripts to replicate SoTA results on GPUs
-
- **enwik8**: modify the script `sota/enwik8.sh` accordingly (see below)
-  - set `DATA_ROOT` to the same folder used in the download step (default to `./`)
-  - set `TEST_NUM_CORE ` (number of GPUs to use): we recommend 2 GPUs => about 60 mins
-  - run the script: `bash sota/enwik8.sh`
-
- **lm1b**: modify the script `sota/lm1b.sh` accordingly  (see below)
-  - set `DATA_ROOT` to the same folder used in the download step (default to `./`)
-  - set `TEST_NUM_CORE ` (number of GPUs to use): we recommend 1 GPUs => less than 5 mins
-  - run the script: `bash sota/lm1b.sh`
-
- **wt103**:  modify the script `sota/wt103.sh` accordingly  (see below)
-  - set `DATA_ROOT` to the same folder used in the download step (default to `./`)
-  - set `TEST_NUM_CORE ` (number of GPUs to use): we recommend 1 GPUs => less than 5 mins
-  - run the script: `bash sota/wt103.sh`
-
- **text8**:  modify the script `sota/text8.sh` accordingly  (see below)
-  - set `DATA_ROOT` to the same folder used in the download step (default to `./`)
-  - set `TEST_NUM_CORE ` (number of GPUs to use): we recommend 2 GPUs => about 60 mins
-  - run the script: `bash sota/text8.sh`
-
-
-#### 3. Resources Needed for SoTA Model Training
-
-We used 32, 32, 64, and 512 TPU cores for training our best models on enwik8, text8, wt103, and lm1b respectively. The training time for each model ranges from 2 to 5 days.
-
-
-
-## Train "Transformer-XL" from scratch with GPUs or TPUs
-
-### 1. Download raw data
-
-`bash getdata.sh`
-
-
-
-### 2. Preprocess, training and evaluation
-
-For `dataset` in `[enwik8, lm1b, wt103, text8]`:
-
- check out `scripts/dataset_base_gpu.sh` for GPU training and evaluation
- check out `scripts/dataset_large_tpu.sh` for TPU training and evaluation
-
-
-
-#### (1) Preprocess raw data and create tfrecords
-
-**NOTE**: The preprocessing for GPU and TPU are different. So, you have to run them separately.
-
-GPU:
-
- create training and validation data: `bash scripts/dataset_bas_gpu.sh train_data`
- create test data: `bash scripts/dataset_base_gpu.sh test_data`
-
-TPU:
-
- Set the Google storage URL  in `scripts/dataset_large_tpu.sh`:
-  - `GSDATA`: data URL
-  - `GSEXP`: experiment URL
- create training and validation data: `bash scripts/dataset_large_tpu.sh train_data`
- create test data: `bash scripts/dataset_large_tpu.sh test_data`
-
-
-
-#### (2) Run training
-
-Base models on GPUs:
-
- Modify the configurations in `scripts/dataset_base_gpu.sh`  according to your needs.
- `bash scripts/dataset_base_gpu.sh train`
- If enough resources are available, increasing the model sizes (e.g., `N_LAYER`, `D_MODEL`, `D_EMBED`, `D_HEAD`, `D_INNER`) so that they are closer to the values defined in `scripts/dataset_large_tpu.sh`. Likewise, when resources are limited, decrease the model sizes. It is recommended to ensure that `D_MODEL == D_EMBED` and `D_MODEL == N_HEAD x D_HEAD`. When the model sizes increase, remember to increase `warmup_steps` accordingly to alleviate optimization difficulties.
- Adjust the `NUM_CORE` parameter to reflect the number of GPUs to use.
-
-Larger models on TPUs:
-
- Modify the configurations in `scripts/dataset_large_tpu.sh`  according to your needs.
- `bash scripts/dataset_large_tpu.sh train`
-
-
-
-#### (3) Run evaluation
-
-Base models on GPUs:
-
- `bash scripts/dataset_base_gpu.sh eval --eval_ckpt_path PATH_TO_CKPT`
-
-Larger models on TPUs:
-
- `bash scripts/dataset_base_tpu.sh eval --eval_ckpt_path PATH_TO_CKPT`
--- a/tf/avg_checkpoints.py
+++ b/tf/avg_checkpoints.py
-# coding=utf-8
-# Copyright 2018 The Tensor2Tensor Authors.
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-#     http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-"""Script to average values of variables in a list of checkpoint files."""
-from __future__ import absolute_import
-from __future__ import division
-from __future__ import print_function
-
-import os
-import numpy as np
-import six
-from six.moves import zip  # pylint: disable=redefined-builtin
-import tensorflow as tf
-
-flags = tf.flags
-FLAGS = flags.FLAGS
-
-flags.DEFINE_string("checkpoints", "",
-                    "Comma-separated list of checkpoints to average.")
-flags.DEFINE_integer("num_last_checkpoints", 0,
-                     "Averages the last N saved checkpoints."
-                     " If the checkpoints flag is set, this is ignored.")
-flags.DEFINE_string("prefix", "",
-                    "Prefix (e.g., directory) to append to each checkpoint.")
-flags.DEFINE_string("output_path", "/tmp/averaged.ckpt",
-                    "Path to output the averaged checkpoint to.")
-
-
-def checkpoint_exists(path):
-  return (tf.gfile.Exists(path) or tf.gfile.Exists(path + ".meta") or
-          tf.gfile.Exists(path + ".index"))
-
-
-def main(_):
-  tf.logging.set_verbosity(tf.logging.INFO)
-  if FLAGS.checkpoints:
-    # Get the checkpoints list from flags and run some basic checks.
-    checkpoints = [c.strip() for c in FLAGS.checkpoints.split(",")]
-    checkpoints = [c for c in checkpoints if c]
-    if not checkpoints:
-      raise ValueError("No checkpoints provided for averaging.")
-    if FLAGS.prefix:
-      checkpoints = [FLAGS.prefix + c for c in checkpoints]
-  else:
-    assert FLAGS.num_last_checkpoints >= 1, "Must average at least one model"
-    assert FLAGS.prefix, ("Prefix must be provided when averaging last"
-                          " N checkpoints")
-    checkpoint_state = tf.train.get_checkpoint_state(
-        os.path.dirname(FLAGS.prefix))
-    # Checkpoints are ordered from oldest to newest.
-    checkpoints = checkpoint_state.all_model_checkpoint_paths[
-        -FLAGS.num_last_checkpoints:]
-
-  checkpoints = [c for c in checkpoints if checkpoint_exists(c)]
-  if not checkpoints:
-    if FLAGS.checkpoints:
-      raise ValueError(
-          "None of the provided checkpoints exist. %s" % FLAGS.checkpoints)
-    else:
-      raise ValueError("Could not find checkpoints at %s" %
-                       os.path.dirname(FLAGS.prefix))
-
-  # Read variables from all checkpoints and average them.
-  tf.logging.info("Reading variables and averaging checkpoints:")
-  for c in checkpoints:
-    tf.logging.info("%s ", c)
-  var_list = tf.contrib.framework.list_variables(checkpoints[0])
-  var_values, var_dtypes = {}, {}
-  for (name, shape) in var_list:
-    if not name.startswith("global_step"):
-      var_values[name] = np.zeros(shape)
-  for checkpoint in checkpoints:
-    reader = tf.contrib.framework.load_checkpoint(checkpoint)
-    for name in var_values:
-      tensor = reader.get_tensor(name)
-      var_dtypes[name] = tensor.dtype
-      var_values[name] += tensor
-    tf.logging.info("Read from checkpoint %s", checkpoint)
-  for name in var_values:  # Average.
-    var_values[name] /= len(checkpoints)
-
-  with tf.variable_scope(tf.get_variable_scope(), reuse=tf.AUTO_REUSE):
-    tf_vars = [
-        tf.get_variable(v, shape=var_values[v].shape, dtype=var_dtypes[v])
-        for v in var_values
-    ]
-  placeholders = [tf.placeholder(v.dtype, shape=v.shape) for v in tf_vars]
-  assign_ops = [tf.assign(v, p) for (v, p) in zip(tf_vars, placeholders)]
-  global_step = tf.Variable(
-      0, name="global_step", trainable=False, dtype=tf.int64)
-  saver = tf.train.Saver(tf.all_variables())
-
-  # Build a model consisting only of variables, set them to the average values.
-  with tf.Session() as sess:
-    sess.run(tf.initialize_all_variables())
-    for p, assign_op, (name, value) in zip(placeholders, assign_ops,
-                                           six.iteritems(var_values)):
-      sess.run(assign_op, {p: value})
-    # Use the built saver to save the averaged checkpoint.
-    saver.save(sess, FLAGS.output_path, global_step=global_step)
-
-  tf.logging.info("Averaged checkpoints saved in %s", FLAGS.output_path)
-
-
-if __name__ == "__main__":
-  tf.app.run()
--- a/tf/data_utils.py
+++ b/tf/data_utils.py
-from __future__ import absolute_import
-from __future__ import division
-from __future__ import print_function
-
-import math
-import os
-from functools import partial
-
-from collections import Counter, OrderedDict
-import pickle
-import json
-import multiprocessing as mp
-
-import numpy as np
-
-from absl import flags
-import tensorflow as tf
-from vocabulary import Vocab
-
-from tensorflow.gfile import Exists as exists
-from tensorflow.gfile import MakeDirs as makedirs
-from tensorflow.gfile import Glob as glob
-
-
-def _preprocess(shard, train, vocab, save_dir, cutoffs, bin_sizes, bsz, tgt_len,
-                num_core_per_host, use_tpu, num_shuffle):
-  file_names = []
-  num_batch = 0
-
-  path = train[shard]
-  data_shard = vocab.encode_file(path, ordered=False, add_double_eos=True)
-
-  for shuffle in range(num_shuffle):
-    basename = "train-{:03d}-{:02d}".format(shard, shuffle)
-    print("Processing shard {} shuffle {}".format(shard, shuffle))
-
-    np.random.shuffle(data_shard)
-    file_name, num_batch_shuffle = create_ordered_tfrecords(
-        save_dir, basename, np.concatenate(data_shard), bsz, tgt_len,
-        num_core_per_host, cutoffs, bin_sizes, use_tpu=use_tpu)
-    file_names.append(file_name)
-    num_batch += num_batch_shuffle
-
-  return file_names, num_batch
-
-
-class Corpus(object):
-  def __init__(self, path, dataset, *args, **kwargs):
-    self.dataset = dataset
-    self.vocab = Vocab(*args, **kwargs)
-
-    if self.dataset in ["ptb", "wt2", "enwik8", "text8"]:
-      self.vocab.count_file(os.path.join(path, "train.txt"))
-      self.vocab.count_file(os.path.join(path, "valid.txt"))
-      self.vocab.count_file(os.path.join(path, "test.txt"))
-    elif self.dataset == "wt103":
-      self.vocab.count_file(os.path.join(path, "train.txt"))
-    elif self.dataset == "lm1b":
-      train_path_pattern = os.path.join(
-          path, "1-billion-word-language-modeling-benchmark-r13output",
-          "training-monolingual.tokenized.shuffled", "news.en-*")
-      train_paths = glob(train_path_pattern)
-
-      # the vocab will load from file when build_vocab() is called
-      # for train_path in sorted(train_paths):
-      #   self.vocab.count_file(train_path, verbose=True)
-
-    self.vocab.build_vocab()
-
-    if self.dataset in ["ptb", "wt2", "wt103"]:
-      self.train = self.vocab.encode_file(
-          os.path.join(path, "train.txt"), ordered=True)
-      self.valid = self.vocab.encode_file(
-          os.path.join(path, "valid.txt"), ordered=True)
-      self.test  = self.vocab.encode_file(
-          os.path.join(path, "test.txt"), ordered=True)
-    elif self.dataset in ["enwik8", "text8"]:
-      self.train = self.vocab.encode_file(
-          os.path.join(path, "train.txt"), ordered=True, add_eos=False)
-      self.valid = self.vocab.encode_file(
-          os.path.join(path, "valid.txt"), ordered=True, add_eos=False)
-      self.test  = self.vocab.encode_file(
-          os.path.join(path, "test.txt"), ordered=True, add_eos=False)
-    elif self.dataset == "lm1b":
-      self.train = train_paths
-      valid_path = os.path.join(path, "valid.txt")
-      test_path = valid_path
-      self.valid = self.vocab.encode_file(
-          valid_path, ordered=True, add_double_eos=True)
-      self.test  = self.vocab.encode_file(
-          test_path, ordered=True, add_double_eos=True)
-
-    if self.dataset == "wt103":
-      self.cutoffs = [0, 20000, 40000, 200000] + [len(self.vocab)]
-    elif self.dataset == "lm1b":
-      self.cutoffs = [0, 60000, 100000, 640000] + [len(self.vocab)]
-    else:
-      self.cutoffs = []
-
-
-  def convert_to_tfrecords(self, split, save_dir, bsz, tgt_len,
-                           num_core_per_host, **kwargs):
-    FLAGS = kwargs.get('FLAGS')
-
-    file_names = []
-    use_tpu = FLAGS.use_tpu and not (split == "test" and num_core_per_host == 1)
-
-    if use_tpu:
-      record_name = "record_info-{}.bsz-{}.tlen-{}.core-{}.json".format(
-           split, bsz, tgt_len, num_core_per_host)
-    else:
-      record_name = "record_info-{}.bsz-{}.tlen-{}.json".format(
-           split, bsz, tgt_len)
-
-    record_info_path = os.path.join(save_dir, record_name)
-
-    if self.dataset in ["ptb", "wt2", "wt103", "enwik8", "text8"]:
-      data = getattr(self, split)
-      bin_sizes = get_bin_sizes(
-          data, bsz // num_core_per_host, tgt_len, self.cutoffs)
-      file_name, num_batch = create_ordered_tfrecords(
-          save_dir, split, data, bsz, tgt_len, num_core_per_host,
-          self.cutoffs, bin_sizes,
-          num_passes=FLAGS.num_passes if split == 'train' and use_tpu else 1,
-          use_tpu=use_tpu)
-      file_names.append(file_name)
-    elif self.dataset == "lm1b":
-      bin_sizes = get_bin_sizes(
-          self.valid, bsz // num_core_per_host, tgt_len, self.cutoffs)
-      if split == "train":
-        np.random.seed(123456)
-        num_batch = 0
-
-        if FLAGS.num_procs > 1:
-          _preprocess_wrapper = partial(_preprocess,
-              train=self.train, vocab=self.vocab, save_dir=save_dir,
-              cutoffs=self.cutoffs, bin_sizes=bin_sizes, bsz=bsz,
-              tgt_len=tgt_len, num_core_per_host=num_core_per_host,
-              use_tpu=use_tpu, num_shuffle=FLAGS.num_shuffle)
-
-          pool = mp.Pool(processes=FLAGS.num_procs)
-          results = pool.map(_preprocess_wrapper, range(len(self.train)))
-          for res in results:
-            file_names.extend(res[0])
-            num_batch += res[1]
-        else:
-          for shard, path in enumerate(self.train):
-            data_shard = self.vocab.encode_file(path, ordered=False,
-                                                add_double_eos=True)
-
-            num_shuffle = FLAGS.num_shuffle
-
-            for shuffle in range(num_shuffle):
-              print("Processing shard {} shuffle {}".format(shard, shuffle))
-              basename = "train-{:03d}-{:02d}".format(shard, shuffle)
-              np.random.shuffle(data_shard)
-              file_name, num_batch_ = create_ordered_tfrecords(
-                  save_dir, basename, np.concatenate(data_shard), bsz, tgt_len,
-                  num_core_per_host,
-                  self.cutoffs, bin_sizes, use_tpu=use_tpu)
-              file_names.append(file_name)
-              num_batch += num_batch_
-
-      else:
-        file_name, num_batch = create_ordered_tfrecords(
-            save_dir, split, getattr(self, split), bsz, tgt_len,
-            num_core_per_host,
-            self.cutoffs, bin_sizes, use_tpu=use_tpu)
-        file_names.append(file_name)
-
-    with open(record_info_path, "w") as fp:
-      record_info = {
-        "filenames": file_names,
-        "bin_sizes": bin_sizes,
-        "num_batch": num_batch
-      }
-      json.dump(record_info, fp)
-
-
-def get_bin_sizes(data, batch_size, tgt_len, cutoffs, std_mult=[2.5, 2.5, 2.5]):
-  """
-    Note: the `batch_size` here should be per-core batch size
-  """
-  bin_sizes = []
-
-  def _nearest_to_eight(x): # so that it's faster on TPUs
-    y = x - x % 8
-    return y + 8 if x % 8 >= 4 else max(8, y)
-
-  if cutoffs:
-    num_batch = len(data) // batch_size // tgt_len
-
-    data = data[:batch_size * num_batch * tgt_len]
-    data = data.reshape(batch_size, num_batch, tgt_len)
-
-    tot = batch_size * tgt_len
-    for b, (left, right) in enumerate(zip(cutoffs[1:-1], cutoffs[2:])):
-      mask = (data >= left) * (data < right)
-      percents = mask.astype(np.float64).sum(2).sum(0) / tot
-      mean = np.mean(percents)
-      std = np.std(percents)
-
-      bin_size = int(math.ceil(tgt_len * batch_size * (mean + std_mult[b] * std)))
-      bin_size = _nearest_to_eight(bin_size)
-      bin_sizes.append(bin_size)
-
-  return bin_sizes
-
-
-def _int64_feature(values):
-  return tf.train.Feature(int64_list=tf.train.Int64List(value=values))
-
-def _float_feature(values):
-  return tf.train.Feature(float_list=tf.train.FloatList(value=values))
-
-def batchify(data, batch_size, num_passes):
-  """
-    if use_tpu = True: num_passes > 1 
-    
-    Since TPU training requires entire [bsz x tgt_len] chunks, it can discard
-    as many as `bsz * tgt_len` tokens in training. When `bsz` and `tgt_len` are 
-    both large, as in the case of TPU training for Transformer-XL, the problem
-    may lead to detectable performance drop. 
-
-    Here, we use multiple randomly shifted copies to deal with this problem.
-  """
-  if num_passes > 1:
-    data_len = len(data)
-    double_data = np.concatenate([data, data])
-    data_list = []
-    for i in range(num_passes):
-      start = np.random.randint(0, data_len)
-      data_list.append(double_data[start:start+data_len])
-    data = np.concatenate(data_list)
-
-  num_step = len(data) // batch_size
-  data = data[:batch_size * num_step]
-  data = data.reshape(batch_size, num_step)
-
-  return data
-
-
-def create_ordered_tfrecords(save_dir, basename, data, batch_size, tgt_len,
-                             num_core_per_host, cutoffs=[], bin_sizes=[], 
-                             num_passes=1, use_tpu=False):
-
-  if use_tpu:
-    file_name = "{}.bsz-{}.tlen-{}.core-{}.tfrecords".format(
-        basename, batch_size, tgt_len, num_core_per_host)
-  else:
-    file_name = "{}.bsz-{}.tlen-{}.tfrecords".format(
-        basename, batch_size, tgt_len)
-
-  save_path = os.path.join(save_dir, file_name)
-  record_writer = tf.python_io.TFRecordWriter(save_path)
-
-  batched_data = batchify(data, batch_size, num_passes)
-
-  num_batch = 0
-  # for t in range(0, batched_data.shape[1] - tgt_len - 1, tgt_len):
-  for t in range(0, batched_data.shape[1] - 1, tgt_len):
-    cur_tgt_len = min(batched_data.shape[1] - 1 - t, tgt_len)
-    # drop the remainder if use tpu
-    if use_tpu and cur_tgt_len < tgt_len: 
-      break
-    if num_batch % 500 == 0:
-      print("  processing batch {}".format(num_batch))
-    for idx in range(batch_size):
-      inputs = batched_data[idx, t:t + cur_tgt_len]
-      labels = batched_data[idx, t + 1:t + cur_tgt_len + 1]
-
-      # features dict
-      feature = {
-          "inputs": _int64_feature(inputs),
-          "labels": _int64_feature(labels),
-      }
-
-      if len(cutoffs) > 0 and use_tpu:
-        # validate `bin_sizes` and `cutoffs`
-        assert len(cutoffs) - len(bin_sizes) == 2, \
-          "len(cutoffs) - len(bin_sizes) != 2"
-
-        # mask for bin 0
-        left, right = cutoffs[:2]
-        inp_mask = ((inputs >= left) * (inputs < right)).astype(np.float32)
-        tgt_mask = ((labels >= left) * (labels < right)).astype(np.float32)
-
-        feature["inp_mask"] = _float_feature(inp_mask)
-        feature["tgt_mask"] = _float_feature(tgt_mask)
-
-        # refresh `inp_cnts` and `tgt_cnts` for each TPU core
-        if idx % (batch_size // num_core_per_host) == 0:
-          inp_cnts = [0] * len(bin_sizes)
-          tgt_cnts = [0] * len(bin_sizes)
-
-        head_labels = np.copy(labels)
-        inp_pos_per_bin, tgt_pos_per_bin = [], []
-        for b, (left, right) in enumerate(zip(cutoffs[1:-1], cutoffs[2:])):
-          inp_pos = np.where((inputs >= left) * (inputs < right))[0]
-          tgt_pos = np.where((labels >= left) * (labels < right))[0]
-          inp_pos_per_bin.append(inp_pos)
-          tgt_pos_per_bin.append(tgt_pos)
-
-          head_labels[tgt_pos] = cutoffs[1] + b
-
-        feature["head_labels"] = _int64_feature(head_labels)
-
-        # permutation feature
-        def _add_perm_feature(feature, pos_per_bin, cnts, prefix):
-          for b, pos in enumerate(pos_per_bin):
-            idx_tuple = []
-            for p in pos:
-              if cnts[b] < bin_sizes[b]:
-                idx_tuple.append([p, cnts[b]])
-                cnts[b] += 1
-              else:
-                break
-
-            n_tup = len(idx_tuple)
-            tup = np.array(idx_tuple).reshape(n_tup * 2)
-
-            feature["{}_cnt_{}".format(prefix, b)] = _int64_feature([n_tup])
-            feature["{}_tup_{}".format(prefix, b)] = _int64_feature(tup)
-
-        _add_perm_feature(feature, inp_pos_per_bin, inp_cnts, "inp")
-        _add_perm_feature(feature, tgt_pos_per_bin, tgt_cnts, "tgt")
-
-      example = tf.train.Example(features=tf.train.Features(feature=feature))
-      record_writer.write(example.SerializeToString())
-
-    num_batch += 1
-
-  record_writer.close()
-  print("Done writing {}. batches: {}".format(file_name, num_batch))
-
-  return file_name, num_batch
-
-
-def get_lm_corpus(data_dir, dataset):
-  fn = os.path.join(data_dir, "cache.pkl")
-
-  if exists(fn):
-    print("Loading cached dataset...")
-    with open(fn, "rb") as fp:
-      corpus = pickle.load(fp)
-  else:
-    print("Producing dataset...")
-    kwargs = {}
-    if dataset in ["wt103", "wt2"]:
-      kwargs["special"] = ["<eos>"]
-      kwargs["lower_case"] = False
-    elif dataset == "ptb":
-      kwargs["special"] = ["<eos>"]
-      kwargs["lower_case"] = True
-    elif dataset == "lm1b":
-      kwargs["special"] = []
-      kwargs["lower_case"] = False
-      kwargs["vocab_file"] = os.path.join(data_dir, "1b_word_vocab.txt")
-    elif dataset in ["enwik8", "text8"]:
-      pass
-
-    corpus = Corpus(data_dir, dataset, **kwargs)
-
-    print("Saving dataset...")
-    with open(fn, "wb") as fp:
-      pickle.dump(corpus, fp, protocol=2)
-
-    corpus_info = {
-      "vocab_size" : len(corpus.vocab),
-      "cutoffs" : corpus.cutoffs,
-      "dataset" : corpus.dataset
-    }
-    with open(os.path.join(data_dir, "corpus-info.json"), "w") as fp:
-      json.dump(corpus_info, fp)
-
-  return corpus
-
-
-def main(unused_argv):
-  del unused_argv  # Unused
-
-  corpus = get_lm_corpus(FLAGS.data_dir, FLAGS.dataset)
-
-  save_dir = os.path.join(FLAGS.data_dir, "tfrecords")
-  if not exists(save_dir):
-    makedirs(save_dir)
-
-  # test mode
-  if FLAGS.per_host_test_bsz > 0:
-    corpus.convert_to_tfrecords("test", save_dir, FLAGS.per_host_test_bsz,
-                                FLAGS.tgt_len, FLAGS.num_core_per_host, 
-                                FLAGS=FLAGS)
-    return
-
-  for split, batch_size in zip(
-      ["train", "valid"],
-      [FLAGS.per_host_train_bsz, FLAGS.per_host_valid_bsz]):
-
-    if batch_size <= 0: continue
-    print("Converting {} set...".format(split))
-    corpus.convert_to_tfrecords(split, save_dir, batch_size, FLAGS.tgt_len,
-                                FLAGS.num_core_per_host, FLAGS=FLAGS)
-
-
-def load_record_info(record_info_dir, split, per_host_bsz, tgt_len,
-                     num_core_per_host, use_tpu):
-  if use_tpu:
-    record_name = "record_info-{}.bsz-{}.tlen-{}.core-{}.json".format(
-        split, per_host_bsz, tgt_len, num_core_per_host)
-  else:
-    record_name = "record_info-{}.bsz-{}.tlen-{}.json".format(
-        split, per_host_bsz, tgt_len)
-
-  record_info_path = os.path.join(record_info_dir, record_name)
-  with open(record_info_path, "r") as fp:
-    record_info = json.load(fp)
-
-  return record_info
-
-def get_input_fn(record_info_dir, split, per_host_bsz, tgt_len,
-                 num_core_per_host, num_hosts=1, use_tpu=False):
-  """Creates input function."""
-  record_info = load_record_info(record_info_dir, split, per_host_bsz, tgt_len,
-                                 num_core_per_host, use_tpu=use_tpu)
-
-  file_names = record_info["filenames"]
-  bin_sizes = record_info["bin_sizes"]
-  num_batch = record_info["num_batch"]
-
-  tf.logging.info("[{}] File names {}".format(split, file_names))
-
-  def input_fn(params):
-    # per-core batch size
-    per_core_bsz = params["batch_size"]
-
-    # data_dir could be a remote path, e.g., a google storage url
-    data_dir = params["data_dir"]
-
-    def parser(record):
-      # preprocess "inp_perm" and "tgt_perm"
-      def _process_perm_feature(example, prefix):
-        for b in range(len(bin_sizes)):
-          cnt = example.pop("{}_cnt_{}".format(prefix, b))[0]
-          tup = example.pop("{}_tup_{}".format(prefix, b))
-
-          tup = tf.reshape(
-              tf.sparse_tensor_to_dense(tup),
-              shape=[cnt, 2])
-
-          # tf.float32
-          perm = tf.sparse_to_dense(
-              sparse_indices=tup,
-              output_shape=[tgt_len, bin_sizes[b]],
-              sparse_values=1.0,
-              default_value=0.0)
-
-          example["{}_perm_{}".format(prefix, b)] = perm
-
-      # whether allow the last batch with a potentially shorter length
-      if use_tpu:
-        record_spec = {
-            "inputs": tf.FixedLenFeature([tgt_len], tf.int64),
-            "labels": tf.FixedLenFeature([tgt_len], tf.int64),
-        }
-      else:
-        record_spec = {
-            "inputs": tf.VarLenFeature(tf.int64),
-            "labels": tf.VarLenFeature(tf.int64),
-        }
-
-      # permutation related features
-      if bin_sizes and use_tpu:
-        # tf.float32
-        record_spec["inp_mask"] = tf.FixedLenFeature([tgt_len], tf.float32)
-        record_spec["tgt_mask"] = tf.FixedLenFeature([tgt_len], tf.float32)
-
-        record_spec["head_labels"] = tf.FixedLenFeature([tgt_len], tf.int64)
-
-        for b in range(len(bin_sizes)):
-          record_spec["inp_cnt_{}".format(b)] = tf.FixedLenFeature([1], tf.int64)
-          record_spec["inp_tup_{}".format(b)] = tf.VarLenFeature(tf.int64)
-          record_spec["tgt_cnt_{}".format(b)] = tf.FixedLenFeature([1], tf.int64)
-          record_spec["tgt_tup_{}".format(b)] = tf.VarLenFeature(tf.int64)
-
-      # retrieve serialized example
-      example = tf.parse_single_example(
-          serialized=record,
-          features=record_spec)
-
-      # transform permutation tuples to permutation matrices
-      if bin_sizes and use_tpu:
-        _process_perm_feature(example, "inp")
-        _process_perm_feature(example, "tgt")
-
-      # cast int64 into int32
-      # cast sparse to dense
-      for key in list(example.keys()):
-        val = example[key]
-        if tf.keras.backend.is_sparse(val):
-          val = tf.sparse.to_dense(val)
-        if val.dtype == tf.int64:
-          val = tf.to_int32(val)
-        example[key] = val
-
-      if use_tpu:
-        return example
-      else:
-        return example["inputs"], example["labels"]
-
-    file_paths = []
-    for file_name in file_names:
-      file_path = os.path.join(data_dir, file_name)
-      file_paths.append(file_path)
-
-    if split == "train":
-      dataset = tf.data.Dataset.from_tensor_slices(file_paths)
-      if len(file_paths) > 1:
-        dataset = dataset.shuffle(len(file_paths)).repeat()
-        dataset = tf.data.TFRecordDataset(dataset)
-      elif num_hosts > 1:
-        host_id = params["context"].current_host
-        # drop the remaining batches
-        num_batch_per_host = num_batch // num_hosts
-
-        my_start_sample_id = (host_id * num_batch_per_host * num_core_per_host *
-                              per_core_bsz)
-        my_sample_num = num_batch_per_host * num_core_per_host * per_core_bsz
-        dataset = tf.data.TFRecordDataset(dataset).skip(
-            my_start_sample_id).take(my_sample_num)
-      else:
-        dataset = tf.data.TFRecordDataset(dataset)
-
-      dataset = dataset.map(parser).cache().repeat()
-      dataset = dataset.batch(per_core_bsz, drop_remainder=True)
-      dataset = dataset.prefetch(num_core_per_host * per_core_bsz)
-    else:
-      # do not shuffle, repeat or cache in evaluation
-      dataset = tf.data.Dataset.from_tensor_slices(file_paths)
-      dataset = tf.data.TFRecordDataset(dataset)
-      dataset = dataset.map(parser)
-      dataset = dataset.batch(per_core_bsz, drop_remainder=True)
-
-    return dataset
-
-  if split == "train" and num_hosts > 1:
-    record_info["num_batch"] = num_batch // num_hosts
-
-  return input_fn, record_info
-
-def get_corpus_info(corpus_info_path):
-  with open(corpus_info_path, "r") as fp:
-    corpus_info = json.load(fp)
-  return corpus_info
-
-if __name__ == "__main__":
-  FLAGS = flags.FLAGS
-  flags.DEFINE_string("data_dir", None,
-        help="Location of the data corpus")
-  flags.DEFINE_enum("dataset", "wt103",
-        ["ptb", "wt2", "wt103", "lm1b", "enwik8", "text8"],
-        help="Dataset name.")
-  flags.DEFINE_integer("per_host_train_bsz", 60,
-        help="train batch size each host")
-  flags.DEFINE_integer("per_host_valid_bsz", 60,
-        help="valid batch size each host")
-  flags.DEFINE_integer("per_host_test_bsz", 0,
-        help="If > 0, enter test mode and process test set only."
-             "Otherwise, process train and dev sets only.")
-  flags.DEFINE_integer("tgt_len", 70,
-        help="number of tokens to predict")
-  flags.DEFINE_integer("max_batch", -1,
-        help="run in debug mode")
-  flags.DEFINE_integer("num_core_per_host", 8,
-        help="8 for TPU v2.")
-  flags.DEFINE_bool("debug", default=False,
-        help="Process only the first batch without shuffle for lm1b.")
-  flags.DEFINE_integer("num_procs", 1,
-        help="number of processes")
-  flags.DEFINE_integer("num_passes", 10,
-        help="number of passes when use_tpu=True")
-  flags.DEFINE_integer("num_shuffle", 4,
-        help="number of shuffles for lm1b")
-  flags.DEFINE_bool("use_tpu", True,
-        help="use tpu")
-
-  tf.app.run(main)
--- a/tf/gpu_utils.py
+++ b/tf/gpu_utils.py
-import os
-import tensorflow as tf
-
-def assign_to_gpu(gpu=0, ps_dev="/device:CPU:0"):
-    def _assign(op):
-        node_def = op if isinstance(op, tf.NodeDef) else op.node_def
-        if node_def.op == "Variable":
-            return ps_dev
-        else:
-            return "/gpu:%d" % gpu
-    return _assign
-
-
-def average_grads_and_vars(tower_grads_and_vars):
-    def average_dense(grad_and_vars):
-        if len(grad_and_vars) == 1:
-            return grad_and_vars[0][0]
-
-        grad = grad_and_vars[0][0]
-        for g, _ in grad_and_vars[1:]:
-            grad += g
-        return grad / len(grad_and_vars)
-
-    def average_sparse(grad_and_vars):
-        if len(grad_and_vars) == 1:
-            return grad_and_vars[0][0]
-
-        indices = []
-        values = []
-        for g, _ in grad_and_vars:
-            indices += [g.indices]
-            values += [g.values]
-        indices = tf.concat(indices, 0)
-        values = tf.concat(values, 0) / len(grad_and_vars)
-        return tf.IndexedSlices(values, indices, grad_and_vars[0][0].dense_shape)
-
-    average_grads_and_vars = []
-    for grad_and_vars in zip(*tower_grads_and_vars):
-        if grad_and_vars[0][0] is None:
-            grad = None
-        elif isinstance(grad_and_vars[0][0], tf.IndexedSlices):
-            grad = average_sparse(grad_and_vars)
-        else:
-            grad = average_dense(grad_and_vars)
-        # Keep in mind that the Variables are redundant because they are shared
-        # across towers. So .. we will just return the first tower's pointer to
-        # the Variable.
-        v = grad_and_vars[0][1]
-        grad_and_var = (grad, v)
-        average_grads_and_vars.append(grad_and_var)
-    return average_grads_and_vars
-
-
-def load_from_checkpoint(saver, logdir):
-    sess = tf.get_default_session()
-    ckpt = tf.train.get_checkpoint_state(logdir)
-    if ckpt and ckpt.model_checkpoint_path:
-        if os.path.isabs(ckpt.model_checkpoint_path):
-            # Restores from checkpoint with absolute path.
-            saver.restore(sess, ckpt.model_checkpoint_path)
-        else:
-            # Restores from checkpoint with relative path.
-            saver.restore(sess, os.path.join(logdir, ckpt.model_checkpoint_path))
-        return True
-    return False
--- a/tf/model.py
+++ b/tf/model.py
-import tensorflow as tf
-
-
-def positional_embedding(pos_seq, inv_freq, bsz=None):
-  sinusoid_inp = tf.einsum('i,j->ij', pos_seq, inv_freq)
-  pos_emb = tf.concat([tf.sin(sinusoid_inp), tf.cos(sinusoid_inp)], -1)
-  if bsz is not None:
-    return tf.tile(pos_emb[:, None, :], [1, bsz, 1])
-  else:
-    return pos_emb[:, None, :]
-
-
-def positionwise_FF(inp, d_model, d_inner, dropout, kernel_initializer,
-                    scope='ff', is_training=True):
-  output = inp
-  with tf.variable_scope(scope):
-    output = tf.layers.dense(inp, d_inner, activation=tf.nn.relu,
-                             kernel_initializer=kernel_initializer,
-                             name='layer_1')
-    output = tf.layers.dropout(output, dropout, training=is_training,
-                               name='drop_1')
-    output = tf.layers.dense(output, d_model,
-                             kernel_initializer=kernel_initializer,
-                             name='layer_2')
-    output = tf.layers.dropout(output, dropout, training=is_training,
-                               name='drop_2')
-    output = tf.contrib.layers.layer_norm(output + inp, begin_norm_axis=-1)
-  return output
-
-
-def rel_shift(x):
-  x_size = tf.shape(x)
-
-  x = tf.pad(x, [[0, 0], [1, 0], [0, 0], [0, 0]])
-  x = tf.reshape(x, [x_size[1] + 1, x_size[0], x_size[2], x_size[3]])
-  x = tf.slice(x, [1, 0, 0, 0], [-1, -1, -1, -1])
-  x = tf.reshape(x, x_size)
-
-  return x
-
-
-def rel_multihead_attn(w, r, r_w_bias, r_r_bias, attn_mask, mems, d_model,
-                       n_head, d_head, dropout, dropatt, is_training,
-                       kernel_initializer, scope='rel_attn'):
-  scale = 1 / (d_head ** 0.5)
-  with tf.variable_scope(scope):
-    qlen = tf.shape(w)[0]
-    rlen = tf.shape(r)[0]
-    bsz = tf.shape(w)[1]
-
-    cat = tf.concat([mems, w],
-                    0) if mems is not None and mems.shape.ndims > 1 else w
-    w_heads = tf.layers.dense(cat, 3 * n_head * d_head, use_bias=False,
-                              kernel_initializer=kernel_initializer, name='qkv')
-    r_head_k = tf.layers.dense(r, n_head * d_head, use_bias=False,
-                               kernel_initializer=kernel_initializer, name='r')
-
-    w_head_q, w_head_k, w_head_v = tf.split(w_heads, 3, -1)
-    w_head_q = w_head_q[-qlen:]
-
-    klen = tf.shape(w_head_k)[0]
-
-    w_head_q = tf.reshape(w_head_q, [qlen, bsz, n_head, d_head])
-    w_head_k = tf.reshape(w_head_k, [klen, bsz, n_head, d_head])
-    w_head_v = tf.reshape(w_head_v, [klen, bsz, n_head, d_head])
-
-    r_head_k = tf.reshape(r_head_k, [rlen, n_head, d_head])
-
-    rw_head_q = w_head_q + r_w_bias
-    rr_head_q = w_head_q + r_r_bias
-
-    AC = tf.einsum('ibnd,jbnd->ijbn', rw_head_q, w_head_k)
-    BD = tf.einsum('ibnd,jnd->ijbn', rr_head_q, r_head_k)
-    BD = rel_shift(BD)
-
-    attn_score = (AC + BD) * scale
-    attn_mask_t = attn_mask[:, :, None, None]
-    attn_score = attn_score * (1 - attn_mask_t) - 1e30 * attn_mask_t
-
-    attn_prob = tf.nn.softmax(attn_score, 1)
-    attn_prob = tf.layers.dropout(attn_prob, dropatt, training=is_training)
-
-    attn_vec = tf.einsum('ijbn,jbnd->ibnd', attn_prob, w_head_v)
-    size_t = tf.shape(attn_vec)
-    attn_vec = tf.reshape(attn_vec, [size_t[0], size_t[1], n_head * d_head])
-
-    attn_out = tf.layers.dense(attn_vec, d_model, use_bias=False,
-                               kernel_initializer=kernel_initializer, name='o')
-    attn_out = tf.layers.dropout(attn_out, dropout, training=is_training)
-
-    output = tf.contrib.layers.layer_norm(attn_out + w, begin_norm_axis=-1)
-  return output
-
-
-def embedding_lookup(lookup_table, x, use_tpu=True):
-  if use_tpu:
-    n_token = tf.shape(lookup_table)[0]
-    one_hot_idx = tf.one_hot(x, n_token)
-    if one_hot_idx.shape.ndims == 2:
-      return tf.einsum('nd,in->id', lookup_table, one_hot_idx)
-    else:
-      return tf.einsum('nd,ibn->ibd', lookup_table, one_hot_idx)
-  else:
-    return tf.nn.embedding_lookup(lookup_table, x)
-
-
-def mask_adaptive_embedding_lookup(x, n_token, d_embed, d_proj, cutoffs, initializer,
-                                   proj_initializer, div_val=1,
-                                   proj_same_dim=True,
-                                   scope='adaptive_embed', **kwargs):
-  emb_scale = d_proj ** 0.5
-  with tf.variable_scope(scope):
-    if div_val == 1:
-      lookup_table = tf.get_variable('lookup_table', [n_token, d_embed],
-                                     initializer=initializer)
-      y = embedding_lookup(lookup_table, x, use_tpu=False)
-      if d_proj != d_embed:
-        proj_W = tf.get_variable('proj_W', [d_embed, d_proj],
-                                 initializer=proj_initializer)
-        y = tf.einsum('ibe,ed->ibd', y, proj_W)
-      else:
-        proj_W = None
-      ret_params = [lookup_table, proj_W]
-    else:
-      tables, projs = [], []
-      cutoff_ends = [0] + cutoffs + [n_token]
-      x_size = tf.shape(x)
-      y = tf.zeros([x_size[0], x_size[1], d_proj])
-      for i in range(len(cutoff_ends) - 1):
-        with tf.variable_scope('cutoff_{}'.format(i)):
-          l_idx, r_idx = cutoff_ends[i], cutoff_ends[i + 1]
-          mask = (x >= l_idx) & (x < r_idx)
-          cur_x = tf.boolean_mask(x, mask) - l_idx
-          cur_d_embed = d_embed // (div_val ** i)
-          lookup_table = tf.get_variable('lookup_table',
-                                         [r_idx - l_idx, cur_d_embed],
-                                         initializer=initializer)
-          cur_y = embedding_lookup(lookup_table, cur_x, use_tpu=False)
-          if d_proj == cur_d_embed and not proj_same_dim:
-            proj_W = None
-          else:
-            proj_W = tf.get_variable('proj_W', [cur_d_embed, d_proj],
-                                     initializer=proj_initializer)
-            cur_y = tf.einsum('id,de->ie', cur_y, proj_W)
-          mask_idx = tf.to_int64(tf.where(mask))
-          y += tf.scatter_nd(mask_idx, cur_y, tf.to_int64(tf.shape(y)))
-          tables.append(lookup_table)
-          projs.append(proj_W)
-      ret_params = [tables, projs]
-
-  y *= emb_scale
-  return y, ret_params
-
-
-def mul_adaptive_embedding_lookup(x, n_token, d_embed, d_proj, cutoffs, initializer,
-                                  proj_initializer, div_val=1, perms=None,
-                                  proj_same_dim=True,
-                                  scope='adaptive_embed'):
-  """
-  perms: If None, first compute W = W1 x W2 (projection for each bin),
-      and then compute X x W (embedding lookup). If not None,
-      use bin-based embedding lookup with max_bin_size defined by
-      the shape of perms.
-  """
-  emb_scale = d_proj ** 0.5
-  with tf.variable_scope(scope):
-    if div_val == 1:
-      lookup_table = tf.get_variable('lookup_table', [n_token, d_embed],
-                                     initializer=initializer)
-      y = embedding_lookup(lookup_table, x)
-      if d_proj != d_embed:
-        proj_W = tf.get_variable('proj_W', [d_embed, d_proj],
-                                 initializer=proj_initializer)
-        y = tf.einsum('ibe,ed->ibd', y, proj_W)
-      else:
-        proj_W = None
-      ret_params = [lookup_table, proj_W]
-    else:
-      tables, projs = [], []
-      cutoff_ends = [0] + cutoffs + [n_token]
-      x_size = tf.shape(x)
-      if perms is None:
-        cat_lookup = []
-      else:
-        cat_lookup = tf.zeros([x_size[0], x_size[1], d_proj])
-      for i in range(len(cutoff_ends) - 1):
-        with tf.variable_scope('cutoff_{}'.format(i)):
-          l_idx, r_idx = cutoff_ends[i], cutoff_ends[i + 1]
-          cur_d_embed = d_embed // (div_val ** i)
-          lookup_table = tf.get_variable('lookup_table',
-                                         [r_idx - l_idx, cur_d_embed],
-                                         initializer=initializer)
-          if cur_d_embed == d_proj and not proj_same_dim:
-            proj_W = None
-          else:
-            proj_W = tf.get_variable('proj_W', [cur_d_embed, d_proj],
-                                   initializer=proj_initializer)
-          if perms is None:
-            cat_lookup.append(tf.einsum('ie,ed->id', lookup_table, proj_W))
-          else:
-            # speed up the computation of the first bin
-            # also save some meory
-            if i == 0:
-              cur_y = embedding_lookup(lookup_table, tf.minimum(x, r_idx - 1))
-              if proj_W is not None:
-                cur_y = tf.einsum('ibe,ed->ibd', cur_y, proj_W)
-              cur_y *= perms[i][:, :, None]
-              cat_lookup += cur_y
-            else:
-              cur_x = tf.einsum('ib,ibk->k', tf.to_float(x - l_idx), perms[i])
-              cur_x = tf.to_int32(cur_x)
-              cur_y = embedding_lookup(lookup_table, cur_x)
-              if proj_W is not None:
-                cur_y = tf.einsum('ke,ed->kd', cur_y, proj_W)
-              cat_lookup += tf.einsum('kd,ibk->ibd', cur_y, perms[i])
-          tables.append(lookup_table)
-          projs.append(proj_W)
-      if perms is None:
-        cat_lookup = tf.concat(cat_lookup, 0)
-        y = embedding_lookup(cat_lookup, x)
-      else:
-        y = cat_lookup
-      ret_params = [tables, projs]
-
-  y *= emb_scale
-  return y, ret_params
-
-
-def mask_adaptive_logsoftmax(hidden, target, n_token, d_embed, d_proj, cutoffs,
-                             params, tie_projs,
-                             initializer=None, proj_initializer=None,
-                             div_val=1, scope='adaptive_softmax',
-                             proj_same_dim=True,
-                             return_mean=True, **kwargs):
-  def _logit(x, W, b, proj):
-    y = x
-    if proj is not None:
-      y = tf.einsum('ibd,ed->ibe', y, proj)
-    return tf.einsum('ibd,nd->ibn', y, W) + b
-
-  params_W, params_projs = params[0], params[1]
-
-  def _gather_logprob(logprob, target):
-    lp_size = tf.shape(logprob)
-    r = tf.range(lp_size[0])
-    idx = tf.stack([r, target], 1)
-    return tf.gather_nd(logprob, idx)
-
-  with tf.variable_scope(scope):
-    if len(cutoffs) == 0:
-      softmax_b = tf.get_variable('bias', [n_token],
-                                  initializer=tf.zeros_initializer())
-      output = _logit(hidden, params_W, softmax_b, params_projs)
-      nll = tf.nn.sparse_softmax_cross_entropy_with_logits(labels=target,
-                                                           logits=output)
-    else:
-      cutoff_ends = [0] + cutoffs + [n_token]
-      nll = tf.zeros_like(target, dtype=tf.float32)
-      for i in range(len(cutoff_ends) - 1):
-        with tf.variable_scope('cutoff_{}'.format(i)):
-          l_idx, r_idx = cutoff_ends[i], cutoff_ends[i + 1]
-          mask = (target >= l_idx) & (target < r_idx)
-          mask_idx = tf.where(mask)
-          cur_target = tf.boolean_mask(target, mask) - l_idx
-          cur_d_embed = d_embed // (div_val ** i)
-
-          if div_val == 1:
-            cur_W = params_W[l_idx: r_idx]
-          else:
-            cur_W = params_W[i]
-          cur_b = tf.get_variable('b', [r_idx - l_idx],
-                                  initializer=tf.zeros_initializer())
-          if tie_projs[i]:
-            if div_val == 1:
-              cur_proj = params_projs
-            else:
-              cur_proj = params_projs[i]
-          else:
-            if (div_val == 1 or not proj_same_dim) and d_proj == cur_d_embed:
-              cur_proj = None
-            else:
-              cur_proj = tf.get_variable('proj', [cur_d_embed, d_proj],
-                                         initializer=proj_initializer)
-          if i == 0:
-            cluster_W = tf.get_variable('cluster_W', [len(cutoffs), d_embed],
-                                        initializer=tf.zeros_initializer())
-            cluster_b = tf.get_variable('cluster_b', [len(cutoffs)],
-                                        initializer=tf.zeros_initializer())
-            cur_W = tf.concat([cur_W, cluster_W], 0)
-            cur_b = tf.concat([cur_b, cluster_b], 0)
-
-            head_logit = _logit(hidden, cur_W, cur_b, cur_proj)
-            head_logprob = tf.nn.log_softmax(head_logit)
-            cur_head_logprob = tf.boolean_mask(head_logprob, mask)
-            cur_logprob = _gather_logprob(cur_head_logprob, cur_target)
-          else:
-            cur_head_logprob = tf.boolean_mask(head_logprob, mask)
-            cur_hidden = tf.boolean_mask(hidden, mask)
-            tail_logit = tf.squeeze(_logit(
-                cur_hidden[None], cur_W, cur_b, cur_proj), 0)
-            tail_logprob = tf.nn.log_softmax(tail_logit)
-            cur_logprob = (cur_head_logprob[:, cutoff_ends[1] + i - 1] +
-                           _gather_logprob(tail_logprob, cur_target))
-          nll += tf.scatter_nd(mask_idx, -cur_logprob,
-                                 tf.to_int64(tf.shape(nll)))
-  if return_mean:
-    nll = tf.reduce_mean(nll)
-  return nll
-
-
-def mul_adaptive_logsoftmax(hidden, target, n_token, d_embed, d_proj, cutoffs,
-                            params, tie_projs,
-                            initializer=None, proj_initializer=None,
-                            div_val=1, perms=None, proj_same_dim=True,
-                            scope='adaptive_softmax',
-                            **kwargs):
-  def _logit(x, W, b, proj):
-    y = x
-    if x.shape.ndims == 3:
-      if proj is not None:
-        y = tf.einsum('ibd,ed->ibe', y, proj)
-      return tf.einsum('ibd,nd->ibn', y, W) + b
-    else:
-      if proj is not None:
-        y = tf.einsum('id,ed->ie', y, proj)
-      return tf.einsum('id,nd->in', y, W) + b
-
-  params_W, params_projs = params[0], params[1]
-
-  with tf.variable_scope(scope):
-    if len(cutoffs) == 0:
-      softmax_b = tf.get_variable('bias', [n_token],
-                                  initializer=tf.zeros_initializer())
-      output = _logit(hidden, params_W, softmax_b, params_projs)
-      nll = tf.nn.sparse_softmax_cross_entropy_with_logits(labels=target,
-                                                           logits=output)
-      nll = tf.reduce_mean(nll)
-    else:
-      total_loss, total_cnt = 0, 0
-      cutoff_ends = [0] + cutoffs + [n_token]
-      for i in range(len(cutoff_ends) - 1):
-        with tf.variable_scope('cutoff_{}'.format(i)):
-          l_idx, r_idx = cutoff_ends[i], cutoff_ends[i + 1]
-
-          cur_d_embed = d_embed // (div_val ** i)
-
-          if div_val == 1:
-            cur_W = params_W[l_idx: r_idx]
-          else:
-            cur_W = params_W[i]
-          cur_b = tf.get_variable('b', [r_idx - l_idx],
-                                  initializer=tf.zeros_initializer())
-          if tie_projs[i]:
-            if div_val == 1:
-              cur_proj = params_projs
-            else:
-              cur_proj = params_projs[i]
-          else:
-            if (div_val == 1 or not proj_same_dim) and d_proj == cur_d_embed:
-              cur_proj = None
-            else:
-              cur_proj = tf.get_variable('proj', [cur_d_embed, d_proj],
-                                         initializer=proj_initializer)
-
-          if i == 0:
-            cluster_W = tf.get_variable('cluster_W', [len(cutoffs), d_embed],
-                                        initializer=tf.zeros_initializer())
-            cluster_b = tf.get_variable('cluster_b', [len(cutoffs)],
-                                        initializer=tf.zeros_initializer())
-            cur_W = tf.concat([cur_W, cluster_W], 0)
-            cur_b = tf.concat([cur_b, cluster_b], 0)
-
-            head_logit = _logit(hidden, cur_W, cur_b, cur_proj)
-
-            head_target = kwargs.get("head_target")
-            head_nll = tf.nn.sparse_softmax_cross_entropy_with_logits(
-                labels=head_target,
-                logits=head_logit)
-
-            masked_loss = head_nll * perms[i]
-            total_loss += tf.reduce_sum(masked_loss)
-            total_cnt += tf.reduce_sum(perms[i])
-
-            # head_logprob = tf.nn.log_softmax(head_logit)
-
-            # final_logprob = head_logprob * perms[i][:, :, None]
-            # final_target = tf.one_hot(target, tf.shape(head_logprob)[2])
-            # total_loss -= tf.einsum('ibn,ibn->', final_logprob, final_target)
-            # total_cnt += tf.reduce_sum(perms[i])
-          else:
-            cur_head_nll = tf.einsum('ib,ibk->k', head_nll, perms[i])
-
-            cur_hidden = tf.einsum('ibd,ibk->kd', hidden, perms[i])
-            tail_logit = _logit(cur_hidden, cur_W, cur_b, cur_proj)
-
-            tail_target = tf.einsum('ib,ibk->k', tf.to_float(target - l_idx),
-                                    perms[i])
-            tail_nll = tf.nn.sparse_softmax_cross_entropy_with_logits(
-                labels=tf.to_int32(tail_target),
-                logits=tail_logit)
-
-            sum_nll = cur_head_nll + tail_nll
-            mask = tf.reduce_sum(perms[i], [0, 1])
-
-            masked_loss = sum_nll * mask
-            total_loss += tf.reduce_sum(masked_loss)
-            total_cnt += tf.reduce_sum(mask)
-
-      nll = total_loss / total_cnt
-
-  return nll
-
-
-def _create_mask(qlen, mlen, same_length=False):
-  attn_mask = tf.ones([qlen, qlen])
-  mask_u = tf.matrix_band_part(attn_mask, 0, -1)
-  mask_dia = tf.matrix_band_part(attn_mask, 0, 0)
-  attn_mask_pad = tf.zeros([qlen, mlen])
-  ret = tf.concat([attn_mask_pad, mask_u - mask_dia], 1)
-  if same_length:
-    mask_l = tf.matrix_band_part(attn_mask, -1, 0)
-    ret = tf.concat([ret[:, :qlen] + mask_l - mask_dia, ret[:, qlen:]], 1)
-  return ret
-
-def _cache_mem(curr_out, prev_mem, mem_len=None):
-  if mem_len is None or prev_mem is None:
-    new_mem = curr_out
-  elif mem_len == 0:
-    return prev_mem
-  else:
-    new_mem = tf.concat([prev_mem, curr_out], 0)[- mem_len:]
-
-  return tf.stop_gradient(new_mem)
-
-
-def transformer(dec_inp, target, mems, n_token, n_layer, d_model, d_embed,
-                n_head, d_head, d_inner, dropout, dropatt,
-                initializer, is_training, proj_initializer=None,
-                mem_len=None, cutoffs=[], div_val=1, tie_projs=[],
-                same_length=False, clamp_len=-1, use_tpu=True,
-                input_perms=None, target_perms=None, head_target=None,
-                untie_r=False, proj_same_dim=True,
-                scope='transformer'):
-  """
-  cutoffs: a list of python int. Cutoffs for adaptive softmax.
-  tie_projs: a list of python bools. Whether to tie the projections.
-  use_tpu: if True, use one_hot in embedding lookup and bin-based implementation
-        of adaptive softmax.
-  perms: a list of tensors. Each tensor should of size [len, bsz, bin_size].
-        Only used in the adaptive setting.
-  """
-  new_mems = []
-  with tf.variable_scope(scope):
-    if untie_r:
-      r_w_bias = tf.get_variable('r_w_bias', [n_layer, n_head, d_head],
-                               initializer=initializer)
-      r_r_bias = tf.get_variable('r_r_bias', [n_layer, n_head, d_head],
-                                 initializer=initializer)
-    else:
-      r_w_bias = tf.get_variable('r_w_bias', [n_head, d_head],
-                                 initializer=initializer)
-      r_r_bias = tf.get_variable('r_r_bias', [n_head, d_head],
-                                 initializer=initializer)
-
-    qlen = tf.shape(dec_inp)[0]
-    mlen = tf.shape(mems[0])[0] if mems is not None else 0
-    klen = mlen + qlen
-
-    if proj_initializer is None:
-      proj_initializer = initializer
-    lookup_fn = (mul_adaptive_embedding_lookup if use_tpu else
-                 mask_adaptive_embedding_lookup)
-    embeddings, shared_params = lookup_fn(
-        x=dec_inp,
-        n_token=n_token,
-        d_embed=d_embed,
-        d_proj=d_model,
-        cutoffs=cutoffs,
-        initializer=initializer,
-        proj_initializer=proj_initializer,
-        div_val= div_val,
-        perms=input_perms,
-        proj_same_dim=proj_same_dim)
-
-    attn_mask = _create_mask(qlen, mlen, same_length)
-
-    pos_seq = tf.range(klen - 1, -1, -1.0)
-    if clamp_len > 0:
-      pos_seq = tf.minimum(pos_seq, clamp_len)
-    inv_freq = 1 / (10000 ** (tf.range(0, d_model, 2.0) / d_model))
-    pos_emb = positional_embedding(pos_seq, inv_freq)
-
-    output = tf.layers.dropout(embeddings, dropout, training=is_training)
-    pos_emb = tf.layers.dropout(pos_emb, dropout, training=is_training)
-
-    if mems is None:
-      mems = [None] * n_layer
-
-    for i in range(n_layer):
-      # cache new mems
-      new_mems.append(_cache_mem(output, mems[i], mem_len))
-
-      with tf.variable_scope('layer_{}'.format(i)):
-        output = rel_multihead_attn(
-            w=output,
-            r=pos_emb,
-            r_w_bias=r_w_bias if not untie_r else r_w_bias[i],
-            r_r_bias=r_r_bias if not untie_r else r_r_bias[i],
-            attn_mask=attn_mask,
-            mems=mems[i],
-            d_model=d_model,
-            n_head=n_head,
-            d_head=d_head,
-            dropout=dropout,
-            dropatt=dropatt,
-            is_training=is_training,
-            kernel_initializer=initializer)
-        output = positionwise_FF(
-            inp=output,
-            d_model=d_model,
-            d_inner=d_inner,
-            dropout=dropout,
-            kernel_initializer=initializer,
-            is_training=is_training)
-
-    output = tf.layers.dropout(output, dropout, training=is_training)
-
-    logsoftmax_fn = (mul_adaptive_logsoftmax if use_tpu else
-                     mask_adaptive_logsoftmax)
-    loss = logsoftmax_fn(
-        hidden=output,
-        target=target,
-        n_token=n_token,
-        d_embed=d_embed,
-        d_proj=d_model,
-        cutoffs=cutoffs,
-        params=shared_params,
-        tie_projs=tie_projs,
-        initializer=initializer,
-        proj_initializer=proj_initializer,
-        div_val=div_val,
-        perms=target_perms,
-        head_target=head_target,
-        proj_same_dim=proj_same_dim)
-    return loss, new_mems
-
--- a/tf/scripts/enwik8_base_gpu.sh
+++ b/tf/scripts/enwik8_base_gpu.sh
-#!/bin/bash
-
-# Data
-DATA_ROOT=../data/enwik8/
-
-# Model
-N_LAYER=12
-D_MODEL=512
-D_EMBED=512
-N_HEAD=8
-D_HEAD=64
-D_INNER=2048
-
-# Training
-TGT_LEN=512
-MEM_LEN=512
-
-BSZ=24
-NUM_CORE=4
-
-# Testing
-TEST_TGT_LEN=80
-TEST_MEM_LEN=2100
-TEST_CLAMP_LEN=820
-
-TEST_BSZ=10
-TEST_NUM_CORE=1
-
-if [[ $1 == 'train_data' ]]; then
-    python data_utils.py \
-        --data_dir=${DATA_ROOT}/ \
-        --dataset=enwik8 \
-        --tgt_len=${TGT_LEN} \
-        --per_host_train_bsz=${BSZ} \
-        --per_host_valid_bsz=${BSZ} \
-        --num_passes=1 \
-        --use_tpu=False \
-        ${@:2}
-elif [[ $1 == 'test_data' ]]; then
-    python data_utils.py \
-        --data_dir=${DATA_ROOT}/ \
-        --dataset=enwik8 \
-        --tgt_len=${TEST_TGT_LEN} \
-        --per_host_test_bsz=${TEST_BSZ} \
-        --num_passes=1 \
-        --use_tpu=False \
-        ${@:2}
-elif [[ $1 == 'train' ]]; then
-    echo 'Run training...'
-    python train_gpu.py \
-        --data_dir=${DATA_ROOT}/tfrecords \
-        --record_info_dir=${DATA_ROOT}/tfrecords/ \
-        --corpus_info_path=${DATA_ROOT}/corpus-info.json \
-        --model_dir=EXP-enwik8 \
-        --n_layer=${N_LAYER} \
-        --d_model=${D_MODEL} \
-        --d_embed=${D_EMBED} \
-        --n_head=${N_HEAD} \
-        --d_head=${D_HEAD} \
-        --d_inner=${D_INNER} \
-        --dropout=0.1 \
-        --dropatt=0.0 \
-        --learning_rate=0.00025 \
-        --warmup_steps=0 \
-        --train_steps=400000 \
-        --tgt_len=${TGT_LEN} \
-        --mem_len=${MEM_LEN} \
-        --train_batch_size=${BSZ} \
-        --num_core_per_host=${NUM_CORE} \
-        --iterations=200 \
-        --save_steps=4000 \
-        --do_train=True \
-        --do_eval=False \
-        ${@:2}
-elif [[ $1 == 'eval' ]]; then
-    echo 'Run evaluation...'
-    python train_gpu.py \
-        --data_dir=${DATA_ROOT}/tfrecords \
-        --record_info_dir=${DATA_ROOT}/tfrecords/ \
-        --corpus_info_path=${DATA_ROOT}/corpus-info.json \
-        --model_dir=EXP-enwik8 \
-        --n_layer=${N_LAYER} \
-        --d_model=${D_MODEL} \
-        --d_embed=${D_EMBED} \
-        --n_head=${N_HEAD} \
-        --d_head=${D_HEAD} \
-        --d_inner=${D_INNER} \
-        --dropout=0.0 \
-        --dropatt=0.0 \
-        --tgt_len=${TEST_TGT_LEN} \
-        --mem_len=${TEST_MEM_LEN} \
-        --clamp_len=${TEST_CLAMP_LEN} \
-        --same_length=True \
-        --eval_batch_size=${TEST_BSZ} \
-        --num_core_per_host=${TEST_NUM_CORE} \
-        --do_train=False \
-        --do_eval=True \
-        --eval_split=test \
-        ${@:2}
-else
-    echo 'unknown argment 1'
-fi
\ No newline at end of file
--- a/tf/scripts/enwik8_large_tpu.sh
+++ b/tf/scripts/enwik8_large_tpu.sh
-#!/bin/bash
-
-# Path
-LOCAL_DIR=../data/enwik8/
-GSDATA=
-GSEXP=
-
-# TPU setting
-NUM_HOST=2
-NUM_CORE=16 # TPUv2 -> 8 | TPUv3 -> 16
-
-TEST_NUM_HOST=1
-TEST_NUM_CORE=8 # TPUv2 -> 8 | TPUv3 -> 16
-
-# Model
-N_LAYER=24
-D_MODEL=1024
-D_EMBED=1024
-N_HEAD=8
-D_HEAD=128
-D_INNER=3072
-
-# Training
-TGT_LEN=768
-MEM_LEN=768
-TRAIN_BSZ=64
-VALID_BSZ=64
-
-# Testing
-TEST_TGT_LEN=128
-TEST_MEM_LEN=3800
-TEST_CLAMP_LEN=1000
-TEST_BSZ=16
-
-if [[ $1 == 'train_data' ]]; then
-    python data_utils.py \
-        --data_dir=${LOCAL_DIR}/ \
-        --dataset=enwik8 \
-        --tgt_len=${TGT_LEN} \
-        --per_host_train_bsz=${TRAIN_BSZ} \
-        --per_host_valid_bsz=${VALID_BSZ} \
-        --num_core_per_host=${NUM_CORE} \
-        --num_passes=10 \
-        --use_tpu=True \
-        ${@:2}
-
-    SRC_PATTERN=train.bsz-${TRAIN_BSZ}.tlen-${TGT_LEN}.core-${NUM_CORE}*
-    gsutil cp ${LOCAL_DIR}/tfrecords/${SRC_PATTERN} ${GSDATA}/enwik8-tfrecords/
-
-    SRC_PATTERN=valid.bsz-${VALID_BSZ}.tlen-${TGT_LEN}.core-${NUM_CORE}*
-    gsutil cp ${LOCAL_DIR}/tfrecords/${SRC_PATTERN} ${GSDATA}/enwik8-tfrecords/
-
-elif [[ $1 == 'test_data' ]]; then
-    python data_utils.py \
-        --data_dir=${LOCAL_DIR}/ \
-        --dataset=enwik8 \
-        --tgt_len=${TEST_TGT_LEN} \
-        --per_host_test_bsz=${TEST_BSZ} \
-        --num_core_per_host=${TEST_NUM_CORE} \
-        --num_passes=1 \
-        --use_tpu=True \
-        ${@:2}
-
-    SRC_PATTERN=test.bsz-${TEST_BSZ}.tlen-${TEST_TGT_LEN}.core-${TEST_NUM_CORE}*
-    gsutil cp ${LOCAL_DIR}/tfrecords/${SRC_PATTERN} ${GSDATA}/enwik8-tfrecords/
-
-elif [[ $1 == 'train' ]]; then
-    echo 'Run training...'
-    python train.py \
-        --data_dir=${GSDATA}/enwik8-tfrecords \
-        --record_info_dir=${LOCAL_DIR}/tfrecords/ \
-        --corpus_info_path=${LOCAL_DIR}/corpus-info.json \
-        --model_dir=${GSEXP}/enwik8 \
-        --n_layer=${N_LAYER} \
-        --d_model=${D_MODEL} \
-        --d_embed=${D_EMBED} \
-        --n_head=${N_HEAD} \
-        --d_head=${D_HEAD} \
-        --d_inner=${D_INNER} \
-        --dropout=0.15 \
-        --dropatt=0.15 \
-        --learning_rate=0.00025 \
-        --warmup_steps=4000 \
-        --train_steps=400000 \
-        --tgt_len=${TGT_LEN} \
-        --mem_len=${MEM_LEN} \
-        --train_batch_size=${TRAIN_BSZ} \
-        --use_tpu=True \
-        --num_host=${NUM_HOST} \
-        --num_core_per_host=${NUM_CORE} \
-        --iterations=1000 \
-        --save_steps=10000 \
-        --do_train=True \
-        --do_eval=False \
-        ${@:2}
-
-elif [[ $1 == 'eval' ]]; then
-    echo 'Run evaluation...'
-    python train.py \
-        --data_dir=${GSDATA}/enwik8-tfrecords \
-        --record_info_dir=${LOCAL_DIR}/tfrecords/ \
-        --corpus_info_path=${LOCAL_DIR}/corpus-info.json \
-        --model_dir=${GSEXP}/enwik8 \
-        --n_layer=${N_LAYER} \
-        --d_model=${D_MODEL} \
-        --d_embed=${D_EMBED} \
-        --n_head=${N_HEAD} \
-        --d_head=${D_HEAD} \
-        --d_inner=${D_INNER} \
-        --tgt_len=${TEST_TGT_LEN} \
-        --mem_len=${TEST_MEM_LEN} \
-        --eval_batch_size=${TEST_BSZ} \
-        --num_host=${TEST_NUM_HOST} \
-        --num_core_per_host=${TEST_NUM_CORE} \
-        --use_tpu=True \
-        --do_train=False \
-        --do_eval_only=True \
-        --eval_split=test \
-        ${@:2}
-else
-    echo 'unknown argment 1'
-fi
--- a/tf/scripts/lm1b_base_gpu.sh
+++ b/tf/scripts/lm1b_base_gpu.sh
-#!/bin/bash
-
-# Data
-DATA_ROOT=../data/one-billion-words/
-
-# Model
-DIV_VAL=4
-N_LAYER=18
-D_MODEL=1024
-D_EMBED=1024
-N_HEAD=8
-D_HEAD=128
-D_INNER=4096
-
-# Training
-TGT_LEN=256
-MEM_LEN=256
-
-BSZ=256
-NUM_CORE=4
-
-# Testing
-TEST_TGT_LEN=32
-TEST_MEM_LEN=128
-TEST_CLAMP_LEN=-1
-
-TEST_BSZ=16
-TEST_NUM_CORE=1
-
-
-if [[ $1 == 'train_data' ]]; then
-    python data_utils.py \
-      --data_dir=${DATA_ROOT}/ \
-      --dataset=lm1b \
-      --tgt_len=${TGT_LEN} \
-      --per_host_train_bsz=${BSZ} \
-      --per_host_valid_bsz=${BSZ} \
-      --num_passes=1 \
-      --use_tpu=False \
-      ${@:2}
-elif [[ $1 == 'test_data' ]]; then
-    python data_utils.py \
-      --data_dir=${DATA_ROOT}/ \
-      --dataset=lm1b \
-      --tgt_len=${TEST_TGT_LEN} \
-      --per_host_test_bsz=${TEST_BSZ} \
-      --num_passes=1 \
-      --use_tpu=False \
-      ${@:2}
-elif [[ $1 == 'train' ]]; then
-    echo 'Run training...'
-    python train_gpu.py \
-        --data_dir=${DATA_ROOT}/tfrecords \
-        --record_info_dir=${DATA_ROOT}/tfrecords/ \
-        --corpus_info_path=${DATA_ROOT}/corpus-info.json \
-        --model_dir=EXP-lm1b \
-        --div_val=${DIV_VAL} \
-        --untie_r=True \
-        --proj_share_all_but_first=False \
-        --proj_same_dim=False \
-        --n_layer=${N_LAYER} \
-        --d_model=${D_MODEL} \
-        --d_embed=${D_EMBED} \
-        --n_head=${N_HEAD} \
-        --d_head=${D_HEAD} \
-        --d_inner=${D_INNER} \
-        --dropout=0.1 \
-        --dropatt=0.0 \
-        --learning_rate=0.00025 \
-        --warmup_steps=0 \
-        --train_steps=400000 \
-        --tgt_len=${TGT_LEN} \
-        --mem_len=${MEM_LEN} \
-        --train_batch_size=${BSZ} \
-        --num_core_per_host=${NUM_CORE} \
-        --iterations=200 \
-        --save_steps=4000 \
-        ${@:2}
-elif [[ $1 == 'eval' ]]; then
-    echo 'Run evaluation...'
-    python train_gpu.py \
-        --data_dir=${DATA_ROOT}/tfrecords \
-        --record_info_dir=${DATA_ROOT}/tfrecords/ \
-        --corpus_info_path=${DATA_ROOT}/corpus-info.json \
-        --model_dir=EXP-lm1b \
-        --div_val=${DIV_VAL} \
-        --untie_r=True \
-        --proj_share_all_but_first=False \
-        --proj_same_dim=False \
-        --n_layer=${N_LAYER} \
-        --d_model=${D_MODEL} \
-        --d_embed=${D_EMBED} \
-        --n_head=${N_HEAD} \
-        --d_head=${D_HEAD} \
-        --d_inner=${D_INNER} \
-        --dropout=0.0 \
-        --dropatt=0.0 \
-        --tgt_len=${TEST_TGT_LEN} \
-        --mem_len=${TEST_MEM_LEN} \
-        --clamp_len=${TEST_CLAMP_LEN} \
-        --same_length=True \
-        --eval_batch_size=${TEST_BSZ} \
-        --num_core_per_host=${TEST_NUM_CORE} \
-        --do_train=False \
-        --do_eval=True \
-        --eval_split=test \
-        ${@:2}
-else
-    echo 'unknown argment 1'
-fi
--- a/tf/scripts/lm1b_large_tpu.sh
+++ b/tf/scripts/lm1b_large_tpu.sh
-#!/bin/bash
-
-# Path
-LOCAL_DIR=../data/one-billion-words/
-GSDATA=
-GSEXP=
-
-# TPU setting
-NUM_HOST=32
-NUM_CORE=16 # TPUv2 -> 8 | TPUv3 -> 16
-
-TEST_NUM_HOST=1
-TEST_NUM_CORE=8 # TPUv2 -> 8 | TPUv3 -> 16
-
-# Model
-DIV_VAL=4
-N_LAYER=24
-D_MODEL=1280
-D_EMBED=1280
-N_HEAD=16
-D_HEAD=80
-D_INNER=8192
-
-# Training
-TGT_LEN=32
-MEM_LEN=32
-TRAIN_BSZ=512
-VALID_BSZ=512
-TRAIN_BSZ_PER_HOST=$((TRAIN_BSZ / NUM_HOST))
-VALID_BSZ_PER_HOST=$((VALID_BSZ / NUM_HOST))
-
-# Testing
-TEST_TGT_LEN=32
-TEST_MEM_LEN=128
-TEST_CLAMP_LEN=-1
-TEST_BSZ=8
-
-if [[ $1 == 'train_data' ]]; then
-    python data_utils.py \
-        --data_dir=${LOCAL_DIR}/ \
-        --dataset=lm1b \
-        --tgt_len=${TGT_LEN} \
-        --per_host_train_bsz=${TRAIN_BSZ_PER_HOST} \
-        --per_host_valid_bsz=${VALID_BSZ_PER_HOST} \
-        --num_core_per_host=${NUM_CORE} \
-        --num_passes=10 \
-        --use_tpu=True \
-        ${@:2}
-
-    SRC_PATTERN=train.bsz-${TRAIN_BSZ}.tlen-${TGT_LEN}.core-${NUM_CORE}*
-    gsutil cp ${LOCAL_DIR}/tfrecords/${SRC_PATTERN} ${GSDATA}/lm1b-tfrecords/
-
-    SRC_PATTERN=valid.bsz-${VALID_BSZ}.tlen-${TGT_LEN}.core-${NUM_CORE}*
-    gsutil cp ${LOCAL_DIR}/tfrecords/${SRC_PATTERN} ${GSDATA}/lm1b-tfrecords/
-
-elif [[ $1 == 'test_data' ]]; then
-    python data_utils.py \
-        --data_dir=${LOCAL_DIR}/ \
-        --dataset=lm1b \
-        --tgt_len=${TEST_TGT_LEN} \
-        --per_host_test_bsz=${TEST_BSZ} \
-        --num_core_per_host=${TEST_NUM_CORE} \
-        --num_passes=1 \
-        --use_tpu=True \
-        ${@:2}
-
-    SRC_PATTERN=test.bsz-${TEST_BSZ}.tlen-${TEST_TGT_LEN}.core-${TEST_NUM_CORE}*
-    gsutil cp ${LOCAL_DIR}/tfrecords/${SRC_PATTERN} ${GSDATA}/lm1b-tfrecords/
-
-elif [[ $1 == 'train' ]]; then
-    echo 'Run training...'
-    python train.py \
-        --data_dir=${GSDATA}/lm1b-tfrecords \
-        --record_info_dir=${LOCAL_DIR}/tfrecords/ \
-        --corpus_info_path=${LOCAL_DIR}/corpus-info.json \
-        --model_dir=${GSEXP}/lm1b \
-        --div_val=${DIV_VAL} \
-        --untie_r=True \
-        --proj_share_all_but_first=False \
-        --proj_same_dim=False \
-        --n_layer=${N_LAYER} \
-        --d_model=${D_MODEL} \
-        --d_embed=${D_EMBED} \
-        --n_head=${N_HEAD} \
-        --d_head=${D_HEAD} \
-        --d_inner=${D_INNER} \
-        --dropout=0.05 \
-        --dropatt=0.05 \
-        --init_std=0.005 \
-        --learning_rate=0.0001 \
-        --warmup_steps=30000 \
-        --train_steps=1200000 \
-        --tgt_len=${TGT_LEN} \
-        --mem_len=${MEM_LEN} \
-        --train_batch_size=${TRAIN_BSZ} \
-        --num_hosts=${NUM_HOST} \
-        --num_core_per_host=${NUM_CORE} \
-        --iterations=1000 \
-        --save_steps=10000 \
-        --use_tpu=True \
-        --do_eval=False \
-        ${@:2}
-
-elif [[ $1 == 'eval' ]]; then
-    echo 'Run evaluation...'
-    python train.py \
-        --data_dir=${GSDATA}/lm1b-tfrecords \
-        --record_info_dir=${LOCAL_DIR}/tfrecords/ \
-        --corpus_info_path=${LOCAL_DIR}/corpus-info.json \
-        --model_dir=${GSEXP}/lm1b \
-        --div_val=${DIV_VAL} \
-        --untie_r=True \
-        --proj_share_all_but_first=False \
-        --proj_same_dim=False \
-        --n_layer=${N_LAYER} \
-        --d_model=${D_MODEL} \
-        --d_embed=${D_EMBED} \
-        --n_head=${N_HEAD} \
-        --d_head=${D_HEAD} \
-        --d_inner=${D_INNER} \
-        --tgt_len=${TEST_TGT_LEN} \
-        --mem_len=${TEST_MEM_LEN} \
-        --clamp_len=${TEST_CLAMP_LEN} \
-        --same_length=True \
-        --eval_batch_size=${TEST_BSZ} \
-        --num_host=${TEST_NUM_HOST} \
-        --num_core_per_host=${TEST_NUM_CORE} \
-        --use_tpu=True \
-        --do_train=False \
-        --do_eval_only=True \
-        --eval_split=test \
-        ${@:2}
-
-else
-    echo 'unknown argment 1'
-fi
--- a/tf/scripts/text8_base_gpu.sh
+++ b/tf/scripts/text8_base_gpu.sh
-#!/bin/bash
-
-# Data
-DATA_ROOT=../data/text8/
-
-# Model
-N_LAYER=12
-D_MODEL=512
-D_EMBED=512
-N_HEAD=8
-D_HEAD=64
-D_INNER=2048
-
-# Training
-TGT_LEN=512
-MEM_LEN=512
-
-BSZ=24
-NUM_CORE=4
-
-# Testing
-TEST_TGT_LEN=80
-TEST_MEM_LEN=2100
-TEST_CLAMP_LEN=820
-
-TEST_BSZ=10
-TEST_NUM_CORE=1
-
-if [[ $1 == 'train_data' ]]; then
-    python data_utils.py \
-        --data_dir=${DATA_ROOT}/ \
-        --dataset=text8 \
-        --tgt_len=${TGT_LEN} \
-        --per_host_train_bsz=${BSZ} \
-        --per_host_valid_bsz=${BSZ} \
-        --num_passes=1 \
-        --use_tpu=False \
-        ${@:2}
-elif [[ $1 == 'test_data' ]]; then
-    python data_utils.py \
-        --data_dir=${DATA_ROOT}/ \
-        --dataset=text8 \
-        --tgt_len=${TEST_TGT_LEN} \
-        --per_host_test_bsz=${TEST_BSZ} \
-        --num_passes=1 \
-        --use_tpu=False \
-        ${@:2}
-elif [[ $1 == 'train' ]]; then
-    echo 'Run training...'
-    python train_gpu.py \
-        --data_dir=${DATA_ROOT}/tfrecords \
-        --record_info_dir=${DATA_ROOT}/tfrecords/ \
-        --corpus_info_path=${DATA_ROOT}/corpus-info.json \
-        --model_dir=EXP-text8 \
-        --n_layer=${N_LAYER} \
-        --d_model=${D_MODEL} \
-        --d_embed=${D_EMBED} \
-        --n_head=${N_HEAD} \
-        --d_head=${D_HEAD} \
-        --d_inner=${D_INNER} \
-        --dropout=0.1 \
-        --dropatt=0.0 \
-        --learning_rate=0.00025 \
-        --warmup_steps=0 \
-        --train_steps=400000 \
-        --tgt_len=${TGT_LEN} \
-        --mem_len=${MEM_LEN} \
-        --train_batch_size=${BSZ} \
-        --num_core_per_host=${NUM_CORE} \
-        --iterations=200 \
-        --save_steps=4000 \
-        --do_train=True \
-        --do_eval=False \
-        ${@:2}
-elif [[ $1 == 'eval' ]]; then
-    echo 'Run evaluation...'
-    python train_gpu.py \
-        --data_dir=${DATA_ROOT}/tfrecords \
-        --record_info_dir=${DATA_ROOT}/tfrecords/ \
-        --corpus_info_path=${DATA_ROOT}/corpus-info.json \
-        --model_dir=EXP-text8 \
-        --n_layer=${N_LAYER} \
-        --d_model=${D_MODEL} \
-        --d_embed=${D_EMBED} \
-        --n_head=${N_HEAD} \
-        --d_head=${D_HEAD} \
-        --d_inner=${D_INNER} \
-        --dropout=0.0 \
-        --dropatt=0.0 \
-        --tgt_len=${TEST_TGT_LEN} \
-        --mem_len=${TEST_MEM_LEN} \
-        --clamp_len=${TEST_CLAMP_LEN} \
-        --same_length=True \
-        --eval_batch_size=${TEST_BSZ} \
-        --num_core_per_host=${TEST_NUM_CORE} \
-        --do_train=False \
-        --do_eval=True \
-        --eval_split=test \
-        ${@:2}
-else
-    echo 'unknown argment 1'
-fi
\ No newline at end of file
--- a/tf/scripts/text8_large_tpu.sh
+++ b/tf/scripts/text8_large_tpu.sh
-#!/bin/bash
-
-# Path
-LOCAL_DIR=../data/text8/
-GSDATA=
-GSEXP=
-
-# TPU setting
-NUM_HOST=2
-NUM_CORE=16 # TPUv2 -> 8 | TPUv3 -> 16
-
-TEST_NUM_HOST=1
-TEST_NUM_CORE=8 # TPUv2 -> 8 | TPUv3 -> 16
-
-# Model
-N_LAYER=24
-D_MODEL=1024
-D_EMBED=1024
-N_HEAD=8
-D_HEAD=128
-D_INNER=3072
-
-# Training
-TGT_LEN=768
-MEM_LEN=768
-TRAIN_BSZ=64
-VALID_BSZ=64
-
-# Testing
-TEST_TGT_LEN=128
-TEST_MEM_LEN=3800
-TEST_CLAMP_LEN=1000
-TEST_BSZ=16
-
-if [[ $1 == 'train_data' ]]; then
-    python data_utils.py \
-        --data_dir=${LOCAL_DIR}/ \
-        --dataset=text8 \
-        --tgt_len=${TGT_LEN} \
-        --per_host_train_bsz=${TRAIN_BSZ} \
-        --per_host_valid_bsz=${VALID_BSZ} \
-        --num_core_per_host=${NUM_CORE} \
-        --num_passes=10 \
-        --use_tpu=True \
-        ${@:2}
-
-    SRC_PATTERN=train.bsz-${TRAIN_BSZ}.tlen-${TGT_LEN}.core-${NUM_CORE}*
-    gsutil cp ${LOCAL_DIR}/tfrecords/${SRC_PATTERN} ${GSDATA}/text8-tfrecords/
-
-    SRC_PATTERN=valid.bsz-${VALID_BSZ}.tlen-${TGT_LEN}.core-${NUM_CORE}*
-    gsutil cp ${LOCAL_DIR}/tfrecords/${SRC_PATTERN} ${GSDATA}/text8-tfrecords/
-
-elif [[ $1 == 'test_data' ]]; then
-    python data_utils.py \
-        --data_dir=${LOCAL_DIR}/ \
-        --dataset=text8 \
-        --tgt_len=${TEST_TGT_LEN} \
-        --per_host_test_bsz=${TEST_BSZ} \
-        --num_core_per_host=${TEST_NUM_CORE} \
-        --num_passes=1 \
-        --use_tpu=True \
-        ${@:2}
-
-    SRC_PATTERN=test.bsz-${TEST_BSZ}.tlen-${TEST_TGT_LEN}.core-${TEST_NUM_CORE}*
-    gsutil cp ${LOCAL_DIR}/tfrecords/${SRC_PATTERN} ${GSDATA}/text8-tfrecords/
-
-elif [[ $1 == 'train' ]]; then
-    echo 'Run training...'
-    python train.py \
-        --data_dir=${GSDATA}/text8-tfrecords \
-        --record_info_dir=${LOCAL_DIR}/tfrecords/ \
-        --corpus_info_path=${LOCAL_DIR}/corpus-info.json \
-        --model_dir=${GSEXP}/text8 \
-        --n_layer=${N_LAYER} \
-        --d_model=${D_MODEL} \
-        --d_embed=${D_EMBED} \
-        --n_head=${N_HEAD} \
-        --d_head=${D_HEAD} \
-        --d_inner=${D_INNER} \
-        --dropout=0.15 \
-        --dropatt=0.15 \
-        --learning_rate=0.00025 \
-        --warmup_steps=4000 \
-        --train_steps=400000 \
-        --tgt_len=${TGT_LEN} \
-        --mem_len=${MEM_LEN} \
-        --train_batch_size=${TRAIN_BSZ} \
-        --use_tpu=True \
-        --num_host=${NUM_HOST} \
-        --num_core_per_host=${NUM_CORE} \
-        --iterations=1000 \
-        --save_steps=10000 \
-        --do_train=True \
-        --do_eval=False \
-        ${@:2}
-
-elif [[ $1 == 'eval' ]]; then
-    echo 'Run evaluation...'
-    python train.py \
-        --data_dir=${GSDATA}/text8-tfrecords \
-        --record_info_dir=${LOCAL_DIR}/tfrecords/ \
-        --corpus_info_path=${LOCAL_DIR}/corpus-info.json \
-        --model_dir=${GSEXP}/text8 \
-        --n_layer=${N_LAYER} \
-        --d_model=${D_MODEL} \
-        --d_embed=${D_EMBED} \
-        --n_head=${N_HEAD} \
-        --d_head=${D_HEAD} \
-        --d_inner=${D_INNER} \
-        --tgt_len=${TEST_TGT_LEN} \
-        --mem_len=${TEST_MEM_LEN} \
-        --eval_batch_size=${TEST_BSZ} \
-        --num_host=${TEST_NUM_HOST} \
-        --num_core_per_host=${TEST_NUM_CORE} \
-        --use_tpu=True \
-        --do_train=False \
-        --do_eval_only=True \
-        --eval_split=test \
-        ${@:2}
-else
-    echo 'unknown argment 1'
-fi
--- a/tf/scripts/wt103_base_gpu.sh
+++ b/tf/scripts/wt103_base_gpu.sh
-#!/bin/bash
-
-# Data
-DATA_ROOT=../data/wikitext-103/
-
-# Model
-DIV_VAL=1
-N_LAYER=16
-D_MODEL=410
-D_EMBED=410
-N_HEAD=10
-D_HEAD=41
-D_INNER=2100
-
-# Training
-TGT_LEN=150
-MEM_LEN=150
-
-BSZ=60
-NUM_CORE=4
-
-# Testing
-TEST_TGT_LEN=64
-TEST_MEM_LEN=640
-TEST_CLAMP_LEN=400
-
-TEST_BSZ=10
-TEST_NUM_CORE=1
-
-
-if [[ $1 == 'train_data' ]]; then
-    python data_utils.py \
-        --data_dir=${DATA_ROOT}/ \
-        --dataset=wt103 \
-        --tgt_len=${TGT_LEN} \
-        --per_host_train_bsz=${BSZ} \
-        --per_host_valid_bsz=${BSZ} \
-        --num_passes=1 \
-        --use_tpu=False \
-        ${@:2}
-elif [[ $1 == 'test_data' ]]; then
-    python data_utils.py \
-        --data_dir=${DATA_ROOT}/ \
-        --dataset=enwik8 \
-        --tgt_len=${TEST_TGT_LEN} \
-        --per_host_test_bsz=${TEST_BSZ} \
-        --num_passes=1 \
-        --use_tpu=False \
-        ${@:2}
-elif [[ $1 == 'train' ]]; then
-    echo 'Run training...'
-    python train_gpu.py \
-        --data_dir=${DATA_ROOT}/tfrecords \
-        --record_info_dir=${DATA_ROOT}/tfrecords/ \
-        --corpus_info_path=${DATA_ROOT}/corpus-info.json \
-        --model_dir=EXP-wt103 \
-        --div_val=${DIV_VAL} \
-        --untie_r=True \
-        --proj_share_all_but_first=True \
-        --n_layer=${N_LAYER} \
-        --d_model=${D_MODEL} \
-        --d_embed=${D_EMBED} \
-        --n_head=${N_HEAD} \
-        --d_head=${D_HEAD} \
-        --d_inner=${D_INNER} \
-        --dropout=0.1 \
-        --dropatt=0.0 \
-        --learning_rate=0.00025 \
-        --warmup_steps=0 \
-        --train_steps=400000 \
-        --tgt_len=${TGT_LEN} \
-        --mem_len=${MEM_LEN} \
-        --train_batch_size=${BSZ} \
-        --num_core_per_host=${NUM_CORE} \
-        --iterations=200 \
-        --save_steps=4000 \
-        ${@:2}
-elif [[ $1 == 'eval' ]]; then
-    echo 'Run evaluation...'
-    python train_gpu.py \
-        --data_dir=${DATA_ROOT}/tfrecords \
-        --record_info_dir=${DATA_ROOT}/tfrecords/ \
-        --corpus_info_path=${DATA_ROOT}/corpus-info.json \
-        --model_dir=EXP-wt103 \
-        --div_val=${DIV_VAL} \
-        --untie_r=True \
-        --proj_share_all_but_first=True \
-        --n_layer=${N_LAYER} \
-        --d_model=${D_MODEL} \
-        --d_embed=${D_EMBED} \
-        --n_head=${N_HEAD} \
-        --d_head=${D_HEAD} \
-        --d_inner=${D_INNER} \
-        --dropout=0.0 \
-        --dropatt=0.0 \
-        --tgt_len=${TEST_TGT_LEN} \
-        --mem_len=${TEST_MEM_LEN} \
-        --clamp_len=${TEST_CLAMP_LEN} \
-        --same_length=True \
-        --eval_batch_size=${TEST_BSZ} \
-        --num_core_per_host=${TEST_NUM_CORE} \
-        --do_train=False \
-        --do_eval=True \
-        --eval_split=test \
-        ${@:2}
-else
-    echo 'unknown argment 1'
-fi
\ No newline at end of file
--- a/tf/scripts/wt103_large_tpu.sh
+++ b/tf/scripts/wt103_large_tpu.sh
-#!/bin/bash
-
-# Path
-LOCAL_DIR=../data/wikitext-103/
-GSDATA=
-GSEXP=
-
-# TPU setting
-NUM_HOST=4
-NUM_CORE=16 # TPUv2 -> 8 | TPUv3 -> 16
-
-TEST_NUM_HOST=1
-TEST_NUM_CORE=8 # TPUv2 -> 8 | TPUv3 -> 16
-
-# Model
-DIV_VAL=4
-N_LAYER=18
-D_MODEL=1024
-D_EMBED=1024
-N_HEAD=16
-D_HEAD=64
-D_INNER=4096
-
-# Training
-TGT_LEN=384
-MEM_LEN=384
-TRAIN_BSZ=128
-VALID_BSZ=128
-
-# Testing
-TEST_TGT_LEN=128
-TEST_MEM_LEN=1600
-TEST_CLAMP_LEN=1000
-TEST_BSZ=8
-
-if [[ $1 == 'train_data' ]]; then
-    python data_utils.py \
-        --data_dir=${LOCAL_DIR}/ \
-        --dataset=wt103 \
-        --tgt_len=${TGT_LEN} \
-        --per_host_train_bsz=${TRAIN_BSZ} \
-        --per_host_valid_bsz=${VALID_BSZ} \
-        --num_core_per_host=${NUM_CORE} \
-        --num_passes=10 \
-        --use_tpu=True \
-        ${@:2}
-
-    SRC_PATTERN=train.bsz-${TRAIN_BSZ}.tlen-${TGT_LEN}.core-${NUM_CORE}*
-    gsutil cp ${LOCAL_DIR}/tfrecords/${SRC_PATTERN} ${GSDATA}/wt103-tfrecords/
-
-    SRC_PATTERN=valid.bsz-${VALID_BSZ}.tlen-${TGT_LEN}.core-${NUM_CORE}*
-    gsutil cp ${LOCAL_DIR}/tfrecords/${SRC_PATTERN} ${GSDATA}/wt103-tfrecords/
-
-elif [[ $1 == 'test_data' ]]; then
-    python data_utils.py \
-        --data_dir=${LOCAL_DIR}/ \
-        --dataset=wt103 \
-        --tgt_len=${TEST_TGT_LEN} \
-        --per_host_test_bsz=${TEST_BSZ} \
-        --num_core_per_host=${TEST_NUM_CORE} \
-        --num_passes=1 \
-        --use_tpu=True \
-        ${@:2}
-
-    SRC_PATTERN=test.bsz-${TEST_BSZ}.tlen-${TEST_TGT_LEN}.core-${TEST_NUM_CORE}*
-    gsutil cp ${LOCAL_DIR}/tfrecords/${SRC_PATTERN} ${GSDATA}/wt103-tfrecords/
-
-elif [[ $1 == 'train' ]]; then
-    echo 'Run training...'
-    python train.py \
-        --data_dir=${GSDATA}/wt103-tfrecords \
-        --record_info_dir=${LOCAL_DIR}/tfrecords/ \
-        --corpus_info_path=${LOCAL_DIR}/corpus-info.json \
-        --model_dir=${GSEXP}/wt103 \
-        --div_val=${DIV_VAL} \
-        --untie_r=True \
-        --proj_share_all_but_first=True \
-        --proj_same_dim=True \
-        --n_layer=${N_LAYER} \
-        --d_model=${D_MODEL} \
-        --d_embed=${D_EMBED} \
-        --n_head=${N_HEAD} \
-        --d_head=${D_HEAD} \
-        --d_inner=${D_INNER} \
-        --dropout=0.2 \
-        --dropatt=0.2 \
-        --init_std=0.005 \
-        --learning_rate=0.00025 \
-        --warmup_steps=16000 \
-        --train_steps=4000000 \
-        --tgt_len=${TGT_LEN} \
-        --mem_len=${MEM_LEN} \
-        --train_batch_size=${TRAIN_BSZ} \
-        --num_hosts=${NUM_HOST} \
-        --num_core_per_host=${NUM_CORE} \
-        --iterations=1000 \
-        --save_steps=10000 \
-        --use_tpu=True \
-        --do_eval=False \
-        ${@:2}
-
-elif [[ $1 == 'eval' ]]; then
-    echo 'Run evaluation...'
-    python train.py \
-        --data_dir=${GSDATA}/wt103-tfrecords \
-        --record_info_dir=${LOCAL_DIR}/tfrecords/ \
-        --corpus_info_path=${LOCAL_DIR}/corpus-info.json \
-        --model_dir=${GSEXP}/wt103 \
-        --div_val=${DIV_VAL} \
-        --untie_r=True \
-        --proj_share_all_but_first=True \
-        --proj_same_dim=True \
-        --n_layer=${N_LAYER} \
-        --d_model=${D_MODEL} \
-        --d_embed=${D_EMBED} \
-        --n_head=${N_HEAD} \
-        --d_head=${D_HEAD} \
-        --d_inner=${D_INNER} \
-        --tgt_len=${TEST_TGT_LEN} \
-        --mem_len=${TEST_MEM_LEN} \
-        --clamp_len=${TEST_CLAMP_LEN} \
-        --same_length=True \
-        --eval_batch_size=${TEST_BSZ} \
-        --num_host=${TEST_NUM_HOST} \
-        --num_core_per_host=${TEST_NUM_CORE} \
-        --use_tpu=True \
-        --do_train=False \
-        --do_eval_only=True \
-        --eval_split=test \
-        ${@:2}
-
-else
-    echo 'unknown argment 1'
-fi
--- a/tf/sota/download.sh
+++ b/tf/sota/download.sh
-#!/bin/bash
-
-URL=http://curtis.ml.cmu.edu/datasets/pretrained_xl
-
-DATA_ROOT=./
-
-function download () {
-  fileurl=${1}
-  filename=${fileurl##*/}
-  if [ ! -f ${filename} ]; then
-    echo ">>> Download '${filename}' from '${fileurl}'."
-    wget --quiet ${fileurl}
-  else
-    echo "*** File '${filename}' exists. Skip."
-  fi
-}
-
-cd $DATA_ROOT
-mkdir -p pretrained_xl && cd pretrained_xl
-
-# enwik8
-mkdir -p tf_enwik8 && cd tf_enwik8
-
-mkdir -p data && cd data
-download ${URL}/tf_enwiki8/data/cache.pkl
-download ${URL}/tf_enwiki8/data/corpus-info.json
-cd ..
-
-mkdir -p model && cd model
-download ${URL}/tf_enwiki8/model/checkpoint
-download ${URL}/tf_enwiki8/model/model.ckpt-0.data-00000-of-00001
-download ${URL}/tf_enwiki8/model/model.ckpt-0.index
-download ${URL}/tf_enwiki8/model/model.ckpt-0.meta
-cd ..
-
-cd ..
-
-# text8
-mkdir -p tf_text8 && cd tf_text8
-
-mkdir -p data && cd data
-download ${URL}/tf_text8/data/cache.pkl
-download ${URL}/tf_text8/data/corpus-info.json
-cd ..
-
-mkdir -p model && cd model
-download ${URL}/tf_text8/model/checkpoint
-download ${URL}/tf_text8/model/model.ckpt-0.data-00000-of-00001
-download ${URL}/tf_text8/model/model.ckpt-0.index
-download ${URL}/tf_text8/model/model.ckpt-0.meta
-cd ..
-
-cd ..
-
-# wt103
-mkdir -p tf_wt103 && cd tf_wt103
-
-mkdir -p data && cd data
-download ${URL}/tf_wt103/data/cache.pkl
-download ${URL}/tf_wt103/data/corpus-info.json
-cd ..
-
-mkdir -p model && cd model
-download ${URL}/tf_wt103/model/checkpoint
-download ${URL}/tf_wt103/model/model.ckpt-0.data-00000-of-00001
-download ${URL}/tf_wt103/model/model.ckpt-0.index
-download ${URL}/tf_wt103/model/model.ckpt-0.meta
-cd ..
-
-cd ..
-
-# lm1b
-mkdir -p tf_lm1b && cd tf_lm1b
-
-mkdir -p data && cd data
-download ${URL}/tf_lm1b/data/cache.pkl
-download ${URL}/tf_lm1b/data/corpus-info.json
-cd ..
-
-mkdir -p model && cd model
-download ${URL}/tf_lm1b/model/checkpoint
-download ${URL}/tf_lm1b/model/model.ckpt-1191000.data-00000-of-00001
-download ${URL}/tf_lm1b/model/model.ckpt-1191000.index
-download ${URL}/tf_lm1b/model/model.ckpt-1191000.meta
-cd ..
-
-cd ..
--- a/tf/sota/enwik8.sh
+++ b/tf/sota/enwik8.sh
-#!/bin/bash
-
-# Data
-DATA_ROOT=./
-DATA_DIR=${DATA_ROOT}/pretrained_xl/tf_enwik8/data
-MODEL_DIR=${DATA_ROOT}/pretrained_xl/tf_enwik8/model
-
-# Model
-N_LAYER=24
-D_MODEL=1024
-D_EMBED=1024
-N_HEAD=8
-D_HEAD=128
-D_INNER=3072
-
-# Testing
-TEST_TGT_LEN=128
-TEST_MEM_LEN=3800
-TEST_CLAMP_LEN=1000
-
-TEST_CKPT_PATH=${MODEL_DIR}/model.ckpt-0
-TEST_BSZ=16
-TEST_NUM_CORE=2
-
-
-echo 'Preprocess test set...'
-python data_utils.py \
-  --data_dir=${DATA_DIR}/ \
-  --dataset=enwik8 \
-  --tgt_len=${TEST_TGT_LEN} \
-  --per_host_test_bsz=${TEST_BSZ} \
-  --num_passes=1 \
-  --use_tpu=False
-
-echo 'Run evaluation on test set...'
-python train_gpu.py \
-    --data_dir=${DATA_DIR}/tfrecords \
-    --record_info_dir=${DATA_DIR}/tfrecords/ \
-    --corpus_info_path=${DATA_DIR}/corpus-info.json \
-    --eval_ckpt_path=${TEST_CKPT_PATH} \
-    --model_dir=EXP-enwik8 \
-    --n_layer=${N_LAYER} \
-    --d_model=${D_MODEL} \
-    --d_embed=${D_EMBED} \
-    --n_head=${N_HEAD} \
-    --d_head=${D_HEAD} \
-    --d_inner=${D_INNER} \
-    --dropout=0.0 \
-    --dropatt=0.0 \
-    --tgt_len=${TEST_TGT_LEN} \
-    --mem_len=${TEST_MEM_LEN} \
-    --clamp_len=${TEST_CLAMP_LEN} \
-    --same_length=True \
-    --eval_batch_size=${TEST_BSZ} \
-    --num_core_per_host=${TEST_NUM_CORE} \
-    --do_train=False \
-    --do_eval=True \
-    --eval_split=test
--- a/tf/sota/lm1b.sh
+++ b/tf/sota/lm1b.sh
-#!/bin/bash
-
-# Data
-DATA_ROOT=./
-DATA_DIR=${DATA_ROOT}/pretrained_xl/tf_lm1b/data
-MODEL_DIR=${DATA_ROOT}/pretrained_xl/tf_lm1b/model
-
-# Model
-DIV_VAL=4
-N_LAYER=24
-D_MODEL=1280
-D_EMBED=1280
-N_HEAD=16
-D_HEAD=80
-D_INNER=8192
-
-# Testing
-TEST_TGT_LEN=32
-TEST_MEM_LEN=128
-TEST_CLAMP_LEN=-1
-
-TEST_CKPT_PATH=${MODEL_DIR}/model.ckpt-1191000
-TEST_BSZ=16
-TEST_NUM_CORE=1
-
-
-echo 'Preprocess test set...'
-python data_utils.py \
-    --data_dir=${DATA_DIR}/ \
-    --dataset=lm1b \
-    --tgt_len=${TEST_TGT_LEN} \
-    --per_host_test_bsz=${TEST_BSZ} \
-    --num_passes=1 \
-    --use_tpu=False
-
-echo 'Run evaluation on test set...'
-python train_gpu.py \
-    --data_dir=${DATA_DIR}/tfrecords \
-    --record_info_dir=${DATA_DIR}/tfrecords/ \
-    --corpus_info_path=${DATA_DIR}/corpus-info.json \
-    --eval_ckpt_path=${TEST_CKPT_PATH} \
-    --model_dir=EXP-lm1b \
-    --div_val=${DIV_VAL} \
-    --untie_r=True \
-    --proj_share_all_but_first=False \
-    --proj_same_dim=False \
-    --n_layer=${N_LAYER} \
-    --d_model=${D_MODEL} \
-    --d_embed=${D_EMBED} \
-    --n_head=${N_HEAD} \
-    --d_head=${D_HEAD} \
-    --d_inner=${D_INNER} \
-    --dropout=0.0 \
-    --dropatt=0.0 \
-    --tgt_len=${TEST_TGT_LEN} \
-    --mem_len=${TEST_MEM_LEN} \
-    --clamp_len=${TEST_CLAMP_LEN} \
-    --same_length=True \
-    --eval_batch_size=${TEST_BSZ} \
-    --num_core_per_host=${TEST_NUM_CORE} \
-    --do_train=False \
-    --do_eval=True \
-    --eval_split=test
--- a/tf/sota/text8.sh
+++ b/tf/sota/text8.sh
-#!/bin/bash
-
-# Data
-DATA_ROOT=./
-DATA_DIR=${DATA_ROOT}/pretrained_xl/tf_text8/data
-MODEL_DIR=${DATA_ROOT}/pretrained_xl/tf_text8/model
-
-# Model
-N_LAYER=24
-D_MODEL=1024
-D_EMBED=1024
-N_HEAD=8
-D_HEAD=128
-D_INNER=3072
-
-# Testing
-TEST_TGT_LEN=128
-TEST_MEM_LEN=3800
-TEST_CLAMP_LEN=1000
-
-TEST_CKPT_PATH=${MODEL_DIR}/model.ckpt-0
-TEST_BSZ=16
-TEST_NUM_CORE=2
-
-
-echo 'Preprocess test set...'
-python data_utils.py \
-  --data_dir=${DATA_DIR}/ \
-  --dataset=text8 \
-  --tgt_len=${TEST_TGT_LEN} \
-  --per_host_test_bsz=${TEST_BSZ} \
-  --num_passes=1 \
-  --use_tpu=False
-
-echo 'Run evaluation on test set...'
-python train_gpu.py \
-    --data_dir=${DATA_DIR}/tfrecords \
-    --record_info_dir=${DATA_DIR}/tfrecords/ \
-    --corpus_info_path=${DATA_DIR}/corpus-info.json \
-    --eval_ckpt_path=${TEST_CKPT_PATH} \
-    --model_dir=EXP-text8 \
-    --n_layer=${N_LAYER} \
-    --d_model=${D_MODEL} \
-    --d_embed=${D_EMBED} \
-    --n_head=${N_HEAD} \
-    --d_head=${D_HEAD} \
-    --d_inner=${D_INNER} \
-    --dropout=0.0 \
-    --dropatt=0.0 \
-    --tgt_len=${TEST_TGT_LEN} \
-    --mem_len=${TEST_MEM_LEN} \
-    --clamp_len=${TEST_CLAMP_LEN} \
-    --same_length=True \
-    --eval_batch_size=${TEST_BSZ} \
-    --num_core_per_host=${TEST_NUM_CORE} \
-    --do_train=False \
-    --do_eval=True \
-    --eval_split=test
--- a/tf/sota/wt103.sh
+++ b/tf/sota/wt103.sh
-#!/bin/bash
-
-# Data
-DATA_ROOT=./
-DATA_DIR=${DATA_ROOT}/pretrained_xl/tf_wt103/data
-MODEL_DIR=${DATA_ROOT}/pretrained_xl/tf_wt103/model
-
-# Model
-DIV_VAL=4
-N_LAYER=18
-D_MODEL=1024
-D_EMBED=1024
-N_HEAD=16
-D_HEAD=64
-D_INNER=4096
-
-# Training
-TGT_LEN=256
-MEM_LEN=256
-
-BSZ=16
-NUM_CORE=2
-
-# Testing
-TEST_TGT_LEN=128
-TEST_MEM_LEN=1600
-TEST_CLAMP_LEN=1000
-
-TEST_CKPT_PATH=${MODEL_DIR}/model.ckpt-0
-TEST_BSZ=16
-TEST_NUM_CORE=1
-
-
-echo 'Preprocess test set...'
-python data_utils.py \
-    --data_dir=${DATA_DIR}/ \
-    --dataset=enwik8 \
-    --tgt_len=${TEST_TGT_LEN} \
-    --per_host_test_bsz=${TEST_BSZ} \
-    --num_passes=1 \
-    --use_tpu=False
-
-
-echo 'Run evaluation on test set...'
-python train_gpu.py \
-    --data_dir=${DATA_DIR}/tfrecords \
-    --record_info_dir=${DATA_DIR}/tfrecords/ \
-    --corpus_info_path=${DATA_DIR}/corpus-info.json \
-    --eval_ckpt_path=${TEST_CKPT_PATH} \
-    --model_dir=EXP-wt103 \
-    --div_val=${DIV_VAL} \
-    --untie_r=True \
-    --proj_share_all_but_first=True \
-    --n_layer=${N_LAYER} \
-    --d_model=${D_MODEL} \
-    --d_embed=${D_EMBED} \
-    --n_head=${N_HEAD} \
-    --d_head=${D_HEAD} \
-    --d_inner=${D_INNER} \
-    --dropout=0.0 \
-    --dropatt=0.0 \
-    --tgt_len=${TEST_TGT_LEN} \
-    --mem_len=${TEST_MEM_LEN} \
-    --clamp_len=${TEST_CLAMP_LEN} \
-    --same_length=True \
-    --eval_batch_size=${TEST_BSZ} \
-    --num_core_per_host=${TEST_NUM_CORE} \
-    --do_train=False \
-    --do_eval=True \
-    --eval_split=test
-