move original files to examples

0c47afbb · Rick Ho · 969ef607 · 969ef607 · 969ef607 · 969ef607
Commit 0c47afbb authored Jan 25, 2021 by Rick Ho
20 changed files
--- a/pytorch/cuda/run.sh
+++ b/pytorch/cuda/run.sh
-#!/bin/bash
-if [ ! -z $OMPI_COMM_WORLD_LOCAL_RANK ]
-then
-	export CUDA_VISIBLE_DEVICES=$OMPI_COMM_WORLD_LOCAL_RANK
-fi
-export PYTHONPATH=$PWD/build/lib.linux-x86_64-3.7
-export LD_LIBRARY_PATH=/home/laekov/.local/lib/python3.7/site-packages/torch/lib:$LD_LIBRARY_PATH
-if [ -z $1 ]
-then
-	python3 moe_test.py 2>logs/$OMPI_COMM_WORLD_RANK.log
-else
-	python3 $@ 2>logs/$OMPI_COMM_WORLD_RANK.log
-fi
--- a/pytorch/cuda/setup.py
+++ b/pytorch/cuda/setup.py
-from setuptools import setup
-from torch.utils.cpp_extension import BuildExtension, CUDAExtension
-import os
-CUDA_HELPER = os.environ.get('CUDA_HELPER', '/usr/local/cuda/samples/common/inc')
-cxx_flags = [
-        '-I{}'.format(CUDA_HELPER)
-        ]
-if os.environ.get('USE_NCCL', '0') == '1':
-    cxx_flags.append('-DMOE_USE_NCCL')
-setup(
-    name='moe_cuda',
-    ext_modules=[
-        CUDAExtension(
-            name='moe_cuda', 
-            sources=[
-                'moe.cpp',
-                'cuda_stream_manager.cpp',
-                'moe_cuda_kernel.cu',
-                ],
-            extra_compile_args={
-                'cxx': cxx_flags,
-                'nvcc': cxx_flags
-                }
-            )
-        ],
-    cmdclass={
-        'build_ext': BuildExtension
-    })
--- a/tf/README.md
+++ b/tf/README.md
-## Introduction
-This directory contains our TF implementation of Transformer-XL. Note that our state-of-the-art results reported in the paper were obtained by training the model on a large-scale TPU cluster, and our gpu codebase currently does not support distributed training. Here we provide two sets of hyperparameters and scripts:
- `*large_tpu.sh` are for the SoTA setting on TPUs. These are exactly the commands we used to obtained our best results.
- `*base_gpu.sh` are for the base models which can be run on a few GPUs.
-## Prerequisite
- Python 2.7
- Tensorflow [1.12.0](https://github.com/tensorflow/tensorflow/releases/tag/v1.12.0)
-## Obtain and evaluate pretrained SoTA models
-#### 1. Download preprocessed data (vocab) & pretrained models
-(a) Set your own `DATA_ROOT` in `sota/download.sh` (default to `./`), which will be the root diretory of downloaded model.
-(b) Then, download the model & data by `bash sota/download.sh`. After downloading, the expected directory structure is as follows
-```markdown
-pretrained_xl
-  tf_enwik8/
-    data/
-      cache.pkl
-      corpus-info.json
-    model/
-      checkpoint
-      model.ckpt*
-  tf_wt103/
-  	...
-  ...
-```
-**Note**: we include preprocessed data in the download files to make sure the **same vocabulary** is used. Please see the code `tf/data_utils.py` to understand the data structure.
-#### 2. Run evaluation scripts to replicate SoTA results on GPUs
- **enwik8**: modify the script `sota/enwik8.sh` accordingly (see below)
-  - set `DATA_ROOT` to the same folder used in the download step (default to `./`)
-  - set `TEST_NUM_CORE ` (number of GPUs to use): we recommend 2 GPUs => about 60 mins
-  - run the script: `bash sota/enwik8.sh`
- **lm1b**: modify the script `sota/lm1b.sh` accordingly  (see below)
-  - set `DATA_ROOT` to the same folder used in the download step (default to `./`)
-  - set `TEST_NUM_CORE ` (number of GPUs to use): we recommend 1 GPUs => less than 5 mins
-  - run the script: `bash sota/lm1b.sh`
- **wt103**:  modify the script `sota/wt103.sh` accordingly  (see below)
-  - set `DATA_ROOT` to the same folder used in the download step (default to `./`)
-  - set `TEST_NUM_CORE ` (number of GPUs to use): we recommend 1 GPUs => less than 5 mins
-  - run the script: `bash sota/wt103.sh`
- **text8**:  modify the script `sota/text8.sh` accordingly  (see below)
-  - set `DATA_ROOT` to the same folder used in the download step (default to `./`)
-  - set `TEST_NUM_CORE ` (number of GPUs to use): we recommend 2 GPUs => about 60 mins
-  - run the script: `bash sota/text8.sh`
-#### 3. Resources Needed for SoTA Model Training
-We used 32, 32, 64, and 512 TPU cores for training our best models on enwik8, text8, wt103, and lm1b respectively. The training time for each model ranges from 2 to 5 days.
-## Train "Transformer-XL" from scratch with GPUs or TPUs
-### 1. Download raw data
-`bash getdata.sh`
-### 2. Preprocess, training and evaluation
-For `dataset` in `[enwik8, lm1b, wt103, text8]`:
- check out `scripts/dataset_base_gpu.sh` for GPU training and evaluation
- check out `scripts/dataset_large_tpu.sh` for TPU training and evaluation
-#### (1) Preprocess raw data and create tfrecords
-**NOTE**: The preprocessing for GPU and TPU are different. So, you have to run them separately.
-GPU:
- create training and validation data: `bash scripts/dataset_bas_gpu.sh train_data`
- create test data: `bash scripts/dataset_base_gpu.sh test_data`
-TPU:
- Set the Google storage URL  in `scripts/dataset_large_tpu.sh`:
-  - `GSDATA`: data URL
-  - `GSEXP`: experiment URL
- create training and validation data: `bash scripts/dataset_large_tpu.sh train_data`
- create test data: `bash scripts/dataset_large_tpu.sh test_data`
-#### (2) Run training
-Base models on GPUs:
- Modify the configurations in `scripts/dataset_base_gpu.sh`  according to your needs.
- `bash scripts/dataset_base_gpu.sh train`
- If enough resources are available, increasing the model sizes (e.g., `N_LAYER`, `D_MODEL`, `D_EMBED`, `D_HEAD`, `D_INNER`) so that they are closer to the values defined in `scripts/dataset_large_tpu.sh`. Likewise, when resources are limited, decrease the model sizes. It is recommended to ensure that `D_MODEL == D_EMBED` and `D_MODEL == N_HEAD x D_HEAD`. When the model sizes increase, remember to increase `warmup_steps` accordingly to alleviate optimization difficulties.
- Adjust the `NUM_CORE` parameter to reflect the number of GPUs to use.
-Larger models on TPUs:
- Modify the configurations in `scripts/dataset_large_tpu.sh`  according to your needs.
- `bash scripts/dataset_large_tpu.sh train`
-#### (3) Run evaluation
-Base models on GPUs:
- `bash scripts/dataset_base_gpu.sh eval --eval_ckpt_path PATH_TO_CKPT`
-Larger models on TPUs:
- `bash scripts/dataset_base_tpu.sh eval --eval_ckpt_path PATH_TO_CKPT`
--- a/tf/avg_checkpoints.py
+++ b/tf/avg_checkpoints.py
-# coding=utf-8
-# Copyright 2018 The Tensor2Tensor Authors.
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-#     http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-"""Script to average values of variables in a list of checkpoint files."""
-from __future__ import absolute_import
-from __future__ import division
-from __future__ import print_function
-import os
-import numpy as np
-import six
-from six.moves import zip  # pylint: disable=redefined-builtin
-import tensorflow as tf
-flags = tf.flags
-FLAGS = flags.FLAGS
-flags.DEFINE_string("checkpoints", "",
-                    "Comma-separated list of checkpoints to average.")
-flags.DEFINE_integer("num_last_checkpoints", 0,
-                     "Averages the last N saved checkpoints."
-                     " If the checkpoints flag is set, this is ignored.")
-flags.DEFINE_string("prefix", "",
-                    "Prefix (e.g., directory) to append to each checkpoint.")
-flags.DEFINE_string("output_path", "/tmp/averaged.ckpt",
-                    "Path to output the averaged checkpoint to.")
-def checkpoint_exists(path):
-  return (tf.gfile.Exists(path) or tf.gfile.Exists(path + ".meta") or
-          tf.gfile.Exists(path + ".index"))
-def main(_):
-  tf.logging.set_verbosity(tf.logging.INFO)
-  if FLAGS.checkpoints:
-    # Get the checkpoints list from flags and run some basic checks.
-    checkpoints = [c.strip() for c in FLAGS.checkpoints.split(",")]
-    checkpoints = [c for c in checkpoints if c]
-    if not checkpoints:
-      raise ValueError("No checkpoints provided for averaging.")
-    if FLAGS.prefix:
-      checkpoints = [FLAGS.prefix + c for c in checkpoints]
-  else:
-    assert FLAGS.num_last_checkpoints >= 1, "Must average at least one model"
-    assert FLAGS.prefix, ("Prefix must be provided when averaging last"
-                          " N checkpoints")
-    checkpoint_state = tf.train.get_checkpoint_state(
-        os.path.dirname(FLAGS.prefix))
-    # Checkpoints are ordered from oldest to newest.
-    checkpoints = checkpoint_state.all_model_checkpoint_paths[
-        -FLAGS.num_last_checkpoints:]
-  checkpoints = [c for c in checkpoints if checkpoint_exists(c)]
-  if not checkpoints:
-    if FLAGS.checkpoints:
-      raise ValueError(
-          "None of the provided checkpoints exist. %s" % FLAGS.checkpoints)
-    else:
-      raise ValueError("Could not find checkpoints at %s" %
-                       os.path.dirname(FLAGS.prefix))
-  # Read variables from all checkpoints and average them.
-  tf.logging.info("Reading variables and averaging checkpoints:")
-  for c in checkpoints:
-    tf.logging.info("%s ", c)
-  var_list = tf.contrib.framework.list_variables(checkpoints[0])
-  var_values, var_dtypes = {}, {}
-  for (name, shape) in var_list:
-    if not name.startswith("global_step"):
-      var_values[name] = np.zeros(shape)
-  for checkpoint in checkpoints:
-    reader = tf.contrib.framework.load_checkpoint(checkpoint)
-    for name in var_values:
-      tensor = reader.get_tensor(name)
-      var_dtypes[name] = tensor.dtype
-      var_values[name] += tensor
-    tf.logging.info("Read from checkpoint %s", checkpoint)
-  for name in var_values:  # Average.
-    var_values[name] /= len(checkpoints)
-  with tf.variable_scope(tf.get_variable_scope(), reuse=tf.AUTO_REUSE):
-    tf_vars = [
-        tf.get_variable(v, shape=var_values[v].shape, dtype=var_dtypes[v])
-        for v in var_values
-    ]
-  placeholders = [tf.placeholder(v.dtype, shape=v.shape) for v in tf_vars]
-  assign_ops = [tf.assign(v, p) for (v, p) in zip(tf_vars, placeholders)]
-  global_step = tf.Variable(
-      0, name="global_step", trainable=False, dtype=tf.int64)
-  saver = tf.train.Saver(tf.all_variables())
-  # Build a model consisting only of variables, set them to the average values.
-  with tf.Session() as sess:
-    sess.run(tf.initialize_all_variables())
-    for p, assign_op, (name, value) in zip(placeholders, assign_ops,
-                                           six.iteritems(var_values)):
-      sess.run(assign_op, {p: value})
-    # Use the built saver to save the averaged checkpoint.
-    saver.save(sess, FLAGS.output_path, global_step=global_step)
-  tf.logging.info("Averaged checkpoints saved in %s", FLAGS.output_path)
-if __name__ == "__main__":
-  tf.app.run()
--- a/tf/data_utils.py
+++ b/tf/data_utils.py
--- a/tf/gpu_utils.py
+++ b/tf/gpu_utils.py
-import os
-import tensorflow as tf
-def assign_to_gpu(gpu=0, ps_dev="/device:CPU:0"):
-    def _assign(op):
-        node_def = op if isinstance(op, tf.NodeDef) else op.node_def
-        if node_def.op == "Variable":
-            return ps_dev
-        else:
-            return "/gpu:%d" % gpu
-    return _assign
-def average_grads_and_vars(tower_grads_and_vars):
-    def average_dense(grad_and_vars):
-        if len(grad_and_vars) == 1:
-            return grad_and_vars[0][0]
-        grad = grad_and_vars[0][0]
-        for g, _ in grad_and_vars[1:]:
-            grad += g
-        return grad / len(grad_and_vars)
-    def average_sparse(grad_and_vars):
-        if len(grad_and_vars) == 1:
-            return grad_and_vars[0][0]
-        indices = []
-        values = []
-        for g, _ in grad_and_vars:
-            indices += [g.indices]
-            values += [g.values]
-        indices = tf.concat(indices, 0)
-        values = tf.concat(values, 0) / len(grad_and_vars)
-        return tf.IndexedSlices(values, indices, grad_and_vars[0][0].dense_shape)
-    average_grads_and_vars = []
-    for grad_and_vars in zip(*tower_grads_and_vars):
-        if grad_and_vars[0][0] is None:
-            grad = None
-        elif isinstance(grad_and_vars[0][0], tf.IndexedSlices):
-            grad = average_sparse(grad_and_vars)
-        else:
-            grad = average_dense(grad_and_vars)
-        # Keep in mind that the Variables are redundant because they are shared
-        # across towers. So .. we will just return the first tower's pointer to
-        # the Variable.
-        v = grad_and_vars[0][1]
-        grad_and_var = (grad, v)
-        average_grads_and_vars.append(grad_and_var)
-    return average_grads_and_vars
-def load_from_checkpoint(saver, logdir):
-    sess = tf.get_default_session()
-    ckpt = tf.train.get_checkpoint_state(logdir)
-    if ckpt and ckpt.model_checkpoint_path:
-        if os.path.isabs(ckpt.model_checkpoint_path):
-            # Restores from checkpoint with absolute path.
-            saver.restore(sess, ckpt.model_checkpoint_path)
-        else:
-            # Restores from checkpoint with relative path.
-            saver.restore(sess, os.path.join(logdir, ckpt.model_checkpoint_path))
-        return True
-    return False
--- a/tf/model.py
+++ b/tf/model.py
--- a/tf/scripts/enwik8_base_gpu.sh
+++ b/tf/scripts/enwik8_base_gpu.sh
-#!/bin/bash
-# Data
-DATA_ROOT=../data/enwik8/
-# Model
-N_LAYER=12
-D_MODEL=512
-D_EMBED=512
-N_HEAD=8
-D_HEAD=64
-D_INNER=2048
-# Training
-TGT_LEN=512
-MEM_LEN=512
-BSZ=24
-NUM_CORE=4
-# Testing
-TEST_TGT_LEN=80
-TEST_MEM_LEN=2100
-TEST_CLAMP_LEN=820
-TEST_BSZ=10
-TEST_NUM_CORE=1
-if [[ $1 == 'train_data' ]]; then
-    python data_utils.py \
-        --data_dir=${DATA_ROOT}/ \
-        --dataset=enwik8 \
-        --tgt_len=${TGT_LEN} \
-        --per_host_train_bsz=${BSZ} \
-        --per_host_valid_bsz=${BSZ} \
-        --num_passes=1 \
-        --use_tpu=False \
-        ${@:2}
-elif [[ $1 == 'test_data' ]]; then
-    python data_utils.py \
-        --data_dir=${DATA_ROOT}/ \
-        --dataset=enwik8 \
-        --tgt_len=${TEST_TGT_LEN} \
-        --per_host_test_bsz=${TEST_BSZ} \
-        --num_passes=1 \
-        --use_tpu=False \
-        ${@:2}
-elif [[ $1 == 'train' ]]; then
-    echo 'Run training...'
-    python train_gpu.py \
-        --data_dir=${DATA_ROOT}/tfrecords \
-        --record_info_dir=${DATA_ROOT}/tfrecords/ \
-        --corpus_info_path=${DATA_ROOT}/corpus-info.json \
-        --model_dir=EXP-enwik8 \
-        --n_layer=${N_LAYER} \
-        --d_model=${D_MODEL} \
-        --d_embed=${D_EMBED} \
-        --n_head=${N_HEAD} \
-        --d_head=${D_HEAD} \
-        --d_inner=${D_INNER} \
-        --dropout=0.1 \
-        --dropatt=0.0 \
-        --learning_rate=0.00025 \
-        --warmup_steps=0 \
-        --train_steps=400000 \
-        --tgt_len=${TGT_LEN} \
-        --mem_len=${MEM_LEN} \
-        --train_batch_size=${BSZ} \
-        --num_core_per_host=${NUM_CORE} \
-        --iterations=200 \
-        --save_steps=4000 \
-        --do_train=True \
-        --do_eval=False \
-        ${@:2}
-elif [[ $1 == 'eval' ]]; then
-    echo 'Run evaluation...'
-    python train_gpu.py \
-        --data_dir=${DATA_ROOT}/tfrecords \
-        --record_info_dir=${DATA_ROOT}/tfrecords/ \
-        --corpus_info_path=${DATA_ROOT}/corpus-info.json \
-        --model_dir=EXP-enwik8 \
-        --n_layer=${N_LAYER} \
-        --d_model=${D_MODEL} \
-        --d_embed=${D_EMBED} \
-        --n_head=${N_HEAD} \
-        --d_head=${D_HEAD} \
-        --d_inner=${D_INNER} \
-        --dropout=0.0 \
-        --dropatt=0.0 \
-        --tgt_len=${TEST_TGT_LEN} \
-        --mem_len=${TEST_MEM_LEN} \
-        --clamp_len=${TEST_CLAMP_LEN} \
-        --same_length=True \
-        --eval_batch_size=${TEST_BSZ} \
-        --num_core_per_host=${TEST_NUM_CORE} \
-        --do_train=False \
-        --do_eval=True \
-        --eval_split=test \
-        ${@:2}
-else
-    echo 'unknown argment 1'
-fi
\ No newline at end of file
--- a/tf/scripts/enwik8_large_tpu.sh
+++ b/tf/scripts/enwik8_large_tpu.sh
-#!/bin/bash
-# Path
-LOCAL_DIR=../data/enwik8/
-GSDATA=
-GSEXP=
-# TPU setting
-NUM_HOST=2
-NUM_CORE=16 # TPUv2 -> 8 | TPUv3 -> 16
-TEST_NUM_HOST=1
-TEST_NUM_CORE=8 # TPUv2 -> 8 | TPUv3 -> 16
-# Model
-N_LAYER=24
-D_MODEL=1024
-D_EMBED=1024
-N_HEAD=8
-D_HEAD=128
-D_INNER=3072
-# Training
-TGT_LEN=768
-MEM_LEN=768
-TRAIN_BSZ=64
-VALID_BSZ=64
-# Testing
-TEST_TGT_LEN=128
-TEST_MEM_LEN=3800
-TEST_CLAMP_LEN=1000
-TEST_BSZ=16
-if [[ $1 == 'train_data' ]]; then
-    python data_utils.py \
-        --data_dir=${LOCAL_DIR}/ \
-        --dataset=enwik8 \
-        --tgt_len=${TGT_LEN} \
-        --per_host_train_bsz=${TRAIN_BSZ} \
-        --per_host_valid_bsz=${VALID_BSZ} \
-        --num_core_per_host=${NUM_CORE} \
-        --num_passes=10 \
-        --use_tpu=True \
-        ${@:2}
-    SRC_PATTERN=train.bsz-${TRAIN_BSZ}.tlen-${TGT_LEN}.core-${NUM_CORE}*
-    gsutil cp ${LOCAL_DIR}/tfrecords/${SRC_PATTERN} ${GSDATA}/enwik8-tfrecords/
-    SRC_PATTERN=valid.bsz-${VALID_BSZ}.tlen-${TGT_LEN}.core-${NUM_CORE}*
-    gsutil cp ${LOCAL_DIR}/tfrecords/${SRC_PATTERN} ${GSDATA}/enwik8-tfrecords/
-elif [[ $1 == 'test_data' ]]; then
-    python data_utils.py \
-        --data_dir=${LOCAL_DIR}/ \
-        --dataset=enwik8 \
-        --tgt_len=${TEST_TGT_LEN} \
-        --per_host_test_bsz=${TEST_BSZ} \
-        --num_core_per_host=${TEST_NUM_CORE} \
-        --num_passes=1 \
-        --use_tpu=True \
-        ${@:2}
-    SRC_PATTERN=test.bsz-${TEST_BSZ}.tlen-${TEST_TGT_LEN}.core-${TEST_NUM_CORE}*
-    gsutil cp ${LOCAL_DIR}/tfrecords/${SRC_PATTERN} ${GSDATA}/enwik8-tfrecords/
-elif [[ $1 == 'train' ]]; then
-    echo 'Run training...'
-    python train.py \
-        --data_dir=${GSDATA}/enwik8-tfrecords \
-        --record_info_dir=${LOCAL_DIR}/tfrecords/ \
-        --corpus_info_path=${LOCAL_DIR}/corpus-info.json \
-        --model_dir=${GSEXP}/enwik8 \
-        --n_layer=${N_LAYER} \
-        --d_model=${D_MODEL} \
-        --d_embed=${D_EMBED} \
-        --n_head=${N_HEAD} \
-        --d_head=${D_HEAD} \
-        --d_inner=${D_INNER} \
-        --dropout=0.15 \
-        --dropatt=0.15 \
-        --learning_rate=0.00025 \
-        --warmup_steps=4000 \
-        --train_steps=400000 \
-        --tgt_len=${TGT_LEN} \
-        --mem_len=${MEM_LEN} \
-        --train_batch_size=${TRAIN_BSZ} \
-        --use_tpu=True \
-        --num_host=${NUM_HOST} \
-        --num_core_per_host=${NUM_CORE} \
-        --iterations=1000 \
-        --save_steps=10000 \
-        --do_train=True \
-        --do_eval=False \
-        ${@:2}
-elif [[ $1 == 'eval' ]]; then
-    echo 'Run evaluation...'
-    python train.py \
-        --data_dir=${GSDATA}/enwik8-tfrecords \
-        --record_info_dir=${LOCAL_DIR}/tfrecords/ \
-        --corpus_info_path=${LOCAL_DIR}/corpus-info.json \
-        --model_dir=${GSEXP}/enwik8 \
-        --n_layer=${N_LAYER} \
-        --d_model=${D_MODEL} \
-        --d_embed=${D_EMBED} \
-        --n_head=${N_HEAD} \
-        --d_head=${D_HEAD} \
-        --d_inner=${D_INNER} \
-        --tgt_len=${TEST_TGT_LEN} \
-        --mem_len=${TEST_MEM_LEN} \
-        --eval_batch_size=${TEST_BSZ} \
-        --num_host=${TEST_NUM_HOST} \
-        --num_core_per_host=${TEST_NUM_CORE} \
-        --use_tpu=True \
-        --do_train=False \
-        --do_eval_only=True \
-        --eval_split=test \
-        ${@:2}
-else
-    echo 'unknown argment 1'
-fi
--- a/tf/scripts/lm1b_base_gpu.sh
+++ b/tf/scripts/lm1b_base_gpu.sh
-#!/bin/bash
-# Data
-DATA_ROOT=../data/one-billion-words/
-# Model
-DIV_VAL=4
-N_LAYER=18
-D_MODEL=1024
-D_EMBED=1024
-N_HEAD=8
-D_HEAD=128
-D_INNER=4096
-# Training
-TGT_LEN=256
-MEM_LEN=256
-BSZ=256
-NUM_CORE=4
-# Testing
-TEST_TGT_LEN=32
-TEST_MEM_LEN=128
-TEST_CLAMP_LEN=-1
-TEST_BSZ=16
-TEST_NUM_CORE=1
-if [[ $1 == 'train_data' ]]; then
-    python data_utils.py \
-      --data_dir=${DATA_ROOT}/ \
-      --dataset=lm1b \
-      --tgt_len=${TGT_LEN} \
-      --per_host_train_bsz=${BSZ} \
-      --per_host_valid_bsz=${BSZ} \
-      --num_passes=1 \
-      --use_tpu=False \
-      ${@:2}
-elif [[ $1 == 'test_data' ]]; then
-    python data_utils.py \
-      --data_dir=${DATA_ROOT}/ \
-      --dataset=lm1b \
-      --tgt_len=${TEST_TGT_LEN} \
-      --per_host_test_bsz=${TEST_BSZ} \
-      --num_passes=1 \
-      --use_tpu=False \
-      ${@:2}
-elif [[ $1 == 'train' ]]; then
-    echo 'Run training...'
-    python train_gpu.py \
-        --data_dir=${DATA_ROOT}/tfrecords \
-        --record_info_dir=${DATA_ROOT}/tfrecords/ \
-        --corpus_info_path=${DATA_ROOT}/corpus-info.json \
-        --model_dir=EXP-lm1b \
-        --div_val=${DIV_VAL} \
-        --untie_r=True \
-        --proj_share_all_but_first=False \
-        --proj_same_dim=False \
-        --n_layer=${N_LAYER} \
-        --d_model=${D_MODEL} \
-        --d_embed=${D_EMBED} \
-        --n_head=${N_HEAD} \
-        --d_head=${D_HEAD} \
-        --d_inner=${D_INNER} \
-        --dropout=0.1 \
-        --dropatt=0.0 \
-        --learning_rate=0.00025 \
-        --warmup_steps=0 \
-        --train_steps=400000 \
-        --tgt_len=${TGT_LEN} \
-        --mem_len=${MEM_LEN} \
-        --train_batch_size=${BSZ} \
-        --num_core_per_host=${NUM_CORE} \
-        --iterations=200 \
-        --save_steps=4000 \
-        ${@:2}
-elif [[ $1 == 'eval' ]]; then
-    echo 'Run evaluation...'
-    python train_gpu.py \
-        --data_dir=${DATA_ROOT}/tfrecords \
-        --record_info_dir=${DATA_ROOT}/tfrecords/ \
-        --corpus_info_path=${DATA_ROOT}/corpus-info.json \
-        --model_dir=EXP-lm1b \
-        --div_val=${DIV_VAL} \
-        --untie_r=True \
-        --proj_share_all_but_first=False \
-        --proj_same_dim=False \
-        --n_layer=${N_LAYER} \
-        --d_model=${D_MODEL} \
-        --d_embed=${D_EMBED} \
-        --n_head=${N_HEAD} \
-        --d_head=${D_HEAD} \
-        --d_inner=${D_INNER} \
-        --dropout=0.0 \
-        --dropatt=0.0 \
-        --tgt_len=${TEST_TGT_LEN} \
-        --mem_len=${TEST_MEM_LEN} \
-        --clamp_len=${TEST_CLAMP_LEN} \
-        --same_length=True \
-        --eval_batch_size=${TEST_BSZ} \
-        --num_core_per_host=${TEST_NUM_CORE} \
-        --do_train=False \
-        --do_eval=True \
-        --eval_split=test \
-        ${@:2}
-else
-    echo 'unknown argment 1'
-fi
--- a/tf/scripts/lm1b_large_tpu.sh
+++ b/tf/scripts/lm1b_large_tpu.sh
-#!/bin/bash
-# Path
-LOCAL_DIR=../data/one-billion-words/
-GSDATA=
-GSEXP=
-# TPU setting
-NUM_HOST=32
-NUM_CORE=16 # TPUv2 -> 8 | TPUv3 -> 16
-TEST_NUM_HOST=1
-TEST_NUM_CORE=8 # TPUv2 -> 8 | TPUv3 -> 16
-# Model
-DIV_VAL=4
-N_LAYER=24
-D_MODEL=1280
-D_EMBED=1280
-N_HEAD=16
-D_HEAD=80
-D_INNER=8192
-# Training
-TGT_LEN=32
-MEM_LEN=32
-TRAIN_BSZ=512
-VALID_BSZ=512
-TRAIN_BSZ_PER_HOST=$((TRAIN_BSZ / NUM_HOST))
-VALID_BSZ_PER_HOST=$((VALID_BSZ / NUM_HOST))
-# Testing
-TEST_TGT_LEN=32
-TEST_MEM_LEN=128
-TEST_CLAMP_LEN=-1
-TEST_BSZ=8
-if [[ $1 == 'train_data' ]]; then
-    python data_utils.py \
-        --data_dir=${LOCAL_DIR}/ \
-        --dataset=lm1b \
-        --tgt_len=${TGT_LEN} \
-        --per_host_train_bsz=${TRAIN_BSZ_PER_HOST} \
-        --per_host_valid_bsz=${VALID_BSZ_PER_HOST} \
-        --num_core_per_host=${NUM_CORE} \
-        --num_passes=10 \
-        --use_tpu=True \
-        ${@:2}
-    SRC_PATTERN=train.bsz-${TRAIN_BSZ}.tlen-${TGT_LEN}.core-${NUM_CORE}*
-    gsutil cp ${LOCAL_DIR}/tfrecords/${SRC_PATTERN} ${GSDATA}/lm1b-tfrecords/
-    SRC_PATTERN=valid.bsz-${VALID_BSZ}.tlen-${TGT_LEN}.core-${NUM_CORE}*
-    gsutil cp ${LOCAL_DIR}/tfrecords/${SRC_PATTERN} ${GSDATA}/lm1b-tfrecords/
-elif [[ $1 == 'test_data' ]]; then
-    python data_utils.py \
-        --data_dir=${LOCAL_DIR}/ \
-        --dataset=lm1b \
-        --tgt_len=${TEST_TGT_LEN} \
-        --per_host_test_bsz=${TEST_BSZ} \
-        --num_core_per_host=${TEST_NUM_CORE} \
-        --num_passes=1 \
-        --use_tpu=True \
-        ${@:2}
-    SRC_PATTERN=test.bsz-${TEST_BSZ}.tlen-${TEST_TGT_LEN}.core-${TEST_NUM_CORE}*
-    gsutil cp ${LOCAL_DIR}/tfrecords/${SRC_PATTERN} ${GSDATA}/lm1b-tfrecords/
-elif [[ $1 == 'train' ]]; then
-    echo 'Run training...'
-    python train.py \
-        --data_dir=${GSDATA}/lm1b-tfrecords \
-        --record_info_dir=${LOCAL_DIR}/tfrecords/ \
-        --corpus_info_path=${LOCAL_DIR}/corpus-info.json \
-        --model_dir=${GSEXP}/lm1b \
-        --div_val=${DIV_VAL} \
-        --untie_r=True \
-        --proj_share_all_but_first=False \
-        --proj_same_dim=False \
-        --n_layer=${N_LAYER} \
-        --d_model=${D_MODEL} \
-        --d_embed=${D_EMBED} \
-        --n_head=${N_HEAD} \
-        --d_head=${D_HEAD} \
-        --d_inner=${D_INNER} \
-        --dropout=0.05 \
-        --dropatt=0.05 \
-        --init_std=0.005 \
-        --learning_rate=0.0001 \
-        --warmup_steps=30000 \
-        --train_steps=1200000 \
-        --tgt_len=${TGT_LEN} \
-        --mem_len=${MEM_LEN} \
-        --train_batch_size=${TRAIN_BSZ} \
-        --num_hosts=${NUM_HOST} \
-        --num_core_per_host=${NUM_CORE} \
-        --iterations=1000 \
-        --save_steps=10000 \
-        --use_tpu=True \
-        --do_eval=False \
-        ${@:2}
-elif [[ $1 == 'eval' ]]; then
-    echo 'Run evaluation...'
-    python train.py \
-        --data_dir=${GSDATA}/lm1b-tfrecords \
-        --record_info_dir=${LOCAL_DIR}/tfrecords/ \
-        --corpus_info_path=${LOCAL_DIR}/corpus-info.json \
-        --model_dir=${GSEXP}/lm1b \
-        --div_val=${DIV_VAL} \
-        --untie_r=True \
-        --proj_share_all_but_first=False \
-        --proj_same_dim=False \
-        --n_layer=${N_LAYER} \
-        --d_model=${D_MODEL} \
-        --d_embed=${D_EMBED} \
-        --n_head=${N_HEAD} \
-        --d_head=${D_HEAD} \
-        --d_inner=${D_INNER} \
-        --tgt_len=${TEST_TGT_LEN} \
-        --mem_len=${TEST_MEM_LEN} \
-        --clamp_len=${TEST_CLAMP_LEN} \
-        --same_length=True \
-        --eval_batch_size=${TEST_BSZ} \
-        --num_host=${TEST_NUM_HOST} \
-        --num_core_per_host=${TEST_NUM_CORE} \
-        --use_tpu=True \
-        --do_train=False \
-        --do_eval_only=True \
-        --eval_split=test \
-        ${@:2}
-else
-    echo 'unknown argment 1'
-fi
--- a/tf/scripts/text8_base_gpu.sh
+++ b/tf/scripts/text8_base_gpu.sh
-#!/bin/bash
-# Data
-DATA_ROOT=../data/text8/
-# Model
-N_LAYER=12
-D_MODEL=512
-D_EMBED=512
-N_HEAD=8
-D_HEAD=64
-D_INNER=2048
-# Training
-TGT_LEN=512
-MEM_LEN=512
-BSZ=24
-NUM_CORE=4
-# Testing
-TEST_TGT_LEN=80
-TEST_MEM_LEN=2100
-TEST_CLAMP_LEN=820
-TEST_BSZ=10
-TEST_NUM_CORE=1
-if [[ $1 == 'train_data' ]]; then
-    python data_utils.py \
-        --data_dir=${DATA_ROOT}/ \
-        --dataset=text8 \
-        --tgt_len=${TGT_LEN} \
-        --per_host_train_bsz=${BSZ} \
-        --per_host_valid_bsz=${BSZ} \
-        --num_passes=1 \
-        --use_tpu=False \
-        ${@:2}
-elif [[ $1 == 'test_data' ]]; then
-    python data_utils.py \
-        --data_dir=${DATA_ROOT}/ \
-        --dataset=text8 \
-        --tgt_len=${TEST_TGT_LEN} \
-        --per_host_test_bsz=${TEST_BSZ} \
-        --num_passes=1 \
-        --use_tpu=False \
-        ${@:2}
-elif [[ $1 == 'train' ]]; then
-    echo 'Run training...'
-    python train_gpu.py \
-        --data_dir=${DATA_ROOT}/tfrecords \
-        --record_info_dir=${DATA_ROOT}/tfrecords/ \
-        --corpus_info_path=${DATA_ROOT}/corpus-info.json \
-        --model_dir=EXP-text8 \
-        --n_layer=${N_LAYER} \
-        --d_model=${D_MODEL} \
-        --d_embed=${D_EMBED} \
-        --n_head=${N_HEAD} \
-        --d_head=${D_HEAD} \
-        --d_inner=${D_INNER} \
-        --dropout=0.1 \
-        --dropatt=0.0 \
-        --learning_rate=0.00025 \
-        --warmup_steps=0 \
-        --train_steps=400000 \
-        --tgt_len=${TGT_LEN} \
-        --mem_len=${MEM_LEN} \
-        --train_batch_size=${BSZ} \
-        --num_core_per_host=${NUM_CORE} \
-        --iterations=200 \
-        --save_steps=4000 \
-        --do_train=True \
-        --do_eval=False \
-        ${@:2}
-elif [[ $1 == 'eval' ]]; then
-    echo 'Run evaluation...'
-    python train_gpu.py \
-        --data_dir=${DATA_ROOT}/tfrecords \
-        --record_info_dir=${DATA_ROOT}/tfrecords/ \
-        --corpus_info_path=${DATA_ROOT}/corpus-info.json \
-        --model_dir=EXP-text8 \
-        --n_layer=${N_LAYER} \
-        --d_model=${D_MODEL} \
-        --d_embed=${D_EMBED} \
-        --n_head=${N_HEAD} \
-        --d_head=${D_HEAD} \
-        --d_inner=${D_INNER} \
-        --dropout=0.0 \
-        --dropatt=0.0 \
-        --tgt_len=${TEST_TGT_LEN} \
-        --mem_len=${TEST_MEM_LEN} \
-        --clamp_len=${TEST_CLAMP_LEN} \
-        --same_length=True \
-        --eval_batch_size=${TEST_BSZ} \
-        --num_core_per_host=${TEST_NUM_CORE} \
-        --do_train=False \
-        --do_eval=True \
-        --eval_split=test \
-        ${@:2}
-else
-    echo 'unknown argment 1'
-fi
\ No newline at end of file
--- a/tf/scripts/text8_large_tpu.sh
+++ b/tf/scripts/text8_large_tpu.sh
-#!/bin/bash
-# Path
-LOCAL_DIR=../data/text8/
-GSDATA=
-GSEXP=
-# TPU setting
-NUM_HOST=2
-NUM_CORE=16 # TPUv2 -> 8 | TPUv3 -> 16
-TEST_NUM_HOST=1
-TEST_NUM_CORE=8 # TPUv2 -> 8 | TPUv3 -> 16
-# Model
-N_LAYER=24
-D_MODEL=1024
-D_EMBED=1024
-N_HEAD=8
-D_HEAD=128
-D_INNER=3072
-# Training
-TGT_LEN=768
-MEM_LEN=768
-TRAIN_BSZ=64
-VALID_BSZ=64
-# Testing
-TEST_TGT_LEN=128
-TEST_MEM_LEN=3800
-TEST_CLAMP_LEN=1000
-TEST_BSZ=16
-if [[ $1 == 'train_data' ]]; then
-    python data_utils.py \
-        --data_dir=${LOCAL_DIR}/ \
-        --dataset=text8 \
-        --tgt_len=${TGT_LEN} \
-        --per_host_train_bsz=${TRAIN_BSZ} \
-        --per_host_valid_bsz=${VALID_BSZ} \
-        --num_core_per_host=${NUM_CORE} \
-        --num_passes=10 \
-        --use_tpu=True \
-        ${@:2}
-    SRC_PATTERN=train.bsz-${TRAIN_BSZ}.tlen-${TGT_LEN}.core-${NUM_CORE}*
-    gsutil cp ${LOCAL_DIR}/tfrecords/${SRC_PATTERN} ${GSDATA}/text8-tfrecords/
-    SRC_PATTERN=valid.bsz-${VALID_BSZ}.tlen-${TGT_LEN}.core-${NUM_CORE}*
-    gsutil cp ${LOCAL_DIR}/tfrecords/${SRC_PATTERN} ${GSDATA}/text8-tfrecords/
-elif [[ $1 == 'test_data' ]]; then
-    python data_utils.py \
-        --data_dir=${LOCAL_DIR}/ \
-        --dataset=text8 \
-        --tgt_len=${TEST_TGT_LEN} \
-        --per_host_test_bsz=${TEST_BSZ} \
-        --num_core_per_host=${TEST_NUM_CORE} \
-        --num_passes=1 \
-        --use_tpu=True \
-        ${@:2}
-    SRC_PATTERN=test.bsz-${TEST_BSZ}.tlen-${TEST_TGT_LEN}.core-${TEST_NUM_CORE}*
-    gsutil cp ${LOCAL_DIR}/tfrecords/${SRC_PATTERN} ${GSDATA}/text8-tfrecords/
-elif [[ $1 == 'train' ]]; then
-    echo 'Run training...'
-    python train.py \
-        --data_dir=${GSDATA}/text8-tfrecords \
-        --record_info_dir=${LOCAL_DIR}/tfrecords/ \
-        --corpus_info_path=${LOCAL_DIR}/corpus-info.json \
-        --model_dir=${GSEXP}/text8 \
-        --n_layer=${N_LAYER} \
-        --d_model=${D_MODEL} \
-        --d_embed=${D_EMBED} \
-        --n_head=${N_HEAD} \
-        --d_head=${D_HEAD} \
-        --d_inner=${D_INNER} \
-        --dropout=0.15 \
-        --dropatt=0.15 \
-        --learning_rate=0.00025 \
-        --warmup_steps=4000 \
-        --train_steps=400000 \
-        --tgt_len=${TGT_LEN} \
-        --mem_len=${MEM_LEN} \
-        --train_batch_size=${TRAIN_BSZ} \
-        --use_tpu=True \
-        --num_host=${NUM_HOST} \
-        --num_core_per_host=${NUM_CORE} \
-        --iterations=1000 \
-        --save_steps=10000 \
-        --do_train=True \
-        --do_eval=False \
-        ${@:2}
-elif [[ $1 == 'eval' ]]; then
-    echo 'Run evaluation...'
-    python train.py \
-        --data_dir=${GSDATA}/text8-tfrecords \
-        --record_info_dir=${LOCAL_DIR}/tfrecords/ \
-        --corpus_info_path=${LOCAL_DIR}/corpus-info.json \
-        --model_dir=${GSEXP}/text8 \
-        --n_layer=${N_LAYER} \
-        --d_model=${D_MODEL} \
-        --d_embed=${D_EMBED} \
-        --n_head=${N_HEAD} \
-        --d_head=${D_HEAD} \
-        --d_inner=${D_INNER} \
-        --tgt_len=${TEST_TGT_LEN} \
-        --mem_len=${TEST_MEM_LEN} \
-        --eval_batch_size=${TEST_BSZ} \
-        --num_host=${TEST_NUM_HOST} \
-        --num_core_per_host=${TEST_NUM_CORE} \
-        --use_tpu=True \
-        --do_train=False \
-        --do_eval_only=True \
-        --eval_split=test \
-        ${@:2}
-else
-    echo 'unknown argment 1'
-fi
--- a/tf/scripts/wt103_base_gpu.sh
+++ b/tf/scripts/wt103_base_gpu.sh
-#!/bin/bash
-# Data
-DATA_ROOT=../data/wikitext-103/
-# Model
-DIV_VAL=1
-N_LAYER=16
-D_MODEL=410
-D_EMBED=410
-N_HEAD=10
-D_HEAD=41
-D_INNER=2100
-# Training
-TGT_LEN=150
-MEM_LEN=150
-BSZ=60
-NUM_CORE=4
-# Testing
-TEST_TGT_LEN=64
-TEST_MEM_LEN=640
-TEST_CLAMP_LEN=400
-TEST_BSZ=10
-TEST_NUM_CORE=1
-if [[ $1 == 'train_data' ]]; then
-    python data_utils.py \
-        --data_dir=${DATA_ROOT}/ \
-        --dataset=wt103 \
-        --tgt_len=${TGT_LEN} \
-        --per_host_train_bsz=${BSZ} \
-        --per_host_valid_bsz=${BSZ} \
-        --num_passes=1 \
-        --use_tpu=False \
-        ${@:2}
-elif [[ $1 == 'test_data' ]]; then
-    python data_utils.py \
-        --data_dir=${DATA_ROOT}/ \
-        --dataset=enwik8 \
-        --tgt_len=${TEST_TGT_LEN} \
-        --per_host_test_bsz=${TEST_BSZ} \
-        --num_passes=1 \
-        --use_tpu=False \
-        ${@:2}
-elif [[ $1 == 'train' ]]; then
-    echo 'Run training...'
-    python train_gpu.py \
-        --data_dir=${DATA_ROOT}/tfrecords \
-        --record_info_dir=${DATA_ROOT}/tfrecords/ \
-        --corpus_info_path=${DATA_ROOT}/corpus-info.json \
-        --model_dir=EXP-wt103 \
-        --div_val=${DIV_VAL} \
-        --untie_r=True \
-        --proj_share_all_but_first=True \
-        --n_layer=${N_LAYER} \
-        --d_model=${D_MODEL} \
-        --d_embed=${D_EMBED} \
-        --n_head=${N_HEAD} \
-        --d_head=${D_HEAD} \
-        --d_inner=${D_INNER} \
-        --dropout=0.1 \
-        --dropatt=0.0 \
-        --learning_rate=0.00025 \
-        --warmup_steps=0 \
-        --train_steps=400000 \
-        --tgt_len=${TGT_LEN} \
-        --mem_len=${MEM_LEN} \
-        --train_batch_size=${BSZ} \
-        --num_core_per_host=${NUM_CORE} \
-        --iterations=200 \
-        --save_steps=4000 \
-        ${@:2}
-elif [[ $1 == 'eval' ]]; then
-    echo 'Run evaluation...'
-    python train_gpu.py \
-        --data_dir=${DATA_ROOT}/tfrecords \
-        --record_info_dir=${DATA_ROOT}/tfrecords/ \
-        --corpus_info_path=${DATA_ROOT}/corpus-info.json \
-        --model_dir=EXP-wt103 \
-        --div_val=${DIV_VAL} \
-        --untie_r=True \
-        --proj_share_all_but_first=True \
-        --n_layer=${N_LAYER} \
-        --d_model=${D_MODEL} \
-        --d_embed=${D_EMBED} \
-        --n_head=${N_HEAD} \
-        --d_head=${D_HEAD} \
-        --d_inner=${D_INNER} \
-        --dropout=0.0 \
-        --dropatt=0.0 \
-        --tgt_len=${TEST_TGT_LEN} \
-        --mem_len=${TEST_MEM_LEN} \
-        --clamp_len=${TEST_CLAMP_LEN} \
-        --same_length=True \
-        --eval_batch_size=${TEST_BSZ} \
-        --num_core_per_host=${TEST_NUM_CORE} \
-        --do_train=False \
-        --do_eval=True \
-        --eval_split=test \
-        ${@:2}
-else
-    echo 'unknown argment 1'
-fi
\ No newline at end of file
--- a/tf/scripts/wt103_large_tpu.sh
+++ b/tf/scripts/wt103_large_tpu.sh
-#!/bin/bash
-# Path
-LOCAL_DIR=../data/wikitext-103/
-GSDATA=
-GSEXP=
-# TPU setting
-NUM_HOST=4
-NUM_CORE=16 # TPUv2 -> 8 | TPUv3 -> 16
-TEST_NUM_HOST=1
-TEST_NUM_CORE=8 # TPUv2 -> 8 | TPUv3 -> 16
-# Model
-DIV_VAL=4
-N_LAYER=18
-D_MODEL=1024
-D_EMBED=1024
-N_HEAD=16
-D_HEAD=64
-D_INNER=4096
-# Training
-TGT_LEN=384
-MEM_LEN=384
-TRAIN_BSZ=128
-VALID_BSZ=128
-# Testing
-TEST_TGT_LEN=128
-TEST_MEM_LEN=1600
-TEST_CLAMP_LEN=1000
-TEST_BSZ=8
-if [[ $1 == 'train_data' ]]; then
-    python data_utils.py \
-        --data_dir=${LOCAL_DIR}/ \
-        --dataset=wt103 \
-        --tgt_len=${TGT_LEN} \
-        --per_host_train_bsz=${TRAIN_BSZ} \
-        --per_host_valid_bsz=${VALID_BSZ} \
-        --num_core_per_host=${NUM_CORE} \
-        --num_passes=10 \
-        --use_tpu=True \
-        ${@:2}
-    SRC_PATTERN=train.bsz-${TRAIN_BSZ}.tlen-${TGT_LEN}.core-${NUM_CORE}*
-    gsutil cp ${LOCAL_DIR}/tfrecords/${SRC_PATTERN} ${GSDATA}/wt103-tfrecords/
-    SRC_PATTERN=valid.bsz-${VALID_BSZ}.tlen-${TGT_LEN}.core-${NUM_CORE}*
-    gsutil cp ${LOCAL_DIR}/tfrecords/${SRC_PATTERN} ${GSDATA}/wt103-tfrecords/
-elif [[ $1 == 'test_data' ]]; then
-    python data_utils.py \
-        --data_dir=${LOCAL_DIR}/ \
-        --dataset=wt103 \
-        --tgt_len=${TEST_TGT_LEN} \
-        --per_host_test_bsz=${TEST_BSZ} \
-        --num_core_per_host=${TEST_NUM_CORE} \
-        --num_passes=1 \
-        --use_tpu=True \
-        ${@:2}
-    SRC_PATTERN=test.bsz-${TEST_BSZ}.tlen-${TEST_TGT_LEN}.core-${TEST_NUM_CORE}*
-    gsutil cp ${LOCAL_DIR}/tfrecords/${SRC_PATTERN} ${GSDATA}/wt103-tfrecords/
-elif [[ $1 == 'train' ]]; then
-    echo 'Run training...'
-    python train.py \
-        --data_dir=${GSDATA}/wt103-tfrecords \
-        --record_info_dir=${LOCAL_DIR}/tfrecords/ \
-        --corpus_info_path=${LOCAL_DIR}/corpus-info.json \
-        --model_dir=${GSEXP}/wt103 \
-        --div_val=${DIV_VAL} \
-        --untie_r=True \
-        --proj_share_all_but_first=True \
-        --proj_same_dim=True \
-        --n_layer=${N_LAYER} \
-        --d_model=${D_MODEL} \
-        --d_embed=${D_EMBED} \
-        --n_head=${N_HEAD} \
-        --d_head=${D_HEAD} \
-        --d_inner=${D_INNER} \
-        --dropout=0.2 \
-        --dropatt=0.2 \
-        --init_std=0.005 \
-        --learning_rate=0.00025 \
-        --warmup_steps=16000 \
-        --train_steps=4000000 \
-        --tgt_len=${TGT_LEN} \
-        --mem_len=${MEM_LEN} \
-        --train_batch_size=${TRAIN_BSZ} \
-        --num_hosts=${NUM_HOST} \
-        --num_core_per_host=${NUM_CORE} \
-        --iterations=1000 \
-        --save_steps=10000 \
-        --use_tpu=True \
-        --do_eval=False \
-        ${@:2}
-elif [[ $1 == 'eval' ]]; then
-    echo 'Run evaluation...'
-    python train.py \
-        --data_dir=${GSDATA}/wt103-tfrecords \
-        --record_info_dir=${LOCAL_DIR}/tfrecords/ \
-        --corpus_info_path=${LOCAL_DIR}/corpus-info.json \
-        --model_dir=${GSEXP}/wt103 \
-        --div_val=${DIV_VAL} \
-        --untie_r=True \
-        --proj_share_all_but_first=True \
-        --proj_same_dim=True \
-        --n_layer=${N_LAYER} \
-        --d_model=${D_MODEL} \
-        --d_embed=${D_EMBED} \
-        --n_head=${N_HEAD} \
-        --d_head=${D_HEAD} \
-        --d_inner=${D_INNER} \
-        --tgt_len=${TEST_TGT_LEN} \
-        --mem_len=${TEST_MEM_LEN} \
-        --clamp_len=${TEST_CLAMP_LEN} \
-        --same_length=True \
-        --eval_batch_size=${TEST_BSZ} \
-        --num_host=${TEST_NUM_HOST} \
-        --num_core_per_host=${TEST_NUM_CORE} \
-        --use_tpu=True \
-        --do_train=False \
-        --do_eval_only=True \
-        --eval_split=test \
-        ${@:2}
-else
-    echo 'unknown argment 1'
-fi
--- a/tf/sota/download.sh
+++ b/tf/sota/download.sh
-#!/bin/bash
-URL=http://curtis.ml.cmu.edu/datasets/pretrained_xl
-DATA_ROOT=./
-function download () {
-  fileurl=${1}
-  filename=${fileurl##*/}
-  if [ ! -f ${filename} ]; then
-    echo ">>> Download '${filename}' from '${fileurl}'."
-    wget --quiet ${fileurl}
-  else
-    echo "*** File '${filename}' exists. Skip."
-  fi
-}
-cd $DATA_ROOT
-mkdir -p pretrained_xl && cd pretrained_xl
-# enwik8
-mkdir -p tf_enwik8 && cd tf_enwik8
-mkdir -p data && cd data
-download ${URL}/tf_enwiki8/data/cache.pkl
-download ${URL}/tf_enwiki8/data/corpus-info.json
-cd ..
-mkdir -p model && cd model
-download ${URL}/tf_enwiki8/model/checkpoint
-download ${URL}/tf_enwiki8/model/model.ckpt-0.data-00000-of-00001
-download ${URL}/tf_enwiki8/model/model.ckpt-0.index
-download ${URL}/tf_enwiki8/model/model.ckpt-0.meta
-cd ..
-cd ..
-# text8
-mkdir -p tf_text8 && cd tf_text8
-mkdir -p data && cd data
-download ${URL}/tf_text8/data/cache.pkl
-download ${URL}/tf_text8/data/corpus-info.json
-cd ..
-mkdir -p model && cd model
-download ${URL}/tf_text8/model/checkpoint
-download ${URL}/tf_text8/model/model.ckpt-0.data-00000-of-00001
-download ${URL}/tf_text8/model/model.ckpt-0.index
-download ${URL}/tf_text8/model/model.ckpt-0.meta
-cd ..
-cd ..
-# wt103
-mkdir -p tf_wt103 && cd tf_wt103
-mkdir -p data && cd data
-download ${URL}/tf_wt103/data/cache.pkl
-download ${URL}/tf_wt103/data/corpus-info.json
-cd ..
-mkdir -p model && cd model
-download ${URL}/tf_wt103/model/checkpoint
-download ${URL}/tf_wt103/model/model.ckpt-0.data-00000-of-00001
-download ${URL}/tf_wt103/model/model.ckpt-0.index
-download ${URL}/tf_wt103/model/model.ckpt-0.meta
-cd ..
-cd ..
-# lm1b
-mkdir -p tf_lm1b && cd tf_lm1b
-mkdir -p data && cd data
-download ${URL}/tf_lm1b/data/cache.pkl
-download ${URL}/tf_lm1b/data/corpus-info.json
-cd ..
-mkdir -p model && cd model
-download ${URL}/tf_lm1b/model/checkpoint
-download ${URL}/tf_lm1b/model/model.ckpt-1191000.data-00000-of-00001
-download ${URL}/tf_lm1b/model/model.ckpt-1191000.index
-download ${URL}/tf_lm1b/model/model.ckpt-1191000.meta
-cd ..
-cd ..
--- a/tf/sota/enwik8.sh
+++ b/tf/sota/enwik8.sh
-#!/bin/bash
-# Data
-DATA_ROOT=./
-DATA_DIR=${DATA_ROOT}/pretrained_xl/tf_enwik8/data
-MODEL_DIR=${DATA_ROOT}/pretrained_xl/tf_enwik8/model
-# Model
-N_LAYER=24
-D_MODEL=1024
-D_EMBED=1024
-N_HEAD=8
-D_HEAD=128
-D_INNER=3072
-# Testing
-TEST_TGT_LEN=128
-TEST_MEM_LEN=3800
-TEST_CLAMP_LEN=1000
-TEST_CKPT_PATH=${MODEL_DIR}/model.ckpt-0
-TEST_BSZ=16
-TEST_NUM_CORE=2
-echo 'Preprocess test set...'
-python data_utils.py \
-  --data_dir=${DATA_DIR}/ \
-  --dataset=enwik8 \
-  --tgt_len=${TEST_TGT_LEN} \
-  --per_host_test_bsz=${TEST_BSZ} \
-  --num_passes=1 \
-  --use_tpu=False
-echo 'Run evaluation on test set...'
-python train_gpu.py \
-    --data_dir=${DATA_DIR}/tfrecords \
-    --record_info_dir=${DATA_DIR}/tfrecords/ \
-    --corpus_info_path=${DATA_DIR}/corpus-info.json \
-    --eval_ckpt_path=${TEST_CKPT_PATH} \
-    --model_dir=EXP-enwik8 \
-    --n_layer=${N_LAYER} \
-    --d_model=${D_MODEL} \
-    --d_embed=${D_EMBED} \
-    --n_head=${N_HEAD} \
-    --d_head=${D_HEAD} \
-    --d_inner=${D_INNER} \
-    --dropout=0.0 \
-    --dropatt=0.0 \
-    --tgt_len=${TEST_TGT_LEN} \
-    --mem_len=${TEST_MEM_LEN} \
-    --clamp_len=${TEST_CLAMP_LEN} \
-    --same_length=True \
-    --eval_batch_size=${TEST_BSZ} \
-    --num_core_per_host=${TEST_NUM_CORE} \
-    --do_train=False \
-    --do_eval=True \
-    --eval_split=test
--- a/tf/sota/lm1b.sh
+++ b/tf/sota/lm1b.sh
-#!/bin/bash
-# Data
-DATA_ROOT=./
-DATA_DIR=${DATA_ROOT}/pretrained_xl/tf_lm1b/data
-MODEL_DIR=${DATA_ROOT}/pretrained_xl/tf_lm1b/model
-# Model
-DIV_VAL=4
-N_LAYER=24
-D_MODEL=1280
-D_EMBED=1280
-N_HEAD=16
-D_HEAD=80
-D_INNER=8192
-# Testing
-TEST_TGT_LEN=32
-TEST_MEM_LEN=128
-TEST_CLAMP_LEN=-1
-TEST_CKPT_PATH=${MODEL_DIR}/model.ckpt-1191000
-TEST_BSZ=16
-TEST_NUM_CORE=1
-echo 'Preprocess test set...'
-python data_utils.py \
-    --data_dir=${DATA_DIR}/ \
-    --dataset=lm1b \
-    --tgt_len=${TEST_TGT_LEN} \
-    --per_host_test_bsz=${TEST_BSZ} \
-    --num_passes=1 \
-    --use_tpu=False
-echo 'Run evaluation on test set...'
-python train_gpu.py \
-    --data_dir=${DATA_DIR}/tfrecords \
-    --record_info_dir=${DATA_DIR}/tfrecords/ \
-    --corpus_info_path=${DATA_DIR}/corpus-info.json \
-    --eval_ckpt_path=${TEST_CKPT_PATH} \
-    --model_dir=EXP-lm1b \
-    --div_val=${DIV_VAL} \
-    --untie_r=True \
-    --proj_share_all_but_first=False \
-    --proj_same_dim=False \
-    --n_layer=${N_LAYER} \
-    --d_model=${D_MODEL} \
-    --d_embed=${D_EMBED} \
-    --n_head=${N_HEAD} \
-    --d_head=${D_HEAD} \
-    --d_inner=${D_INNER} \
-    --dropout=0.0 \
-    --dropatt=0.0 \
-    --tgt_len=${TEST_TGT_LEN} \
-    --mem_len=${TEST_MEM_LEN} \
-    --clamp_len=${TEST_CLAMP_LEN} \
-    --same_length=True \
-    --eval_batch_size=${TEST_BSZ} \
-    --num_core_per_host=${TEST_NUM_CORE} \
-    --do_train=False \
-    --do_eval=True \
-    --eval_split=test
--- a/tf/sota/text8.sh
+++ b/tf/sota/text8.sh
-#!/bin/bash
-# Data
-DATA_ROOT=./
-DATA_DIR=${DATA_ROOT}/pretrained_xl/tf_text8/data
-MODEL_DIR=${DATA_ROOT}/pretrained_xl/tf_text8/model
-# Model
-N_LAYER=24
-D_MODEL=1024
-D_EMBED=1024
-N_HEAD=8
-D_HEAD=128
-D_INNER=3072
-# Testing
-TEST_TGT_LEN=128
-TEST_MEM_LEN=3800
-TEST_CLAMP_LEN=1000
-TEST_CKPT_PATH=${MODEL_DIR}/model.ckpt-0
-TEST_BSZ=16
-TEST_NUM_CORE=2
-echo 'Preprocess test set...'
-python data_utils.py \
-  --data_dir=${DATA_DIR}/ \
-  --dataset=text8 \
-  --tgt_len=${TEST_TGT_LEN} \
-  --per_host_test_bsz=${TEST_BSZ} \
-  --num_passes=1 \
-  --use_tpu=False
-echo 'Run evaluation on test set...'
-python train_gpu.py \
-    --data_dir=${DATA_DIR}/tfrecords \
-    --record_info_dir=${DATA_DIR}/tfrecords/ \
-    --corpus_info_path=${DATA_DIR}/corpus-info.json \
-    --eval_ckpt_path=${TEST_CKPT_PATH} \
-    --model_dir=EXP-text8 \
-    --n_layer=${N_LAYER} \
-    --d_model=${D_MODEL} \
-    --d_embed=${D_EMBED} \
-    --n_head=${N_HEAD} \
-    --d_head=${D_HEAD} \
-    --d_inner=${D_INNER} \
-    --dropout=0.0 \
-    --dropatt=0.0 \
-    --tgt_len=${TEST_TGT_LEN} \
-    --mem_len=${TEST_MEM_LEN} \
-    --clamp_len=${TEST_CLAMP_LEN} \
-    --same_length=True \
-    --eval_batch_size=${TEST_BSZ} \
-    --num_core_per_host=${TEST_NUM_CORE} \
-    --do_train=False \
-    --do_eval=True \
-    --eval_split=test
--- a/tf/sota/wt103.sh
+++ b/tf/sota/wt103.sh
-#!/bin/bash
-# Data
-DATA_ROOT=./
-DATA_DIR=${DATA_ROOT}/pretrained_xl/tf_wt103/data
-MODEL_DIR=${DATA_ROOT}/pretrained_xl/tf_wt103/model
-# Model
-DIV_VAL=4
-N_LAYER=18
-D_MODEL=1024
-D_EMBED=1024
-N_HEAD=16
-D_HEAD=64
-D_INNER=4096
-# Training
-TGT_LEN=256
-MEM_LEN=256
-BSZ=16
-NUM_CORE=2
-# Testing
-TEST_TGT_LEN=128
-TEST_MEM_LEN=1600
-TEST_CLAMP_LEN=1000
-TEST_CKPT_PATH=${MODEL_DIR}/model.ckpt-0
-TEST_BSZ=16
-TEST_NUM_CORE=1
-echo 'Preprocess test set...'
-python data_utils.py \
-    --data_dir=${DATA_DIR}/ \
-    --dataset=enwik8 \
-    --tgt_len=${TEST_TGT_LEN} \
-    --per_host_test_bsz=${TEST_BSZ} \
-    --num_passes=1 \
-    --use_tpu=False
-echo 'Run evaluation on test set...'
-python train_gpu.py \
-    --data_dir=${DATA_DIR}/tfrecords \
-    --record_info_dir=${DATA_DIR}/tfrecords/ \
-    --corpus_info_path=${DATA_DIR}/corpus-info.json \
-    --eval_ckpt_path=${TEST_CKPT_PATH} \
-    --model_dir=EXP-wt103 \
-    --div_val=${DIV_VAL} \
-    --untie_r=True \
-    --proj_share_all_but_first=True \
-    --n_layer=${N_LAYER} \
-    --d_model=${D_MODEL} \
-    --d_embed=${D_EMBED} \
-    --n_head=${N_HEAD} \
-    --d_head=${D_HEAD} \
-    --d_inner=${D_INNER} \
-    --dropout=0.0 \
-    --dropatt=0.0 \
-    --tgt_len=${TEST_TGT_LEN} \
-    --mem_len=${TEST_MEM_LEN} \
-    --clamp_len=${TEST_CLAMP_LEN} \
-    --same_length=True \
-    --eval_batch_size=${TEST_BSZ} \
-    --num_core_per_host=${TEST_NUM_CORE} \
-    --do_train=False \
-    --do_eval=True \
-    --eval_split=test