Merge pull request #20 from microsoft/master

pull code

Merge pull request #20 from microsoft/master
pull code
12410686 · chicm-ms · GitHub · 611a45fc · 61fec446 · 12410686
Unverified Commit 12410686 authored Jun 21, 2019 by chicm-ms Committed by GitHub Jun 21, 2019
20 changed files
--- a/docs/en_US/SklearnExamples.md
+++ b/docs/en_US/SklearnExamples.md
--- a/docs/en_US/Trials.md
+++ b/docs/en_US/Trials.md
--- a/docs/en_US/WebUI.md
+++ b/docs/en_US/WebUI.md
--- a/docs/en_US/advanced.rst
+++ b/docs/en_US/advanced.rst
@@ -4,3 +4,4 @@ Advanced Features
 ..  toctree::
    MultiPhase<MultiPhase>
    AdvancedNas<AdvancedNas>
+    NAS Programming Interface<GeneralNasInterfaces>
\ No newline at end of file
--- a/docs/en_US/builtin_assessor.rst
+++ b/docs/en_US/builtin_assessor.rst
@@ -4,6 +4,6 @@ Builtin-Assessors
 ..  toctree::
    :maxdepth: 1

-    Overview<BuiltinAssessors>
+    Overview<BuiltinAssessor>
    Medianstop<MedianstopAssessor>
    Curvefitting<CurvefittingAssessor>
\ No newline at end of file
--- a/docs/en_US/reference.rst
+++ b/docs/en_US/reference.rst
--- a/docs/zh_CN/AdvancedNas.md
+++ b/docs/zh_CN/AdvancedNas.md
@@ -101,4 +101,4 @@ sudo mount -t nfs 10.10.10.10:/tmp/nni/shared /mnt/nfs/nni

 ## 样例

-详细内容参考：[简单的参数共享样例](https://github.com/Microsoft/nni/tree/master/test/async_sharing_test)。 基于上一个 [ga_squad](https://github.com/Microsoft/nni/tree/master/examples/trials/ga_squad) 样例，还提供了新的 [样例](https://github.com/Microsoft/nni/tree/master/examples/trials/weight_sharing/ga_squad)。
\ No newline at end of file
+详细内容参考：[简单的参数共享样例](https://github.com/Microsoft/nni/tree/master/test/async_sharing_test)。 基于已有的 [ga_squad](https://github.com/Microsoft/nni/tree/master/examples/trials/ga_squad) 样例，还提供了新的 [样例](https://github.com/Microsoft/nni/tree/master/examples/trials/weight_sharing/ga_squad)。
\ No newline at end of file
--- a/docs/zh_CN/AnnotationSpec.md
+++ b/docs/zh_CN/AnnotationSpec.md
@@ -34,7 +34,7 @@ NNI 中，有 4 种类型的 Annotation；
 NNI 支持如下 10 种类型来表示搜索空间：

 - `@nni.variable(nni.choice(option1,option2,...,optionN),name=variable)` 变量值是选项中的一种，这些变量可以是任意的表达式。
- `@nni.variable(nni.randint(upper),name=variable)` 变量可以是范围 [0, upper) 中的任意整数。
+- `@nni.variable(nni.randint(lower, upper),name=variable)` 变量值的公式为：round(uniform(low, high))。 目前，值的类型为 float。 如果要使用整数，需要显式转换。
 - `@nni.variable(nni.uniform(low, high),name=variable)` 变量值会是 low 和 high 之间均匀分布的某个值。
 - `@nni.variable(nni.quniform(low, high, q),name=variable)` 变量值会是 low 和 high 之间均匀分布的某个值，公式为：round(uniform(low, high) / q) * q
 - `@nni.variable(nni.loguniform(low, high),name=variable)` 变量值是 exp(uniform(low, high)) 的点，数值以对数均匀分布。

--- a/docs/zh_CN/BuiltinAssessors.md
+++ b/docs/zh_CN/BuiltinAssessors.md
@@ -2,7 +2,7 @@

 NNI 提供了先进的调优算法，使用上也很简单。 下面是内置 Assessor 的介绍：

-注意：点击 **Assessor 的名称**可跳转到算法的详细描述，点击**用法**可看到 Assessor 的安装要求、建议场景和使用样例等等。
+注意：点击 **Assessor 的名称**可看到 Assessor 的安装需求，建议的场景以及示例。 算法的详细说明在每个 Assessor 建议场景的最后。

 当前支持的 Assessor：

@@ -25,7 +25,7 @@ NNI 提供了先进的调优算法，使用上也很简单。 下面是内置 As

 **建议场景**

-适用于各种性能曲线，可用到各种场景中来加速优化过程。
+适用于各种性能曲线，可用到各种场景中来加速优化过程。 [详细说明](./MedianstopAssessor.md)

 **参数**

@@ -53,7 +53,7 @@ assessor:

 **建议场景**

-适用于各种性能曲线，可用到各种场景中来加速优化过程。 更好的地方是，它能处理并评估性能类似的曲线。
+适用于各种性能曲线，可用到各种场景中来加速优化过程。 更好的地方是，它能处理并评估性能类似的曲线。 [详细说明](./CurvefittingAssessor.md)

 **参数**


--- a/docs/zh_CN/BuiltinTuner.md
+++ b/docs/zh_CN/BuiltinTuner.md
@@ -2,7 +2,7 @@

 NNI 提供了先进的调优算法，使用上也很简单。 下面是内置 Tuner 的简单介绍：

-注意：点击 **Tuner 的名称**可跳转到算法的详细描述，点击**用法**可看到 Tuner 的安装要求、建议场景和使用样例等等。 [此文章](./CommunitySharings/HPOComparison.md)对比了不同 Tuner 在几个问题下的不同效果。
+注意：点击 **Tuner 的名称**可看到 Tuner 的安装需求，建议的场景以及示例。 算法的详细说明在每个 Tuner 建议场景的最后。 [本文](./CommunitySharings/HpoComparision.md)对比了不同 Tuner 在几个问题下的不同效果。

 当前支持的 Tuner：

@@ -36,13 +36,13 @@ NNI 提供了先进的调优算法，使用上也很简单。 下面是内置 Tu

 **建议场景**

-TPE 是一种黑盒优化方法，可以使用在各种场景中，通常情况下都能得到较好的结果。 特别是在计算资源有限，只能运行少量 Trial 的情况。 大量的实验表明，TPE 的性能远远优于随机搜索。
+TPE 是一种黑盒优化方法，可以使用在各种场景中，通常情况下都能得到较好的结果。 特别是在计算资源有限，只能运行少量 Trial 的情况。 大量的实验表明，TPE 的性能远远优于随机搜索。 [详细说明](./HyperoptTuner.md)

 **参数**

 * **optimize_mode** (*maximize 或 minimize, 可选项, 默认值为 maximize*) - 如果为 'maximize'，表示 Tuner 的目标是将指标最大化。 如果为 'minimize'，表示 Tuner 的目标是将指标最小化。

-**使用样例：**
+**示例**

 ```yaml
 # config.yml
@@ -62,13 +62,13 @@ tuner:

 **建议场景**

-在每个 Trial 运行时间不长（例如，能够非常快的完成，或者很快的被 Assessor 终止），并有充足计算资源的情况下。 或者需要均匀的探索搜索空间。 随机搜索可作为搜索算法的基准线。
+在每个 Trial 运行时间不长（例如，能够非常快的完成，或者很快的被 Assessor 终止），并有充足计算资源的情况下。 或者需要均匀的探索搜索空间。 随机搜索可作为搜索算法的基准线。 [详细说明](./HyperoptTuner.md)

 **参数**

 * **optimize_mode** (*maximize 或 minimize, 可选项, 默认值为 maximize*) - 如果为 'maximize'，表示 Tuner 的目标是将指标最大化。 如果为 'minimize'，表示 Tuner 的目标是将指标最小化。

-**使用样例：**
+**示例**

 ```yaml
 # config.yml
@@ -86,13 +86,13 @@ tuner:

 **建议场景**

-当每个 Trial 的时间不长，并且有足够的计算资源时使用（与随机搜索基本相同）。 或者搜索空间的变量能从一些先验分布中采样。
+当每个 Trial 的时间不长，并且有足够的计算资源时使用（与随机搜索基本相同）。 或者搜索空间的变量能从一些先验分布中采样。 [详细说明](./HyperoptTuner.md)

 **参数**

 * **optimize_mode** (*maximize 或 minimize, 可选项, 默认值为 maximize*) - 如果为 'maximize'，表示 Tuner 的目标是将指标最大化。 如果为 'minimize'，表示 Tuner 的目标是将指标最小化。

-**使用样例：**
+**示例**

 ```yaml
 # config.yml
@@ -112,9 +112,9 @@ tuner:

 **建议场景**

-此算法对计算资源的需求相对较高。 需要非常大的初始种群，以免落入局部最优中。 如果 Trial 时间很短，或者使用了 Assessor，就非常适合此算法。 如果 Trial 代码支持权重迁移，即每次 Trial 会从上一轮继承已经收敛的权重，建议使用此算法。 这会大大提高训练速度。
+此算法对计算资源的需求相对较高。 需要非常大的初始种群，以免落入局部最优中。 如果 Trial 时间很短，或者使用了 Assessor，就非常适合此算法。 如果 Trial 代码支持权重迁移，即每次 Trial 会从上一轮继承已经收敛的权重，建议使用此算法。 这会大大提高训练速度。 [详细说明](./EvolutionTuner.md)

-**使用样例：**
+**示例**

 ```yaml
 # config.yml
@@ -144,13 +144,13 @@ nnictl package install --name=SMAC

 **建议场景**

-与 TPE 类似，SMAC 也是一个可以被用在各种场景中的黑盒 Tuner。在计算资源有限时，也可以使用。 此算法为离散超参而优化，因此，如果大部分超参是离散值时，建议使用此算法。
+与 TPE 类似，SMAC 也是一个可以被用在各种场景中的黑盒 Tuner。在计算资源有限时，也可以使用。 此算法为离散超参而优化，因此，如果大部分超参是离散值时，建议使用此算法。 [详细说明](./SmacTuner.md)

 **参数**

 * **optimize_mode** (*maximize 或 minimize, 可选项, 默认值为 maximize*) - 如果为 'maximize'，表示 Tuner 的目标是将指标最大化。 如果为 'minimize'，表示 Tuner 的目标是将指标最小化。

-**使用样例：**
+**示例**

 ```yaml
 # config.yml
@@ -170,9 +170,9 @@ tuner:

 **建议场景**

-如果 Experiment 配置已确定，可通过 `choice` 将它们罗列到搜索空间文件中运行即可。
+如果 Experiment 配置已确定，可通过 `choice` 将它们罗列到搜索空间文件中运行即可。 [详细说明](./BatchTuner.md)

-**使用样例：**
+**示例**

 ```yaml
 # config.yml
@@ -211,9 +211,9 @@ tuner:

 注意，搜索空间仅支持 `choice`, `quniform`, `qloguniform`。 `quniform` 和 `qloguniform` 中的 **数字 `q` 有不同的含义（与[搜索空间](./SearchSpaceSpec.md)说明不同）。 这里的意义是在 `low` 和 `high` 之间均匀取值的数量。</p> 

-当搜索空间比较小，能够遍历整个搜索空间。
+当搜索空间比较小，能够遍历整个搜索空间。 [详细说明](./GridsearchTuner.md)

-**使用样例：**
+**示例**

 ```yaml
 # config.yml
@@ -231,7 +231,7 @@ tuner:

 **建议场景**

-当搜索空间很大，但计算资源有限时建议使用。 中间结果能够很好的反映最终结果的情况下，此算法会非常有效。
+当搜索空间很大，但计算资源有限时建议使用。 中间结果能够很好的反映最终结果的情况下，此算法会非常有效。 [详细说明](./HyperbandAdvisor.md)

 **参数**

@@ -239,7 +239,7 @@ tuner:
 * **R** (*int, 可选, 默认为 60*) - 分配给 Trial 的最大资源（可以是 mini-batches 或 epochs 的数值）。 每个 Trial 都需要用 TRIAL_BUDGET 来控制运行的步数。
 * **eta** (*int, 可选, 默认为 3*) - `(eta-1)/eta` 是丢弃 Trial 的比例。

-**使用样例：**
+**示例**

 ```yaml
 # config.yml
@@ -265,7 +265,7 @@ advisor:

 **建议场景**

-需要将深度学习方法应用到自己的任务（自己的数据集）上，但不清楚该如何选择或设计网络。 可修改[样例](https://github.com/Microsoft/nni/tree/master/examples/trials/network_morphism/cifar10/cifar10_keras.py)来适配自己的数据集和数据增强方法。 也可以修改批处理大小，学习率或优化器。 它可以为不同的任务找到好的网络架构。 当前，此 Tuner 仅支持视觉领域。
+需要将深度学习方法应用到自己的任务（自己的数据集）上，但不清楚该如何选择或设计网络。 可修改[样例](https://github.com/Microsoft/nni/tree/master/examples/trials/network_morphism/cifar10/cifar10_keras.py)来适配自己的数据集和数据增强方法。 也可以修改批处理大小，学习率或优化器。 它可以为不同的任务找到好的网络架构。 当前，此 Tuner 仅支持视觉领域。 [详细说明](./NetworkmorphismTuner.md)

 **参数**

@@ -275,7 +275,7 @@ advisor:
 * **input_channel** (*int, 可选, 默认为 3*) - 输入图像的通道数
 * **n_output_node** (*int, 可选, 默认为 10*) - 输出分类的数量

-**使用样例：**
+**示例**

 ```yaml
 # config.yml
@@ -299,19 +299,15 @@ tuner:

 注意，搜索空间仅支持 `choice`, `quniform`, `uniform` 和 `randint`。

-**安装**
-
-Metis Tuner 需要先安装 [sklearn](https://scikit-learn.org/)。 可通过 `pip3 install sklearn` 命令来安装。
-
 **建议场景**

-与 TPE 和 SMAC 类似，Metis 是黑盒 Tuner。 如果系统需要很长时间才能完成一次 Trial，Metis 就比随机搜索等其它方法要更合适。 此外，Metis 还为接下来的 Trial 提供了候选。 如何使用 Metis 的[样例](https://github.com/Microsoft/nni/tree/master/examples/trials/auto-gbdt/search_space_metis.json)。 通过调用 NNI 的 SDK，用户只需要发送 `精度` 这样的最终结果给 Tuner。
+与 TPE 和 SMAC 类似，Metis 是黑盒 Tuner。 如果系统需要很长时间才能完成一次 Trial，Metis 就比随机搜索等其它方法要更合适。 此外，Metis 还为接下来的 Trial 提供了候选。 如何使用 Metis 的[样例](https://github.com/Microsoft/nni/tree/master/examples/trials/auto-gbdt/search_space_metis.json)。 通过调用 NNI 的 SDK，用户只需要发送`精度`这样的最终结果给 Tuner。 [详细说明](./MetisTuner.md)

 **参数**

 * **optimize_mode** (*'maximize' 或 'minimize', 可选项, 默认值为 'maximize'*) - 如果为 'maximize'，表示 Tuner 的目标是将指标最大化。 如果为 'minimize'，表示 Tuner 的目标是将指标最小化。

-**使用样例：**
+**示例**

 ```yaml
 # config.yml
@@ -339,7 +335,7 @@ nnictl package install --name=BOHB

 **建议场景**

-与 Hyperband 类似, 当计算资源有限但搜索空间相对较大时, 建议使用此方法。 中间结果能够很好的反映最终结果的情况下，此算法会非常有效。 在这种情况下, 由于贝叶斯优化使用, 它可能会收敛到更好的配置。
+与 Hyperband 类似, 当计算资源有限但搜索空间相对较大时, 建议使用此方法。 中间结果能够很好的反映最终结果的情况下，此算法会非常有效。 在这种情况下, 由于贝叶斯优化使用, 它可能会收敛到更好的配置。 [详细说明](./BohbAdvisor.md)

 **参数**

@@ -356,7 +352,7 @@ nnictl package install --name=BOHB

 *目前 NNI 的浮点类型仅支持十进制表示，必须使用 0.333 来代替 1/3，0.001代替 1e-3。*

-**使用样例：**
+**示例**

 ```yml
 advisor:

--- a/docs/zh_CN/CommunitySharings/HpoComparision.md
+++ b/docs/zh_CN/CommunitySharings/HpoComparision.md
+# 超参数优化的对比
+
+*匿名作者*
+
+超参优化算法在几个问题上的对比。
+
+超参数优化算法如下：
+
+- [Random Search（随机搜索）](../BuiltinTuner.md)
+- [Grid Search（遍历搜索）](../BuiltinTuner.md)
+- [Evolution](../BuiltinTuner.md)
+- [Anneal（退火算法）](../BuiltinTuner.md)
+- [Metis](../BuiltinTuner.md)
+- [TPE](../BuiltinTuner.md)
+- [SMAC](../BuiltinTuner.md)
+- [HyperBand](../BuiltinTuner.md)
+- [BOHB](../BuiltinTuner.md)
+
+所有算法都在 NNI 本机环境下运行。
+
+环境：
+
+    OS: Linux Ubuntu 16.04 LTS
+    CPU: Intel(R) Xeon(R) CPU E5-2690 v3 @ 2.60GHz 2600 MHz
+    Memory: 112 GB
+    NNI Version: v0.7
+    NNI 模式(local|pai|remote): local
+    Python 版本: 3.6
+    使用的虚拟环境: Conda
+    是否在 Docker 中运行: no
+    
+
+## AutoGBDT 示例
+
+### 问题描述
+
+超参搜索上的非凸问题 [AutoGBDT](../gbdt_example.md)。
+
+### 搜索空间
+
+```json
+{
+  "num_leaves": {
+    "_type": "choice",
+    "_value": [10, 12, 14, 16, 18, 20, 22, 24, 28, 32, 48, 64, 96, 128]
+  },
+  "learning_rate": {
+    "_type": "choice",
+    "_value": [0.00001, 0.0001, 0.001, 0.01, 0.05, 0.1, 0.2, 0.5]
+  },
+  "max_depth": {
+    "_type": "choice",
+    "_value": [-1, 2, 3, 4, 5, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 28, 32, 48, 64, 96, 128]
+  },
+  "feature_fraction": {
+    "_type": "choice",
+    "_value": [0.9, 0.8, 0.7, 0.6, 0.5, 0.4, 0.3, 0.2]
+  },
+  "bagging_fraction": {
+    "_type": "choice",
+    "_value": [0.9, 0.8, 0.7, 0.6, 0.5, 0.4, 0.3, 0.2]
+  },
+  "bagging_freq": {
+    "_type": "choice",
+    "_value": [1, 2, 4, 8, 10, 12, 14, 16]
+  }
+}
+```
+
+总搜索空间为 1, 204, 224 次，将最大 Trial 次数设置为1000。 时间限制为 48 小时。
+
+### 结果
+
+| 算法            | 最好的损失值       | 最好的 5 次损失的平均值 | 最好的 10 次损失的平均 |
+| ------------- | ------------ | ------------- | ------------- |
+| Random Search | 0.418854     | 0.420352      | 0.421553      |
+| Random Search | 0.417364     | 0.420024      | 0.420997      |
+| Random Search | 0.417861     | 0.419744      | 0.420642      |
+| Grid Search   | 0.498166     | 0.498166      | 0.498166      |
+| Evolution     | 0.409887     | 0.409887      | 0.409887      |
+| Evolution     | 0.413620     | 0.413875      | 0.414067      |
+| Evolution     | 0.409887     | 0.409887      | 0.409887      |
+| Anneal        | 0.414877     | 0.417289      | 0.418281      |
+| Anneal        | 0.409887     | 0.409887      | 0.410118      |
+| Anneal        | 0.413683     | 0.416949      | 0.417537      |
+| Metis         | 0.416273     | 0.420411      | 0.422380      |
+| Metis         | 0.420262     | 0.423175      | 0.424816      |
+| Metis         | 0.421027     | 0.424172      | 0.425714      |
+| TPE           | 0.414478     | 0.414478      | 0.414478      |
+| TPE           | 0.415077     | 0.417986      | 0.418797      |
+| TPE           | 0.415077     | 0.417009      | 0.418053      |
+| SMAC          | **0.408386** | **0.408386**  | **0.408386**  |
+| SMAC          | 0.414012     | 0.414012      | 0.414012      |
+| SMAC          | **0.408386** | **0.408386**  | **0.408386**  |
+| BOHB          | 0.410464     | 0.415319      | 0.417755      |
+| BOHB          | 0.418995     | 0.420268      | 0.422604      |
+| BOHB          | 0.415149     | 0.418072      | 0.418932      |
+| HyperBand     | 0.414065     | 0.415222      | 0.417628      |
+| HyperBand     | 0.416807     | 0.417549      | 0.418828      |
+| HyperBand     | 0.415550     | 0.415977      | 0.417186      |
+
+Metis 算法因为其高斯计算过程的复杂度为 O(n^3) 而运行非常慢，因此仅执行了 300 次 Trial。
+
+## RocksDB 的 'fillrandom' 和 'readrandom' 基准测试
+
+### 问题描述
+
+[DB_Bench](https://github.com/facebook/rocksdb/wiki/Benchmarking-tools) 是用来做 [RocksDB](https://rocksdb.org/) 性能基准测试的工具。 有多个参数需要调优。
+
+`DB_Bench` 的性能与计算机配置和安装方法有关。 在 `DB_Bench` Linux 系统上运行，并将 Rock 作为共享库安装。
+
+#### 计算机配置
+
+    RocksDB:    version 6.1
+    CPU:        6 * Intel(R) Xeon(R) CPU E5-2690 v4 @ 2.60GHz
+    CPUCache:   35840 KB
+    Keys:       16 bytes each
+    Values:     100 bytes each (50 bytes after compression)
+    Entries:    1000000
+    
+
+#### 存储性能
+
+**延迟**：每个 IO 请求都需要一些时间才能完成，这称为平均延迟。 有几个因素会影响此时间，包括网络连接质量和硬盘IO性能。
+
+**IOPS**： **每秒的 IO 操作数量**，这意味着可以在一秒钟内完成的*读取或写入操作次数*。
+
+**IO 大小**： **每个 IO 请求的大小**。 根据操作系统和需要磁盘访问的应用程序、服务，它将同时发出读取或写入一定数量数据的请求。
+
+**吞吐量（以 MB/s 为单位）= 平均 IO 大小 x IOPS **
+
+IOPS 与在线处理能力有关，我们在实验中使用 IOPS 作为指标。
+
+### 搜索空间
+
+```json
+{
+  "max_background_compactions": {
+    "_type": "quniform",
+    "_value": [1, 256, 1]
+  },
+  "block_size": {
+    "_type": "quniform",
+    "_value": [1, 500000, 1]
+  },
+  "write_buffer_size": {
+    "_type": "quniform",
+    "_value": [1, 130000000, 1]
+  },
+  "max_write_buffer_number": {
+    "_type": "quniform",
+    "_value": [1, 128, 1]
+  },
+  "min_write_buffer_number_to_merge": {
+    "_type": "quniform",
+    "_value": [1, 32, 1]
+  },
+  "level0_file_num_compaction_trigger": {
+    "_type": "quniform",
+    "_value": [1, 256, 1]
+  },
+  "level0_slowdown_writes_trigger": {
+    "_type": "quniform",
+    "_value": [1, 1024, 1]
+  },
+  "level0_stop_writes_trigger": {
+    "_type": "quniform",
+    "_value": [1, 1024, 1]
+  },
+  "cache_size": {
+    "_type": "quniform",
+    "_value": [1, 30000000, 1]
+  },
+  "compaction_readahead_size": {
+    "_type": "quniform",
+    "_value": [1, 30000000, 1]
+  },
+  "new_table_reader_for_compaction_inputs": {
+    "_type": "randint",
+    "_value": [1]
+  }
+}
+```
+
+搜索空间非常大（约10 的 40 次方），将最大 Trial 次数设置为 100 以限制资源。
+
+### 结果
+
+#### fillrandom 基准
+
+| 模型        | 最高 IOPS（重复 1 次） | 最高 IOPS（重复 2 次） | 最高 IOPS（重复 3 次） |
+| --------- | --------------- | --------------- | --------------- |
+| Random    | 449901          | 427620          | 477174          |
+| Anneal    | 461896          | 467150          | 437528          |
+| Evolution | 436755          | 389956          | 389790          |
+| TPE       | 378346          | 482316          | 468989          |
+| SMAC      | 491067          | 490472          | **491136**      |
+| Metis     | 444920          | 457060          | 454438          |
+
+Figure:
+
+![](../../img/hpo_rocksdb_fillrandom.png)
+
+#### readrandom 基准
+
+| 模型        | 最高 IOPS（重复 1 次） | 最高 IOPS（重复 2 次） | 最高 IOPS（重复 3 次） |
+| --------- | --------------- | --------------- | --------------- |
+| Random    | 2276157         | 2285301         | 2275142         |
+| Anneal    | 2286330         | 2282229         | 2284012         |
+| Evolution | 2286524         | 2283673         | 2283558         |
+| TPE       | 2287366         | 2282865         | 2281891         |
+| SMAC      | 2270874         | 2284904         | 2282266         |
+| Metis     | **2287696**     | 2283496         | 2277701         |
+
+Figure:
+
+![](../../img/hpo_rocksdb_readrandom.png)
\ No newline at end of file
--- a/docs/zh_CN/CommunitySharings/NasComparision.md
+++ b/docs/zh_CN/CommunitySharings/NasComparision.md
+# 神经网络结构搜索的对比
+
+*匿名作者*
+
+训练和比较 NAS（神经网络架构搜索）的模型，包括 Autokeras，DARTS，ENAS 和 NAO。
+
+源码链接如下：
+
+- Autokeras: <https://github.com/jhfjhfj1/autokeras>
+
+- DARTS: <https://github.com/quark0/darts>
+
+- ENAS: <https://github.com/melodyguan/enas>
+
+- NAO: <https://github.com/renqianluo/NAO>
+
+## 实验说明
+
+为了避免算法仅仅在 **CIFAR-10** 数据集上过拟合，还对比了包括 Fashion-MNIST, CIFAR-100, OUI-Adience-Age, ImageNet-10-1 (ImageNet的子集) 和 ImageNet-10-2 (ImageNet 的另一个子集) 在内的其它 5 个数据集。 分别从 ImageNet 中抽取 10 种不同类别标签的子集，组成 ImageNet10-1 和 ImageNet10-2 数据集 。
+
+| 数据集                                                                                     | 训练数据集大小 | 类别标签数 | 数据集说明                                                       |
+|:--------------------------------------------------------------------------------------- | ------- | ----- | ----------------------------------------------------------- |
+| [Fashion-MNIST](https://github.com/zalandoresearch/fashion-mnist)                       | 60,000  | 10    | T恤上衣，裤子，套头衫，连衣裙，外套，凉鞋，衬衫，运动鞋，包和踝靴。                          |
+| [CIFAR-10](https://www.cs.toronto.edu/~kriz/cifar.html)                                 | 50,000  | 10    | 飞机，汽车，鸟类，猫，鹿，狗，青蛙，马，船和卡车。                                   |
+| [CIFAR-100](https://www.cs.toronto.edu/~kriz/cifar.html)                                | 50,000  | 100   | 和 CIFAR-10 类似，但总共有 100 个类，每个类有 600 张图。                      |
+| [OUI-Adience-Age](https://talhassner.github.io/home/projects/Adience/Adience-data.html) | 26,580  | 8     | 8 个年龄组类别 (0-2, 4-6, 8-13, 15-20, 25-32, 38-43, 48-53, 60-)。 |
+| [ImageNet-10-1](http://www.image-net.org/)                                              | 9,750   | 10    | 咖啡杯、电脑键盘、餐桌、衣柜、割草机、麦克风、秋千、缝纫机、里程表和燃气泵。                      |
+| [ImageNet-10-2](http://www.image-net.org/)                                              | 9,750   | 10    | 鼓，班吉，口哨，三角钢琴，小提琴，管风琴，原声吉他，长号，长笛和萨克斯。                        |
+
+没有改变源码中的 Fine-tuning 方法。 为了匹配每个任务，改变了源码中模型的输入图片大小和输出类别数目的部分。
+
+所有 NAS 方法模型搜索时间和重训练时间都是**两天**。 所有结果都是基于**三次重复实验**。 评估计算机有一块 Nvidia Tesla P100 GPU、112GB 内存和 2.60GHz CPU (Intel E5-2690)。
+
+NAO 需要太多的计算资源，因此只使用提供 Pipeline 脚本的 NAO-WS。
+
+对于 AutoKeras，使用了 0.2.18 版本的代码, 因为这是开始实验时的最新版本。
+
+## NAS 结果对比
+
+| NAS             | AutoKeras (%) | ENAS (macro) (%) | ENAS (micro) (%) | DARTS (%) | NAO-WS (%) |
+| --------------- |:-------------:|:----------------:|:----------------:|:---------:|:----------:|
+| Fashion-MNIST   |     91.84     |      95.44       |      95.53       | **95.74** |   95.20    |
+| CIFAR-10        |     75.78     |      95.68       |    **96.16**     |   94.23   |   95.64    |
+| CIFAR-100       |     43.61     |      78.13       |      78.84       | **79.74** |   75.75    |
+| OUI-Adience-Age |     63.20     |    **80.34**     |      78.55       |   76.83   |   72.96    |
+| ImageNet-10-1   |     61.80     |      77.07       |      79.80       | **80.48** |   77.20    |
+| ImageNet-10-2   |     37.20     |      58.13       |      56.47       |   60.53   | **61.20**  |
+
+很遗憾，我们无法复现论文中所有的结果。
+
+论文中提供的最佳或平均结果：
+
+| NAS       | AutoKeras(%) | ENAS (macro) (%) | ENAS (micro) (%) |   DARTS (%)    | NAO-WS (%)  |
+| --------- | ------------ |:----------------:|:----------------:|:--------------:|:-----------:|
+| CIFAR- 10 | 88.56(best)  |   96.13(best)    |   97.11(best)    | 97.17(average) | 96.47(best) |
+
+AutoKeras，由于其算法中的随机因素，它在所有数据集中的表现相对较差。
+
+ENAS，ENAS（macro）在 OUI-Adience-Age 数据集中表现较好，并且 ENAS（micro）在 CIFAR-10 数据集中表现较好。
+
+对于DARTS，在某些数据集上具有良好的结果，但在某些数据集中具有比较大的方差。 DARTS 三次实验中的差异在 OUI-Audience-Age 数据集上可达 5.37％（绝对值），在 ImageNet-10-1 数据集上可达4.36％（绝对值）。
+
+NAO-WS 在 ImageNet-10-2 中表现良好，但在 OUI-Adience-Age 中表现非常差。
+
+## 参考文献
+
+1. Jin, Haifeng, Qingquan Song, and Xia Hu. "Efficient neural architecture search with network morphism." *arXiv preprint arXiv:1806.10282* (2018).
+
+2. Liu, Hanxiao, Karen Simonyan, and Yiming Yang. "Darts: Differentiable architecture search." arXiv preprint arXiv:1806.09055 (2018).
+
+3. Pham, Hieu, et al. "Efficient Neural Architecture Search via Parameters Sharing." international conference on machine learning (2018): 4092-4101.
+
+4. Luo, Renqian, et al. "Neural Architecture Optimization." neural information processing systems (2018): 7827-7838.
\ No newline at end of file
--- a/docs/zh_CN/CommunitySharings/NniPracticeSharing/RecommendersSvd.md
+++ b/docs/zh_CN/CommunitySharings/NniPracticeSharing/RecommendersSvd.md
@@ -2,11 +2,11 @@

 本教程中，会首先介绍 GitHub 存储库：[Recommenders](https://github.com/Microsoft/Recommenders)。 它使用 Jupyter Notebook 提供了构建推荐系统的一些示例和实践技巧。 其中大量的模型被广泛的应用于推荐系统中。 为了提供完整的体验，每个示例都通过以下五个关键任务中展示：

- [准备数据](https://github.com/Microsoft/Recommenders/blob/master/notebooks/01_prepare_data/README.md)：为每个推荐算法准备并读取数据。 
-    - [模型](https://github.com/Microsoft/Recommenders/blob/master/notebooks/02_model/README.md)：使用各种经典的以及深度学习推荐算法，如交替最小二乘法（[ALS](https://spark.apache.org/docs/latest/api/python/_modules/pyspark/ml/recommendation.html#ALS)）或极限深度分解机（[xDeepFM](https://arxiv.org/abs/1803.05170)）。
-    - [评估](https://github.com/Microsoft/Recommenders/blob/master/notebooks/03_evaluate/README.md)：使用离线指标来评估算法。
-    - [模型选择和优化](https://github.com/Microsoft/Recommenders/blob/master/notebooks/04_model_select_and_optimize/README.md)：为推荐算法模型调优超参。
-    - [运营](https://github.com/Microsoft/Recommenders/blob/master/notebooks/05_operationalize/README.md)：在 Azure 的生产环境上运行模型。
+- [准备数据](https://github.com/Microsoft/Recommenders/blob/master/notebooks/01_prepare_data/README.md)：为每个 Recommender 算法准备并读取数据。
+- [模型](https://github.com/Microsoft/Recommenders/blob/master/notebooks/02_model/README.md)：使用各种经典的以及深度学习推荐算法，如交替最小二乘法（[ALS](https://spark.apache.org/docs/latest/api/python/_modules/pyspark/ml/recommendation.html#ALS)）或极限深度分解机（[xDeepFM](https://arxiv.org/abs/1803.05170)）。
+- [评估](https://github.com/Microsoft/Recommenders/blob/master/notebooks/03_evaluate/README.md)：使用离线指标来评估算法。
+- [模型选择和优化](https://github.com/Microsoft/Recommenders/blob/master/notebooks/04_model_select_and_optimize/README.md)：为推荐算法模型调优超参。
+- [运营](https://github.com/Microsoft/Recommenders/blob/master/notebooks/05_operationalize/README.md)：在 Azure 的生产环境上运行模型。

 在第四项调优模型超参的任务上，NNI 可以发挥作用。 在 NNI 上调优推荐模型的具体示例，采用了 [SVD](https://github.com/Microsoft/Recommenders/blob/master/notebooks/02_model/surprise_svd_deep_dive.ipynb) 算法，以及数据集 Movielens100k。 此模型有超过 10 个超参需要调优。


--- a/docs/zh_CN/ExperimentConfig.md
+++ b/docs/zh_CN/ExperimentConfig.md
@@ -425,6 +425,14 @@ machineList:
    
    **gpuIndices** 用于指定 GPU。设置此值后，只有指定的 GPU 会被用来运行 Trial 任务。 可指定单个或多个 GPU 的索引，多个 GPU 之间用逗号（,）隔开，例如 `1` 或 `0,1,3`。
  
+  - **maxTrialNumPerGpu**
+    
+    **maxTrialNumPerGpu** 用于指定每个 GPU 设备上最大并发的 Trial 数量。
+  
+  - **useActiveGpu**
+    
+    **useActiveGpu** 用于指定 NNI 是否使用还有其它进程的 GPU。 默认情况下，NNI 只会使用没有其它进程的空闲 GPU，如果 **useActiveGpu** 设置为 true，NNI 会使用所有 GPU。 此字段不适用于 Windows 版的 NNI。
+
 - **machineList**
  
  如果 **trainingServicePlatform** 为 remote，则需要设置 **machineList**。否则应将其置为空。
@@ -461,6 +469,14 @@ machineList:
    
    **gpuIndices** 用于指定 GPU。设置此值后，远程计算机上只有指定的 GPU 会被用来运行 Trial 任务。 可指定单个或多个 GPU 的索引，多个 GPU 之间用逗号（,）隔开，例如 `1` 或 `0,1,3`。
  
+  - **maxTrialNumPerGpu**
+    
+    **maxTrialNumPerGpu** 用于指定每个 GPU 设备上最大并发的 Trial 数量。
+  
+  - **useActiveGpu**
+    
+    **useActiveGpu** 用于指定 NNI 是否使用还有其它进程的 GPU。 默认情况下，NNI 只会使用没有其它进程的空闲 GPU，如果 **useActiveGpu** 设置为 true，NNI 会使用所有 GPU。 此字段不适用于 Windows 版的 NNI。
+
 - **kubeflowConfig**:
  
  - **operator**

--- a/docs/zh_CN/FAQ.md
+++ b/docs/zh_CN/FAQ.md
@@ -31,7 +31,7 @@ nnictl 在执行时，使用 tmp 目录作为临时目录来复制 codeDir 下

 ### 使用 `nnictl stop` 无法停止 Experiment

-如果在实验运行时，升级了 nni 或删除了一些配置文件，会因为丢失配置文件而出现这类错误。 可以使用 `ps -ef | grep node` 命令来找到 Experiment 的 pid，并用 `kill -9 {pid}` 命令来停止 Experiment 进程。
+如果在 Experiment 运行时，升级了 nni 或删除了一些配置文件，会因为丢失配置文件而出现这类错误。 可以使用 `ps -ef | grep node` 命令来找到 Experiment 的 PID，并用 `kill -9 {pid}` 命令来停止 Experiment 进程。

 ### 无法在虚拟机的 NNI 网页中看到 `指标数据`


--- a/docs/zh_CN/GeneralNasInterfaces.md
+++ b/docs/zh_CN/GeneralNasInterfaces.md
+# 神经网络架构搜索的通用编程接口（测试版）
+
+** 这是一个测试中的功能，目前只实现了通用的 NAS 编程接口。 接下来的版本会基于此接口支持权重共享和 one-shot NAS。*
+
+自动化的神经网络架构（NAS）搜索在寻找更好的模型方面发挥着越来越重要的作用。 最近的研究工作证明了自动化 NAS 的可行性，并发现了一些超越手动设计和调整的模型。 代表算法有 [NASNet](https://arxiv.org/abs/1707.07012)，[ENAS](https://arxiv.org/abs/1802.03268)，[DARTS](https://arxiv.org/abs/1806.09055)，[Network Morphism](https://arxiv.org/abs/1806.10282)，以及 [Evolution](https://arxiv.org/abs/1703.01041) 等。 新的算法还在不断涌现。 然而，实现这些算法需要很大的工作量，且很难重用其它算法的代码库来实现。
+
+要促进 NAS 创新（例如，设计实现新的 NAS 模型，并列比较不同的 NAS 模型），易于使用且灵活的编程接口非常重要。
+
+## 编程接口
+
+在两种场景下需要用于设计和搜索模型的新的编程接口。 1) 在设计神经网络时，层、子模型或连接有多个可能，并且不确定哪一个或哪种组合表现最好。 如果有一种简单的方法来表达想要尝试的候选层、子模型，将会很有价值。 2) 研究自动化 NAS 时，需要统一的方式来表达神经网络架构的搜索空间， 并在不改变 Trial 代码的情况下来使用不同的搜索算法。
+
+本文基于 [NNI Annotation](./AnnotationSpec.md) 实现了简单灵活的编程接口 。 通过以下示例来详细说明。
+
+### 示例：为层选择运算符
+
+在设计此模型时，第四层的运算符有多个可能的选择，会让模型有更好的表现。 如图所示，在模型代码中可以对第四层使用 Annotation。 此 Annotation 中，共有五个字段：
+
+![](../img/example_layerchoice.png)
+
+* **layer_choice**：它是函数调用的 list，每个函数都要在代码或导入的库中实现。 函数的输入参数格式为：`def XXX (input, arg2, arg3, ...)`，其中输入是包含了两个元素的 list。 其中一个是 `fixed_inputs` 的 list，另一个是 `optional_inputs` 中选择输入的 list。 `conv` 和 `pool` 是函数示例。 对于 list 中的函数调用，无需写出第一个参数（即 input）。 注意，只会从这些函数调用中选择一个来执行。
+* **fixed_inputs** ：它是变量的 list，可以是前一层输出的张量。 也可以是此层之前的另一个 `nni.mutable_layer` 的 `layer_output`，或此层之前的其它 Python 变量。 list 中的所有变量将被输入 `layer_choice` 中选择的函数（作为输入 list 的第一个元素）。
+* **optional_inputs** ：它是变量的 list，可以是前一层的输出张量。 也可以是此层之前的另一个 `nni.mutable_layer` 的 `layer_output`，或此层之前的其它 Python 变量。 只有 `optional_input_size` 变量被输入 `layer_choice` 到所选的函数 （作为输入 list 的第二个元素）。
+* **optional_input_size** ：它表示从 `input_candidates` 中选择多少个输入。 它可以是一个数字，也可以是一个范围。 范围 [1, 3] 表示选择 1、2 或 3 个输入。
+* **layer_output** ：表示输出的名称。本例中，表示 `layer_choice` 选择的函数的返回值。 这是一个变量名，可以在随后的 Python 代码或 `nni.mutable_layer` 中使用。
+
+此示例有两种写 Annotation 的方法。 对于上面的示例，输入函数的形式是 `[[], [out3]]` 。 对于下面的示例，输入的形式是 `[[out3], []]`。
+
+**调试**：`nnictl trial codegen` 命令可帮助调试 NAS 编程接口。 如果 Experiment `YYY` 中的 Trial 的 `XXX` 出错了，可以运行 `nnictl trial codegen YYY --trial_id XXX` 在当前目录下生成这个 Trial 的可执行代码。 通过运行此代码，可以不需要 NNI 就能调试 Trial 失败的原因。 此命令会编译 Trial 代码，并用实际选择的层次和输入来替换 NNI 的 NAS 代码。
+
+### 示例：为层选择输入的连接
+
+设计层的连接对于制作高性能模型至关重要。 通过此接口，可选择一个层可以采用哪些连接来作为输入。 可以从一组连接中选择几个。 下面的示例从三个候选输入中为 `concat` 这个函数选择两个输入 。 `concat` 还会使用 `fixed_inputs` 获取其上一层的输出 。
+
+![](../img/example_connectchoice.png)
+
+### 示例：同时选择运算符和连接
+
+此示例从三个运算符中选择一个，并为其选择两个连接作为输入。 由于输入会有多个变量,，在函数的开头需要调用 `concat` 。
+
+![](../img/example_combined.png)
+
+### 示例：[ENAS](https://arxiv.org/abs/1802.03268) 宏搜索空间
+
+为了证明编程接口带来的便利，使用该接口来实现 “ENAS + 宏搜索空间” 的 Trial 代码。 左图是 ENAS 论文中的宏搜索空间。
+
+![](../img/example_enas.png)
+
+## 统一的 NAS 搜索空间说明
+
+通过上面的 Annotation 更新 Trial 代码后，即在代码中隐式指定了神经网络架构的搜索空间。 基于该代码，NNI 将自动生成一个搜索空间文件，可作为调优算法的输入。 搜索空间文件遵循以下 JSON 格式。
+
+```json
+{
+    "mutable_1": {
+        "layer_1": {
+            "layer_choice": ["conv(ch=128)", "pool", "identity"],
+            "optional_inputs": ["out1", "out2", "out3"],
+            "optional_input_size": 2
+        },
+        "layer_2": {
+            ...
+        }
+    }
+}
+```
+
+相应生成的神经网络结构（由调优算法生成）如下：
+
+```json
+{
+    "mutable_1": {
+        "layer_1": {
+            "chosen_layer": "pool",
+            "chosen_inputs": ["out1", "out3"]
+        },
+        "layer_2": {
+            ...
+        }
+    }
+}
+```
+
+通过对搜索空间格式和体系结构选择 (choice) 表达式的说明，可以自由地在 NNI 上实现神经体系结构搜索的各种或通用的调优算法。 接下来的工作会提供一个通用的 NAS 算法。
+
+=============================================================
+
+## 神经网络结构搜索在 NNI 上的应用
+
+### Experiment 执行的基本流程
+
+NNI 的 Annotation 编译器会将 Trial 代码转换为可以接收架构选择并构建相应模型（如图）的代码。 NAS 的搜索空间可以看作是一个完整的图（在这里，完整的图意味着允许所有提供的操作符和连接来构建图），调优算法所选择的是其子图。 默认情况下，编译时 Trial 代码仅构建并执行子图。
+
+![](../img/nas_on_nni.png)
+
+上图显示了 Trial 代码如何在 NNI 上运行。 `nnictl` 处理 Trial 代码，并生成搜索空间文件和编译后的 Trial 代码。 前者会输入 Tuner，后者会在 Trial 代码运行时使用。
+
+[使用 NAS 的简单示例](https://github.com/microsoft/nni/tree/v0.8/examples/trials/mnist-nas)。
+
+### [**待实现**] 权重共享
+
+在所选择的架构（即 Trial）之间共享权重可以加速模型搜索。 例如，适当地继承已完成 Trial 的权重可加速新 Trial 的收敛。 One-shot NAS（例如，ENAS，Darts）更为激进，不同架构（即子图）的训练会在完整图中共享相同的权重。
+
+![](../img/nas_weight_share.png)
+
+权重分配（转移）在加速 NAS 中有关键作用，而找到有效的权重共享方式仍是热门的研究课题。 NNI 提供了一个键值存储，用于存储和加载权重。 Tuner 和 Trial 使用 KV 客户端库来访问存储。
+
+NNI 上的权重共享示例。
+
+### [**待实现**] 支持 One-Shot NAS
+
+One-Shot NAS 是流行的，能在有限的时间和资源预算内找到较好的神经网络结构的方法。 本质上，它会基于搜索空间来构建完整的图，并使用梯度下降最终找到最佳子图。 它有不同的训练方法，如：[training subgraphs (per mini-batch)](https://arxiv.org/abs/1802.03268) ，[training full graph through dropout](http://proceedings.mlr.press/v80/bender18a/bender18a.pdf)，以及 [training with architecture weights (regularization)](https://arxiv.org/abs/1806.09055) 。 这里会关注第一种方法，即训练子图（ENAS）。
+
+使用相同 Annotation Trial 代码，可选择 One-Shot NAS 作为执行模式。 具体来说，编译后的 Trial 代码会构建完整的图形（而不是上面演示的子图），会接收所选择的架构，并在完整的图形上对此体系结构进行小型的批处理训练，然后再请求另一个架构。 它通过 [NNI 多阶段 Experiment](./multiPhase.md) 来支持。 因为子图训练非常快，而每次启动子图训练时都会产生开销，所以采用此方法。
+
+![](../img/one-shot_training.png)
+
+One-Shot NAS 的设计如上图所示。 One-Shot NAS 通常只有一个带有完整图的 Trial 任务。 NNI 支持运行多个此类 Trial 任务，每个任务都独立运行。 由于 One-Shot NAS 不够稳定，运行多个实例有助于找到更好的模型。 此外，Trial 任务之间也能在运行时同步权重（即，只有一份权重数据，如异步的参数 — 服务器模式）。 这样有可能加速收敛。
+
+One-Shot NAS 示例。
+
+## [**待实现**] NAS 的一般调优算法。
+
+与超参数调优一样，NAS 也需要相对通用的算法。 通用编程接口使其更容易。 贡献者为 NAS 提供了基于 RL 的调参算法。 期待社区努力设计和实施更好的 NAS 调优算法。
+
+NAS 的一般调优算法。
+
+## [**待实现**] 导出最佳神经网络架构和代码
+
+Experiment 完成后，可通过 `nnictl experiment export --code` 来导出用最好的神经网络结构和 Trial 代码。
+
+## 结论和未来的工作
+
+如本文所示，不同的 NAS 算法和执行模式，可通过相同的编程接口来支持。
+
+在这一领域有许多系统和机器学习方向的有趣的研究主题。
\ No newline at end of file
--- a/docs/zh_CN/Installation.md
+++ b/docs/zh_CN/Installation.md
@@ -17,7 +17,7 @@
    先决条件：`python >=3.5`, `git`, `wget`
    
    ```bash
-    git clone -b v0.7 https://github.com/Microsoft/nni.git
+    git clone -b v0.8 https://github.com/Microsoft/nni.git
    cd nni
    ./install.sh
    ```
@@ -30,8 +30,9 @@

 在第一次使用 PowerShell 运行脚本时，需要用**使用管理员权限**运行如下命令：

-    bash
-      Set-ExecutionPolicy -ExecutionPolicy Unrestricted
+```powershell
+Set-ExecutionPolicy -ExecutionPolicy Unrestricted
+```

 推荐使用 Anaconda 或 Miniconda。

@@ -50,9 +51,9 @@
    然后可以使用管理员或当前用户安装 NNI：
    
    ```bash
-    git clone -b v0.7 https://github.com/Microsoft/nni.git
+    git clone -b v0.8 https://github.com/Microsoft/nni.git
    cd nni
-    powershell ./install.ps1
+    powershell .\install.ps1
    ```

 ## **系统需求**

--- a/docs/zh_CN/NniOnWindows.md
+++ b/docs/zh_CN/NniOnWindows.md
@@ -4,33 +4,9 @@

 ## **在 Windows 上安装**

-**强烈推荐使用 Anaconda 或 Miniconda Python（64位）。**
+详细信息参考[安装文档](Installation.md)。

-在第一次使用 PowerShell 运行脚本时，需要用**使用管理员权限**运行如下命令：
-
-```bash
-Set-ExecutionPolicy -ExecutionPolicy Unrestricted
-```
-
-* **通过 pip 命令安装 NNI**
-    
-    先决条件：`python(64-bit) >= 3.5`
-
-```bash
-  python -m pip install --upgrade nni
-```
-
-* __通过代码安装 NNI__
-
-  先决条件: `python >=3.5`, `git`, `PowerShell`
-
-  ```bash
-  git clone -b v0.8 https://github.com/Microsoft/nni.git
-  cd nni
-  powershell -file install.ps1
-  ```
-
-运行完以上脚本后，从命令行使用 **config_windows.yml** 来启动 Experiment，完成安装验证。
+完成操作后，使用 **config_windows.yml** 配置来开始 Experiment 进行验证。

 ```bash
 nnictl create --config nni\examples\trials\mnist\config_windows.yml
@@ -85,4 +61,4 @@ Set-ExecutionPolicy -ExecutionPolicy Unrestricted

 注意：

-* 如果遇到 `Segmentation fault` 这样的错误，参考[常见问答](FAQ.md)。
\ No newline at end of file
+* 如果遇到如 `Segmentation fault` 这样的任何错误，参考[常见问题](FAQ.md)。
\ No newline at end of file
--- a/docs/zh_CN/PAIMode.md
+++ b/docs/zh_CN/PAIMode.md
-# **在 OpenPAI 上运行 Experiment**
-
-NNI 支持在 [OpenPAI](https://github.com/Microsoft/pai) （简称 pai）上运行 Experiment，即 pai 模式。 在使用 NNI 的 pai 模式前, 需要有 [OpenPAI](https://github.com/Microsoft/pai) 群集的账户。 如果没有 OpenPAI 账户，参考[这里](https://github.com/Microsoft/pai#how-to-deploy)来进行部署。 在 pai 模式中，会在 Docker 创建的容器中运行 Trial 程序。
-
-## 设置环境
-
-参考[指南](QuickStart.md)安装 NNI。
-
-## 运行 Experiment
-
-以 `examples/trials/mnist-annotation` 为例。 NNI 的 YAML 配置文件如下：
-
-```yaml
-authorName: your_name
-experimentName: auto_mnist
-# 并发运行的 Trial 数量
-trialConcurrency: 2
-# Experiment 的最长持续运行时间
-maxExecDuration: 3h
-# 空表示一直运行
-maxTrialNum: 100
-# 可选项: local, remote, pai
-trainingServicePlatform: pai
-# 可选项: true, false  
-useAnnotation: true
-tuner:
-  builtinTunerName: TPE
-  classArgs:
-    optimize_mode: maximize
-trial:
-  command: python3 mnist.py
-  codeDir: ~/nni/examples/trials/mnist-annotation
-  gpuNum: 0
-  cpuNum: 1
-  memoryMB: 8196
-  image: openpai/pai.example.tensorflow
-  dataDir: hdfs://10.1.1.1:9000/nni
-  outputDir: hdfs://10.1.1.1:9000/nni
-# 配置访问的 OpenPAI 集群
-paiConfig:
-  userName: your_pai_nni_user
-  passWord: your_pai_password
-  host: 10.1.1.1
-```
-
-注意：如果用 pai 模式运行，需要在 YAML 文件中设置 `trainingServicePlatform: pai`。
-
-与本机模式，以及[远程计算机模式](RemoteMachineMode.md)相比，pai 模式的 Trial 有额外的配置：
-
-* cpuNum 
-    * 必填。 Trial 程序的 CPU 需求，必须为正数。
-* memoryMB 
-    * 必填。 Trial 程序的内存需求，必须为正数。
-* image 
-    * 必填。 在 pai 模式中，Trial 程序由 OpenPAI 在 [Docker 容器](https://www.docker.com/)中安排运行。 此键用来指定 Trial 程序的容器使用的 Docker 映像。
-    * [Docker Hub](https://hub.docker.com/) 上有预制的 NNI Docker 映像 [nnimsra/nni](https://hub.docker.com/r/msranni/nni/)。 它包含了用来启动 NNI Experiment 所依赖的所有 Python 包，Node 模块和 JavaScript。 生成此 Docker 映像的文件在[这里](https://github.com/Microsoft/nni/tree/master/deployment/docker/Dockerfile)。 可以直接使用此映像，或参考它来生成自己的映像。
-* dataDir 
-    * 可选。 指定了 Trial 用于下载数据的 HDFS 数据目录。 格式应为 hdfs://{your HDFS host}:9000/{数据目录}
-* outputDir 
-    * 可选。 指定了 Trial 的 HDFS 输出目录。 Trial 在完成（成功或失败）后，Trial 的 stdout， stderr 会被 NNI 自动复制到此目录中。 格式应为 hdfs://{your HDFS host}:9000/{输出目录}
-* virtualCluster 
-    * 可选。 设置 OpenPAI 的 virtualCluster，即虚拟集群。 如果未设置此参数，将使用默认的虚拟集群。
-* shmMB 
-    * 可选。 设置 OpenPAI 的 shmMB，即 Docker 中的共享内存。
-
-完成并保存 NNI Experiment 配置文件后（例如可保存为：exp_pai.yml），运行以下命令：
-
-    nnictl create --config exp_pai.yml
-    
-
-来在 pai 模式下启动 Experiment。 NNI 会为每个 Trial 创建 OpenPAI 作业，作业名称的格式为 `nni_exp_{experiment_id}_trial_{trial_id}`。 可以在 OpenPAI 集群的网站中看到 NNI 创建的作业，例如： ![](../img/nni_pai_joblist.jpg)
-
-注意：pai 模式下，NNIManager 会启动 RESTful 服务，监听端口为 NNI 网页服务器的端口加1。 例如，如果网页端口为`8080`，那么 RESTful 服务器会监听在 `8081`端口，来接收运行在 Kubernetes 中的 Trial 作业的指标。 因此，需要在防火墙中启用端口 `8081` 的 TCP 协议，以允许传入流量。
-
-当一个 Trial 作业完成后，可以在 NNI 网页的概述页面（如：http://localhost:8080/oview）中查看 Trial 的信息。
-
-在 Trial 列表页面中展开 Trial 信息，点击如下的 logPath： ![](../img/nni_webui_joblist.jpg)
-
-接着将会打开 HDFS 的 WEB 界面，并浏览到 Trial 的输出文件： ![](../img/nni_trial_hdfs_output.jpg)
-
-在输出目录中可以看到三个文件：stderr, stdout, 以及 trial.log
-
-如果希望将 Trial 的模型数据等其它输出保存到HDFS中，可在 Trial 代码中使用 `NNI_OUTPUT_DIR` 来自己保存输出文件，NNI SDK会从 Trial 的容器中将 `NNI_OUTPUT_DIR` 中的文件复制到 HDFS 中。
-
-如果在使用 pai 模式时遇到任何问题，请到 [NNI Github](https://github.com/Microsoft/nni) 中创建问题。
-
-## 版本校验
-
-从 0.6 开始，NNI 支持版本校验。确保 NNIManager 与 trialKeeper 的版本一致，避免兼容性错误。  
-检查策略：
-
-1. 0.6 以前的 NNIManager 可与任何版本的 trialKeeper 一起运行，trialKeeper 支持向后兼容。
-2. 从 NNIManager 0.6 开始，与 triakKeeper 的版本必须一致。 例如，如果 NNIManager 是 0.6 版，则 trialKeeper 也必须是 0.6 版。 
-3. 注意，只有版本的前两位数字才会被检查。例如，NNIManager 0.6.1 可以和 trialKeeper 的 0.6 或 0.6.2 一起使用，但不能与 trialKeeper 的 0.5.1 或 0.7 版本一起使用。 
-
-如果 Experiment 无法运行，而且不能确认是否是因为版本不匹配造成的，可以在 Web 界面检查是否有相关的错误消息。  
-![](../img/version_check.png)
\ No newline at end of file
--- a/docs/zh_CN/PaiMode.md
+++ b/docs/zh_CN/PaiMode.md
@@ -33,7 +33,7 @@ trial:
  gpuNum: 0
  cpuNum: 1
  memoryMB: 8196
-  image: openpai/pai.example.tensorflow
+  image: msranni/nni:latest
  dataDir: hdfs://10.1.1.1:9000/nni
  outputDir: hdfs://10.1.1.1:9000/nni
 # 配置访问的 OpenPAI 集群