Add a watch dog thread (#1816)

86fc0d79 · Lianmin Zheng · GitHub · 1be853ee · 86fc0d79 · 86fc0d79
Unverified Commit 86fc0d79 authored Oct 27, 2024 by Lianmin Zheng Committed by GitHub Oct 27, 2024
14 changed files
--- a/test/srt/test_mla.py
+++ b/test/srt/test_mla.py
@@ -25,7 +25,7 @@ class TestMLA(unittest.TestCase):

    @classmethod
    def tearDownClass(cls):
-        kill_child_process(cls.process.pid)
+        kill_child_process(cls.process.pid, include_self=True)

    def test_mmlu(self):
        args = SimpleNamespace(

--- a/test/srt/test_mla_fp8.py
+++ b/test/srt/test_mla_fp8.py
@@ -31,7 +31,7 @@ class TestMLA(unittest.TestCase):

    @classmethod
    def tearDownClass(cls):
-        kill_child_process(cls.process.pid)
+        kill_child_process(cls.process.pid, include_self=True)

    def test_mgsm_en(self):
        args = SimpleNamespace(

--- a/test/srt/test_moe_eval_accuracy_large.py
+++ b/test/srt/test_moe_eval_accuracy_large.py
@@ -35,7 +35,7 @@ class TestMoEEvalAccuracyLarge(unittest.TestCase):

    @classmethod
    def tearDownClass(cls):
-        kill_child_process(cls.process.pid)
+        kill_child_process(cls.process.pid, include_self=True)

    def test_mmlu(self):
        args = SimpleNamespace(

--- a/test/srt/test_nightly_gsm8k_eval.py
+++ b/test/srt/test_nightly_gsm8k_eval.py
@@ -36,7 +36,7 @@ class TestEvalAccuracyLarge(unittest.TestCase):

    def tearDown(self):
        if self.process:
-            kill_child_process(self.process.pid)
+            kill_child_process(self.process.pid, include_self=True)

    def launch_server(self, model, is_fp8, is_tp2):
        other_args = ["--log-level-http", "warning", "--trust-remote-code"]

--- a/test/srt/test_openai_server.py
+++ b/test/srt/test_openai_server.py
@@ -31,7 +31,7 @@ class TestOpenAIServer(unittest.TestCase):

    @classmethod
    def tearDownClass(cls):
-        kill_child_process(cls.process.pid)
+        kill_child_process(cls.process.pid, include_self=True)

    def run_completion(
        self, echo, logprobs, use_list_input, parallel_sample_num, token_input

--- a/test/srt/test_pytorch_sampling_backend.py
+++ b/test/srt/test_pytorch_sampling_backend.py
@@ -27,7 +27,7 @@ class TestPyTorchSamplingBackend(unittest.TestCase):

    @classmethod
    def tearDownClass(cls):
-        kill_child_process(cls.process.pid)
+        kill_child_process(cls.process.pid, include_self=True)

    def test_mmlu(self):
        args = SimpleNamespace(

--- a/test/srt/test_retract_decode.py
+++ b/test/srt/test_retract_decode.py
@@ -22,7 +22,7 @@ class TestRetractDecode(unittest.TestCase):

    @classmethod
    def tearDownClass(cls):
-        kill_child_process(cls.process.pid)
+        kill_child_process(cls.process.pid, include_self=True)

    def test_mmlu(self):
        args = SimpleNamespace(

--- a/test/srt/test_skip_tokenizer_init.py
+++ b/test/srt/test_skip_tokenizer_init.py
@@ -26,7 +26,7 @@ class TestSkipTokenizerInit(unittest.TestCase):

    @classmethod
    def tearDownClass(cls):
-        kill_child_process(cls.process.pid)
+        kill_child_process(cls.process.pid, include_self=True)

    def run_decode(self, return_logprob=False, top_logprobs_num=0, n=1):
        max_new_tokens = 32

--- a/test/srt/test_srt_endpoint.py
+++ b/test/srt/test_srt_endpoint.py
@@ -27,7 +27,7 @@ class TestSRTEndpoint(unittest.TestCase):

    @classmethod
    def tearDownClass(cls):
-        kill_child_process(cls.process.pid)
+        kill_child_process(cls.process.pid, include_self=True)

    def run_decode(
        self,

--- a/test/srt/test_torch_compile.py
+++ b/test/srt/test_torch_compile.py
@@ -27,7 +27,7 @@ class TestTorchCompile(unittest.TestCase):

    @classmethod
    def tearDownClass(cls):
-        kill_child_process(cls.process.pid)
+        kill_child_process(cls.process.pid, include_self=True)

    def test_mmlu(self):
        args = SimpleNamespace(

--- a/test/srt/test_torchao.py
+++ b/test/srt/test_torchao.py
@@ -27,7 +27,7 @@ class TestTorchCompile(unittest.TestCase):

    @classmethod
    def tearDownClass(cls):
-        kill_child_process(cls.process.pid)
+        kill_child_process(cls.process.pid, include_self=True)

    def test_mmlu(self):
        args = SimpleNamespace(

--- a/test/srt/test_triton_attn_backend.py
+++ b/test/srt/test_triton_attn_backend.py
@@ -50,7 +50,7 @@ class TestTritonAttnBackend(unittest.TestCase):
            metrics = run_eval(args)
            assert metrics["score"] >= 0.65
        finally:
-            kill_child_process(process.pid)
+            kill_child_process(process.pid, include_self=True)


 if __name__ == "__main__":

--- a/test/srt/test_update_weights.py
+++ b/test/srt/test_update_weights.py
@@ -23,7 +23,7 @@ class TestUpdateWeights(unittest.TestCase):

    @classmethod
    def tearDownClass(cls):
-        kill_child_process(cls.process.pid)
+        kill_child_process(cls.process.pid, include_self=True)

    def run_decode(self):
        response = requests.post(

--- a/test/srt/test_vision_openai_server.py
+++ b/test/srt/test_vision_openai_server.py
@@ -45,7 +45,7 @@ class TestOpenAIVisionServer(unittest.TestCase):

    @classmethod
    def tearDownClass(cls):
-        kill_child_process(cls.process.pid)
+        kill_child_process(cls.process.pid, include_self=True)

    def test_chat_completion(self):
        client = openai.Client(api_key=self.api_key, base_url=self.base_url)