feat(server): add local prom and health routes if running w/ ngrok

1da642bd · OlivierDehaene · 15b3e9ff · 1da642bd
Commit 1da642bd authored Jul 21, 2023 by OlivierDehaene
Show whitespace changes
Inline Side-by-side

Showing with 142 additions and 127 deletions

router/src/server.rs router/src/server.rs +142 -127

No files found.
--- a/router/src/server.rs
+++ b/router/src/server.rs
@@ -32,25 +32,25 @@ use utoipa_swagger_ui::SwaggerUi;
 /// Generate tokens if `stream == false` or a stream of token if `stream == true`
 #[utoipa::path(
-    post,
+post,
-    tag = "Text Generation Inference",
+tag = "Text Generation Inference",
-    path = "/",
+path = "/",
-    request_body = CompatGenerateRequest,
+request_body = CompatGenerateRequest,
-    responses(
+responses(
-        (status = 200, description = "Generated Text",
+(status = 200, description = "Generated Text",
-            content(
+content(
-                ("application/json" = GenerateResponse),
+("application/json" = GenerateResponse),
-                ("text/event-stream" = StreamResponse),
+("text/event-stream" = StreamResponse),
-            )),
+)),
-        (status = 424, description = "Generation Error", body = ErrorResponse,
+(status = 424, description = "Generation Error", body = ErrorResponse,
-            example = json ! ({"error": "Request failed during generation"})),
+example = json ! ({"error": "Request failed during generation"})),
-        (status = 429, description = "Model is overloaded", body = ErrorResponse,
+(status = 429, description = "Model is overloaded", body = ErrorResponse,
-            example = json ! ({"error": "Model is overloaded"})),
+example = json ! ({"error": "Model is overloaded"})),
-        (status = 422, description = "Input validation error", body = ErrorResponse,
+(status = 422, description = "Input validation error", body = ErrorResponse,
-            example = json ! ({"error": "Input validation error"})),
+example = json ! ({"error": "Input validation error"})),
-        (status = 500, description = "Incomplete generation", body = ErrorResponse,
+(status = 500, description = "Incomplete generation", body = ErrorResponse,
-            example = json ! ({"error": "Incomplete generation"})),
+example = json ! ({"error": "Incomplete generation"})),
-    )
+)
 )]
 #[instrument(skip(infer, req))]
 async fn compat_generate(
@@ -79,10 +79,10 @@ async fn compat_generate(
 /// Text Generation Inference endpoint info
 #[utoipa::path(
-    get,
+get,
-    tag = "Text Generation Inference",
+tag = "Text Generation Inference",
-    path = "/info",
+path = "/info",
-    responses((status = 200, description = "Served model info", body = Info))
+responses((status = 200, description = "Served model info", body = Info))
 )]
 #[instrument]
 async fn get_model_info(info: Extension<Info>) -> Json<Info> {
@@ -90,14 +90,14 @@ async fn get_model_info(info: Extension<Info>) -> Json<Info> {
 }
 #[utoipa::path(
-    get,
+get,
-    tag = "Text Generation Inference",
+tag = "Text Generation Inference",
-    path = "/health",
+path = "/health",
-    responses(
+responses(
-        (status = 200, description = "Everything is working fine"),
+(status = 200, description = "Everything is working fine"),
-        (status = 503, description = "Text generation inference is down", body = ErrorResponse,
+(status = 503, description = "Text generation inference is down", body = ErrorResponse,
-            example = json ! ({"error": "unhealthy", "error_type": "healthcheck"})),
+example = json ! ({"error": "unhealthy", "error_type": "healthcheck"})),
-    )
+)
 )]
 #[instrument(skip(health))]
 /// Health check method
@@ -116,33 +116,33 @@ async fn health(mut health: Extension<Health>) -> Result<(), (StatusCode, Json<E
 /// Generate tokens
 #[utoipa::path(
-    post,
+post,
-    tag = "Text Generation Inference",
+tag = "Text Generation Inference",
-    path = "/generate",
+path = "/generate",
-    request_body = GenerateRequest,
+request_body = GenerateRequest,
-    responses(
+responses(
-        (status = 200, description = "Generated Text", body = GenerateResponse),
+(status = 200, description = "Generated Text", body = GenerateResponse),
-        (status = 424, description = "Generation Error", body = ErrorResponse,
+(status = 424, description = "Generation Error", body = ErrorResponse,
-            example = json ! ({"error": "Request failed during generation"})),
+example = json ! ({"error": "Request failed during generation"})),
-        (status = 429, description = "Model is overloaded", body = ErrorResponse,
+(status = 429, description = "Model is overloaded", body = ErrorResponse,
-            example = json ! ({"error": "Model is overloaded"})),
+example = json ! ({"error": "Model is overloaded"})),
-        (status = 422, description = "Input validation error", body = ErrorResponse,
+(status = 422, description = "Input validation error", body = ErrorResponse,
-            example = json ! ({"error": "Input validation error"})),
+example = json ! ({"error": "Input validation error"})),
-        (status = 500, description = "Incomplete generation", body = ErrorResponse,
+(status = 500, description = "Incomplete generation", body = ErrorResponse,
-            example = json ! ({"error": "Incomplete generation"})),
+example = json ! ({"error": "Incomplete generation"})),
-    )
+)
 )]
 #[instrument(
-    skip_all,
+skip_all,
-    fields(
+fields(
-        parameters = ?req.0.parameters,
+parameters = ? req.0.parameters,
-        total_time,
+total_time,
-        validation_time,
+validation_time,
-        queue_time,
+queue_time,
-        inference_time,
+inference_time,
-        time_per_token,
+time_per_token,
-        seed,
+seed,
-    )
+)
 )]
 async fn generate(
    infer: Extension<Infer>,
@@ -297,38 +297,38 @@ async fn generate(
 /// Generate a stream of token using Server-Sent Events
 #[utoipa::path(
-    post,
+post,
-    tag = "Text Generation Inference",
+tag = "Text Generation Inference",
-    path = "/generate_stream",
+path = "/generate_stream",
-    request_body = GenerateRequest,
+request_body = GenerateRequest,
-    responses(
+responses(
-        (status = 200, description = "Generated Text", body = StreamResponse,
+(status = 200, description = "Generated Text", body = StreamResponse,
-            content_type = "text/event-stream"),
+content_type = "text/event-stream"),
-        (status = 424, description = "Generation Error", body = ErrorResponse,
+(status = 424, description = "Generation Error", body = ErrorResponse,
-            example = json ! ({"error": "Request failed during generation"}),
+example = json ! ({"error": "Request failed during generation"}),
-            content_type = "text/event-stream"),
+content_type = "text/event-stream"),
-        (status = 429, description = "Model is overloaded", body = ErrorResponse,
+(status = 429, description = "Model is overloaded", body = ErrorResponse,
-            example = json ! ({"error": "Model is overloaded"}),
+example = json ! ({"error": "Model is overloaded"}),
-            content_type = "text/event-stream"),
+content_type = "text/event-stream"),
-        (status = 422, description = "Input validation error", body = ErrorResponse,
+(status = 422, description = "Input validation error", body = ErrorResponse,
-            example = json ! ({"error": "Input validation error"}),
+example = json ! ({"error": "Input validation error"}),
-            content_type = "text/event-stream"),
+content_type = "text/event-stream"),
-        (status = 500, description = "Incomplete generation", body = ErrorResponse,
+(status = 500, description = "Incomplete generation", body = ErrorResponse,
-            example = json ! ({"error": "Incomplete generation"}),
+example = json ! ({"error": "Incomplete generation"}),
-            content_type = "text/event-stream"),
+content_type = "text/event-stream"),
-    )
+)
 )]
 #[instrument(
-    skip_all,
+skip_all,
-    fields(
+fields(
-        parameters = ?req.0.parameters,
+parameters = ? req.0.parameters,
-        total_time,
+total_time,
-        validation_time,
+validation_time,
-        queue_time,
+queue_time,
-        inference_time,
+inference_time,
-        time_per_token,
+time_per_token,
-        seed,
+seed,
-    )
+)
 )]
 async fn generate_stream(
    infer: Extension<Infer>,
@@ -493,10 +493,10 @@ async fn generate_stream(
 /// Prometheus metrics scrape endpoint
 #[utoipa::path(
-    get,
+get,
-    tag = "Text Generation Inference",
+tag = "Text Generation Inference",
-    path = "/metrics",
+path = "/metrics",
-    responses((status = 200, description = "Prometheus Metrics", body = String))
+responses((status = 200, description = "Prometheus Metrics", body = String))
 )]
 async fn metrics(prom_handle: Extension<PrometheusHandle>) -> String {
    prom_handle.render()
@@ -683,10 +683,10 @@ pub async fn run(
        // Prometheus metrics route
        .route("/metrics", get(metrics))
        .layer(Extension(info))
-        .layer(Extension(health_ext))
+        .layer(Extension(health_ext.clone()))
        .layer(Extension(compat_return_full_text))
        .layer(Extension(infer))
-        .layer(Extension(prom_handle))
+        .layer(Extension(prom_handle.clone()))
        .layer(opentelemetry_tracing_layer())
        .layer(cors_layer);
@@ -712,6 +712,21 @@ pub async fn run(
            let listener = tunnel.listen().await.unwrap();
+            // Run prom metrics and health locally too
+            tokio::spawn(
+                axum::Server::bind(&addr)
+                    .serve(
+                        Router::new()
+                            .route("/health", get(health))
+                            .route("/metrics", get(metrics))
+                            .layer(Extension(health_ext))
+                            .layer(Extension(prom_handle))
+                            .into_make_service(),
+                    )
+                    //Wait until all requests are finished to shut down
+                    .with_graceful_shutdown(shutdown_signal()),
+            );
            // Run server
            axum::Server::builder(listener)
                .serve(app.into_make_service())