GGML update to ec98e2002 (#13451)

* Revert "add support for NVIDIA Nemotron 3 Nano" This reverts commit e7d2ae9d69421012e9a8765c06a3fdf0e45b12f3. * GGML update to 380b4c984 Remove MaskBatchPadding as GGML_KQ_MASK_PAD is no longer present (no padding required) * update to c45f89d55 * ec98e2002 solar pro needed more adjusting - needs verification * review comments

GGML update to ec98e2002 (#13451)
* Revert "add support for NVIDIA Nemotron 3 Nano" This reverts commit e7d2ae9d69421012e9a8765c06a3fdf0e45b12f3. * GGML update to 380b4c984 Remove MaskBatchPadding as GGML_KQ_MASK_PAD is no longer present (no padding required) * update to c45f89d55 * ec98e2002 solar pro needed more adjusting - needs verification * review comments
49a9c9ba · Daniel Hiltgen · GitHub · 1c094038 · 49a9c9ba · 49a9c9ba
Unverified Commit 49a9c9ba authored Dec 17, 2025 by Daniel Hiltgen Committed by GitHub Dec 17, 2025
20 changed files
--- a/llama/patches/0022-ggml-Enable-resetting-backend-devices.patch
+++ b/llama/patches/0022-ggml-Enable-resetting-backend-devices.patch
@@ -16,7 +16,7 @@ unused then it can be reset to free these data structures.
 6 files changed, 32 insertions(+), 2 deletions(-)

 diff --git a/ggml/include/ggml-backend.h b/ggml/include/ggml-backend.h
-index b3b5b356a..69223c488 100644
+index dbbb61d9c..92ca32a4b 100644
 --- a/ggml/include/ggml-backend.h
 +++ b/ggml/include/ggml-backend.h
 @@ -178,6 +178,7 @@ extern "C" {
@@ -43,10 +43,10 @@ index 7bdf9d81f..21b35ac5c 100644
 
     struct ggml_backend_device {
 diff --git a/ggml/src/ggml-backend.cpp b/ggml/src/ggml-backend.cpp
-index 4092dfe8a..a1a19fe51 100644
+index 7746e8b92..189e97170 100644
 --- a/ggml/src/ggml-backend.cpp
 +++ b/ggml/src/ggml-backend.cpp
-@@ -526,6 +526,14 @@ ggml_backend_t ggml_backend_dev_init(ggml_backend_dev_t device, const char * par
+@@ -532,6 +532,14 @@ ggml_backend_t ggml_backend_dev_init(ggml_backend_dev_t device, const char * par
     return device->iface.init_backend(device, params);
 }
 
@@ -62,7 +62,7 @@ index 4092dfe8a..a1a19fe51 100644
     GGML_ASSERT(device);
     return device->iface.get_buffer_type(device);
 diff --git a/ggml/src/ggml-cuda/ggml-cuda.cu b/ggml/src/ggml-cuda/ggml-cuda.cu
-index ede1d089a..ec63cadab 100644
+index eeaae3fe4..6852d2e20 100644
 --- a/ggml/src/ggml-cuda/ggml-cuda.cu
 +++ b/ggml/src/ggml-cuda/ggml-cuda.cu
 @@ -113,6 +113,11 @@ int ggml_cuda_get_device() {
@@ -89,7 +89,7 @@ index ede1d089a..ec63cadab 100644
 
     bool host_buffer = getenv("GGML_CUDA_NO_PINNED") == nullptr;
 #ifdef GGML_CUDA_NO_PEER_COPY
-@@ -4907,6 +4915,11 @@ static void ggml_backend_cuda_device_event_synchronize(ggml_backend_dev_t dev, g
+@@ -4908,6 +4916,11 @@ static void ggml_backend_cuda_device_event_synchronize(ggml_backend_dev_t dev, g
     CUDA_CHECK(cudaEventSynchronize((cudaEvent_t)event->context));
 }
 
@@ -101,7 +101,7 @@ index ede1d089a..ec63cadab 100644
 static const ggml_backend_device_i ggml_backend_cuda_device_interface = {
     /* .get_name                = */ ggml_backend_cuda_device_get_name,
     /* .get_description         = */ ggml_backend_cuda_device_get_description,
-@@ -4923,6 +4936,7 @@ static const ggml_backend_device_i ggml_backend_cuda_device_interface = {
+@@ -4924,6 +4937,7 @@ static const ggml_backend_device_i ggml_backend_cuda_device_interface = {
     /* .event_new               = */ ggml_backend_cuda_device_event_new,
     /* .event_free              = */ ggml_backend_cuda_device_event_free,
     /* .event_synchronize       = */ ggml_backend_cuda_device_event_synchronize,
@@ -110,10 +110,10 @@ index ede1d089a..ec63cadab 100644
 
 // backend reg
 diff --git a/ggml/src/ggml-cuda/vendors/hip.h b/ggml/src/ggml-cuda/vendors/hip.h
-index b7d6edf7f..b987d7aeb 100644
+index 951a88d56..4e162258d 100644
 --- a/ggml/src/ggml-cuda/vendors/hip.h
 +++ b/ggml/src/ggml-cuda/vendors/hip.h
-@@ -45,6 +45,7 @@
+@@ -49,6 +49,7 @@
 #define cudaDeviceDisablePeerAccess hipDeviceDisablePeerAccess
 #define cudaDeviceEnablePeerAccess hipDeviceEnablePeerAccess
 #define cudaDeviceProp hipDeviceProp_t
@@ -122,10 +122,10 @@ index b7d6edf7f..b987d7aeb 100644
 #define cudaError_t hipError_t
 #define cudaErrorPeerAccessAlreadyEnabled hipErrorPeerAccessAlreadyEnabled
 diff --git a/src/llama.cpp b/src/llama.cpp
-index ab2e9868a..74c49e651 100644
+index f69964b6d..759152b76 100644
 --- a/src/llama.cpp
 +++ b/src/llama.cpp
-@@ -270,10 +270,12 @@ static struct llama_model * llama_model_load_from_file_impl(
+@@ -921,10 +921,12 @@ static struct llama_model * llama_model_load_from_file_impl(
     for (auto * dev : model->devices) {
         ggml_backend_dev_props props;
         ggml_backend_dev_get_props(dev, &props);

--- a/llama/patches/0024-GPU-discovery-enhancements.patch
+++ b/llama/patches/0024-GPU-discovery-enhancements.patch
@@ -28,7 +28,7 @@ fix vulkan PCI ID and ID handling
 create mode 100644 ggml/src/mem_nvml.cpp

 diff --git a/ggml/include/ggml-backend.h b/ggml/include/ggml-backend.h
-index 69223c488..6510e0cba 100644
+index 92ca32a4b..6ad583f09 100644
 --- a/ggml/include/ggml-backend.h
 +++ b/ggml/include/ggml-backend.h
 @@ -169,6 +169,12 @@ extern "C" {
@@ -58,7 +58,7 @@ index d55aed348..99ae293cc 100644
 
 set_target_properties(ggml-base PROPERTIES
 diff --git a/ggml/src/ggml-cuda/ggml-cuda.cu b/ggml/src/ggml-cuda/ggml-cuda.cu
-index ec63cadab..cd71902df 100644
+index 6852d2e20..48cdb1dcf 100644
 --- a/ggml/src/ggml-cuda/ggml-cuda.cu
 +++ b/ggml/src/ggml-cuda/ggml-cuda.cu
 @@ -267,6 +267,16 @@ static ggml_cuda_device_info ggml_cuda_init() {
@@ -159,7 +159,7 @@ index ec63cadab..cd71902df 100644
     bool host_buffer = getenv("GGML_CUDA_NO_PINNED") == nullptr;
 #ifdef GGML_CUDA_NO_PEER_COPY
     bool events = false;
-@@ -5046,6 +5102,7 @@ ggml_backend_reg_t ggml_backend_cuda_reg() {
+@@ -5047,6 +5103,7 @@ ggml_backend_reg_t ggml_backend_cuda_reg() {
         std::lock_guard<std::mutex> lock(mutex);
         if (!initialized) {
             ggml_backend_cuda_reg_context * ctx = new ggml_backend_cuda_reg_context;
@@ -167,7 +167,7 @@ index ec63cadab..cd71902df 100644
 
             for (int i = 0; i < ggml_cuda_info().device_count; i++) {
                 ggml_backend_cuda_device_context * dev_ctx = new ggml_backend_cuda_device_context;
-@@ -5061,6 +5118,14 @@ ggml_backend_reg_t ggml_backend_cuda_reg() {
+@@ -5062,6 +5119,14 @@ ggml_backend_reg_t ggml_backend_cuda_reg() {
                 snprintf(pci_bus_id, sizeof(pci_bus_id), "%04x:%02x:%02x.0", prop.pciDomainID, prop.pciBusID, prop.pciDeviceID);
                 dev_ctx->pci_bus_id = pci_bus_id;
 
@@ -183,7 +183,7 @@ index ec63cadab..cd71902df 100644
                     /* .iface   = */ ggml_backend_cuda_device_interface,
                     /* .reg     = */ &reg,
 diff --git a/ggml/src/ggml-cuda/vendors/hip.h b/ggml/src/ggml-cuda/vendors/hip.h
-index b987d7aeb..5ad5623ae 100644
+index 4e162258d..d89e35a8e 100644
 --- a/ggml/src/ggml-cuda/vendors/hip.h
 +++ b/ggml/src/ggml-cuda/vendors/hip.h
 @@ -5,6 +5,8 @@
@@ -195,7 +195,7 @@ index b987d7aeb..5ad5623ae 100644
 
 #if defined(GGML_HIP_ROCWMMA_FATTN)
 #include <rocwmma/rocwmma-version.hpp>
-@@ -47,6 +49,7 @@
+@@ -51,6 +53,7 @@
 #define cudaDeviceProp hipDeviceProp_t
 #define cudaDeviceReset hipDeviceReset
 #define cudaDeviceSynchronize hipDeviceSynchronize
@@ -243,7 +243,7 @@ index ba95b4acc..f6f8f7a10 100644
         /* .async                 = */ true,
         /* .host_buffer           = */ false,
 diff --git a/ggml/src/ggml-vulkan/ggml-vulkan.cpp b/ggml/src/ggml-vulkan/ggml-vulkan.cpp
-index b2c0d0cee..d9f4d34f5 100644
+index 5349bce24..d43d46d1d 100644
 --- a/ggml/src/ggml-vulkan/ggml-vulkan.cpp
 +++ b/ggml/src/ggml-vulkan/ggml-vulkan.cpp
 @@ -236,6 +236,7 @@ class vk_memory_logger;
@@ -254,7 +254,7 @@ index b2c0d0cee..d9f4d34f5 100644
 
 static constexpr uint32_t mul_mat_vec_max_cols = 8;
 static constexpr uint32_t p021_max_gqa_ratio = 8;
-@@ -12256,6 +12257,29 @@ static void ggml_vk_get_device_description(int device, char * description, size_
+@@ -12350,6 +12351,29 @@ static void ggml_vk_get_device_description(int device, char * description, size_
     snprintf(description, description_size, "%s", props.deviceName.data());
 }
 
@@ -284,7 +284,7 @@ index b2c0d0cee..d9f4d34f5 100644
 // backend interface
 
 #define UNUSED GGML_UNUSED
-@@ -13535,15 +13559,72 @@ void ggml_backend_vk_get_device_description(int device, char * description, size
+@@ -13628,15 +13652,72 @@ void ggml_backend_vk_get_device_description(int device, char * description, size
     ggml_vk_get_device_description(dev_idx, description, description_size);
 }
 
@@ -361,7 +361,7 @@ index b2c0d0cee..d9f4d34f5 100644
 
     if (membudget_supported) {
         memprops.pNext = &budgetprops;
-@@ -13595,8 +13676,13 @@ static std::string ggml_backend_vk_get_device_pci_id(int device_idx) {
+@@ -13688,8 +13769,13 @@ static std::string ggml_backend_vk_get_device_pci_id(int device_idx) {
         }
     }
 
@@ -376,7 +376,7 @@ index b2c0d0cee..d9f4d34f5 100644
     }
 
     vk::PhysicalDeviceProperties2 props = {};
-@@ -13613,19 +13699,24 @@ static std::string ggml_backend_vk_get_device_pci_id(int device_idx) {
+@@ -13706,19 +13792,24 @@ static std::string ggml_backend_vk_get_device_pci_id(int device_idx) {
 
     char pci_bus_id[16] = {};
     snprintf(pci_bus_id, sizeof(pci_bus_id), "%04x:%02x:%02x.%x", pci_domain, pci_bus, pci_device, pci_function);
@@ -410,7 +410,7 @@ index b2c0d0cee..d9f4d34f5 100644
 
 static const char * ggml_backend_vk_device_get_name(ggml_backend_dev_t dev) {
     ggml_backend_vk_device_context * ctx = (ggml_backend_vk_device_context *)dev->context;
-@@ -13637,9 +13728,14 @@ static const char * ggml_backend_vk_device_get_description(ggml_backend_dev_t de
+@@ -13730,9 +13821,14 @@ static const char * ggml_backend_vk_device_get_description(ggml_backend_dev_t de
     return ctx->description.c_str();
 }
 
@@ -426,7 +426,7 @@ index b2c0d0cee..d9f4d34f5 100644
 }
 
 static ggml_backend_buffer_type_t ggml_backend_vk_device_get_buffer_type(ggml_backend_dev_t dev) {
-@@ -13663,8 +13759,9 @@ static void ggml_backend_vk_device_get_props(ggml_backend_dev_t dev, struct ggml
+@@ -13756,8 +13852,9 @@ static void ggml_backend_vk_device_get_props(ggml_backend_dev_t dev, struct ggml
 
     props->name        = ggml_backend_vk_device_get_name(dev);
     props->description = ggml_backend_vk_device_get_description(dev);
@@ -437,7 +437,7 @@ index b2c0d0cee..d9f4d34f5 100644
     ggml_backend_vk_device_get_memory(dev, &props->memory_free, &props->memory_total);
     props->caps = {
         /* .async                 = */ false,
-@@ -13672,6 +13769,13 @@ static void ggml_backend_vk_device_get_props(ggml_backend_dev_t dev, struct ggml
+@@ -13765,6 +13862,13 @@ static void ggml_backend_vk_device_get_props(ggml_backend_dev_t dev, struct ggml
         /* .buffer_from_host_ptr  = */ false,
         /* .events                = */ false,
     };
@@ -451,7 +451,7 @@ index b2c0d0cee..d9f4d34f5 100644
 }
 
 static ggml_backend_t ggml_backend_vk_device_init(ggml_backend_dev_t dev, const char * params) {
-@@ -14236,6 +14340,8 @@ static ggml_backend_dev_t ggml_backend_vk_reg_get_device(ggml_backend_reg_t reg,
+@@ -14331,6 +14435,8 @@ static ggml_backend_dev_t ggml_backend_vk_reg_get_device(ggml_backend_reg_t reg,
         static std::mutex mutex;
         std::lock_guard<std::mutex> lock(mutex);
         if (!initialized) {
@@ -460,7 +460,7 @@ index b2c0d0cee..d9f4d34f5 100644
             for (int i = 0; i < ggml_backend_vk_get_device_count(); i++) {
                 ggml_backend_vk_device_context * ctx = new ggml_backend_vk_device_context;
                 char desc[256];
-@@ -14244,12 +14350,41 @@ static ggml_backend_dev_t ggml_backend_vk_reg_get_device(ggml_backend_reg_t reg,
+@@ -14339,12 +14445,41 @@ static ggml_backend_dev_t ggml_backend_vk_reg_get_device(ggml_backend_reg_t reg,
                 ctx->name = GGML_VK_NAME + std::to_string(i);
                 ctx->description = desc;
                 ctx->is_integrated_gpu = ggml_backend_vk_get_device_type(i) == vk::PhysicalDeviceType::eIntegratedGpu;

--- a/llama/patches/0028-Add-memory-detection-using-DXGI-PDH.patch
+++ b/llama/patches/0028-Add-memory-detection-using-DXGI-PDH.patch
@@ -38,7 +38,7 @@ index 1c07e767a..0da3e065b 100644
 #ifdef __cplusplus
 }
 diff --git a/ggml/src/ggml-vulkan/ggml-vulkan.cpp b/ggml/src/ggml-vulkan/ggml-vulkan.cpp
-index d9f4d34f5..8a83427fb 100644
+index d43d46d1d..df79f9f79 100644
 --- a/ggml/src/ggml-vulkan/ggml-vulkan.cpp
 +++ b/ggml/src/ggml-vulkan/ggml-vulkan.cpp
 @@ -74,6 +74,7 @@ DispatchLoaderDynamic & ggml_vk_default_dispatcher();
@@ -49,7 +49,7 @@ index d9f4d34f5..8a83427fb 100644
 
 typedef struct VkPhysicalDeviceShaderBfloat16FeaturesKHR {
     VkStructureType                       sType;
-@@ -13576,6 +13577,7 @@ struct ggml_backend_vk_device_context {
+@@ -13669,6 +13670,7 @@ struct ggml_backend_vk_device_context {
     std::string pci_id;
     std::string id;
     std::string uuid;
@@ -57,7 +57,7 @@ index d9f4d34f5..8a83427fb 100644
     int major;
     int minor;
     int driver_major;
-@@ -13594,6 +13596,20 @@ void ggml_backend_vk_get_device_memory(ggml_backend_vk_device_context *ctx, size
+@@ -13687,6 +13689,20 @@ void ggml_backend_vk_get_device_memory(ggml_backend_vk_device_context *ctx, size
     
     vk::PhysicalDeviceProperties2 props2;
     vkdev.getProperties2(&props2);
@@ -78,7 +78,7 @@ index d9f4d34f5..8a83427fb 100644
 
     if (!is_integrated_gpu)
     {
-@@ -13625,7 +13641,6 @@ void ggml_backend_vk_get_device_memory(ggml_backend_vk_device_context *ctx, size
+@@ -13718,7 +13734,6 @@ void ggml_backend_vk_get_device_memory(ggml_backend_vk_device_context *ctx, size
     }
     // else fallback to memory budget if supported
 
@@ -86,7 +86,7 @@ index d9f4d34f5..8a83427fb 100644
     if (membudget_supported) {
         memprops.pNext = &budgetprops;
     }
-@@ -14357,7 +14372,6 @@ static ggml_backend_dev_t ggml_backend_vk_reg_get_device(ggml_backend_reg_t reg,
+@@ -14452,7 +14467,6 @@ static ggml_backend_dev_t ggml_backend_vk_reg_get_device(ggml_backend_reg_t reg,
                     /* .reg     = */ reg,
                     /* .context = */ ctx,
                 });
@@ -94,7 +94,7 @@ index d9f4d34f5..8a83427fb 100644
                 // Gather additional information about the device
                 int dev_idx = vk_instance.device_indices[i];
                 vk::PhysicalDeviceProperties props1;
-@@ -14380,6 +14394,14 @@ static ggml_backend_dev_t ggml_backend_vk_reg_get_device(ggml_backend_reg_t reg,
+@@ -14475,6 +14489,14 @@ static ggml_backend_dev_t ggml_backend_vk_reg_get_device(ggml_backend_reg_t reg,
                     }
                 }
                 ctx->uuid = oss.str();

--- a/llama/patches/0029-ggml-cuda-skip-large-batches.patch
+++ b/llama/patches/0029-ggml-cuda-skip-large-batches.patch
@@ -10,10 +10,10 @@ fallback to cpu
 1 file changed, 3 insertions(+)

 diff --git a/ggml/src/ggml-cuda/ggml-cuda.cu b/ggml/src/ggml-cuda/ggml-cuda.cu
-index cd71902df..d69d62193 100644
+index 48cdb1dcf..3102d7ea7 100644
 --- a/ggml/src/ggml-cuda/ggml-cuda.cu
 +++ b/ggml/src/ggml-cuda/ggml-cuda.cu
-@@ -4632,6 +4632,9 @@ static bool ggml_backend_cuda_device_supports_op(ggml_backend_dev_t dev, const g
+@@ -4633,6 +4633,9 @@ static bool ggml_backend_cuda_device_supports_op(ggml_backend_dev_t dev, const g
                 if (b->type == GGML_TYPE_F16 && a->type != GGML_TYPE_F16) {
                     return false;
                 }

--- a/llama/patches/0030-win-exit-instead-of-abort.patch
+++ b/llama/patches/0030-win-exit-instead-of-abort.patch
@@ -8,7 +8,7 @@ Subject: [PATCH] win: exit instead of abort
 1 file changed, 6 insertions(+), 1 deletion(-)

 diff --git a/ggml/src/ggml.c b/ggml/src/ggml.c
-index 530ff7b95..fc0196eb7 100644
+index eb3ae72ea..c9242a15a 100644
 --- a/ggml/src/ggml.c
 +++ b/ggml/src/ggml.c
 @@ -250,8 +250,13 @@ void ggml_abort(const char * file, int line, const char * fmt, ...) {

--- a/llama/patches/0031-fix-bakllava-regression.patch
+++ b/llama/patches/0031-fix-bakllava-regression.patch
@@ -9,10 +9,10 @@ Rever to prior logic of assuming an empty projector type is mlp
 1 file changed, 4 insertions(+)

 diff --git a/tools/mtmd/clip.cpp b/tools/mtmd/clip.cpp
-index 6be1470ad..2a325c726 100644
+index 84a3796b5..d3a37842d 100644
 --- a/tools/mtmd/clip.cpp
 +++ b/tools/mtmd/clip.cpp
-@@ -2649,6 +2649,10 @@ struct clip_model_loader {
+@@ -960,6 +960,10 @@ struct clip_model_loader {
             if (proj_type.empty()) {
                 if (modality == CLIP_MODALITY_VISION) {
                     get_string(KEY_VISION_PROJ_TYPE, proj_type, false);

--- a/llama/patches/0032-llama-add-support-for-NVIDIA-Nemotron-Nano-3.patch
+++ b/llama/patches/0032-llama-add-support-for-NVIDIA-Nemotron-Nano-3.patch
-From 0000000000000000000000000000000000000000 Mon Sep 17 00:00:00 2001
-From: Daniel Bevenius <daniel.bevenius@gmail.com>
-Date: Mon, 15 Dec 2025 15:13:49 +0100
-Subject: [PATCH] llama : add support for NVIDIA Nemotron Nano 3
-
-This commit adds support for the NVIDIA Nemotron Nano 3 model, enabling
-the conversion and running of this model.
-
-fix indentation in llama-graph.cpp
-
-fix indentation and move ffn_inp
-
-convert : fix modify_tensors in NemotronHModel to call super()
-
-fix pyright error
-
-fix flake8 errors
---
- convert_hf_to_gguf.py          | 116 +++++++++++++++++++++++++++++++--
- gguf-py/gguf/constants.py      |  29 +++++++++
- gguf-py/gguf/tensor_mapping.py |   9 ++-
- src/llama-arch.cpp             |  35 ++++++++++
- src/llama-arch.h               |   1 +
- src/llama-graph.cpp            |  10 +++
- src/llama-model.cpp            |  50 +++++++++++---
- src/llama-model.h              |   1 +
- src/models/nemotron-h.cpp      |  41 ++++++++++--
- 9 files changed, 269 insertions(+), 23 deletions(-)
-
-diff --git a/convert_hf_to_gguf.py b/convert_hf_to_gguf.py
-index 867bc9053..57ec2faac 100755
--- a/convert_hf_to_gguf.py
-+++ b/convert_hf_to_gguf.py
-@@ -8601,8 +8601,18 @@ class GraniteHybridModel(Mamba2Model, GraniteMoeModel):
- class NemotronHModel(GraniteHybridModel):
-     """Hybrid mamba2/attention model from NVIDIA"""
-     model_arch = gguf.MODEL_ARCH.NEMOTRON_H
-+    is_moe: bool = False
- 
-     def __init__(self, *args, **kwargs):
-+        # We have to determine the correct model architecture (MoE vs non-MoE) before
-+        # calling the parent __init__. This is because the parent constructor
-+        # uses self.model_arch to build the tensor name map, and all MoE-specific
-+        # mappings would be missed if it were called with the default non-MoE arch.
-+        hparams = ModelBase.load_hparams(args[0], self.is_mistral_format)
-+        if "num_experts_per_tok" in hparams:
-+            self.model_arch = gguf.MODEL_ARCH.NEMOTRON_H_MOE
-+            self.is_moe = True
-+
-         super().__init__(*args, **kwargs)
- 
-         # Save the top-level head_dim for later
-@@ -8614,9 +8624,11 @@ class NemotronHModel(GraniteHybridModel):
- 
-         # Update the ssm / attn / mlp layers
-         # M: Mamba2, *: Attention, -: MLP
-+        # MoE:
-+        # M: Mamba2, *: Attention, E: Expert
-         hybrid_override_pattern = self.hparams["hybrid_override_pattern"]
-         self._ssm_layers = [i for i, val in enumerate(hybrid_override_pattern) if val == "M"]
-        self._mlp_layers = [i for i, val in enumerate(hybrid_override_pattern) if val == "-"]
-+        self._mlp_layers = [i for i, val in enumerate(hybrid_override_pattern) if val == ("E" if self.is_moe else "-")]
- 
-     def get_attn_layers(self):
-         hybrid_override_pattern = self.hparams["hybrid_override_pattern"]
-@@ -8632,10 +8644,28 @@ class NemotronHModel(GraniteHybridModel):
-         # Set feed_forward_length
-         # NOTE: This will trigger an override warning. This is preferrable to
-         #   duplicating all the parent logic
-        n_ff = self.find_hparam(["intermediate_size", "n_inner", "hidden_dim"])
-        self.gguf_writer.add_feed_forward_length([
-            n_ff if i in self._mlp_layers else 0 for i in range(self.block_count)
-        ])
-+        if not self.is_moe:
-+            n_ff = self.find_hparam(["intermediate_size", "n_inner", "hidden_dim"])
-+            self.gguf_writer.add_feed_forward_length([
-+                n_ff if i in self._mlp_layers else 0 for i in range(self.block_count)
-+            ])
-+        else:
-+            moe_intermediate_size = self.hparams["moe_intermediate_size"]
-+            self.gguf_writer.add_feed_forward_length([
-+                moe_intermediate_size if i in self._mlp_layers else 0 for i in range(self.block_count)
-+            ])
-+            self.gguf_writer.add_expert_used_count(self.hparams["num_experts_per_tok"])
-+            self.gguf_writer.add_expert_feed_forward_length(self.hparams["moe_intermediate_size"])
-+            self.gguf_writer.add_expert_shared_feed_forward_length(self.hparams["moe_shared_expert_intermediate_size"])
-+            self.gguf_writer.add_expert_count(self.hparams["n_routed_experts"])
-+            self.gguf_writer.add_expert_shared_count(self.hparams["n_shared_experts"])
-+            self.gguf_writer.add_expert_weights_norm(self.hparams["norm_topk_prob"])
-+            self.gguf_writer.add_expert_weights_scale(self.hparams["routed_scaling_factor"])
-+            self.gguf_writer.add_expert_group_count(self.hparams["n_group"])
-+
-+            # number of experts used per token (top-k)
-+            if (n_experts_used := self.hparams.get("num_experts_per_tok")) is not None:
-+                self.gguf_writer.add_expert_used_count(n_experts_used)
- 
-     def set_vocab(self):
-         super().set_vocab()
-@@ -8643,7 +8673,81 @@ class NemotronHModel(GraniteHybridModel):
-         # The tokenizer _does_ add a BOS token (via post_processor type
-         # TemplateProcessing) but does not set add_bos_token to true in the
-         # config, so we need to explicitly override it here.
-        self.gguf_writer.add_add_bos_token(True)
-+        if not self.is_moe:
-+            self.gguf_writer.add_add_bos_token(True)
-+
-+    def modify_tensors(self, data_torch: Tensor, name: str, bid: int | None) -> Iterable[tuple[str, Tensor]]:
-+        if self.is_moe and bid is not None:
-+            if name.endswith("mixer.gate.e_score_correction_bias"):
-+                new_name = name.replace("e_score_correction_bias", "e_score_correction_bias.bias")
-+                mapped_name = self.map_tensor_name(new_name)
-+                return [(mapped_name, data_torch)]
-+
-+            if name.endswith("mixer.dt_bias"):
-+                new_name = name.replace("dt_bias", "dt.bias")
-+                mapped_name = self.map_tensor_name(new_name)
-+                return [(mapped_name, data_torch)]
-+
-+            if name.endswith("mixer.conv1d.weight"):
-+                squeezed_data = data_torch.squeeze()
-+                mapped_name = self.map_tensor_name(name)
-+                return [(mapped_name, squeezed_data)]
-+
-+            if name.endswith("mixer.A_log"):
-+                transformed_data = -torch.exp(data_torch)
-+                reshaped_data = transformed_data.squeeze().reshape(-1, 1)
-+                mapped_name = self.map_tensor_name(name)
-+                return [(mapped_name, reshaped_data)]
-+
-+            if name.endswith("mixer.D"):
-+                reshaped_data = data_torch.squeeze().reshape(-1, 1)
-+                mapped_name = self.map_tensor_name(name)
-+                return [(mapped_name, reshaped_data)]
-+
-+            if name.endswith("mixer.norm.weight"):
-+                reshaped_data = data_torch.reshape(8, 512)
-+                mapped_name = self.map_tensor_name(name)
-+                return [(mapped_name, reshaped_data)]
-+
-+            if name.find("mixer.experts") != -1:
-+                n_experts = self.hparams["n_routed_experts"]
-+                assert bid is not None
-+
-+                if self._experts is None:
-+                    self._experts = [{} for _ in range(self.block_count)]
-+
-+                self._experts[bid][name] = data_torch
-+
-+                if len(self._experts[bid]) >= n_experts * 2:
-+                    # merge the experts into a single tensor
-+                    tensors: list[tuple[str, Tensor]] = []
-+                    for w_name in ["down_proj", "up_proj"]:
-+                        datas: list[Tensor] = []
-+
-+                        for xid in range(n_experts):
-+                            ename = f"backbone.layers.{bid}.mixer.experts.{xid}.{w_name}.weight"
-+                            datas.append(self._experts[bid][ename])
-+                            del self._experts[bid][ename]
-+
-+                        data_torch = torch.stack(datas, dim=0)
-+                        merged_name = f"model.layers.{bid}.mlp.experts.{w_name}.weight"
-+                        new_name = self.map_tensor_name(merged_name)
-+                        tensors.append((new_name, data_torch))
-+
-+                    return tensors
-+                else:
-+                    return []
-+
-+        return super().modify_tensors(data_torch, name, bid)
-+
-+    def prepare_tensors(self):
-+        super().prepare_tensors()
-+
-+        if self._experts is not None:
-+            # flatten `list[dict[str, Tensor]]` into `list[str]`
-+            experts = [k for d in self._experts for k in d.keys()]
-+            if len(experts) > 0:
-+                raise ValueError(f"Unprocessed experts: {experts}")
- 
- 
- @ModelBase.register("BailingMoeForCausalLM")
-diff --git a/gguf-py/gguf/constants.py b/gguf-py/gguf/constants.py
-index 2b8489c59..1852428b4 100644
--- a/gguf-py/gguf/constants.py
-+++ b/gguf-py/gguf/constants.py
-@@ -413,6 +413,7 @@ class MODEL_ARCH(IntEnum):
-     JAIS             = auto()
-     NEMOTRON         = auto()
-     NEMOTRON_H       = auto()
-+    NEMOTRON_H_MOE   = auto()
-     EXAONE           = auto()
-     EXAONE4          = auto()
-     GRANITE          = auto()
-@@ -786,6 +787,7 @@ MODEL_ARCH_NAMES: dict[MODEL_ARCH, str] = {
-     MODEL_ARCH.JAIS:             "jais",
-     MODEL_ARCH.NEMOTRON:         "nemotron",
-     MODEL_ARCH.NEMOTRON_H:       "nemotron_h",
-+    MODEL_ARCH.NEMOTRON_H_MOE:   "nemotron_h_moe",
-     MODEL_ARCH.EXAONE:           "exaone",
-     MODEL_ARCH.EXAONE4:          "exaone4",
-     MODEL_ARCH.GRANITE:          "granite",
-@@ -2529,6 +2531,33 @@ MODEL_TENSORS: dict[MODEL_ARCH, list[MODEL_TENSOR]] = {
-         MODEL_TENSOR.FFN_DOWN,
-         MODEL_TENSOR.FFN_UP,
-     ],
-+    MODEL_ARCH.NEMOTRON_H_MOE: [
-+        MODEL_TENSOR.TOKEN_EMBD,
-+        MODEL_TENSOR.OUTPUT_NORM,
-+        MODEL_TENSOR.OUTPUT,
-+        MODEL_TENSOR.ATTN_NORM,
-+        MODEL_TENSOR.SSM_IN,
-+        MODEL_TENSOR.SSM_CONV1D,
-+        MODEL_TENSOR.SSM_DT,
-+        MODEL_TENSOR.SSM_A,
-+        MODEL_TENSOR.SSM_D,
-+        MODEL_TENSOR.SSM_NORM,
-+        MODEL_TENSOR.SSM_OUT,
-+        MODEL_TENSOR.ATTN_Q,
-+        MODEL_TENSOR.ATTN_K,
-+        MODEL_TENSOR.ATTN_V,
-+        MODEL_TENSOR.ATTN_OUT,
-+        MODEL_TENSOR.FFN_DOWN,
-+        MODEL_TENSOR.FFN_UP,
-+        # experts
-+        MODEL_TENSOR.FFN_GATE_INP,
-+        MODEL_TENSOR.FFN_UP_EXP,
-+        MODEL_TENSOR.FFN_DOWN_EXP,
-+        # shared expert
-+        MODEL_TENSOR.FFN_DOWN_SHEXP,
-+        MODEL_TENSOR.FFN_UP_SHEXP,
-+        MODEL_TENSOR.FFN_EXP_PROBS_B,
-+    ],
-     MODEL_ARCH.EXAONE: [
-         MODEL_TENSOR.TOKEN_EMBD,
-         MODEL_TENSOR.OUTPUT_NORM,
-diff --git a/gguf-py/gguf/tensor_mapping.py b/gguf-py/gguf/tensor_mapping.py
-index d9c87da19..7a3c7c5e0 100644
--- a/gguf-py/gguf/tensor_mapping.py
-+++ b/gguf-py/gguf/tensor_mapping.py
-@@ -377,6 +377,7 @@ class TensorNameMap:
-             "model.layers.{bid}.feed_forward.gate",               # lfm2moe
-             "model.layers.{bid}.mlp.router.gate",               # afmoe
-             "layers.{bid}.gate",                                # mistral-large
-+            "backbone.layers.{bid}.mixer.gate",                 # nemotron-h-moe
-         ),
- 
-         MODEL_TENSOR.FFN_GATE_INP_SHEXP: (
-@@ -390,6 +391,7 @@ class TensorNameMap:
-             "model.layers.{bid}.mlp.expert_bias",                           # afmoe
-             "model.layers.{bid}.feed_forward.expert_bias",                  # lfm2moe
-             "model.layers.{bid}.block_sparse_moe.e_score_correction",       # minimax-m2
-+            "backbone.layers.{bid}.mixer.gate.e_score_correction_bias"      # nemotron-h-moe
-         ),
- 
-         # Feed-forward up
-@@ -438,7 +440,7 @@ class TensorNameMap:
-             "layers.{bid}.feed_forward.experts.w3",                 # mixtral (merged)
-             "transformer.decoder_layer.{bid}.moe.linear_v",         # Grok (merged)
-             "transformer.blocks.{bid}.ffn.experts.mlp.v1",          # dbrx
-            "model.layers.{bid}.mlp.experts.up_proj",               # qwen2moe olmoe (merged) ernie4.5-moe
-+            "model.layers.{bid}.mlp.experts.up_proj",               # qwen2moe olmoe (merged) ernie4.5-moe, nemotron-h-moe (merged)
-             "model.layers.{bid}.block_sparse_moe.experts.w3",       # phimoe (merged)
-             "model.layers.{bid}.feed_forward.experts.up_proj",      # llama4
-             "encoder.layers.{bid}.mlp.experts.mlp.w1",              # nomic-bert-moe
-@@ -452,6 +454,7 @@ class TensorNameMap:
-             "model.layers.{bid}.feed_forward.down_proj",
-             "model.layers.{bid}.mlp.shared_mlp.up_proj",             # hunyuan
-             "layers.{bid}.shared_experts.w3",                        # mistral-large
-+            "backbone.layers.{bid}.mixer.shared_experts.up_proj",    # nemotron-h-moe
-         ),
- 
-         MODEL_TENSOR.FFN_UP_CHEXP: (
-@@ -546,7 +549,7 @@ class TensorNameMap:
-             "layers.{bid}.feed_forward.experts.w2",                 # mixtral (merged)
-             "transformer.decoder_layer.{bid}.moe.linear_1",         # Grok (merged)
-             "transformer.blocks.{bid}.ffn.experts.mlp.w2",          # dbrx
-            "model.layers.{bid}.mlp.experts.down_proj",             # qwen2moe olmoe (merged) ernie4.5-moe
-+            "model.layers.{bid}.mlp.experts.down_proj",             # qwen2moe olmoe (merged) ernie4.5-moe nemotron-h-moe (merged)
-             "model.layers.{bid}.block_sparse_moe.output_linear",    # granitemoe
-             "model.layers.{bid}.block_sparse_moe.experts.w2",       # phimoe (merged)
-             "model.layers.{bid}.feed_forward.experts.down_proj",    # llama4
-@@ -561,6 +564,7 @@ class TensorNameMap:
-             "model.layers.{bid}.shared_mlp.output_linear",             # granitemoe
-             "model.layers.{bid}.mlp.shared_mlp.down_proj",             # hunyuan
-             "layers.{bid}.shared_experts.w2",                          # mistral-large
-+            "backbone.layers.{bid}.mixer.shared_experts.down_proj",    # nemotron-h-moe
-         ),
- 
-         MODEL_TENSOR.FFN_DOWN_CHEXP: (
-@@ -704,6 +708,7 @@ class TensorNameMap:
-             "model.layers.{bid}.mamba.dt_proj",         # jamba falcon-h1 granite-hybrid
-             "model.layers.layers.{bid}.mixer.dt_proj",  # plamo2
-             "model.layers.{bid}.linear_attn.dt_proj",   # qwen3next
-+            "backbone.layers.{bid}.mixer.dt",           # nemotron-h-moe
-         ),
- 
-         MODEL_TENSOR.SSM_DT_NORM: (
-diff --git a/src/llama-arch.cpp b/src/llama-arch.cpp
-index a5fe4f66c..ac8b5e033 100644
--- a/src/llama-arch.cpp
-+++ b/src/llama-arch.cpp
-@@ -75,6 +75,7 @@ static const std::map<llm_arch, const char *> LLM_ARCH_NAMES = {
-     { LLM_ARCH_JAIS,             "jais"             },
-     { LLM_ARCH_NEMOTRON,         "nemotron"         },
-     { LLM_ARCH_NEMOTRON_H,       "nemotron_h"       },
-+    { LLM_ARCH_NEMOTRON_H_MOE,   "nemotron_h_moe"   },
-     { LLM_ARCH_EXAONE,           "exaone"           },
-     { LLM_ARCH_EXAONE4,          "exaone4"          },
-     { LLM_ARCH_RWKV6,            "rwkv6"            },
-@@ -1765,6 +1766,39 @@ static const std::map<llm_arch, std::map<llm_tensor, const char *>> LLM_TENSOR_N
-             { LLM_TENSOR_FFN_UP,         "blk.%d.ffn_up" },
-         },
-     },
-+    {
-+        LLM_ARCH_NEMOTRON_H_MOE,
-+        {
-+            { LLM_TENSOR_TOKEN_EMBD,     "token_embd" },
-+            { LLM_TENSOR_OUTPUT_NORM,    "output_norm" },
-+            { LLM_TENSOR_OUTPUT,         "output" },
-+            { LLM_TENSOR_ATTN_NORM,      "blk.%d.attn_norm" },
-+            // mamba(2) ssm layers
-+            { LLM_TENSOR_SSM_IN,         "blk.%d.ssm_in" },
-+            { LLM_TENSOR_SSM_CONV1D,     "blk.%d.ssm_conv1d" },
-+            { LLM_TENSOR_SSM_DT,         "blk.%d.ssm_dt" },
-+            { LLM_TENSOR_SSM_A,          "blk.%d.ssm_a" },
-+            { LLM_TENSOR_SSM_D,          "blk.%d.ssm_d" },
-+            { LLM_TENSOR_SSM_NORM,       "blk.%d.ssm_norm" },
-+            { LLM_TENSOR_SSM_OUT,        "blk.%d.ssm_out" },
-+            // attention layers
-+            { LLM_TENSOR_ATTN_Q,         "blk.%d.attn_q" },
-+            { LLM_TENSOR_ATTN_K,         "blk.%d.attn_k" },
-+            { LLM_TENSOR_ATTN_V,         "blk.%d.attn_v" },
-+            { LLM_TENSOR_ATTN_OUT,       "blk.%d.attn_output" },
-+            // dense FFN
-+            { LLM_TENSOR_FFN_DOWN,       "blk.%d.ffn_down" },
-+            { LLM_TENSOR_FFN_UP,         "blk.%d.ffn_up" },
-+            // MoE FFN (for MoE layers)
-+            { LLM_TENSOR_FFN_GATE_INP,   "blk.%d.ffn_gate_inp" },
-+            { LLM_TENSOR_FFN_UP_EXPS,    "blk.%d.ffn_up_exps" },
-+            { LLM_TENSOR_FFN_DOWN_EXPS,  "blk.%d.ffn_down_exps" },
-+            { LLM_TENSOR_FFN_EXP_PROBS_B,"blk.%d.exp_probs_b" },
-+            // MoE shared expert layer
-+            { LLM_TENSOR_FFN_DOWN_SHEXP,  "blk.%d.ffn_down_shexp" },
-+            { LLM_TENSOR_FFN_UP_SHEXP,    "blk.%d.ffn_up_shexp" },
-+        },
-+    },
-     {
-         LLM_ARCH_EXAONE,
-         {
-@@ -2838,6 +2872,7 @@ bool llm_arch_is_hybrid(const llm_arch & arch) {
-         case LLM_ARCH_LFM2:
-         case LLM_ARCH_LFM2MOE:
-         case LLM_ARCH_NEMOTRON_H:
-+        case LLM_ARCH_NEMOTRON_H_MOE:
-         case LLM_ARCH_QWEN3NEXT:
-             return true;
-         default:
-diff --git a/src/llama-arch.h b/src/llama-arch.h
-index ec9e3a6df..61d73786c 100644
--- a/src/llama-arch.h
-+++ b/src/llama-arch.h
-@@ -79,6 +79,7 @@ enum llm_arch {
-     LLM_ARCH_JAIS,
-     LLM_ARCH_NEMOTRON,
-     LLM_ARCH_NEMOTRON_H,
-+    LLM_ARCH_NEMOTRON_H_MOE,
-     LLM_ARCH_EXAONE,
-     LLM_ARCH_EXAONE4,
-     LLM_ARCH_RWKV6,
-diff --git a/src/llama-graph.cpp b/src/llama-graph.cpp
-index 43620df78..763202d87 100644
--- a/src/llama-graph.cpp
-+++ b/src/llama-graph.cpp
-@@ -1089,6 +1089,16 @@ ggml_tensor * llm_graph_context::build_moe_ffn(
-                 cur = ggml_relu(ctx0, cur);
-                 cb(cur, "ffn_moe_relu", il);
-             } break;
-+        case LLM_FFN_RELU_SQR:
-+            if (gate_exps) {
-+                // TODO: add support for gated squared relu
-+                GGML_ABORT("fatal error: gated squared relu not implemented");
-+            } else {
-+                cur = ggml_relu(ctx0, cur);
-+                cur = ggml_sqr(ctx0, cur);
-+                cb(cur, "ffn_moe_relu_sqr", il);
-+            }
-+            break;
-         default:
-             GGML_ABORT("fatal error");
-     }
-diff --git a/src/llama-model.cpp b/src/llama-model.cpp
-index 3c503b424..94dee78c3 100644
--- a/src/llama-model.cpp
-+++ b/src/llama-model.cpp
-@@ -120,6 +120,8 @@ const char * llm_type_name(llm_type type) {
-         case LLM_TYPE_16B_A1B:       return "16B.A1B";
-         case LLM_TYPE_21B_A3B:       return "21B.A3B";
-         case LLM_TYPE_30B_A3B:       return "30B.A3B";
-+        case LLM_TYPE_31B_A3_5B:     return "31B.A3.5B";
-+        case LLM_TYPE_80B_A3B:       return "80B.A3B";
-         case LLM_TYPE_100B_A6B:      return "100B.A6B";
-         case LLM_TYPE_106B_A12B:     return "106B.A12B";
-         case LLM_TYPE_230B_A10B:     return "230B.A10B";
-@@ -1788,6 +1790,7 @@ void llama_model::load_hparams(llama_model_loader & ml) {
-                 }
-             } break;
-         case LLM_ARCH_NEMOTRON_H:
-+        case LLM_ARCH_NEMOTRON_H_MOE:
-             {
-                 ml.get_key(LLM_KV_SSM_CONV_KERNEL,    hparams.ssm_d_conv);
-                 ml.get_key(LLM_KV_SSM_INNER_SIZE,     hparams.ssm_d_inner);
-@@ -1803,7 +1806,14 @@ void llama_model::load_hparams(llama_model_loader & ml) {
- 
-                 ml.get_key(LLM_KV_ATTENTION_LAYERNORM_RMS_EPS, hparams.f_norm_rms_eps);
- 
-+                ml.get_key(LLM_KV_EXPERT_FEED_FORWARD_LENGTH,        hparams.n_ff_exp,        false);
-+                ml.get_key(LLM_KV_EXPERT_SHARED_FEED_FORWARD_LENGTH, hparams.n_ff_shexp,      false);
-+                ml.get_key(LLM_KV_EXPERT_SHARED_COUNT,               hparams.n_expert_shared, false);
-+                ml.get_key(LLM_KV_EXPERT_WEIGHTS_NORM,               hparams.expert_weights_norm, false);
-+                ml.get_key(LLM_KV_EXPERT_WEIGHTS_SCALE,              hparams.expert_weights_scale, false);
-+
-                 switch (hparams.n_layer) {
-+                    case 52: type = LLM_TYPE_31B_A3_5B; break; // Nemotron-H_MOE 31B
-                     case 56: type = LLM_TYPE_9B; break;
-                     default: type = LLM_TYPE_UNKNOWN;
-                 }
-@@ -5175,6 +5185,7 @@ bool llama_model::load_tensors(llama_model_loader & ml) {
-                     }
-                 } break;
-             case LLM_ARCH_NEMOTRON_H:
-+            case LLM_ARCH_NEMOTRON_H_MOE:
-                 {
-                     // mamba2 Mixer SSM params
-                     // NOTE: int64_t for tensor dimensions
-@@ -5185,6 +5196,9 @@ bool llama_model::load_tensors(llama_model_loader & ml) {
-                     const int64_t n_group    = hparams.ssm_n_group;
-                     const int64_t d_in_proj  = 2*d_inner + 2*n_group*d_state + n_ssm_head;
- 
-+                    const int64_t n_ff_exp = hparams.n_ff_exp ? hparams.n_ff_exp : n_ff / n_expert_used;
-+                    const int64_t n_ff_shexp = hparams.n_ff_shexp;
-+
-                     // embeddings
-                     tok_embd = create_tensor(tn(LLM_TENSOR_TOKEN_EMBD, "weight"), {n_embd, n_vocab}, 0);
- 
-@@ -5234,12 +5248,26 @@ bool llama_model::load_tensors(llama_model_loader & ml) {
-                             layer.bk = create_tensor(tn(LLM_TENSOR_ATTN_K,   "bias",   i), {n_embd_k_gqa_i}, TENSOR_NOT_REQUIRED);
-                             layer.bv = create_tensor(tn(LLM_TENSOR_ATTN_V,   "bias",   i), {n_embd_v_gqa_i}, TENSOR_NOT_REQUIRED);
-                             layer.bo = create_tensor(tn(LLM_TENSOR_ATTN_OUT, "bias",   i), {n_embd},         TENSOR_NOT_REQUIRED);
-                        } else {
-                            // mlp layers
-                            layer.ffn_down   = create_tensor(tn(LLM_TENSOR_FFN_DOWN, "weight", i), {  hparams.n_ff(i), n_embd}, 0);
-                            layer.ffn_up     = create_tensor(tn(LLM_TENSOR_FFN_UP,   "weight", i), {n_embd,   hparams.n_ff(i)}, 0);
-                            layer.ffn_down_b = create_tensor(tn(LLM_TENSOR_FFN_DOWN, "bias",   i), {n_embd}, TENSOR_NOT_REQUIRED);
-                            layer.ffn_up_b   = create_tensor(tn(LLM_TENSOR_FFN_UP,   "bias",   i), {hparams.n_ff(i)}, TENSOR_NOT_REQUIRED);
-+                        }  else {
-+                            if (n_expert != 0) {
-+                                layer.ffn_gate_inp    = create_tensor(tn(LLM_TENSOR_FFN_GATE_INP,  "weight", i), { n_embd, n_expert}, 0);
-+                                layer.ffn_exp_probs_b = create_tensor(tn(LLM_TENSOR_FFN_EXP_PROBS_B, "bias", i), {n_expert         }, 0);
-+
-+                                // MoE branch
-+                                layer.ffn_down_exps   = create_tensor(tn(LLM_TENSOR_FFN_DOWN_EXPS, "weight", i), {n_ff_exp,   n_embd, n_expert}, 0);
-+                                layer.ffn_up_exps     = create_tensor(tn(LLM_TENSOR_FFN_UP_EXPS,   "weight", i), {  n_embd, n_ff_exp, n_expert}, 0);
-+
-+                                // Shared expert branch
-+                                layer.ffn_down_shexp  = create_tensor(tn(LLM_TENSOR_FFN_DOWN_SHEXP, "weight", i), {n_ff_shexp, n_embd}, 0);
-+                                layer.ffn_up_shexp    = create_tensor(tn(LLM_TENSOR_FFN_UP_SHEXP,   "weight", i), {n_embd, n_ff_shexp}, 0);
-+
-+                            } else {
-+                                // mlp layers
-+                                layer.ffn_down   = create_tensor(tn(LLM_TENSOR_FFN_DOWN, "weight", i), {  hparams.n_ff(i), n_embd}, 0);
-+                                layer.ffn_up     = create_tensor(tn(LLM_TENSOR_FFN_UP,   "weight", i), {n_embd,   hparams.n_ff(i)}, 0);
-+                                layer.ffn_down_b = create_tensor(tn(LLM_TENSOR_FFN_DOWN, "bias",   i), {n_embd}, TENSOR_NOT_REQUIRED);
-+                                layer.ffn_up_b   = create_tensor(tn(LLM_TENSOR_FFN_UP,   "bias",   i), {hparams.n_ff(i)}, TENSOR_NOT_REQUIRED);
-+                            }
-                         }
-                     }
-                 } break;
-@@ -6870,7 +6898,8 @@ void llama_model::print_info() const {
-         arch == LLM_ARCH_PLAMO2 ||
-         arch == LLM_ARCH_GRANITE_HYBRID ||
-         arch == LLM_ARCH_QWEN3NEXT ||
-        arch == LLM_ARCH_NEMOTRON_H) {
-+        arch == LLM_ARCH_NEMOTRON_H ||
-+        arch == LLM_ARCH_NEMOTRON_H_MOE) {
-         LLAMA_LOG_INFO("%s: ssm_d_conv       = %u\n",     __func__, hparams.ssm_d_conv);
-         LLAMA_LOG_INFO("%s: ssm_d_inner      = %u\n",     __func__, hparams.ssm_d_inner);
-         LLAMA_LOG_INFO("%s: ssm_d_state      = %u\n",     __func__, hparams.ssm_d_state);
-@@ -6926,7 +6955,8 @@ void llama_model::print_info() const {
-     if (arch == LLM_ARCH_MINICPM ||
-         arch == LLM_ARCH_GRANITE ||
-         arch == LLM_ARCH_GRANITE_MOE ||
-        arch == LLM_ARCH_GRANITE_HYBRID) {
-+        arch == LLM_ARCH_GRANITE_HYBRID ||
-+        arch == LLM_ARCH_NEMOTRON_H_MOE) {
-         LLAMA_LOG_INFO("%s: f_embedding_scale = %f\n", __func__, hparams.f_embedding_scale);
-         LLAMA_LOG_INFO("%s: f_residual_scale  = %f\n", __func__, hparams.f_residual_scale);
-         LLAMA_LOG_INFO("%s: f_attention_scale = %f\n", __func__, hparams.f_attention_scale);
-@@ -7107,7 +7137,7 @@ llama_memory_i * llama_model::create_memory(const llama_memory_params & params,
-                     if (arch == LLM_ARCH_FALCON_H1) {
-                         filter_attn = [&](int32_t) { return true; };
-                         filter_recr = [&](int32_t) { return true; };
-                    } else if (arch == LLM_ARCH_NEMOTRON_H) {
-+                    } else if (arch == LLM_ARCH_NEMOTRON_H || arch == LLM_ARCH_NEMOTRON_H_MOE) {
-                         filter_attn = [&](int32_t il) {
-                             return !hparams.is_recurrent(il) && hparams.n_ff(il) == 0;
-                         };
-@@ -7478,6 +7508,7 @@ ggml_cgraph * llama_model::build_graph(const llm_graph_params & params) const {
-                 llm = std::make_unique<llm_build_nemotron>(*this, params);
-             } break;
-         case LLM_ARCH_NEMOTRON_H:
-+        case LLM_ARCH_NEMOTRON_H_MOE:
-             {
-                 llm = std::make_unique<llm_build_nemotron_h>(*this, params);
-             } break;
-@@ -7765,6 +7796,7 @@ llama_rope_type llama_model_rope_type(const llama_model * model) {
-         case LLM_ARCH_ARWKV7:
-         case LLM_ARCH_WAVTOKENIZER_DEC:
-         case LLM_ARCH_NEMOTRON_H:
-+        case LLM_ARCH_NEMOTRON_H_MOE:
-             return LLAMA_ROPE_TYPE_NONE;
- 
-         // use what we call a normal RoPE, operating on pairs of consecutive head values
-diff --git a/src/llama-model.h b/src/llama-model.h
-index cbf4e1bfa..b378b23ec 100644
--- a/src/llama-model.h
-+++ b/src/llama-model.h
-@@ -114,6 +114,7 @@ enum llm_type {
-     LLM_TYPE_16B_A1B,
-     LLM_TYPE_21B_A3B, // Ernie MoE small
-     LLM_TYPE_30B_A3B,
-+    LLM_TYPE_31B_A3_5B,
-     LLM_TYPE_80B_A3B, // Qwen3 Next
-     LLM_TYPE_100B_A6B,
-     LLM_TYPE_106B_A12B, // GLM-4.5-Air
-diff --git a/src/models/nemotron-h.cpp b/src/models/nemotron-h.cpp
-index 541434888..eb135e63f 100644
--- a/src/models/nemotron-h.cpp
-+++ b/src/models/nemotron-h.cpp
-@@ -107,12 +107,41 @@ ggml_tensor * llm_build_nemotron_h::build_attention_layer(ggml_tensor *
- }
- 
- ggml_tensor * llm_build_nemotron_h::build_ffn_layer(ggml_tensor * cur, const llama_model & model, const int il) {
-    cur = build_ffn(cur,
-            model.layers[il].ffn_up, model.layers[il].ffn_up_b, NULL,
-            NULL, NULL, NULL,
-            model.layers[il].ffn_down, model.layers[il].ffn_down_b, NULL,
-            NULL, LLM_FFN_RELU_SQR, LLM_FFN_PAR, il);
-    cb(cur, "ffn_out", il);
-+    if (model.layers[il].ffn_gate_inp == nullptr) {
-+        cur = build_ffn(cur,
-+                model.layers[il].ffn_up,   model.layers[il].ffn_up_b,   NULL,
-+                NULL,                      NULL,                        NULL,
-+                model.layers[il].ffn_down, model.layers[il].ffn_down_b, NULL,
-+                NULL,
-+                LLM_FFN_RELU_SQR, LLM_FFN_PAR, il);
-+        cb(cur, "ffn_out", il);
-+    } else {
-+        ggml_tensor * ffn_inp = cur;
-+        ggml_tensor * moe_out =
-+            build_moe_ffn(ffn_inp,
-+                    model.layers[il].ffn_gate_inp,
-+                    model.layers[il].ffn_up_exps,
-+                    nullptr, // no gate
-+                    model.layers[il].ffn_down_exps,
-+                    model.layers[il].ffn_exp_probs_b,
-+                    n_expert, n_expert_used,
-+                    LLM_FFN_RELU_SQR, hparams.expert_weights_norm,
-+                    true, hparams.expert_weights_scale,
-+                    LLAMA_EXPERT_GATING_FUNC_TYPE_SIGMOID,
-+                    il);
-+        cb(moe_out, "ffn_moe_out", il);
-+
-+        ggml_tensor * ffn_shexp = build_ffn(ffn_inp,
-+                    model.layers[il].ffn_up_shexp,  NULL, NULL,
-+                    NULL /* no gate */           ,  NULL, NULL,
-+                    model.layers[il].ffn_down_shexp, NULL, NULL,
-+                    NULL,
-+                    LLM_FFN_RELU_SQR, LLM_FFN_PAR, il);
-+        cb(ffn_shexp, "ffn_shexp", il);
-+
-+        cur = ggml_add(ctx0, moe_out, ffn_shexp);
-+        cb(cur, "ffn_out", il);
-+    }
- 
-     cur = build_cvec(cur, il);
-     cb(cur, "l_out", il);
--- a/llama/sampling_ext.cpp
+++ b/llama/sampling_ext.cpp
@@ -72,7 +72,7 @@ struct llama_vocab * llama_load_vocab_from_file(const char * fname) {
    try {
        const auto kv = LLM_KV(LLM_ARCH_UNKNOWN);
        std::vector<std::string> splits = {};
-        llama_model_loader ml(std::string(fname), splits, false, false, nullptr, nullptr);
+        llama_model_loader ml(std::string(fname), splits, false, false, false, nullptr, nullptr);
        vocab->load(ml, kv);
    } catch (const std::exception & err) {
        LLAMA_LOG_ERROR("%s: error loading model: %s\n", __func__, err.what());

--- a/ml/backend.go
+++ b/ml/backend.go
@@ -54,10 +54,6 @@ type CacheConfig struct {
 	// MaskDType specifies the data type for generating the mask. If unset it will
 	// default to DTypeF32.
 	MaskDType DType
-
-	// MaskBatchPadding specifies the multiple for the batch size dimension in the mask.
-	// Any position that does not correspond to an actual token will be filled with -Inf.
-	MaskBatchPadding int
 }

 // BackendParams controls how the backend loads and executes models

--- a/ml/backend/ggml/ggml.go
+++ b/ml/backend/ggml/ggml.go
@@ -685,7 +685,7 @@ func (b *Backend) NewContextSize(n int) ml.Context {

 func (b *Backend) CacheConfig() ml.CacheConfig {
 	if b.flashAttention == ml.FlashAttentionEnabled {
-		return ml.CacheConfig{CachePadding: 256, MaskDType: ml.DTypeF16, MaskBatchPadding: C.GGML_KQ_MASK_PAD}
+		return ml.CacheConfig{CachePadding: 256, MaskDType: ml.DTypeF16}
 	} else {
 		return ml.CacheConfig{CachePadding: 256, PermutedV: true}
 	}
@@ -1660,11 +1660,6 @@ func (t *Tensor) ScaledDotProductAttention(ctx ml.Context, key, value, mask, sin
 		}

 		if mask != nil {
-			padSize := int(pad(C.size_t(mask.Dim(1)), C.size_t(cacheConfig.MaskBatchPadding))) - mask.Dim(1)
-			if padSize > 0 {
-				mask = mask.Pad(ctx, 0, padSize, 0, 0)
-			}
-
 			if mask.DType() != cacheConfig.MaskDType {
 				mask = mask.Cast(ctx, cacheConfig.MaskDType)
 			}

--- a/ml/backend/ggml/ggml/include/ggml-alloc.h
+++ b/ml/backend/ggml/ggml/include/ggml-alloc.h
@@ -53,7 +53,14 @@ GGML_API void           ggml_gallocr_free(ggml_gallocr_t galloc);
 // call with a worst-case graph to avoid buffer reallocations
 // not strictly required for single buffer usage: ggml_gallocr_alloc_graph will reallocate the buffers automatically if needed
 // returns false if the buffer allocation failed
+// ggml_gallocr_resrve_n_size writes the buffer sizes per galloc buffer that would be allocated by ggml_gallocr_reserve_n to sizes
 GGML_API bool ggml_gallocr_reserve(ggml_gallocr_t galloc, struct ggml_cgraph * graph);
+GGML_API void ggml_gallocr_reserve_n_size(
+    ggml_gallocr_t galloc,
+    struct ggml_cgraph * graph,
+    const int * node_buffer_ids,
+    const int * leaf_buffer_ids,
+    size_t * sizes);
 GGML_API bool ggml_gallocr_reserve_n(
    ggml_gallocr_t galloc,
    struct ggml_cgraph * graph,
@@ -69,6 +76,8 @@ GGML_API size_t ggml_gallocr_get_attempted_buffer_size(ggml_gallocr_t galloc, in

 // Utils
 // Create a buffer and allocate all the tensors in a ggml_context
+// ggml_backend_alloc_ctx_tensors_from_buft_size returns the size of the buffer that would be allocated by ggml_backend_alloc_ctx_tensors_from_buft
+GGML_API size_t                       ggml_backend_alloc_ctx_tensors_from_buft_size(struct ggml_context * ctx, ggml_backend_buffer_type_t buft);
 GGML_API struct ggml_backend_buffer * ggml_backend_alloc_ctx_tensors_from_buft(struct ggml_context * ctx, ggml_backend_buffer_type_t buft);
 GGML_API struct ggml_backend_buffer * ggml_backend_alloc_ctx_tensors(struct ggml_context * ctx, ggml_backend_t backend);


--- a/ml/backend/ggml/ggml/include/ggml-backend.h
+++ b/ml/backend/ggml/ggml/include/ggml-backend.h
@@ -319,6 +319,7 @@ extern "C" {
    GGML_API void                 ggml_backend_sched_set_batch_size(ggml_backend_sched_t sched, int batch_size);

    // Initialize backend buffers from a measure graph
+    GGML_API void                 ggml_backend_sched_reserve_size(ggml_backend_sched_t sched, struct ggml_cgraph * measure_graph, size_t * sizes);
    GGML_API bool                 ggml_backend_sched_reserve(ggml_backend_sched_t sched, struct ggml_cgraph * measure_graph); // returns success

    GGML_API int                  ggml_backend_sched_get_n_backends(ggml_backend_sched_t sched);

--- a/ml/backend/ggml/ggml/include/ggml-cpu.h
+++ b/ml/backend/ggml/ggml/include/ggml-cpu.h
@@ -99,6 +99,7 @@ extern "C" {
    GGML_BACKEND_API int ggml_cpu_has_sme        (void);
    // other
    GGML_BACKEND_API int ggml_cpu_has_riscv_v    (void);
+    GGML_BACKEND_API int ggml_cpu_get_rvv_vlen   (void);  // risc-v vector length in bytes
    GGML_BACKEND_API int ggml_cpu_has_vsx        (void);
    GGML_BACKEND_API int ggml_cpu_has_vxe        (void);
    GGML_BACKEND_API int ggml_cpu_has_wasm_simd  (void);

--- a/ml/backend/ggml/ggml/include/ggml-zendnn.h
+++ b/ml/backend/ggml/ggml/include/ggml-zendnn.h
+#pragma once
+
+#include "ggml-backend.h"
+#include "ggml.h"
+
+#ifdef __cplusplus
+extern "C" {
+#endif
+
+// backend API
+GGML_BACKEND_API ggml_backend_t ggml_backend_zendnn_init(void);
+
+GGML_BACKEND_API bool ggml_backend_is_zendnn(ggml_backend_t backend);
+
+// number of threads used for zendnn operations
+GGML_BACKEND_API void ggml_backend_zendnn_set_n_threads(ggml_backend_t backend_zendnn, int n_threads);
+
+GGML_BACKEND_API ggml_backend_reg_t ggml_backend_zendnn_reg(void);
+
+#ifdef __cplusplus
+}
+#endif
--- a/ml/backend/ggml/ggml/include/ggml.h
+++ b/ml/backend/ggml/ggml/include/ggml.h
@@ -2305,12 +2305,10 @@ extern "C" {
            float                 stop,
            float                 step);

-#define GGML_KQ_MASK_PAD 1
-
    // q:    [n_embd_k, n_batch, n_head,    ne3 ]
    // k:    [n_embd_k, n_kv,    n_head_kv, ne3 ]
    // v:    [n_embd_v, n_kv,    n_head_kv, ne3 ] !! not transposed !!
-    // mask: [n_kv,     n_batch_pad, ne32,      ne33] !! n_batch_pad = GGML_PAD(n_batch, GGML_KQ_MASK_PAD) !!
+    // mask: [n_kv,     n_batch, ne32,      ne33]
    // res:  [n_embd_v, n_head,  n_batch,   ne3 ] !! permuted !!
    //
    // broadcast:
@@ -2617,6 +2615,7 @@ extern "C" {

    // Set callback for all future logging events.
    // If this is not called, or NULL is supplied, everything is output on stderr.
+    GGML_API void ggml_log_get(ggml_log_callback * log_callback, void ** user_data);
    GGML_API void ggml_log_set(ggml_log_callback   log_callback, void *  user_data);

    GGML_API struct ggml_tensor * ggml_set_zero(struct ggml_tensor * tensor);

--- a/ml/backend/ggml/ggml/src/ggml-alloc.c
+++ b/ml/backend/ggml/ggml/src/ggml-alloc.c
@@ -312,16 +312,9 @@ static struct buffer_address ggml_dyn_tallocr_alloc(struct ggml_dyn_tallocr * al
 }

 // this is a very naive implementation, but for our case the number of free blocks should be very small
-static void ggml_dyn_tallocr_free_tensor(struct ggml_dyn_tallocr * alloc, struct buffer_address addr, size_t size, const struct ggml_tensor * tensor) {
+static void ggml_dyn_tallocr_free_bytes(struct ggml_dyn_tallocr * alloc, struct buffer_address addr, size_t size) {
    size = aligned_offset(NULL, size, alloc->alignment);

-    AT_PRINTF("%s: freeing %s at {chunk=%d, offset=%zu} (%zu bytes) - n_free_blocks = %d\n",
-        __func__, tensor->name, addr.chunk, addr.offset, size, alloc->chunks[addr.chunk]->n_free_blocks);
-
-#ifdef GGML_ALLOCATOR_DEBUG
-    remove_allocated_tensor(alloc, addr, tensor);
-#endif
-
    struct tallocr_chunk * chunk = alloc->chunks[addr.chunk];

    // see if we can merge with an existing block
@@ -357,8 +350,6 @@ static void ggml_dyn_tallocr_free_tensor(struct ggml_dyn_tallocr * alloc, struct
    }
    // otherwise, add a new block
    ggml_dyn_tallocr_insert_block(chunk, addr.offset, size);
-
-    GGML_UNUSED(tensor);
 }

 static void ggml_dyn_tallocr_reset(struct ggml_dyn_tallocr * alloc) {
@@ -608,7 +599,9 @@ static bool ggml_gallocr_is_own(ggml_gallocr_t galloc, struct ggml_tensor * t) {
 }

 static bool ggml_gallocr_is_allocated(ggml_gallocr_t galloc, struct ggml_tensor * t) {
-    return t->data != NULL || ggml_gallocr_hash_get(galloc, t)->allocated;
+    return t->data != NULL // tensor data already set externally
+        || t->buffer // tensor on external buffer (but not yet allocated)
+        || ggml_gallocr_is_own(galloc, t); // tensor will be allocated by galloc
 }

 // free the extra space at the end if the new tensor is smaller
@@ -621,13 +614,17 @@ static void ggml_gallocr_free_extra_space(ggml_gallocr_t galloc, struct ggml_ten

    GGML_ASSERT(parent_size >= node_size);

-    if (parent_size > node_size) {
+    // note: we want after the freeing the chunks to continue to be aligned
    struct ggml_dyn_tallocr * p_alloc = galloc->buf_tallocs[p_hn->buffer_id];
+    parent_size = aligned_offset(NULL, parent_size, p_alloc->alignment);
+    node_size = aligned_offset(NULL, node_size, p_alloc->alignment);
+
+    if (parent_size > node_size) {
        struct buffer_address p_addr = p_hn->addr;
        p_addr.offset += node_size;
        size_t extra_size = parent_size - node_size;
        AT_PRINTF("freeing extra %zu bytes from parent %s for %s\n", extra_size, parent->name, node->name);
-        ggml_dyn_tallocr_free_tensor(p_alloc, p_addr, extra_size, parent);
+        ggml_dyn_tallocr_free_bytes(p_alloc, p_addr, extra_size);
    }
 }

@@ -711,7 +708,14 @@ static void ggml_gallocr_free_node(ggml_gallocr_t galloc, struct ggml_tensor * n
    struct ggml_dyn_tallocr * alloc = galloc->buf_tallocs[buffer_id];
    ggml_backend_buffer_type_t buft = galloc->bufts[buffer_id];
    size_t size = ggml_backend_buft_get_alloc_size(buft, node);
-    ggml_dyn_tallocr_free_tensor(alloc, hn->addr, size, node);
+
+    AT_PRINTF("%s: freeing %s at {chunk=%d, offset=%zu} (%zu bytes) - n_free_blocks = %d\n",
+        __func__, node->name, hn->addr.chunk, hn->addr.offset, size, alloc->chunks[hn->addr.chunk]->n_free_blocks);
+#ifdef GGML_ALLOCATOR_DEBUG
+    remove_allocated_tensor(alloc, hn->addr, node);
+#endif
+
+    ggml_dyn_tallocr_free_bytes(alloc, hn->addr, size);
    hn->allocated = false;
 }

@@ -826,7 +830,8 @@ static void ggml_gallocr_alloc_graph_impl(ggml_gallocr_t galloc, struct ggml_cgr
    }
 }

-bool ggml_gallocr_reserve_n(ggml_gallocr_t galloc, struct ggml_cgraph * graph, const int * node_buffer_ids, const int * leaf_buffer_ids) {
+static bool ggml_gallocr_reserve_n_impl(
+        ggml_gallocr_t galloc, struct ggml_cgraph * graph, const int * node_buffer_ids, const int * leaf_buffer_ids, bool no_alloc) {
    size_t min_hash_size = graph->n_nodes + graph->n_leafs;
    // add 25% margin to avoid hash collisions
    min_hash_size += min_hash_size / 4;
@@ -933,12 +938,14 @@ bool ggml_gallocr_reserve_n(ggml_gallocr_t galloc, struct ggml_cgraph * graph, c
                size_t cur_size = galloc->buffers[i] ? ggml_vbuffer_size(galloc->buffers[i]) : 0;
                if (cur_size > 0) {
                    GGML_LOG_DEBUG("%s: reallocating %s buffer from size %.02f MiB to %.02f MiB\n",
-                        __func__, ggml_backend_buft_name(galloc->bufts[i]),
-                        cur_size / 1024.0 / 1024.0, new_size / 1024.0 / 1024.0);
+                        __func__, ggml_backend_buft_name(galloc->bufts[i]), cur_size / 1024.0 / 1024.0, new_size / 1024.0 / 1024.0);
                }
            }
 #endif
            ggml_vbuffer_free(galloc->buffers[i]);
+            if (no_alloc) {
+                galloc->buffers[i] = NULL;
+            } else {
                galloc->buffers[i] = ggml_vbuffer_alloc(galloc->bufts[i], galloc->buf_tallocs[i], GGML_BACKEND_BUFFER_USAGE_COMPUTE);
                if (galloc->buffers[i]) {
                    galloc->buffer_sizes[i] = ggml_vbuffer_size(galloc->buffers[i]);
@@ -947,6 +954,7 @@ bool ggml_gallocr_reserve_n(ggml_gallocr_t galloc, struct ggml_cgraph * graph, c
                    galloc->buffer_sizes[i] = new_size;
                    success = false;
                }
+            }
        } else {
            galloc->buffer_sizes[i] = ggml_vbuffer_size(galloc->buffers[i]);
        }
@@ -955,6 +963,21 @@ bool ggml_gallocr_reserve_n(ggml_gallocr_t galloc, struct ggml_cgraph * graph, c
    return success;
 }

+void ggml_gallocr_reserve_n_size(
+        ggml_gallocr_t galloc, struct ggml_cgraph * graph, const int * node_buffer_ids, const int * leaf_buffer_ids, size_t * sizes) {
+    GGML_ASSERT(ggml_gallocr_reserve_n_impl(galloc, graph, node_buffer_ids, leaf_buffer_ids, /*no_alloc =*/ true));
+    for (int i = 0; i < galloc->n_buffers; i++) {
+        sizes[i] = 0;
+        for (int c = 0; c < galloc->buf_tallocs[i]->n_chunks; c++) {
+            sizes[i] += galloc->buf_tallocs[i]->chunks[c]->max_size;
+        }
+    }
+}
+
+bool ggml_gallocr_reserve_n(ggml_gallocr_t galloc, struct ggml_cgraph * graph, const int * node_buffer_ids, const int * leaf_buffer_ids) {
+    return ggml_gallocr_reserve_n_impl(galloc, graph, node_buffer_ids, leaf_buffer_ids, /*no_alloc =*/ false);
+}
+
 bool ggml_gallocr_reserve(ggml_gallocr_t galloc, struct ggml_cgraph *graph) {
    return ggml_gallocr_reserve_n(galloc, graph, NULL, NULL);
 }
@@ -1173,7 +1196,8 @@ static bool alloc_tensor_range(struct ggml_context * ctx,
    return true;
 }

-ggml_backend_buffer_t ggml_backend_alloc_ctx_tensors_from_buft(struct ggml_context * ctx, ggml_backend_buffer_type_t buft) {
+static ggml_backend_buffer_t ggml_backend_alloc_ctx_tensors_from_buft_impl(
+        struct ggml_context * ctx, ggml_backend_buffer_type_t buft, size_t * nbytes_total, bool no_alloc) {
    GGML_ASSERT(ggml_get_no_alloc(ctx) == true);

    size_t alignment = ggml_backend_buft_get_alignment(buft);
@@ -1181,6 +1205,7 @@ ggml_backend_buffer_t ggml_backend_alloc_ctx_tensors_from_buft(struct ggml_conte

    ggml_backend_buffer_t * buffers = NULL;
    size_t n_buffers = 0;
+    *nbytes_total = 0;

    size_t cur_buf_size = 0;
    struct ggml_tensor * first = ggml_get_first_tensor(ctx);
@@ -1192,10 +1217,11 @@ ggml_backend_buffer_t ggml_backend_alloc_ctx_tensors_from_buft(struct ggml_conte

        if (cur_buf_size > 0 && (cur_buf_size + this_size) > max_size) {
            // allocate tensors in the current buffer
-            if (!alloc_tensor_range(ctx, first, t, buft, cur_buf_size, &buffers, &n_buffers)) {
+            if (!no_alloc && !alloc_tensor_range(ctx, first, t, buft, cur_buf_size, &buffers, &n_buffers)) {
                return NULL;
            }
            first = t;
+            *nbytes_total += cur_buf_size;
            cur_buf_size = this_size;
        } else {
            cur_buf_size += this_size;
@@ -1204,15 +1230,21 @@ ggml_backend_buffer_t ggml_backend_alloc_ctx_tensors_from_buft(struct ggml_conte

    // allocate remaining tensors
    if (cur_buf_size > 0) {
-        if (!alloc_tensor_range(ctx, first, NULL, buft, cur_buf_size, &buffers, &n_buffers)) {
+        *nbytes_total += cur_buf_size;
+        if (!no_alloc && !alloc_tensor_range(ctx, first, NULL, buft, cur_buf_size, &buffers, &n_buffers)) {
            return NULL;
        }
    }

+    if (no_alloc) {
+        return NULL;
+    }
+
    if (n_buffers == 0) {
 #ifndef NDEBUG
        GGML_LOG_DEBUG("%s: all tensors in the context are already allocated\n", __func__);
 #endif
+        GGML_ASSERT(!buffers);
        return NULL;
    }

@@ -1222,10 +1254,24 @@ ggml_backend_buffer_t ggml_backend_alloc_ctx_tensors_from_buft(struct ggml_conte
    } else {
        buffer = ggml_backend_multi_buffer_alloc_buffer(buffers, n_buffers);
    }
-    free(buffers);
+    if (buffers) {
+        free(buffers); // can be NULL if context is empty or no_alloc
+    }
    return buffer;
 }

+size_t ggml_backend_alloc_ctx_tensors_from_buft_size(struct ggml_context * ctx, ggml_backend_buffer_type_t buft) {
+    size_t nbytes_total = 0;
+    ggml_backend_buffer_t buf = ggml_backend_alloc_ctx_tensors_from_buft_impl(ctx, buft, &nbytes_total, /*no_alloc=*/ true);
+    GGML_ASSERT(!buf);
+    return nbytes_total;
+}
+
+ggml_backend_buffer_t ggml_backend_alloc_ctx_tensors_from_buft(struct ggml_context * ctx, ggml_backend_buffer_type_t buft) {
+    size_t nbytes_total = 0;
+    return ggml_backend_alloc_ctx_tensors_from_buft_impl(ctx, buft, &nbytes_total, /*no_alloc =*/ false);
+}
+
 ggml_backend_buffer_t ggml_backend_alloc_ctx_tensors(struct ggml_context * ctx, ggml_backend_t backend) {
    return ggml_backend_alloc_ctx_tensors_from_buft(ctx, ggml_backend_get_default_buffer_type(backend));
 }
--- a/ml/backend/ggml/ggml/src/ggml-backend.cpp
+++ b/ml/backend/ggml/ggml/src/ggml-backend.cpp
@@ -147,6 +147,12 @@ void * ggml_backend_buffer_get_base(ggml_backend_buffer_t buffer) {
        return (void *)ggml_backend_buffer_get_alignment(buffer);
    }

+    // FIXME JG: a multi_buffer has a non-zero size, according to the above comment get_base is not optional,
+    //     I don't know whether the above comment is correct
+    if (!buffer->iface.get_base) {
+        return NULL;
+    }
+
    void * base = buffer->iface.get_base(buffer);

    GGML_ASSERT(base != NULL && "backend buffer base cannot be NULL");
@@ -1786,6 +1792,20 @@ void ggml_backend_sched_reset(ggml_backend_sched_t sched) {
    sched->is_alloc = false;
 }

+void ggml_backend_sched_reserve_size(ggml_backend_sched_t sched, struct ggml_cgraph * measure_graph, size_t * sizes) {
+    GGML_ASSERT(sched);
+    GGML_ASSERT((int)sched->hash_set.size >= measure_graph->n_nodes + measure_graph->n_leafs);
+    GGML_ASSERT(sizes);
+
+    ggml_backend_sched_reset(sched);
+
+    ggml_backend_sched_synchronize(sched);
+
+    ggml_backend_sched_split_graph(sched, measure_graph);
+
+    ggml_gallocr_reserve_n_size(sched->galloc, &sched->graph, sched->node_backend_ids, sched->leaf_backend_ids, sizes);
+}
+
 bool ggml_backend_sched_reserve(ggml_backend_sched_t sched, struct ggml_cgraph * measure_graph) {
    GGML_ASSERT(sched);
    GGML_ASSERT((int)sched->hash_set.size >= measure_graph->n_nodes + measure_graph->n_leafs);

--- a/ml/backend/ggml/ggml/src/ggml-cpu/arch/arm/repack.cpp
+++ b/ml/backend/ggml/ggml/src/ggml-cpu/arch/arm/repack.cpp
@@ -24,6 +24,7 @@

 #define UNUSED GGML_UNUSED

+#if defined(__aarch64__) && defined(__ARM_NEON) && (defined(__ARM_FEATURE_MATMUL_INT8) || defined(__ARM_FEATURE_DOTPROD))
 static inline void decode_q4_Kx8_scales_mins(const uint8_t * scales_in,
                                             int16x8_t *     out_mins,
                                             int8_t *        out_scales) {
@@ -46,6 +47,7 @@ static inline void decode_q4_Kx8_scales_mins(const uint8_t * scales_in,
    scales_u32[1] = (sm[2] & kmask2) | (((sm[0] >> 6) & kmask3) << 4);
    memcpy(out_scales, scales_u32, 8);
 }
+#endif

 void ggml_quantize_mat_q8_0_4x4(const float * GGML_RESTRICT x, void * GGML_RESTRICT vy, int64_t k) {
    assert(QK8_0 == 32);

--- a/ml/backend/ggml/ggml/src/ggml-cpu/ggml-cpu.c
+++ b/ml/backend/ggml/ggml/src/ggml-cpu/ggml-cpu.c
@@ -83,6 +83,11 @@ struct ggml_arm_arch_features_type {
 } ggml_arm_arch_features = { 0 };
 #endif

+#if defined(__riscv)
+struct ggml_riscv_arch_features_type {
+    int rvv_vlen;
+} ggml_riscv_arch_features = { 0 };
+#endif

 #if defined(_WIN32)

@@ -189,6 +194,9 @@ typedef void * thread_ret_t;

 typedef pthread_t ggml_thread_t;

+#define GGML_THREADPOOL_N_THREADS_MASK (0xffffU)
+#define GGML_THREADPOOL_N_THREADS_BITS (16)
+
 #if defined(__APPLE__)
 #include <unistd.h>
 #include <mach/mach.h>
@@ -451,7 +459,7 @@ struct ggml_threadpool {
    struct ggml_cplan  * cplan;

    // synchronization primitives
-    atomic_int n_graph;       // incremented when there is work to be done (i.e each graph)
+    atomic_int n_graph;       // updated when there is work to be done (i.e each graph) holds graph and active thread counts.
    atomic_int GGML_CACHE_ALIGN n_barrier;
    atomic_int GGML_CACHE_ALIGN n_barrier_passed;
    atomic_int GGML_CACHE_ALIGN current_chunk; // currently processing chunk during Mat_Mul, shared between all the threads.
@@ -462,9 +470,7 @@ struct ggml_threadpool {
    atomic_int  abort;        // Used for aborting processing of a graph

    struct ggml_compute_state * workers;   // per thread state
-    int          n_threads_max; // number of threads in the pool
-    atomic_int   n_threads_cur; // number of threads used in the current graph
-
+    int          n_threads;   // Number of threads in the pool
    int32_t      prio;        // Scheduling priority
    uint32_t     poll;        // Polling level (0 - no polling)

@@ -541,7 +547,7 @@ struct ggml_state {
 static struct ggml_state g_state = {0};

 void ggml_barrier(struct ggml_threadpool * tp) {
-    int n_threads = atomic_load_explicit(&tp->n_threads_cur, memory_order_relaxed);
+    int n_threads = atomic_load_explicit(&tp->n_graph, memory_order_relaxed) & GGML_THREADPOOL_N_THREADS_MASK;
    if (n_threads == 1) {
        return;
    }
@@ -558,7 +564,7 @@ void ggml_barrier(struct ggml_threadpool * tp) {
        // last thread
        atomic_store_explicit(&tp->n_barrier, 0, memory_order_relaxed);

-        // exit barrier (fill seq-cst fence)
+        // exit barrier (full seq-cst fence)
        atomic_fetch_add_explicit(&tp->n_barrier_passed, 1, memory_order_seq_cst);
        return;
    }
@@ -704,6 +710,15 @@ static void ggml_init_arm_arch_features(void) {}
 #endif
 #endif // __ARM_ARCH

+#if defined(__riscv) && defined(__riscv_v_intrinsic)
+#include <riscv_vector.h>
+static void ggml_init_riscv_arch_features(void) {
+    ggml_riscv_arch_features.rvv_vlen = __riscv_vlenb();
+}
+#else
+static void ggml_init_riscv_arch_features(void) {}
+#endif
+
 struct ggml_tensor * ggml_new_i32(struct ggml_context * ctx, int32_t value) {
    GGML_ASSERT(!ggml_get_no_alloc(ctx));

@@ -2630,7 +2645,7 @@ static void ggml_thread_cpumask_next(const bool * global_mask, bool * local_mask
 void ggml_threadpool_free(struct ggml_threadpool* threadpool) {
    if (!threadpool) return;

-    const int n_threads = threadpool->n_threads_max;
+    const int n_threads = threadpool->n_threads;

 #ifndef GGML_USE_OPENMP
    struct ggml_compute_state* workers = threadpool->workers;
@@ -2706,7 +2721,7 @@ struct ggml_cplan ggml_graph_plan(
        //GGML_PRINT_DEBUG("Threadpool is not specified. Will create a disposable threadpool : n_threads %d\n", n_threads);
    }
    if (n_threads <= 0) {
-        n_threads = threadpool ? threadpool->n_threads_max : GGML_DEFAULT_N_THREADS;
+        n_threads = threadpool ? threadpool->n_threads : GGML_DEFAULT_N_THREADS;
    }

 #if defined(__EMSCRIPTEN__) && !defined(__EMSCRIPTEN_PTHREADS__)
@@ -2914,12 +2929,14 @@ static thread_ret_t ggml_graph_compute_thread(void * data) {

    struct ggml_compute_params params = {
        /*.ith       =*/ state->ith,
-        /*.nth       =*/ atomic_load_explicit(&tp->n_threads_cur, memory_order_relaxed),
+        /*.nth       =*/ atomic_load_explicit(&tp->n_graph, memory_order_relaxed) & GGML_THREADPOOL_N_THREADS_MASK,
        /*.wsize     =*/ cplan->work_size,
        /*.wdata     =*/ cplan->work_data,
        /*.threadpool=*/ tp,
    };

+    GGML_PRINT_DEBUG("thread #%d compute-start cplan %p last-graph %d \n", state->ith, cplan, state->last_graph);
+
    for (int node_n = 0; node_n < cgraph->n_nodes && atomic_load_explicit(&tp->abort, memory_order_relaxed) != node_n; node_n++) {
        struct ggml_tensor * node = cgraph->nodes[node_n];

@@ -2945,6 +2962,8 @@ static thread_ret_t ggml_graph_compute_thread(void * data) {
        }
    }

+    GGML_PRINT_DEBUG("thread #%d compute-done cplan %p last-graph %d \n", state->ith, cplan, state->last_graph);
+
    ggml_barrier(state->threadpool);

    return 0;
@@ -2952,27 +2971,23 @@ static thread_ret_t ggml_graph_compute_thread(void * data) {

 #ifndef GGML_USE_OPENMP

-// check if thread is active
-static inline bool ggml_graph_compute_thread_active(struct ggml_compute_state * state) {
-    struct ggml_threadpool * threadpool = state->threadpool;
-    int n_threads = atomic_load_explicit(&threadpool->n_threads_cur, memory_order_relaxed);
-    return (state->ith < n_threads);
-}
-
 // check if thread is ready to proceed (exit from polling or sleeping)
+// returns true if loops should exit, sets state->pending to indicate new work
 static inline bool ggml_graph_compute_thread_ready(struct ggml_compute_state * state) {
    struct ggml_threadpool * threadpool = state->threadpool;

    if (state->pending || threadpool->stop || threadpool->pause) { return true; }

    // check for new graph/work
-    int new_graph = atomic_load_explicit(&threadpool->n_graph, memory_order_relaxed);
-    if (new_graph != state->last_graph) {
-        state->pending    = ggml_graph_compute_thread_active(state);
-        state->last_graph = new_graph;
+    int n_graph   = atomic_load_explicit(&threadpool->n_graph, memory_order_relaxed);
+    int n_threads = n_graph & GGML_THREADPOOL_N_THREADS_MASK;
+    if (n_graph != state->last_graph) {
+        state->pending    = (state->ith < n_threads);
+        state->last_graph = n_graph;
+        return true;
    }

-    return state->pending;
+    return false;
 }

 // sync thread state after polling
@@ -2989,11 +3004,6 @@ static inline void ggml_graph_compute_thread_sync(struct ggml_compute_state * st
 static inline bool ggml_graph_compute_poll_for_work(struct ggml_compute_state * state) {
    struct ggml_threadpool * threadpool = state->threadpool;

-    // Skip polling for unused threads
-    if (!ggml_graph_compute_thread_active(state)) {
-        return state->pending;
-    }
-
    // This seems to make 0 ... 100 a decent range for polling level across modern processors.
    // Perhaps, we can adjust it dynamically based on load and things.
    const uint64_t n_rounds = 1024UL * 128 * threadpool->poll;
@@ -3055,7 +3065,6 @@ static thread_ret_t ggml_graph_compute_secondary_thread(void* data) {
        ggml_graph_compute_check_for_work(state);
        if (state->pending) {
            state->pending = false;
-
            ggml_graph_compute_thread(state);
        }
    }
@@ -3070,14 +3079,15 @@ static void ggml_graph_compute_kickoff(struct ggml_threadpool * threadpool, int

    ggml_mutex_lock(&threadpool->mutex);

-    GGML_PRINT_DEBUG("threadpool: n_threads_cur %d n_threads %d\n", threadpool->n_threads_cur, n_threads);
+    // Update the number of active threads and the graph count
+    int n_graph = atomic_load_explicit(&threadpool->n_graph, memory_order_relaxed) >> GGML_THREADPOOL_N_THREADS_BITS;
+    n_graph = ((n_graph + 1) << GGML_THREADPOOL_N_THREADS_BITS) | (n_threads & GGML_THREADPOOL_N_THREADS_MASK);

-    // Update the number of active threads
-    atomic_store_explicit(&threadpool->n_threads_cur, n_threads, memory_order_relaxed);
+    GGML_PRINT_DEBUG("compute-kickoff: n_threads %d n_graph %d\n", n_threads, n_graph);

    // Indicate the graph is ready to be processed
    // We need the full seq-cst fence here because of the polling threads (used in thread_sync)
-    atomic_fetch_add_explicit(&threadpool->n_graph, 1, memory_order_seq_cst);
+    atomic_store_explicit(&threadpool->n_graph, n_graph, memory_order_seq_cst);

    if (threadpool->pause) {
       // Update main thread prio and affinity to match the threadpool settings
@@ -3115,8 +3125,7 @@ static struct ggml_threadpool * ggml_threadpool_new_impl(
        threadpool->pause            = tpp->paused;
        threadpool->abort            = -1;
        threadpool->workers          = NULL;
-        threadpool->n_threads_max    = tpp->n_threads;
-        threadpool->n_threads_cur    = tpp->n_threads;
+        threadpool->n_threads        = tpp->n_threads;
        threadpool->poll             = tpp->poll;
        threadpool->prio             = tpp->prio;
        threadpool->ec               = GGML_STATUS_SUCCESS;
@@ -3211,7 +3220,7 @@ enum ggml_status ggml_graph_compute(struct ggml_cgraph * cgraph, struct ggml_cpl
            {
                // update the number of threads from the actual number of threads that we got from OpenMP
                n_threads = omp_get_num_threads();
-                atomic_store_explicit(&threadpool->n_threads_cur, n_threads, memory_order_relaxed);
+                atomic_store_explicit(&threadpool->n_graph, n_threads, memory_order_relaxed);
            }

            // Apply thread CPU mask and priority
@@ -3224,13 +3233,13 @@ enum ggml_status ggml_graph_compute(struct ggml_cgraph * cgraph, struct ggml_cpl
            ggml_graph_compute_thread(&threadpool->workers[ith]);
        }
    } else {
-        atomic_store_explicit(&threadpool->n_threads_cur, 1, memory_order_relaxed);
+        atomic_store_explicit(&threadpool->n_graph, 1, memory_order_relaxed);
        ggml_graph_compute_thread(&threadpool->workers[0]);
    }
 #else
-    if (n_threads > threadpool->n_threads_max) {
-        GGML_LOG_WARN("cplan requested more threads (%d) than available (%d)\n", n_threads, threadpool->n_threads_max);
-        n_threads = threadpool->n_threads_max;
+    if (n_threads > threadpool->n_threads) {
+        GGML_LOG_WARN("cplan requested more threads (%d) than available (%d)\n", n_threads, threadpool->n_threads);
+        n_threads = threadpool->n_threads;
    }

    // Kick all threads to start the new graph
@@ -3470,6 +3479,14 @@ int ggml_cpu_has_riscv_v(void) {
 #endif
 }

+int ggml_cpu_get_rvv_vlen(void) {
+#if defined(__riscv) && defined(__riscv_v_intrinsic)
+    return ggml_riscv_arch_features.rvv_vlen;
+#else
+    return 0;
+#endif
+}
+
 int ggml_cpu_has_f16c(void) {
 #if defined(__F16C__)
    return 1;
@@ -3636,6 +3653,10 @@ void ggml_cpu_init(void) {
        ggml_init_arm_arch_features();
 #endif

+#if defined(__riscv)
+        ggml_init_riscv_arch_features();
+#endif
+
        is_first_call = false;
    }


--- a/ml/backend/ggml/ggml/src/ggml-cpu/ggml-cpu.cpp
+++ b/ml/backend/ggml/ggml/src/ggml-cpu/ggml-cpu.cpp
@@ -585,6 +585,10 @@ static ggml_backend_feature * ggml_backend_cpu_get_features(ggml_backend_reg_t r
        if (ggml_cpu_has_riscv_v()) {
            features.push_back({ "RISCV_V", "1" });
        }
+        if (ggml_cpu_get_rvv_vlen() > 0) {
+            static std::string rvv_vlen = std::to_string(ggml_cpu_get_rvv_vlen());
+            features.push_back({ "RVV_VLEN", rvv_vlen.c_str() });
+        }
        if (ggml_cpu_has_vsx()) {
            features.push_back({ "VSX", "1" });
        }