llama : update llama_model API names (#11063)

ggerganov · web-flow · commit 47182dd03fe0 · 2025-01-06T10:55:18.000+02:00
* llama : deprecate llama_free_model, add llama_model_free

ggml-ci

* llama : change `llama_load_model_from_file` -&gt; `llama_model_load_from_file`

ggml-ci
diff --git a/common/common.cpp b/common/common.cpp
@@ -846,7 +846,7 @@ struct common_init_result common_init_from_params(common_params & params) {
     } else if (!params.model_url.empty()) {
         model = common_load_model_from_url(params.model_url, params.model, params.hf_token, mparams);
     } else {
-        model = llama_load_model_from_file(params.model.c_str(), mparams);
+        model = llama_model_load_from_file(params.model.c_str(), mparams);
     }
 
     if (model == NULL) {
@@ -873,7 +873,7 @@ struct common_init_result common_init_from_params(common_params & params) {
         }
 
         if (!ok) {
-            llama_free_model(model);
+            llama_model_free(model);
 
             return iparams;
         }
@@ -884,7 +884,7 @@ struct common_init_result common_init_from_params(common_params & params) {
     llama_context * lctx = llama_new_context_with_model(model, cparams);
     if (lctx == NULL) {
         LOG_ERR("%s: failed to create context with model '%s'\n", __func__, params.model.c_str());
-        llama_free_model(model);
+        llama_model_free(model);
         return iparams;
     }
 
@@ -900,7 +900,7 @@ struct common_init_result common_init_from_params(common_params & params) {
         const auto cvec = common_control_vector_load(params.control_vectors);
         if (cvec.n_embd == -1) {
             llama_free(lctx);
-            llama_free_model(model);
+            llama_model_free(model);
 
             return iparams;
         }
@@ -913,7 +913,7 @@ struct common_init_result common_init_from_params(common_params & params) {
                                              params.control_vector_layer_end);
         if (err) {
             llama_free(lctx);
-            llama_free_model(model);
+            llama_model_free(model);
 
             return iparams;
         }
@@ -926,7 +926,7 @@ struct common_init_result common_init_from_params(common_params & params) {
         if (lora == nullptr) {
             LOG_ERR("%s: failed to apply lora adapter '%s'\n", __func__, la.path.c_str());
             llama_free(lctx);
-            llama_free_model(model);
+            llama_model_free(model);
             return iparams;
         }
 
@@ -1411,7 +1411,7 @@ struct llama_model * common_load_model_from_url(
         }
     }
 
-    return llama_load_model_from_file(local_path.c_str(), params);
+    return llama_model_load_from_file(local_path.c_str(), params);
 }
 
 struct llama_model * common_load_model_from_hf(
diff --git a/examples/batched-bench/batched-bench.cpp b/examples/batched-bench/batched-bench.cpp
@@ -38,7 +38,7 @@ int main(int argc, char ** argv) {
 
     llama_model_params model_params = common_model_params_to_llama(params);
 
-    llama_model * model = llama_load_model_from_file(params.model.c_str(), model_params);
+    llama_model * model = llama_model_load_from_file(params.model.c_str(), model_params);
 
     if (model == NULL) {
         fprintf(stderr , "%s: error: unable to load model\n" , __func__);
@@ -194,7 +194,7 @@ int main(int argc, char ** argv) {
     llama_batch_free(batch);
 
     llama_free(ctx);
-    llama_free_model(model);
+    llama_model_free(model);
 
     llama_backend_free();
 
diff --git a/examples/batched/batched.cpp b/examples/batched/batched.cpp
@@ -41,7 +41,7 @@ int main(int argc, char ** argv) {
 
     llama_model_params model_params = common_model_params_to_llama(params);
 
-    llama_model * model = llama_load_model_from_file(params.model.c_str(), model_params);
+    llama_model * model = llama_model_load_from_file(params.model.c_str(), model_params);
 
     if (model == NULL) {
         LOG_ERR("%s: error: unable to load model\n" , __func__);
@@ -236,7 +236,7 @@ int main(int argc, char ** argv) {
 
     llama_sampler_free(smpl);
     llama_free(ctx);
-    llama_free_model(model);
+    llama_model_free(model);
 
     llama_backend_free();
 
diff --git a/examples/gritlm/gritlm.cpp b/examples/gritlm/gritlm.cpp
@@ -165,7 +165,7 @@ int main(int argc, char * argv[]) {
 
     llama_backend_init();
 
-    llama_model * model = llama_load_model_from_file(params.model.c_str(), mparams);
+    llama_model * model = llama_model_load_from_file(params.model.c_str(), mparams);
 
     // create generation context
     llama_context * ctx = llama_new_context_with_model(model, cparams);
@@ -219,7 +219,7 @@ int main(int argc, char * argv[]) {
 
     llama_sampler_free(smpl);
     llama_free(ctx);
-    llama_free_model(model);
+    llama_model_free(model);
     llama_backend_free();
 
     return 0;
diff --git a/examples/llama-bench/llama-bench.cpp b/examples/llama-bench/llama-bench.cpp
@@ -1526,10 +1526,10 @@ int main(int argc, char ** argv) {
         // keep the same model between tests when possible
         if (!lmodel || !prev_inst || !inst.equal_mparams(*prev_inst)) {
             if (lmodel) {
-                llama_free_model(lmodel);
+                llama_model_free(lmodel);
             }
 
-            lmodel = llama_load_model_from_file(inst.model.c_str(), inst.to_llama_mparams());
+            lmodel = llama_model_load_from_file(inst.model.c_str(), inst.to_llama_mparams());
             if (lmodel == NULL) {
                 fprintf(stderr, "%s: error: failed to load model '%s'\n", __func__, inst.model.c_str());
                 return 1;
@@ -1540,7 +1540,7 @@ int main(int argc, char ** argv) {
         llama_context * ctx = llama_new_context_with_model(lmodel, inst.to_llama_cparams());
         if (ctx == NULL) {
             fprintf(stderr, "%s: error: failed to create context with model '%s'\n", __func__, inst.model.c_str());
-            llama_free_model(lmodel);
+            llama_model_free(lmodel);
             return 1;
         }
 
@@ -1626,7 +1626,7 @@ int main(int argc, char ** argv) {
         ggml_threadpool_free_fn(threadpool);
     }
 
-    llama_free_model(lmodel);
+    llama_model_free(lmodel);
 
     if (p) {
         p->print_footer();
diff --git a/examples/llava/llava-cli.cpp b/examples/llava/llava-cli.cpp
@@ -221,7 +221,7 @@ static struct llama_model * llava_init(common_params * params) {
 
     llama_model_params model_params = common_model_params_to_llama(*params);
 
-    llama_model * model = llama_load_model_from_file(params->model.c_str(), model_params);
+    llama_model * model = llama_model_load_from_file(params->model.c_str(), model_params);
     if (model == NULL) {
         LOG_ERR("%s: unable to load model\n" , __func__);
         return NULL;
@@ -265,7 +265,7 @@ static void llava_free(struct llava_context * ctx_llava) {
     }
 
     llama_free(ctx_llava->ctx_llama);
-    llama_free_model(ctx_llava->model);
+    llama_model_free(ctx_llava->model);
     llama_backend_free();
 }
 
@@ -323,7 +323,7 @@ int main(int argc, char ** argv) {
         }
     }
 
-    llama_free_model(model);
+    llama_model_free(model);
 
     return 0;
 }
diff --git a/examples/llava/minicpmv-cli.cpp b/examples/llava/minicpmv-cli.cpp
@@ -31,7 +31,7 @@ static struct llama_model * llava_init(common_params * params) {
 
     llama_model_params model_params = common_model_params_to_llama(*params);
 
-    llama_model * model = llama_load_model_from_file(params->model.c_str(), model_params);
+    llama_model * model = llama_model_load_from_file(params->model.c_str(), model_params);
     if (model == NULL) {
         LOG_ERR("%s: unable to load model\n" , __func__);
         return NULL;
@@ -75,7 +75,7 @@ static void llava_free(struct llava_context * ctx_llava) {
     }
 
     llama_free(ctx_llava->ctx_llama);
-    llama_free_model(ctx_llava->model);
+    llama_model_free(ctx_llava->model);
     llama_backend_free();
 }
 
diff --git a/examples/llava/qwen2vl-cli.cpp b/examples/llava/qwen2vl-cli.cpp
@@ -310,7 +310,7 @@ static struct llama_model * llava_init(common_params * params) {
 
     llama_model_params model_params = common_model_params_to_llama(*params);
 
-    llama_model * model = llama_load_model_from_file(params->model.c_str(), model_params);
+    llama_model * model = llama_model_load_from_file(params->model.c_str(), model_params);
     if (model == NULL) {
         LOG_ERR("%s: unable to load model\n" , __func__);
         return NULL;
@@ -354,7 +354,7 @@ static void llava_free(struct llava_context * ctx_llava) {
     }
 
     llama_free(ctx_llava->ctx_llama);
-    llama_free_model(ctx_llava->model);
+    llama_model_free(ctx_llava->model);
     llama_backend_free();
 }
 
@@ -575,7 +575,7 @@ int main(int argc, char ** argv) {
         }
     }
 
-    llama_free_model(model);
+    llama_model_free(model);
 
     return 0;
 }
diff --git a/examples/passkey/passkey.cpp b/examples/passkey/passkey.cpp
@@ -63,7 +63,7 @@ int main(int argc, char ** argv) {
 
     llama_model_params model_params = common_model_params_to_llama(params);
 
-    llama_model * model = llama_load_model_from_file(params.model.c_str(), model_params);
+    llama_model * model = llama_model_load_from_file(params.model.c_str(), model_params);
 
     if (model == NULL) {
         LOG_ERR("%s: unable to load model\n" , __func__);
@@ -266,7 +266,7 @@ int main(int argc, char ** argv) {
     llama_batch_free(batch);
 
     llama_free(ctx);
-    llama_free_model(model);
+    llama_model_free(model);
 
     llama_backend_free();
 
diff --git a/examples/quantize-stats/quantize-stats.cpp b/examples/quantize-stats/quantize-stats.cpp
@@ -309,7 +309,7 @@ int main(int argc, char ** argv) {
         auto mparams = llama_model_default_params();
         mparams.use_mlock  = false;
 
-        model = llama_load_model_from_file(params.model.c_str(), mparams);
+        model = llama_model_load_from_file(params.model.c_str(), mparams);
 
         if (model == NULL) {
             fprintf(stderr, "%s: error: failed to load model '%s'\n", __func__, params.model.c_str());
@@ -323,7 +323,7 @@ int main(int argc, char ** argv) {
 
         if (ctx == NULL) {
             fprintf(stderr, "%s: error: failed to create context with model '%s'\n", __func__, params.model.c_str());
-            llama_free_model(model);
+            llama_model_free(model);
             return 1;
         }
     }
@@ -347,7 +347,7 @@ int main(int argc, char ** argv) {
             fprintf(stderr, "%s: error: Quantization should be tested with a float model, "
                 "this model contains already quantized layers (%s is type %d)\n", __func__, kv_tensor.first.c_str(), kv_tensor.second->type);
             llama_free(ctx);
-            llama_free_model(model);
+            llama_model_free(model);
             return 1;
         }
         included_layers++;
@@ -409,7 +409,7 @@ int main(int argc, char ** argv) {
 
 
     llama_free(ctx);
-    llama_free_model(model);
+    llama_model_free(model);
     // report timing
     {
         const int64_t t_main_end_us = ggml_time_us();
diff --git a/examples/run/run.cpp b/examples/run/run.cpp
@@ -664,7 +664,7 @@ class LlamaData {
             "\r%*s"
             "\rLoading model",
             get_terminal_width(), " ");
-        llama_model_ptr model(llama_load_model_from_file(opt.model_.c_str(), opt.model_params));
+        llama_model_ptr model(llama_model_load_from_file(opt.model_.c_str(), opt.model_params));
         if (!model) {
             printe("%s: error: unable to load model from file: %s\n", __func__, opt.model_.c_str());
         }
diff --git a/examples/simple-chat/simple-chat.cpp b/examples/simple-chat/simple-chat.cpp
@@ -69,7 +69,7 @@ int main(int argc, char ** argv) {
     llama_model_params model_params = llama_model_default_params();
     model_params.n_gpu_layers = ngl;
 
-    llama_model * model = llama_load_model_from_file(model_path.c_str(), model_params);
+    llama_model * model = llama_model_load_from_file(model_path.c_str(), model_params);
     if (!model) {
         fprintf(stderr , "%s: error: unable to load model\n" , __func__);
         return 1;
@@ -194,7 +194,7 @@ int main(int argc, char ** argv) {
     }
     llama_sampler_free(smpl);
     llama_free(ctx);
-    llama_free_model(model);
+    llama_model_free(model);
 
     return 0;
 }
diff --git a/examples/simple/simple.cpp b/examples/simple/simple.cpp
@@ -83,7 +83,7 @@ int main(int argc, char ** argv) {
     llama_model_params model_params = llama_model_default_params();
     model_params.n_gpu_layers = ngl;
 
-    llama_model * model = llama_load_model_from_file(model_path.c_str(), model_params);
+    llama_model * model = llama_model_load_from_file(model_path.c_str(), model_params);
 
     if (model == NULL) {
         fprintf(stderr , "%s: error: unable to load model\n" , __func__);
@@ -199,7 +199,7 @@ int main(int argc, char ** argv) {
 
     llama_sampler_free(smpl);
     llama_free(ctx);
-    llama_free_model(model);
+    llama_model_free(model);
 
     return 0;
 }
diff --git a/examples/tokenize/tokenize.cpp b/examples/tokenize/tokenize.cpp
@@ -338,7 +338,7 @@ int main(int raw_argc, char ** raw_argv) {
 
     llama_model_params model_params = llama_model_default_params();
     model_params.vocab_only = true;
-    llama_model * model = llama_load_model_from_file(model_path, model_params);
+    llama_model * model = llama_model_load_from_file(model_path, model_params);
     if (!model) {
         fprintf(stderr, "Error: could not load model from file '%s'.\n", model_path);
         return 1;
@@ -408,7 +408,7 @@ int main(int raw_argc, char ** raw_argv) {
     }
     // silence valgrind
     llama_free(ctx);
-    llama_free_model(model);
+    llama_model_free(model);
 
     return 0;
 }
diff --git a/include/llama-cpp.h b/include/llama-cpp.h
@@ -9,7 +9,7 @@
 #include "llama.h"
 
 struct llama_model_deleter {
-    void operator()(llama_model * model) { llama_free_model(model); }
+    void operator()(llama_model * model) { llama_model_free(model); }
 };
 
 struct llama_context_deleter {
diff --git a/include/llama.h b/include/llama.h
@@ -413,12 +413,19 @@ extern "C" {
     // Call once at the end of the program - currently only used for MPI
     LLAMA_API void llama_backend_free(void);
 
-    LLAMA_API struct llama_model * llama_load_model_from_file(
+    DEPRECATED(LLAMA_API struct llama_model * llama_load_model_from_file(
+                             const char * path_model,
+              struct llama_model_params   params),
+            "use llama_model_load_from_file instead");
+
+    LLAMA_API struct llama_model * llama_model_load_from_file(
                              const char * path_model,
               struct llama_model_params   params);
 
-    // TODO: rename to llama_model_free
-    LLAMA_API void llama_free_model(struct llama_model * model);
+    DEPRECATED(LLAMA_API void llama_free_model(struct llama_model * model),
+            "use llama_model_free instead");
+
+    LLAMA_API void llama_model_free(struct llama_model * model);
 
     // TODO: rename to llama_init_from_model
     LLAMA_API struct llama_context * llama_new_context_with_model(
diff --git a/src/llama-model.cpp b/src/llama-model.cpp
@@ -2009,6 +2009,10 @@ struct llama_model_params llama_model_default_params() {
 }
 
 void llama_free_model(struct llama_model * model) {
+    llama_model_free(model);
+}
+
+void llama_model_free(struct llama_model * model) {
     delete model;
 }
 
diff --git a/src/llama.cpp b/src/llama.cpp
diff --git a/tests/test-autorelease.cpp b/tests/test-autorelease.cpp
diff --git a/tests/test-model-load-cancel.cpp b/tests/test-model-load-cancel.cpp
diff --git a/tests/test-tokenizer-0.cpp b/tests/test-tokenizer-0.cpp
diff --git a/tests/test-tokenizer-1-bpe.cpp b/tests/test-tokenizer-1-bpe.cpp
diff --git a/tests/test-tokenizer-1-spm.cpp b/tests/test-tokenizer-1-spm.cpp

Original file line number	Diff line number	Diff line change
`@@ -846,7 +846,7 @@ struct common_init_result common_init_from_params(common_params & params) {`
`846`	`846`	`} else if (!params.model_url.empty()) {`
`847`	`847`	`model = common_load_model_from_url(params.model_url, params.model, params.hf_token, mparams);`
`848`	`848`	`} else {`
`849`		`- model = llama_load_model_from_file(params.model.c_str(), mparams);`
	`849`	`+ model = llama_model_load_from_file(params.model.c_str(), mparams);`
`850`	`850`	`}`
`851`	`851`
`852`	`852`	`if (model == NULL) {`
`@@ -873,7 +873,7 @@ struct common_init_result common_init_from_params(common_params & params) {`
`873`	`873`	`}`
`874`	`874`
`875`	`875`	`if (!ok) {`
`876`		`- llama_free_model(model);`
	`876`	`+ llama_model_free(model);`
`877`	`877`
`878`	`878`	`return iparams;`
`879`	`879`	`}`
`@@ -884,7 +884,7 @@ struct common_init_result common_init_from_params(common_params & params) {`
`884`	`884`	`llama_context * lctx = llama_new_context_with_model(model, cparams);`
`885`	`885`	`if (lctx == NULL) {`
`886`	`886`	`LOG_ERR("%s: failed to create context with model '%s'\n", __func__, params.model.c_str());`
`887`		`- llama_free_model(model);`
	`887`	`+ llama_model_free(model);`
`888`	`888`	`return iparams;`
`889`	`889`	`}`
`890`	`890`
`@@ -900,7 +900,7 @@ struct common_init_result common_init_from_params(common_params & params) {`
`900`	`900`	`const auto cvec = common_control_vector_load(params.control_vectors);`
`901`	`901`	`if (cvec.n_embd == -1) {`
`902`	`902`	`llama_free(lctx);`
`903`		`- llama_free_model(model);`
	`903`	`+ llama_model_free(model);`
`904`	`904`
`905`	`905`	`return iparams;`
`906`	`906`	`}`
`@@ -913,7 +913,7 @@ struct common_init_result common_init_from_params(common_params & params) {`
`913`	`913`	`params.control_vector_layer_end);`
`914`	`914`	`if (err) {`
`915`	`915`	`llama_free(lctx);`
`916`		`- llama_free_model(model);`
	`916`	`+ llama_model_free(model);`
`917`	`917`
`918`	`918`	`return iparams;`
`919`	`919`	`}`
`@@ -926,7 +926,7 @@ struct common_init_result common_init_from_params(common_params & params) {`
`926`	`926`	`if (lora == nullptr) {`
`927`	`927`	`LOG_ERR("%s: failed to apply lora adapter '%s'\n", __func__, la.path.c_str());`
`928`	`928`	`llama_free(lctx);`
`929`		`- llama_free_model(model);`
	`929`	`+ llama_model_free(model);`
`930`	`930`	`return iparams;`
`931`	`931`	`}`
`932`	`932`
`@@ -1411,7 +1411,7 @@ struct llama_model * common_load_model_from_url(`
`1411`	`1411`	`}`
`1412`	`1412`	`}`
`1413`	`1413`
`1414`		`- return llama_load_model_from_file(local_path.c_str(), params);`
	`1414`	`+ return llama_model_load_from_file(local_path.c_str(), params);`
`1415`	`1415`	`}`
`1416`	`1416`
`1417`	`1417`	`struct llama_model * common_load_model_from_hf(`
Original file line number	Diff line number	Diff line change
`@@ -221,7 +221,7 @@ static struct llama_model * llava_init(common_params * params) {`
`221`	`221`
`222`	`222`	`llama_model_params model_params = common_model_params_to_llama(*params);`
`223`	`223`
`224`		`- llama_model * model = llama_load_model_from_file(params->model.c_str(), model_params);`
	`224`	`+ llama_model * model = llama_model_load_from_file(params->model.c_str(), model_params);`
`225`	`225`	`if (model == NULL) {`
`226`	`226`	`LOG_ERR("%s: unable to load model\n" , __func__);`
`227`	`227`	`return NULL;`
`@@ -265,7 +265,7 @@ static void llava_free(struct llava_context * ctx_llava) {`
`265`	`265`	`}`
`266`	`266`
`267`	`267`	`llama_free(ctx_llava->ctx_llama);`
`268`		`- llama_free_model(ctx_llava->model);`
	`268`	`+ llama_model_free(ctx_llava->model);`
`269`	`269`	`llama_backend_free();`
`270`	`270`	`}`
`271`	`271`
`@@ -323,7 +323,7 @@ int main(int argc, char ** argv) {`
`323`	`323`	`}`
`324`	`324`	`}`
`325`	`325`
`326`		`- llama_free_model(model);`
	`326`	`+ llama_model_free(model);`
`327`	`327`
`328`	`328`	`return 0;`
`329`	`329`	`}`
Original file line number	Diff line number	Diff line change
`@@ -31,7 +31,7 @@ static struct llama_model * llava_init(common_params * params) {`
`31`	`31`
`32`	`32`	`llama_model_params model_params = common_model_params_to_llama(*params);`
`33`	`33`
`34`		`- llama_model * model = llama_load_model_from_file(params->model.c_str(), model_params);`
	`34`	`+ llama_model * model = llama_model_load_from_file(params->model.c_str(), model_params);`
`35`	`35`	`if (model == NULL) {`
`36`	`36`	`LOG_ERR("%s: unable to load model\n" , __func__);`
`37`	`37`	`return NULL;`
`@@ -75,7 +75,7 @@ static void llava_free(struct llava_context * ctx_llava) {`
`75`	`75`	`}`
`76`	`76`
`77`	`77`	`llama_free(ctx_llava->ctx_llama);`
`78`		`- llama_free_model(ctx_llava->model);`
	`78`	`+ llama_model_free(ctx_llava->model);`
`79`	`79`	`llama_backend_free();`
`80`	`80`	`}`
`81`	`81`
Original file line number	Diff line number	Diff line change
`@@ -310,7 +310,7 @@ static struct llama_model * llava_init(common_params * params) {`
`310`	`310`
`311`	`311`	`llama_model_params model_params = common_model_params_to_llama(*params);`
`312`	`312`
`313`		`- llama_model * model = llama_load_model_from_file(params->model.c_str(), model_params);`
	`313`	`+ llama_model * model = llama_model_load_from_file(params->model.c_str(), model_params);`
`314`	`314`	`if (model == NULL) {`
`315`	`315`	`LOG_ERR("%s: unable to load model\n" , __func__);`
`316`	`316`	`return NULL;`
`@@ -354,7 +354,7 @@ static void llava_free(struct llava_context * ctx_llava) {`
`354`	`354`	`}`
`355`	`355`
`356`	`356`	`llama_free(ctx_llava->ctx_llama);`
`357`		`- llama_free_model(ctx_llava->model);`
	`357`	`+ llama_model_free(ctx_llava->model);`
`358`	`358`	`llama_backend_free();`
`359`	`359`	`}`
`360`	`360`
`@@ -575,7 +575,7 @@ int main(int argc, char ** argv) {`
`575`	`575`	`}`
`576`	`576`	`}`
`577`	`577`
`578`		`- llama_free_model(model);`
	`578`	`+ llama_model_free(model);`
`579`	`579`
`580`	`580`	`return 0;`
`581`	`581`	`}`