Fix embeddings to support local file (intel#976)

yuwenzho · web-flow · commit 59f15e3520c6 · 2023-12-21T16:22:10.000+08:00
diff --git a/intel_extension_for_transformers/langchain/embeddings/optimized_instructor_embedding.py b/intel_extension_for_transformers/langchain/embeddings/optimized_instructor_embedding.py
@@ -23,7 +23,7 @@
 from intel_extension_for_transformers.transformers.utils.utility import LazyImport
 from transformers import T5Config, MT5Config
 from typing import Union, Optional
-
+from .utils import get_module_path
 from .optimized_sentence_transformers import OptimzedTransformer
 
 sentence_transformers = LazyImport("sentence_transformers")
@@ -126,14 +126,14 @@ def _load_sbert_model(self,
                 module = OptimizedInstructorTransformer(model_name_or_path, cache_dir=cache_folder, **kwargs)
             elif module_config['idx']==1:
                 module_class = InstructorEmbedding.INSTRUCTOR_Pooling
-                module_path = sentence_transformers.util.load_dir_path(
-                    model_name_or_path, module_config['path'], token=token, cache_folder=cache_folder)
+                module_path = get_module_path(
+                    model_name_or_path, module_config['path'], token, cache_folder)
                 module = module_class.load(module_path)
             else:
                 module_class = InstructorEmbedding.import_from_string(module_config['type'])
-                module_path = sentence_transformers.util.load_dir_path(
-                    model_name_or_path, module_config['path'], token=token, cache_folder=cache_folder)
+                module_path = get_module_path(
+                    model_name_or_path, module_config['path'], token, cache_folder)
                 module = module_class.load(module_path)
             modules[module_config['name']] = module
         
-        return modules
+        return modules
diff --git a/intel_extension_for_transformers/langchain/embeddings/optimized_sentence_transformers.py b/intel_extension_for_transformers/langchain/embeddings/optimized_sentence_transformers.py
@@ -21,9 +21,10 @@
 import torch
 from intel_extension_for_transformers.transformers import OptimizedModel
 from intel_extension_for_transformers.transformers.utils.utility import LazyImport
-import transformers
+from collections import OrderedDict
 from transformers import T5Config, MT5Config
 from typing import Union, Optional
+from .utils import get_module_path
 
 sentence_transformers = LazyImport("sentence_transformers")
 
@@ -53,12 +54,84 @@ def __init__(self, *args, **kwargs):
         """Initialize the OptimizedSentenceTransformer."""
         super().__init__(*args, **kwargs)
 
-    def _load_auto_model(self, model_name_or_path: str, token: Optional[Union[bool, str]], cache_folder: Optional[str]):
+    def _load_auto_model(
+            self, model_name_or_path: str, token: Optional[Union[bool, str]], cache_folder: Optional[str]):
         """
         Creates a simple Transformer + Mean Pooling model and returns the modules
         """
         logger.warning("No sentence-transformers model found with name {}." \
                        "Creating a new one with MEAN pooling.".format(model_name_or_path))
-        transformer_model = OptimzedTransformer(model_name_or_path, cache_dir=cache_folder, model_args={"token": token})
-        pooling_model = sentence_transformers.models.Pooling(transformer_model.get_word_embedding_dimension(), 'mean')
-        return [transformer_model, pooling_model]
+        transformer_model = OptimzedTransformer(
+            model_name_or_path, cache_dir=cache_folder, model_args={"token": token})
+        pooling_model = sentence_transformers.models.Pooling(
+            transformer_model.get_word_embedding_dimension(), 'mean')
+        return [transformer_model, pooling_model]
+    
+    def _load_sbert_model(
+            self, model_name_or_path: str, token: Optional[Union[bool, str]], cache_folder: Optional[str]):
+        """
+        Loads a full sentence-transformers model
+        """
+        # Check if the config_sentence_transformers.json file exists (exists since v2 of the framework)
+        config_sentence_transformers_json_path = sentence_transformers.util.load_file_path(
+            model_name_or_path, 'config_sentence_transformers.json', token=token, cache_folder=cache_folder)
+        if config_sentence_transformers_json_path is not None:
+            with open(config_sentence_transformers_json_path) as fIn:
+                self._model_config = json.load(fIn)
+
+            if '__version__' in self._model_config and \
+                'sentence_transformers' in self._model_config['__version__'] and \
+                self._model_config['__version__']['sentence_transformers'] > sentence_transformers.__version__:
+                logger.warning("You try to use a model that was created with version {}, "\
+                               "however, your version is {}. This might cause unexpected "\
+                               "behavior or errors. In that case, try to update to the "\
+                               "latest version.\n\n\n".format(
+                                    self._model_config['__version__']['sentence_transformers'],
+                                    sentence_transformers.__version__))
+
+        # Check if a readme exists
+        model_card_path = sentence_transformers.util.load_file_path(
+            model_name_or_path, 'README.md', token=token, cache_folder=cache_folder)
+        if model_card_path is not None:
+            try:
+                with open(model_card_path, encoding='utf8') as fIn:
+                    self._model_card_text = fIn.read()
+            except:
+                pass
+
+        # Load the modules of sentence transformer
+        modules_json_path = sentence_transformers.util.load_file_path(
+            model_name_or_path, 'modules.json', token=token, cache_folder=cache_folder)
+        with open(modules_json_path) as fIn:
+            modules_config = json.load(fIn)
+
+        modules = OrderedDict()
+        for module_config in modules_config:
+            module_class = sentence_transformers.util.import_from_string(module_config['type'])
+            # For Transformer, don't load the full directory, rely on `transformers` instead
+            # But, do load the config file first.
+            if module_class == sentence_transformers.models.Transformer and module_config['path'] == "":
+                kwargs = {}
+                for config_name in ['sentence_bert_config.json', 'sentence_roberta_config.json', 
+                                    'sentence_distilbert_config.json', 'sentence_camembert_config.json', 
+                                    'sentence_albert_config.json', 'sentence_xlm-roberta_config.json', 
+                                    'sentence_xlnet_config.json']:
+                    config_path = sentence_transformers.util.load_file_path(
+                        model_name_or_path, config_name, token=token, cache_folder=cache_folder)
+                    if config_path is not None:
+                        with open(config_path) as fIn:
+                            kwargs = json.load(fIn)
+                        break
+                if "model_args" in kwargs:
+                    kwargs["model_args"]["token"] = token
+                else:
+                    kwargs["model_args"] = {"token": token}
+                module = sentence_transformers.models.Transformer(
+                    model_name_or_path, cache_dir=cache_folder, **kwargs)
+            else:
+                module_path = get_module_path(
+                    model_name_or_path, module_config['path'], token=token, cache_folder=cache_folder)
+                module = module_class.load(module_path)
+            modules[module_config['name']] = module
+
+        return modules
diff --git a/intel_extension_for_transformers/langchain/embeddings/utils.py b/intel_extension_for_transformers/langchain/embeddings/utils.py
@@ -0,0 +1,32 @@
+# !/usr/bin/env python
+# -*- coding: utf-8 -*-
+#
+# Copyright (c) 2023 Intel Corporation
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+import os
+from typing import Union, Optional
+from intel_extension_for_transformers.transformers.utils.utility import LazyImport
+sentence_transformers = LazyImport("sentence_transformers")
+
+def get_module_path(model_name_or_path: str, 
+                    path: str,
+                    token: Optional[Union[bool, str]], 
+                    cache_folder: Optional[str]):
+    is_local = os.path.isdir(model_name_or_path)
+    if is_local:
+        return os.path.join(model_name_or_path, path)
+    else:
+        return sentence_transformers.util.load_dir_path(
+            model_name_or_path, path, token=token, cache_folder=cache_folder)
diff --git a/intel_extension_for_transformers/neural_chat/tests/ci/api/test_chatbot_build_api.py b/intel_extension_for_transformers/neural_chat/tests/ci/api/test_chatbot_build_api.py
@@ -144,6 +144,26 @@ def test_build_chatbot_with_retrieval_plugin_bge_int8(self):
         response = chatbot.predict(query="What is Intel extension for transformers?")
         self.assertIsNotNone(response)
         plugins.retrieval.enable = False
+    
+    def test_build_chatbot_with_retrieval_plugin_using_local_file(self):
+
+        def _run_retrieval(local_dir):
+            plugins.retrieval.enable = True
+            plugins.retrieval.args["input_path"] = "../../../README.md"
+            plugins.retrieval.args["embedding_model"] = local_dir
+            pipeline_config = PipelineConfig(model_name_or_path="facebook/opt-125m",
+                                             plugins=plugins)
+            chatbot = build_chatbot(pipeline_config)
+            self.assertIsNotNone(chatbot)
+            response = chatbot.predict(query="What is Intel extension for transformers?")
+            self.assertIsNotNone(response)
+
+        # test local file
+        _run_retrieval(local_dir="/tf_dataset2/inc-ut/gte-base")
+        _run_retrieval(local_dir="/tf_dataset2/inc-ut/instructor-large")
+        _run_retrieval(local_dir="/tf_dataset2/inc-ut/bge-base-en-v1.5")
+
+        
 
 if __name__ == '__main__':
     unittest.main()