rls2.5: fix t5, llava, whisper (#3347)

blzheng · web-flow · commit 3b99d4f10ff6 · 2024-10-30T10:57:01.000+08:00
diff --git a/docs/tutorials/features/fast_bert.md b/docs/tutorials/features/fast_bert.md
@@ -9,7 +9,7 @@ Currently `ipex.fast_bert` API is only well optimized for training. For inferenc
 
 ### Prerequisite
 
-- Transformers 4.6.0 ~ 4.43.2
+- Transformers 4.6.0 ~ 4.45.0
 
 ### Usage Example
 
diff --git a/examples/cpu/features/fast_bert/README.md b/examples/cpu/features/fast_bert/README.md
@@ -5,7 +5,7 @@
 Currently `ipex.fast_bert` API is only well optimized for training. For inference, it ensures functionality, while to get peak perf, please use `ipex.optimize` API + torchscript.
 
 # Prerequisite:
-Transformers 4.6.0 ~ 4.43.2
+Transformers 4.6.0 ~ 4.45.0
 
 # Usage Example:
 Training:
diff --git a/examples/cpu/features/fast_bert/fast_bert_inference_bf16.py b/examples/cpu/features/fast_bert/fast_bert_inference_bf16.py
@@ -1,7 +1,7 @@
 import torch
 from transformers import BertModel
 
-model = BertModel.from_pretrained("bert-base-uncased")
+model = BertModel.from_pretrained("bert-base-uncased", attn_implementation="eager")
 model.eval()
 
 vocab_size = model.config.vocab_size
diff --git a/examples/cpu/features/fast_bert/fast_bert_training_bf16.py b/examples/cpu/features/fast_bert/fast_bert_training_bf16.py
@@ -2,7 +2,7 @@
 from transformers import BertForSequenceClassification
 
 model = BertForSequenceClassification.from_pretrained(
-    "bert-base-uncased", return_dict=True
+    "bert-base-uncased", return_dict=True, attn_implementation="eager"
 )
 model.train()
 optimizer = torch.optim.Adam(model.parameters(), lr=1e-5)
diff --git a/examples/cpu/llm/fine-tuning/requirements.txt b/examples/cpu/llm/fine-tuning/requirements.txt
@@ -6,6 +6,6 @@ black[jupyter]
 datasets
 fire
 peft
-transformers==4.43.2
+transformers==4.45.0
 gradio
 sentencepiece
diff --git a/examples/cpu/llm/inference/distributed/run_accuracy_with_deepspeed.py b/examples/cpu/llm/inference/distributed/run_accuracy_with_deepspeed.py
@@ -574,7 +574,10 @@ def _model_call(
             model_kwargs = {"attention_mask": attention_mask_batched}
             model_kwargs = (
                 self.base_model._prepare_encoder_decoder_kwargs_for_generation(
-                    inputs, model_kwargs, "input_ids"
+                    inputs,
+                    model_kwargs,
+                    "input_ids",
+                    transformers.generation.configuration_utils.GenerationConfig(),
                 )
             )
             (
diff --git a/examples/cpu/llm/inference/single_instance/run_accuracy.py b/examples/cpu/llm/inference/single_instance/run_accuracy.py
@@ -346,7 +346,10 @@ def _model_call(
             model_kwargs = {"attention_mask": attention_mask_batched}
             model_kwargs = (
                 self.base_model._prepare_encoder_decoder_kwargs_for_generation(
-                    inputs, model_kwargs, "input_ids"
+                    inputs,
+                    model_kwargs,
+                    "input_ids",
+                    transformers.generation.configuration_utils.GenerationConfig(),
                 )
             )
             (
@@ -872,7 +875,7 @@ def __init__(
         self._config = self._model.config
         self._config.torchscript = self._with_jit
         self._model.eval()
-        if with_ipex and dtype not in ["int8", "int4", "nf4"]:
+        if with_ipex:
             self._model = ipex.llm.optimize(
                 self._model.eval(),
                 dtype=infer_dtype,
@@ -1284,6 +1287,8 @@ def _collate(x):
                     "num_beams": gen_kwargs["num_beams"],
                     "max_new_tokens": gen_kwargs["max_new_tokens"],
                 }
+                if not self._with_ipex:
+                    input_dict["use_cache"] = False
             elif re.search("git", self.model.config.architectures[0], re.IGNORECASE):
                 input_ids = self._image_processor(
                     images=visuals, return_tensors="pt"
diff --git a/examples/cpu/llm/inference/single_instance/run_quantization.py b/examples/cpu/llm/inference/single_instance/run_quantization.py
@@ -8,6 +8,7 @@
 
 import torch
 from torch.utils.data import DataLoader
+import transformers
 from transformers import AutoConfig
 from transformers import TextStreamer
 import intel_extension_for_pytorch as ipex
@@ -842,12 +843,11 @@ def collate_batch(self, batch):
                 elif model.example_inputs_mode == EXAMPLE_INPUTS_MODE.KV_ENC:
                     input_bs = int(args.batch_size * num_beams)
                     model_kwargs = {}
-                    model_kwargs = (
-                        user_model._prepare_encoder_decoder_kwargs_for_generation(
-                            torch.vstack(input_ids_padded).unsqueeze(0),
-                            model_kwargs,
-                            "input_features",
-                        )
+                    model_kwargs = user_model._prepare_encoder_decoder_kwargs_for_generation(
+                        torch.vstack(input_ids_padded).unsqueeze(0),
+                        model_kwargs,
+                        "input_features",
+                        transformers.generation.configuration_utils.GenerationConfig(),
                     )
                     last_hidden_state = model_kwargs["encoder_outputs"][
                         "last_hidden_state"
diff --git a/intel_extension_for_pytorch/cpu/tpp/fused_bert.py b/intel_extension_for_pytorch/cpu/tpp/fused_bert.py
@@ -1256,7 +1256,7 @@ def fast_bert(model, dtype=torch.float, optimizer=None, unpad=False):
     # tpp bert optimization depends on the transformers repo to implementate the related module
     installed_pkg = {pkg.key for pkg in pkg_resources.working_set}
     min_version = "4.6.0"
-    max_version = "4.43.2"
+    max_version = "4.45.0"
     if "transformers" not in installed_pkg:
         raise RuntimeError(
             "Please installed the transformers with version: between {} and {}".format(
diff --git a/tests/cpu/test_deepspeed.py b/tests/cpu/test_deepspeed.py
@@ -31,8 +31,10 @@
     import transformers
     from transformers import AutoConfig
 except ImportError:
+    import subprocess
+
     subprocess.check_call(
-        [sys.executable, "-m", "pip", "install", "transformers==4.43.2"]
+        [sys.executable, "-m", "pip", "install", "transformers==4.45.0"]
     )
     import transformers
     from transformers import AutoConfig
diff --git a/tests/cpu/test_ipex_optimize_transformers.py b/tests/cpu/test_ipex_optimize_transformers.py
@@ -17,7 +17,7 @@
     from transformers import AutoConfig
 except ImportError:
     subprocess.check_call(
-        [sys.executable, "-m", "pip", "install", "transformers==4.43.2"]
+        [sys.executable, "-m", "pip", "install", "transformers==4.45.0"]
     )
     import transformers
     from transformers import AutoConfig
diff --git a/tests/cpu/test_tpp_ops.py b/tests/cpu/test_tpp_ops.py
@@ -12,7 +12,7 @@
     import subprocess
 
     subprocess.check_call(
-        [sys.executable, "-m", "pip", "install", "transformers==4.43.2"]
+        [sys.executable, "-m", "pip", "install", "transformers==4.45.0"]
     )
     import transformers
 from common_utils import TestCase

Original file line number	Diff line number	Diff line change
`@@ -2,7 +2,7 @@`
`2`	`2`	`from transformers import BertForSequenceClassification`
`3`	`3`
`4`	`4`	`model = BertForSequenceClassification.from_pretrained(`
`5`		`- "bert-base-uncased", return_dict=True`
	`5`	`+ "bert-base-uncased", return_dict=True, attn_implementation="eager"`
`6`	`6`	`)`
`7`	`7`	`model.train()`
`8`	`8`	`optimizer = torch.optim.Adam(model.parameters(), lr=1e-5)`
Original file line number	Diff line number	Diff line change
`@@ -574,7 +574,10 @@ def _model_call(`
`574`	`574`	`model_kwargs = {"attention_mask": attention_mask_batched}`
`575`	`575`	`model_kwargs = (`
`576`	`576`	`self.base_model._prepare_encoder_decoder_kwargs_for_generation(`
`577`		`- inputs, model_kwargs, "input_ids"`
	`577`	`+ inputs,`
	`578`	`+ model_kwargs,`
	`579`	`+ "input_ids",`
	`580`	`+ transformers.generation.configuration_utils.GenerationConfig(),`
`578`	`581`	`)`
`579`	`582`	`)`
`580`	`583`	`(`
Original file line number	Diff line number	Diff line change
`@@ -17,7 +17,7 @@`
`17`	`17`	`from transformers import AutoConfig`
`18`	`18`	`except ImportError:`
`19`	`19`	`subprocess.check_call(`
`20`		`- [sys.executable, "-m", "pip", "install", "transformers==4.43.2"]`
	`20`	`+ [sys.executable, "-m", "pip", "install", "transformers==4.45.0"]`
`21`	`21`	`)`
`22`	`22`	`import transformers`
`23`	`23`	`from transformers import AutoConfig`
Original file line number	Diff line number	Diff line change
`@@ -12,7 +12,7 @@`
`12`	`12`	`import subprocess`
`13`	`13`
`14`	`14`	`subprocess.check_call(`
`15`		`- [sys.executable, "-m", "pip", "install", "transformers==4.43.2"]`
	`15`	`+ [sys.executable, "-m", "pip", "install", "transformers==4.45.0"]`
`16`	`16`	`)`
`17`	`17`	`import transformers`
`18`	`18`	`from common_utils import TestCase`