sramakintel
diff --git a/‎intel_extension_for_transformers/neural_chat/docs/full_notebooks.md
Lines changed: 4 additions & 3 deletions b/‎intel_extension_for_transformers/neural_chat/docs/full_notebooks.md
Lines changed: 4 additions & 3 deletions
diff --git a/‎intel_extension_for_transformers/neural_chat/docs/notebooks/Finetuning_or_RAG_for_external_knowledge.ipynb
Lines changed: 12 additions & 14 deletions b/‎intel_extension_for_transformers/neural_chat/docs/notebooks/Finetuning_or_RAG_for_external_knowledge.ipynb
Lines changed: 12 additions & 14 deletions
diff --git a/‎intel_extension_for_transformers/neural_chat/docs/notebooks/amp_optimization_on_habana_gaudi.ipynb
Lines changed: 4 additions & 4 deletions b/‎intel_extension_for_transformers/neural_chat/docs/notebooks/amp_optimization_on_habana_gaudi.ipynb
Lines changed: 4 additions & 4 deletions
diff --git a/‎intel_extension_for_transformers/neural_chat/docs/notebooks/amp_optimization_on_spr.ipynb
Lines changed: 0 additions & 14 deletions b/‎intel_extension_for_transformers/neural_chat/docs/notebooks/amp_optimization_on_spr.ipynb
Lines changed: 0 additions & 14 deletions
diff --git a/‎intel_extension_for_transformers/neural_chat/docs/notebooks/weight_only_optimization_on_nv_a100.ipynb renamed to ‎intel_extension_for_transformers/neural_chat/docs/notebooks/bits_and_bytes_optimization_on_nv_a100.ipynb
Lines changed: 18 additions & 7 deletions b/‎intel_extension_for_transformers/neural_chat/docs/notebooks/weight_only_optimization_on_nv_a100.ipynb renamed to ‎intel_extension_for_transformers/neural_chat/docs/notebooks/bits_and_bytes_optimization_on_nv_a100.ipynb
Lines changed: 18 additions & 7 deletions
diff --git a/‎intel_extension_for_transformers/neural_chat/docs/notebooks/build_chatbot_on_habana_gaudi.ipynb
Lines changed: 0 additions & 14 deletions b/‎intel_extension_for_transformers/neural_chat/docs/notebooks/build_chatbot_on_habana_gaudi.ipynb
Lines changed: 0 additions & 14 deletions
diff --git a/‎intel_extension_for_transformers/neural_chat/docs/notebooks/build_chatbot_on_icx.ipynb
Lines changed: 0 additions & 14 deletions b/‎intel_extension_for_transformers/neural_chat/docs/notebooks/build_chatbot_on_icx.ipynb
Lines changed: 0 additions & 14 deletions
diff --git a/‎intel_extension_for_transformers/neural_chat/docs/notebooks/build_chatbot_on_nv_a100.ipynb
Lines changed: 0 additions & 14 deletions b/‎intel_extension_for_transformers/neural_chat/docs/notebooks/build_chatbot_on_nv_a100.ipynb
Lines changed: 0 additions & 14 deletions
diff --git a/‎intel_extension_for_transformers/neural_chat/docs/notebooks/build_chatbot_on_spr.ipynb
Lines changed: 0 additions & 14 deletions b/‎intel_extension_for_transformers/neural_chat/docs/notebooks/build_chatbot_on_spr.ipynb
Lines changed: 0 additions & 14 deletions
diff --git a/‎intel_extension_for_transformers/neural_chat/docs/notebooks/build_chatbot_on_xpu.ipynb
Lines changed: 0 additions & 57 deletions b/‎intel_extension_for_transformers/neural_chat/docs/notebooks/build_chatbot_on_xpu.ipynb
Lines changed: 0 additions & 57 deletions
@@ -25,14 +25,15 @@ Welcome to use Jupyter Notebooks to explore how to build and customize chatbots
 | 3       | Optimizing Chatbots                         |                                                            |                                                         |
 | 3.1     | Enabling Chatbot with BF16 Optimization on SPR        | Learn how to optimize chatbot using mixed precision on SPR | [Notebook](./notebooks/amp_optimization_on_spr.ipynb) |
 | 3.2     | Enabling Chatbot with BF16 Optimization on Habana Gaudi1/Gaudi2 | Learn how to optimze chatbot using mixed precision on Habana Gaudi1/Gaudi2 | [Notebook](./notebooks/amp_optimization_on_habana_gaudi.ipynb) |
-| 3.3     | Enabling Chatbot with BitsAndBytes Optimization on Nvidia A100 | Learn how to optimize chatbot using BitsAndBytes on Nvidia A100 | [Notebook](./notebooks/weight_only_optimization_on_nv_a100.ipynb) |
+| 3.3     | Enabling Chatbot with BitsAndBytes Optimization on Nvidia A100 | Learn how to optimize chatbot using BitsAndBytes on Nvidia A100 | [Notebook](./notebooks/bits_and_bytes_optimization_on_nv_a100.ipynb) |
 | 3.4     | Enabling Chatbot with Weight Only INT4 Optimization on SPR | Learn how to optimize chatbot using ITREX LLM graph Weight Only INT4 on SPR | [Notebook](./notebooks/itrex_llm_graph_int4_optimization_on_spr.ipynb) |
 | 4       | Fine-Tuning Chatbots                           |                                                            |                                                         |
 | 4.1     | Fine-tuning on SPR (Single Node)               | Learn how to fine-tune chatbot on SPR with single node | [Notebook](./notebooks/single_node_finetuning_on_spr.ipynb) |
 | 4.2     | Fine-tuning on SPR (Multiple Nodes)            | Learn how to fine-tune chatbot on SPR with multiple nodes | [Notebook](./notebooks/multi_node_finetuning_on_spr.ipynb) |
 | 4.3     | Fine-tuning on Habana Gaudi1/Gaudi2 (Single Card) | Learn how to fine-tune on Habana Gaudi1/Gaudi2 with single card | [Notebook](./notebooks/single_card_finetuning_on_habana_gaudi.ipynb) |
-| 4.4     | Fine-tuning on Habana Gaudi1/Gaudi2 (Multiple Cards) | Learn how to fine-tune on  Habana Gaudi1/Gaudi2 with multiple cards | [Notebook](./notebooks/multi_card_finetuning_on_habana_gaudi.ipynb) |
-| 4.5     | Fine-tuning on Nvidia A100 (Single Card)       | Learn how to fine-tune chatbot on Nvidia A100 | [Notebook](./notebooks/finetuning_on_nv_a100.ipynb) |
+| 4.4     | Fine-tuning on Nvidia A100 (Single Card)       | Learn how to fine-tune chatbot on Nvidia A100 | [Notebook](./notebooks/finetuning_on_nv_a100.ipynb) |
+| 4.5     | Finetune Neuralchat on NVIDIA GPU       | Learn how to fine-tune Neuralchat on Nvidia GPU | [Notebook](./notebooks/finetune_neuralchat_v2_on_Nvidia_GPU.ipynb) |
+| 4.6     | Finetuning or RAG for external knowledge       | Learn how to fine-tune or RAG for external knowledge | [Notebook](./notebooks/Finetuning_or_RAG_for_external_knowledge.ipynb) |
 | 5       | Customizing Chatbots                          |                                                          |                                                         |
 | 5.1     | Enabling Plugins to Customize Chatbot         | Learn how to customize chatbot using plugins             | [Notebook](./notebooks/customize_chatbot_with_plugins.ipynb) |
 | 5.2     | Enabling Fine-tuned Models in Chatbot         | Learn how to customize chatbot using fine-tuned models   | [Notebook](./notebooks/customize_chatbot_with_finetuned_models.ipynb) |
 
@@ -88,8 +88,11 @@
    "outputs": [],
    "source": [
     "!git clone https://github.com/intel/intel-extension-for-transformers.git\n",
-    "!cd ./intel-extension-for-transformers/intel_extension_for_transformers/neural_chat/\n",
-    "!pip install -r requirements.txt"
+    "%cd ./intel-extension-for-transformers/intel_extension_for_transformers/neural_chat/\n",
+    "!pip install -r requirements.txt\n",
+    "%cd ../../../\n",
+    "!pip uninstall torch -y\n",
+    "!pip install torch"
    ]
   },
   {
@@ -234,7 +237,6 @@
     "load_model(model_name=base_model_path,\n",
     "        tokenizer_name=base_model_path,\n",
     "        peft_path=peft_model_path,\n",
-    "        device=\"cuda\",\n",
     "        )\n",
     "\n",
     "template = \"\"\"\n",
@@ -248,11 +250,10 @@
     "### Assistant:\n",
     "\"\"\"\n",
     "\n",
-    "query = \"who founded cnvrg.io?\"\n",
+    "query = \"What is cnvrg.io?\"\n",
     "\n",
     "params = {\n",
     "        \"prompt\": template.format(query),\n",
-    "        \"device\": \"cuda\",\n",
     "        \"model_name\": base_model_path,\n",
     "        \"use_cache\": True,\n",
     "        \"repetition_penalty\": 1.0,\n",
@@ -264,11 +265,7 @@
     "        }\n",
     "\n",
     "for new_text in predict_stream(**params):\n",
-    "    print(new_text, end=\"\", flush=True)\n",
-    "\n",
-    "\n",
-    "\n",
-    "# the response: The cnvrg.io was founded by Yochay Ettun and Leah Forkosh Kolben."
+    "    print(new_text, end=\"\", flush=True)"
    ]
   },
   {
@@ -284,7 +281,9 @@
    "source": [
     "##### 1. prepare dataset\n",
     "\n",
-    "the format for RAG, refer to: https://github.com/intel/intel-extension-for-transformers/blob/main/intel_extension_for_transformers/neural_chat/assets/docs/sample.jsonl"
+    "the format for RAG, refer to: https://github.com/intel/intel-extension-for-transformers/blob/main/intel_extension_for_transformers/neural_chat/assets/docs/sample.jsonl\n",
+    "\n",
+    "For the example as follows, you can define the content of `doc` to be \"The cnvrg.io was founded by Yochay Ettun and Leah Forkosh Kolben.\""
    ]
   },
   {
@@ -307,7 +306,7 @@
     "plugins.retrieval.args['embedding_model'] = \"hkunlp/instructor-large\"\n",
     "plugins.retrieval.args['process'] = False\n",
     "\n",
-    "plugins.retrieval.args[\"input_path\"] = './cnvrg_docs_rag'\n",
+    "plugins.retrieval.args[\"input_path\"] = './cnvrg_docs_rag/'\n",
     "plugins.retrieval.args[\"persist_dir\"] = \"./test_dir\"\n",
     "plugins.retrieval.args[\"response_template\"] = \"check the result\"\n",
     "plugins.retrieval.args['search_type'] = \"similarity_score_threshold\"\n",
@@ -318,8 +317,7 @@
     "chatbot = build_chatbot(config)\n",
     "\n",
     "response = chatbot.predict(\"Who are the founders of cnvrg.io?\")\n",
-    "\n",
-    "# the response: Great, thank you for providing me with the necessary information! Based on your query and the context provided, I can confidently answer your question:\\nThe founders of cnvrg.io are Yochay Ettun and Leah Forkosh Kolben."
+    "print('response',response)"
    ]
   }
  ],
 
@@ -24,7 +24,7 @@
     "git clone https://github.com/intel/intel-extension-for-transformers.git\n",
     "cd ./intel-extension-for-transformers/intel_extension_for_transformers/neural_chat/docker/\n",
     "docker build --build-arg UBUNTU_VER=22.04 -f Dockerfile -t neuralchat . --target hpu\n",
-    "docker run -it --runtime=habana -e HABANA_VISIBLE_DEVICES=all -e OMPI_MCA_btl_vader_single_copy_mechanism=none --cap-add=sys_nice --net=host --ipc=host neuralchat:latest\n",
+    "docker run -it --runtime=habana -e HABANA_VISIBLE_DEVICES=all neuralchat:latest\n",
     "```\n"
    ]
   },
@@ -41,9 +41,9 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "from intel_extension_for_transformers.neural_chat import build_chatbot\n",
-    "from intel_extension_for_transformers.neural_chat.config import PipelineConfig, MixedPrecisionConfig\n",
-    "config = PipelineConfig(optimization_config=MixedPrecisionConfig(), model_name_or_path='Intel/neural-chat-7b-v1-1')\n",
+    "from intel_extension_for_transformers.neural_chat import build_chatbot, PipelineConfig\n",
+    "from intel_extension_for_transformers.transformers import MixedPrecisionConfig\n",
+    "config = PipelineConfig(optimization_config=MixedPrecisionConfig())\n",
     "chatbot = build_chatbot(config)\n",
     "response = chatbot.predict(query=\"Tell me about Intel Xeon Scalable Processors.\")\n",
     "print(response)"
 
@@ -57,20 +57,6 @@
     "%cd ../../../"
    ]
   },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "## Prepare the model"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "Make sure to request access at https://huggingface.co/meta-llama/Llama-2-7b-chat-hf and pass a token having permission to this repo either by logging in with `huggingface-cli login` or by passing `token=<your_token>`."
-   ]
-  },
   {
    "cell_type": "markdown",
    "metadata": {},
 
@@ -4,7 +4,7 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "# Weight Only Quantization Optimization of Chatbot on Nvidia's A100"
+    "# Bits And Bytes Optimization of Chatbot on Nvidia's A100"
    ]
   },
   {
@@ -44,15 +44,26 @@
    "outputs": [],
    "source": [
     "!git clone https://github.com/intel/intel-extension-for-transformers.git\n",
-    "!cd ./intel-extension-for-transformers/intel_extension_for_transformers/neural_chat/\n",
-    "!pip install -r requirements.txt"
+    "%cd ./intel-extension-for-transformers/intel_extension_for_transformers/neural_chat/\n",
+    "!pip install -r requirements.txt\n",
+    "%cd ../../../"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "!pip uninstall torch -y\n",
+    "!pip install torch"
    ]
   },
   {
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "## Weight Only Quantization"
+    "## BitsAndBytes Optimization"
    ]
   },
   {
@@ -61,9 +72,9 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "from intel_extension_for_transformers.neural_chat import build_chatbot\n",
-    "from intel_extension_for_transformers.neural_chat.config import PipelineConfig, WeightOnlyQuantConfig\n",
-    "config = PipelineConfig(optimization_config=WeightOnlyQuantConfig(), model_name_or_path='neural-chat-7b-v1-1')\n",
+    "from intel_extension_for_transformers.neural_chat import build_chatbot, PipelineConfig\n",
+    "from intel_extension_for_transformers.transformers import BitsAndBytesConfig\n",
+    "config = PipelineConfig(optimization_config=BitsAndBytesConfig(), device=\"cuda\")\n",
     "chatbot = build_chatbot(config)\n",
     "response = chatbot.predict(query=\"Tell me about Intel Xeon Scalable Processors.\")\n",
     "print(response)"
 
@@ -35,20 +35,6 @@
     "```\n"
    ]
   },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "# Prepare the model"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "Make sure to request access at https://huggingface.co/meta-llama/Llama-2-7b-chat-hf and pass a token having permission to this repo either by logging in with `huggingface-cli login` or by passing `token=<your_token>`."
-   ]
-  },
   {
    "cell_type": "markdown",
    "metadata": {},
 
@@ -76,20 +76,6 @@
     "!conda list"
    ]
   },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "# Prepare the model"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "Make sure to request access at https://huggingface.co/meta-llama/Llama-2-7b-chat-hf and pass a token having permission to this repo either by logging in with `huggingface-cli login` or by passing `token=<your_token>`."
-   ]
-  },
   {
    "cell_type": "markdown",
    "metadata": {},
 
@@ -69,20 +69,6 @@
     "!conda list"
    ]
   },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "# Prepare the model"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "Make sure to request access at https://huggingface.co/meta-llama/Llama-2-7b-chat-hf and pass a token having permission to this repo either by logging in with `huggingface-cli login` or by passing `token=<your_token>`."
-   ]
-  },
   {
    "cell_type": "markdown",
    "metadata": {},
 
@@ -78,20 +78,6 @@
     "!conda list"
    ]
   },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "# Prepare the model"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "Make sure to request access at https://huggingface.co/meta-llama/Llama-2-7b-chat-hf and pass a token having permission to this repo either by logging in with `huggingface-cli login` or by passing `token=<your_token>`."
-   ]
-  },
   {
    "cell_type": "markdown",
    "metadata": {},
 
@@ -103,20 +103,6 @@
     "Notes: If you face \"GLIBCXX_3.4.30\" not found issue in conda environment, please remove lib/libstdc++* from conda environment. "
    ]
   },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "# Prepare the model"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "Make sure to request access at https://huggingface.co/meta-llama/Llama-2-7b-chat-hf and pass a token having permission to this repo either by logging in with huggingface-cli login or by passing token=<your_token>."
-   ]
-  },
   {
    "cell_type": "markdown",
    "metadata": {},
@@ -197,49 +183,6 @@
     "response = chatbot.predict(\"How many cores does the Intel® Xeon® Platinum 8480+ Processor have in total?\")\n",
     "print(response)"
    ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "## Voice Chat with ATS & TTS Plugin"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "In the context of voice chat, users have the option to engage in various modes: utilizing input audio and receiving output audio, employing input audio and receiving textual output, or providing input in textual form and receiving audio output.\n",
-    "\n",
-    "For the Python API code, users have the option to enable different voice chat modes by setting ASR and TTS plugins enable or disable."
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "!curl -OL https://raw.githubusercontent.com/intel/intel-extension-for-transformers/main/intel_extension_for_transformers/neural_chat/assets/speaker_embeddings/spk_embed_default.pt\n",
-    "!curl -OL https://raw.githubusercontent.com/intel/intel-extension-for-transformers/main/intel_extension_for_transformers/neural_chat/assets/audio/welcome.wav"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "from intel_extension_for_transformers.neural_chat import PipelineConfig\n",
-    "from intel_extension_for_transformers.neural_chat import build_chatbot, plugins\n",
-    "plugins.asr.enable = True\n",
-    "plugins.tts.enable = True\n",
-    "plugins.tts.args[\"output_audio_path\"]=\"./output_audio.wav\"\n",
-    "config = PipelineConfig(plugins=plugins, device='xpu')\n",
-    "chatbot = build_chatbot(config)\n",
-    "result = chatbot.predict(query=\"./welcome.wav\")\n",
-    "print(result)"
-   ]
   }
  ],
  "metadata": {