openscilab
diff --git a/‎CHANGELOG.md
Lines changed: 17 additions & 0 deletions b/‎CHANGELOG.md
Lines changed: 17 additions & 0 deletions
diff --git a/‎SUPPORTED_MODELS.md
Lines changed: 46 additions & 1 deletion b/‎SUPPORTED_MODELS.md
Lines changed: 46 additions & 1 deletion
diff --git a/‎dev-requirements.txt
Lines changed: 1 addition & 0 deletions b/‎dev-requirements.txt
Lines changed: 1 addition & 0 deletions
diff --git a/‎pymilo/chains/ensemble_chain.py
Lines changed: 15 additions & 4 deletions b/‎pymilo/chains/ensemble_chain.py
Lines changed: 15 additions & 4 deletions
diff --git a/‎pymilo/pymilo_param.py
Lines changed: 20 additions & 4 deletions b/‎pymilo/pymilo_param.py
Lines changed: 20 additions & 4 deletions
diff --git a/‎pymilo/streaming/communicator.py
Lines changed: 1 addition & 1 deletion b/‎pymilo/streaming/communicator.py
Lines changed: 1 addition & 1 deletion
diff --git a/‎pymilo/transporters/feature_extraction_transporter.py
Lines changed: 131 additions & 0 deletions b/‎pymilo/transporters/feature_extraction_transporter.py
Lines changed: 131 additions & 0 deletions
diff --git a/‎pymilo/transporters/general_data_structure_transporter.py
Lines changed: 22 additions & 3 deletions b/‎pymilo/transporters/general_data_structure_transporter.py
Lines changed: 22 additions & 3 deletions
@@ -6,8 +6,25 @@ and this project adheres to [Semantic Versioning](http://semver.org/spec/v2.0.0.
 
 ## [Unreleased]
 ### Added
+- `TfidfVectorizer` feature extractor
+- `TfidfTransformer` feature extractor
+- `HashingVectorizer` feature extractor
+- `CountVectorizer` feature extractor
+- `PatchExtractor` feature extractor
+- `DictVectorizer` feature extractor
+- `FeatureHasher` feature extractor
+- `FeatureExtractorTransporter` Transporter
+- `FeatureExtraction` support added to Ensemble chain
+- FeatureExtraction params initialized in `pymilo_param.py`
+- Feature Extraction models test runner
 - Zenodo badge to `README.md`
 ### Changed
+- `get_deserialized_list` in `GeneralDataStructureTransporter`
+- `get_deserialized_dict` in `GeneralDataStructureTransporter`
+- `serialize` in `GeneralDataStructureTransporter`
+- `serialize_tuple` in `GeneralDataStructureTransporter`
+- `AttributeCallPayload` in `streaming.communicator.py`
+- `get_deserialized_regular_primary_types` in `GeneralDataStructureTransporter`
 - Test system modified
 ## [1.2] - 2025-01-22
 ### Added
 
@@ -1,6 +1,6 @@
 # Supported Models
 
-**Last Update: 2024-10-31**
+**Last Update: 2025-2-15**
 
 
 <h2 id="scikit-learn">Scikit-Learn</h2> 
@@ -733,3 +733,48 @@
 		<td>>=1.1</td>
 	</tr>
 </table>
+
+<h3 id="scikit-learn-feature-extraction">Feature Extraction Modules</h3> 
+📚 <a href="https://scikit-learn.org/stable/api/sklearn.feature_extraction.html" target="_blank"><b>Models Document</b></a>
+<table>
+	<tr align="center">
+		<th>ID</th>
+		<th>Model Name</th>
+        <th>PyMilo Version</th>
+	</tr>
+	<tr align="center">
+		<td>1</td>
+		<td><b>DictVectorizer</b></td>
+		<td>>=1.3</td>
+	</tr>
+	<tr align="center">
+		<td>2</td>
+		<td><b>FeatureHasher</b></td>
+		<td>>=1.3</td>
+	</tr>
+	<tr align="center">
+		<td>3</td>
+		<td><b>PatchExtractor</b></td>
+		<td>>=1.3</td>
+	</tr>
+	<tr align="center">
+		<td>4</td>
+		<td><b>CountVectorizer</b></td>
+		<td>>=1.3</td>
+	</tr>
+	<tr align="center">
+		<td>5</td>
+		<td><b>HashingVectorizer</b></td>
+		<td>>=1.3</td>
+	</tr>
+	<tr align="center">
+		<td>6</td>
+		<td><b>TfidfTransformer</b></td>
+		<td>>=1.3</td>
+	</tr>
+	<tr align="center">
+		<td>7</td>
+		<td><b>TfidfVectorizer</b></td>
+		<td>>=1.3</td>
+	</tr>
+</table>
@@ -12,3 +12,4 @@ bandit>=1.5.1
 pydocstyle>=3.0.0
 pytest>=4.3.1
 pytest-cov>=2.6.1
+Pillow>=8.4.0
@@ -7,6 +7,7 @@
 from numpy import ndarray, asarray
 
 from ..chains.chain import AbstractChain
+from ..transporters.feature_extraction_transporter import FeatureExtractorTransporter
 from ..transporters.binmapper_transporter import BinMapperTransporter
 from ..transporters.bunch_transporter import BunchTransporter
 from ..transporters.transporter import Command
@@ -21,6 +22,7 @@
 from .util import get_concrete_transporter
 
 ENSEMBLE_CHAIN = {
+    "FeatureExtractorTransporter": FeatureExtractorTransporter(),
     "PreprocessingTransporter": PreprocessingTransporter(),
     "GeneralDataStructureTransporter": GeneralDataStructureTransporter(),
     "TreePredictorTransporter": TreePredictorTransporter(),
@@ -48,16 +50,19 @@ def serialize(self, ensemble_object):
                 self._transporters[transporter].transport(
                     ensemble_object, Command.SERIALIZE)
 
+        pt = ENSEMBLE_CHAIN["PreprocessingTransporter"]
+        fe = ENSEMBLE_CHAIN["FeatureExtractorTransporter"]
         for key, value in ensemble_object.__dict__.items():
             if isinstance(value, list):
                 has_inner_tuple_with_ml_model = False
-                pt = PreprocessingTransporter()
                 for idx, item in enumerate(value):
                     if isinstance(item, tuple):
                         listed_tuple = list(item)
                         for inner_idx, inner_item in enumerate(listed_tuple):
                             if pt.is_preprocessing_module(inner_item):
                                 listed_tuple[inner_idx] = pt.serialize_pre_module(inner_item)
+                            elif fe.is_fe_module(inner_item):
+                                listed_tuple[inner_idx] = fe.serialize_fe_module(inner_item)
                             else:
                                 has_inner_model, result = serialize_possible_ml_model(inner_item)
                                 if has_inner_model:
@@ -117,17 +122,23 @@ def deserialize(self, ensemble, is_inner_model=False):
                 self._transporters[transporter].transport(
                     ensemble, Command.DESERIALIZE, is_inner_model)
 
+        pt = ENSEMBLE_CHAIN["PreprocessingTransporter"]
+        fe = ENSEMBLE_CHAIN["FeatureExtractorTransporter"]
         for key, value in data.items():
             if isinstance(value, dict):
                 if check_str_in_iterable("pymiloed-data-structure",
                                          value) and value["pymiloed-data-structure"] == "list of (str, estimator) tuples":
                     listed_tuples = value["pymiloed-data"]
                     list_of_tuples = []
-                    pt = PreprocessingTransporter()
                     for listed_tuple in listed_tuples:
                         name, serialized_model = listed_tuple
-                        retrieved_model = pt.deserialize_pre_module(serialized_model) if pt.is_preprocessing_module(
-                            serialized_model) else deserialize_possible_ml_model(serialized_model)[1]
+                        retrieved_model = None
+                        if pt.is_preprocessing_module(serialized_model):
+                            retrieved_model = pt.deserialize_pre_module(serialized_model)
+                        elif fe.is_fe_module(serialized_model):
+                            retrieved_model = fe.deserialize_fe_module(serialized_model)
+                        else:
+                            retrieved_model = deserialize_possible_ml_model(serialized_model)[1]
                         list_of_tuples.append(
                             (name, retrieved_model)
                         )
 
@@ -13,7 +13,8 @@
 import sklearn.ensemble as ensemble
 import sklearn.pipeline as pipeline
 import sklearn.preprocessing as preprocessing
-from sklearn.cross_decomposition import PLSRegression, PLSCanonical, CCA
+import sklearn.cross_decomposition as cross_decomposition
+import sklearn.feature_extraction as feature_extraction
 
 quantile_regressor_support = False
 try:
@@ -246,10 +247,25 @@
     "TargetEncoder": TargetEncoder if target_encoder_support else NOT_SUPPORTED,
 }
 
+SKLEARN_FEATURE_EXTRACTION_TABLE = {
+    # for raw data:
+    "DictVectorizer": feature_extraction.DictVectorizer,
+    "FeatureHasher": feature_extraction.FeatureHasher,
+
+    # for image data:
+    "PatchExtractor": feature_extraction.image.PatchExtractor,
+
+    # for text data:
+    "CountVectorizer": feature_extraction.text.CountVectorizer,
+    "HashingVectorizer": feature_extraction.text.HashingVectorizer,
+    "TfidfTransformer": feature_extraction.text.TfidfTransformer,
+    "TfidfVectorizer": feature_extraction.text.TfidfVectorizer,
+}
+
 SKLEARN_CROSS_DECOMPOSITION_TABLE = {
-    "PLSRegression": PLSRegression,
-    "PLSCanonical": PLSCanonical,
-    "CCA": CCA,
+    "PLSRegression": cross_decomposition.PLSRegression,
+    "PLSCanonical": cross_decomposition.PLSCanonical,
+    "CCA": cross_decomposition.CCA,
 }
 
 KEYS_NEED_PREPROCESSING_BEFORE_DESERIALIZATION = {
 
@@ -124,7 +124,7 @@ class UploadPayload(StandardPayload):
 
         class AttributeCallPayload(StandardPayload):
             attribute: str
-            args: list
+            args: dict
             kwargs: dict
 
         class AttributeTypePayload(StandardPayload):
 
@@ -0,0 +1,131 @@
+# -*- coding: utf-8 -*-
+"""PyMilo Feature Extraction transporter."""
+from scipy.sparse import csr_matrix
+
+from ..pymilo_param import SKLEARN_FEATURE_EXTRACTION_TABLE
+from ..utils.util import check_str_in_iterable, get_sklearn_type
+from .transporter import AbstractTransporter, Command
+from .general_data_structure_transporter import GeneralDataStructureTransporter
+from .randomstate_transporter import RandomStateTransporter
+
+FEATURE_EXTRACTION_CHAIN = {
+    "GeneralDataStructureTransporter": GeneralDataStructureTransporter(),
+    "RandomStateTransporter": RandomStateTransporter(),
+}
+
+
+class FeatureExtractorTransporter(AbstractTransporter):
+    """Feature Extractor object dedicated Transporter."""
+
+    def serialize(self, data, key, model_type):
+        """
+        Serialize Feature Extractor object.
+
+        serialize the data[key] of the given model which type is model_type.
+        basically in order to fully serialize a model, we should traverse over all the keys of its data dictionary and
+        pass it through the chain of associated transporters to get fully serialized.
+
+        :param data: the internal data dictionary of the given model
+        :type data: dict
+        :param key: the special key of the data param, which we're going to serialize its value(data[key])
+        :type key: object
+        :param model_type: the model type of the ML model, which data dictionary is given as the data param
+        :type model_type: str
+        :return: pymilo serialized output of data[key]
+        """
+        if self.is_fe_module(data[key]):
+            return self.serialize_fe_module(data[key])
+        return data[key]
+
+    def deserialize(self, data, key, model_type):
+        """
+        Deserialize previously pymilo serialized feature extraction object.
+
+        deserialize the data[key] of the given model which type is model_type.
+        basically in order to fully deserialize a model, we should traverse over all the keys of its serialized data dictionary and
+        pass it through the chain of associated transporters to get fully deserialized.
+
+        :param data: the internal data dictionary of the associated json file of the ML model which is generated previously by
+        pymilo export.
+        :type data: dict
+        :param key: the special key of the data param, which we're going to deserialize its value(data[key])
+        :type key: object
+        :param model_type: the model type of the ML model, which internal serialized data dictionary is given as the data param
+        :type model_type: str
+        :return: pymilo deserialized output of data[key]
+        """
+        content = data[key]
+        if self.is_fe_module(content):
+            return self.deserialize_fe_module(content)
+        return content
+
+    def is_fe_module(self, fe_module):
+        """
+        Check whether the given module is a sklearn Feature Extraction module or not.
+
+        :param fe_module: given object
+        :type fe_module: any
+        :return: bool
+        """
+        if isinstance(fe_module, dict):
+            return check_str_in_iterable(
+                "pymilo-feature_extraction-type",
+                fe_module) and fe_module["pymilo-feature_extraction-type"] in SKLEARN_FEATURE_EXTRACTION_TABLE
+        return get_sklearn_type(fe_module) in SKLEARN_FEATURE_EXTRACTION_TABLE
+
+    def serialize_fe_module(self, fe_module):
+        """
+        Serialize Feature Extraction object.
+
+        :param fe_module: given sklearn feature extraction module
+        :type fe_module: sklearn.feature_extraction
+        :return: pymilo serialized fe_module
+        """
+        # add one depth inner preprocessing module population
+        for key, value in fe_module.__dict__.items():
+            if self.is_fe_module(value):
+                fe_module.__dict__[key] = self.serialize_fe_module(value)
+            elif isinstance(value, csr_matrix):
+                fe_module.__dict__[key] = {
+                    "pymilo-bypass": True,
+                    "pymilo-csr_matrix": FEATURE_EXTRACTION_CHAIN["GeneralDataStructureTransporter"].serialize_dict(
+                        value.__dict__
+                    )
+                }
+
+        for transporter in FEATURE_EXTRACTION_CHAIN:
+            FEATURE_EXTRACTION_CHAIN[transporter].transport(
+                fe_module, Command.SERIALIZE)
+        return {
+            "pymilo-bypass": True,
+            "pymilo-feature_extraction-type": get_sklearn_type(fe_module),
+            "pymilo-feature_extraction-data": fe_module.__dict__
+        }
+
+    def deserialize_fe_module(self, serialized_fe_module):
+        """
+        Deserialize Feature Extraction object.
+
+        :param serialized_fe_module: serializezd feature extraction module(by pymilo)
+        :type serialized_fe_module: dict
+        :return: retrieved associated sklearn.feature_extraction module
+        """
+        data = serialized_fe_module["pymilo-feature_extraction-data"]
+        associated_type = SKLEARN_FEATURE_EXTRACTION_TABLE[serialized_fe_module["pymilo-feature_extraction-type"]]
+        retrieved_fe_module = associated_type()
+        for key in data:
+            # add one depth inner feature extraction module population
+            if self.is_fe_module(data[key]):
+                data[key] = self.deserialize_fe_module(data[key])
+            elif check_str_in_iterable("pymilo-csr_matrix", data[key]):
+                csr_matrix_dict = FEATURE_EXTRACTION_CHAIN["GeneralDataStructureTransporter"].get_deserialized_dict(
+                    data[key]["pymilo-csr_matrix"])
+                cm = csr_matrix(csr_matrix_dict['_shape'])
+                for _key in csr_matrix_dict:
+                    setattr(cm, _key, csr_matrix_dict[_key])
+                data[key] = cm
+            for transporter in FEATURE_EXTRACTION_CHAIN:
+                data[key] = FEATURE_EXTRACTION_CHAIN[transporter].deserialize(data, key, "")
+        for key in data:
+            setattr(retrieved_fe_module, key, data[key])
+        return retrieved_fe_module
@@ -30,7 +30,9 @@ def serialize_tuple(self, tuple_field):
                 new_tuple += (self.deep_serialize_ndarray(item),)
             else:
                 new_tuple += (item,)
-        return new_tuple
+        return {
+            "pymilo-tuple": new_tuple,
+        }
 
     # dict serializer for Logistic regression CV
     def serialize_dict(self, dictionary):
@@ -147,6 +149,11 @@ def serialize(self, data, key, model_type):
         elif isinstance(data[key], np.ndarray):
             data[key] = self.deep_serialize_ndarray(data[key])
 
+        elif isinstance(data[key], set):
+            data[key] = {
+                "pymilo-set": list(data[key])
+            }
+
         elif isinstance(data[key], dict):
             data[key] = self.serialize_dict(data[key])
 
@@ -213,6 +220,12 @@ def get_deserialized_dict(self, content):
         if not isinstance(content, dict):
             return content
 
+        if check_str_in_iterable("pymilo-tuple", content):
+            return tuple(self.get_deserialized_list(content["pymilo-tuple"]))
+
+        if check_str_in_iterable("pymilo-set", content):
+            return set(self.get_deserialized_list(content["pymilo-set"]))
+
         if self.is_deserialized_ndarray(content):
             return self.deep_deserialize_ndarray(content)
 
@@ -261,7 +274,9 @@ def get_deserialized_list(self, content):
         """
         new_list = []
         for item in content:
-            if self.is_deserialized_ndarray(item):
+            if check_str_in_iterable("pymilo-tuple", item):
+                new_list.append(tuple(self.get_deserialized_list(content["pymilo-tuple"])))
+            elif self.is_deserialized_ndarray(item):
                 new_list.append(self.deep_deserialize_ndarray(item))
             else:
                 new_list.append(self.deserialize_primitive_type(item))
@@ -281,7 +296,11 @@ def get_deserialized_regular_primary_types(self, content):
         """
         if "np-type" in content:
             if content["np-type"] == "numpy.dtype":
-                return NUMPY_TYPE_DICT[content["np-type"]](NUMPY_TYPE_DICT[content['value']])
+                if isinstance(content["value"], str):
+                    # when the value is the associated type name like numpy.float64
+                    return NUMPY_TYPE_DICT[content["value"]]
+                else:
+                    return NUMPY_TYPE_DICT[content["np-type"]](NUMPY_TYPE_DICT[content['value']])
             if content["np-type"] == "numpy.nan":
                 return NUMPY_TYPE_DICT[content["np-type"]]
             return NUMPY_TYPE_DICT[content["np-type"]](content['value'])