Merge pull request #40 from basalt-org/perf

StijnWoestenborghs · web-flow · commit a3b7de7bafe6 · 2024-04-03T23:09:47.000+02:00
Add a simple perf metrics module for model
diff --git a/basalt/nn/model.mojo b/basalt/nn/model.mojo
@@ -1,10 +1,18 @@
 from collections.optional import Optional
 
+from sys import env_get_int
+
 from basalt import Graph, Symbol, Tensor, TensorShape
 from basalt.autograd.ops import forward_op, backward_op
 from basalt.utils.collection import Collection
 from basalt.utils.tensorutils import fill
 from .initializers import initialize_tensor
+from basalt.utils.perf_utils import PerfMetrics
+
+
+# When runing mojo -D DEBUG=1 -I . file, a crash happens at some point at runtime because of an error in linking it seems (because of using -I .)
+# For now it seems one has to change this variable manually to be able to run model with performance metrics.
+alias DEBUG = env_get_int["DEBUG", 0]()
 
 
 fn dv_contains(dv: List[Symbol], symbol: Symbol) -> Bool:
@@ -61,8 +69,15 @@ struct Model[
     n_inference_nodes: Optional[Int] = calc_n_inference_nodes(g),  # TODO: remove this
 ]():
     var parameters: Parameters[g]
+    var perf_metrics: PerfMetrics
 
     fn __init__(inout self, inference_only: Bool = False):
+        @parameter
+        if DEBUG == 1:
+            self.perf_metrics = PerfMetrics(g)
+        else:
+            self.perf_metrics = PerfMetrics()
+
         self.parameters = Parameters[g]()
         self.allocate_tensor_memory()
         self.allocate_grad_memory()
@@ -122,6 +137,11 @@ struct Model[
             alias out = g.nodes[i].output
             alias attrs = g.nodes[i].attributes
 
+            # Save start time for performance metrics
+            @parameter
+            if DEBUG == 1:
+                self.perf_metrics.start_forward_pass()
+
             @parameter
             if op.num_operands == 1:
                 # Unary operator
@@ -147,6 +167,11 @@ struct Model[
                     self.parameters.params[t3],
                 )
 
+            # Save end time for performance metrics
+            @parameter
+            if DEBUG == 1:
+                self.perf_metrics.end_forward_pass(i)
+
         unroll[fw_unroll, num_nodes]()
 
     fn backward(inout self):
@@ -166,6 +191,11 @@ struct Model[
             alias t1 = g.nodes[reverse_i].input_1
             alias attrs = g.nodes[reverse_i].attributes
 
+            # Save start time for performance metrics
+            @parameter
+            if DEBUG == 1:
+                self.perf_metrics.start_backward_pass()
+
             @parameter
             if op.num_operands == 1:
                 # Unary operator
@@ -234,6 +264,11 @@ struct Model[
                         self.parameters.grads[t3],  # grad to be updated: input_3
                     )
 
+            # Save end time for performance metrics
+            @parameter
+            if DEBUG == 1:
+                self.perf_metrics.end_backward_pass(i)
+
         unroll[bw_unroll, g.nodes.size]()
 
     fn allocate_tensor_memory(inout self):
@@ -282,3 +317,7 @@ struct Model[
             var out = g.nodes[i].output
             if out.trainable:
                 self.parameters.grads.append(Tensor[dtype](out.shape), out)
+
+    fn print_perf_metrics(self, time_format: String = "ns", print_shape: Bool = False):
+        self.perf_metrics.print_forward_perf_metrics(time_format, print_shape)
+        self.perf_metrics.print_backward_perf_metrics(time_format, print_shape)
diff --git a/basalt/utils/dataloader.mojo b/basalt/utils/dataloader.mojo
@@ -97,13 +97,14 @@ struct DataLoader:
         # self._data_shape[0] = end - self._current_index
         # self._label_shape[0] = end - self._current_index
 
+        var temp_current_index = self._current_index
         self._current_index += self.batch_size
         self._num_batches -= 1
 
         return Batch[dtype](
             self.data,
             self.labels,
-            self._current_index,
+            temp_current_index,
             self._data_batch_shape,
             self._label_batch_shape,
         )
diff --git a/basalt/utils/perf_utils.mojo b/basalt/utils/perf_utils.mojo
@@ -0,0 +1,222 @@
+from time import now
+from math import min
+from memory import memset, memcpy
+
+from basalt.autograd.node import Node
+
+
+fn fit_string[num: Int](s: String) -> String:
+    var data = DTypePointer[DType.int8]().alloc(num + 1)
+
+    # Copy the the string up to the length of the buffer
+    # Fill the rest with spaces & Terminate with zero byte
+    memcpy(data, s._as_ptr(), min(num, len(s)))
+    if num - min(num, len(s)) > 0:
+        memset(data + min(num, len(s)), ord(" "), num - min(num, len(s)))
+    data[num] = 0
+
+    return String(data, num + 1)
+
+
+fn truncate_decimals[num: Int](s: String) -> String:
+    var truncated: String
+    try:
+        var p1 = s.split(delimiter=".")
+        truncated = p1[0]
+        if len(p1) > 1:
+            var p2 = p1[1].split(delimiter="e")
+            truncated += "." + fit_string[num](p2[0])
+            if len(p2) > 1:
+                truncated += "e" + p2[1]
+
+    except e:
+        print("[WARNING] could not truncate decimals: ", e)
+        truncated = s
+    return truncated
+
+
+@value
+struct PerfMetricsValues(CollectionElement):
+    var node: Node
+    var time: Float64
+
+    fn __init__(inout self, node: Node, time: Float64):
+        self.node = node
+        self.time = time
+
+
+@value
+struct PerfMetrics:
+    # values are in "ns"
+    # using perf_metrics can reduce the speed of each epoch of the model a little bit
+    var forward_perf_metrics: List[PerfMetricsValues]
+    var backward_perf_metrics: List[PerfMetricsValues]
+    var epochs_forward: Int
+    var epochs_backward: Int
+    var start: Int
+
+    fn __init__(inout self):
+        self.forward_perf_metrics = List[PerfMetricsValues]()
+        self.backward_perf_metrics = List[PerfMetricsValues]()
+        self.epochs_forward = 0
+        self.epochs_backward = 0
+        self.start = 0
+
+    fn __init__(inout self, graph: Graph):
+        self.forward_perf_metrics = List[PerfMetricsValues]()
+        self.backward_perf_metrics = List[PerfMetricsValues]()
+
+        for i in range(graph.nodes.size):
+            self.forward_perf_metrics.append(PerfMetricsValues(graph.nodes[i], 0.0))
+            self.backward_perf_metrics.append(PerfMetricsValues(graph.nodes[i], 0.0))
+
+        self.epochs_forward = 0
+        self.epochs_backward = 0
+        self.start = 0
+
+    fn start_forward_pass(inout self):
+        self.start = now()
+
+    fn end_forward_pass(inout self, pos: Int):
+        # Change this to use references when list has them available
+        var old_value = self.forward_perf_metrics[pos]
+        self.forward_perf_metrics[pos] = PerfMetricsValues(
+            old_value.node, old_value.time + (now() - self.start)
+        )
+        self.epochs_forward += 1
+
+    fn start_backward_pass(inout self):
+        self.start = now()
+
+    fn end_backward_pass(inout self, pos: Int):
+        var old_value = self.backward_perf_metrics[pos]
+        self.backward_perf_metrics[pos] = PerfMetricsValues(
+            old_value.node, old_value.time + (now() - self.start)
+        )
+        self.epochs_backward += 1
+
+    fn print_perf_metrics[
+        type_part: String
+    ](self, time_format: String = "ns", print_shape: Bool = False):
+        # Calculates the average time for each node operation.
+
+        if type_part == "Forward" and len(self.forward_perf_metrics) == 0:
+            return
+        if type_part == "Backward" and len(self.backward_perf_metrics) == 0:
+            return
+
+        if type_part == "Forward":
+            print("\n\nForward pass performance metrics:")
+        else:
+            print("\n\nBackward pass performance metrics:")
+
+        var total_time: SIMD[DType.float64, 1] = 0
+
+        var size: Int = 0
+
+        @parameter
+        if type_part == "Forward":
+            size = len(self.forward_perf_metrics)
+        elif type_part == "Backward":
+            size = len(self.backward_perf_metrics)
+        for i in range(size):
+
+            @parameter
+            if type_part == "Forward":
+                total_time += self.forward_perf_metrics[i].time / self.epochs_forward
+            elif type_part == "Backward":
+                total_time += self.backward_perf_metrics[i].time / self.epochs_backward
+
+        # 1. Header
+        var header = fit_string[5]("Node") + "| " + fit_string[15](
+            "Operator"
+        ) + "| " + fit_string[20]("Time [" + time_format + "]") + "| " + fit_string[20](
+            "Percentage [%]"
+        )
+        if print_shape:
+            header += "| " + fit_string[70]("Shape\t <out> = OP( <in1>, <in2>, <in3> )")
+        print(header)
+
+        # 2. Seperator
+        var sep = DTypePointer[DType.int8]().alloc(len(header) + 1)
+        memset(sep, ord("-"), len(header))
+        sep[len(header)] = 0
+        var seperator = String(sep, len(header) + 1)
+        print(seperator)
+
+        # 3. Perf Data
+        for i in range(len(self.forward_perf_metrics)):
+            var value: PerfMetricsValues
+
+            @parameter
+            if type_part == "Forward":
+                value = self.forward_perf_metrics[i]
+            else:
+                value = self.backward_perf_metrics[i]
+
+            var time = value.time
+
+            @parameter
+            if type_part == "Forward":
+                time = time / self.epochs_forward
+            else:
+                time = time / self.epochs_backward
+
+            var time_converted = time
+            if time_format == "ms":
+                time_converted = time / 1e6
+            elif time_format == "s":
+                time_converted = time / 1e9
+
+            var print_value = fit_string[5](str(i)) + "| " + fit_string[15](
+                value.node.operator
+            ) + "| " + fit_string[20](
+                truncate_decimals[4](time_converted)
+            ) + "| " + fit_string[
+                20
+            ](
+                truncate_decimals[3]((time / total_time) * 100) + " %"
+            ) + "| "
+
+            if print_shape:
+                var shape_str: String = ""
+                shape_str += fit_string[15]("<" + str(value.node.output.shape) + ">")
+                shape_str += fit_string[7](" = OP(")
+                shape_str += fit_string[15]("<" + str(value.node.input_1.shape) + ">")
+                if value.node.input_2:
+                    shape_str += ", " + fit_string[15](
+                        "<" + str(value.node.input_2.value().shape) + ">"
+                    )
+                if value.node.input_3:
+                    shape_str += ", " + fit_string[15](
+                        "<" + str(value.node.input_3.value().shape) + ">"
+                    )
+                shape_str += ")"
+
+                print_value += shape_str
+
+            print(print_value)
+
+        var total_time_converted = total_time
+        if time_format == "ms":
+            total_time_converted = total_time / 1e6
+        elif time_format == "s":
+            total_time_converted = total_time / 1e9
+        print(
+            "\nTotal average "
+            + type_part
+            + " time: "
+            + str(total_time_converted)
+            + " "
+            + time_format
+        )
+
+    fn print_forward_perf_metrics(
+        self, time_format: String = "ns", print_shape: Bool = False
+    ):
+        self.print_perf_metrics["Forward"](time_format, print_shape)
+
+    fn print_backward_perf_metrics(
+        self, time_format: String = "ns", print_shape: Bool = False
+    ):
+        self.print_perf_metrics["Backward"](time_format, print_shape)
diff --git a/examples/mnist.mojo b/examples/mnist.mojo
@@ -122,3 +122,6 @@ fn main():
         print("Epoch time: ", (now() - epoch_start) / 1e9, "seconds")
 
     print("Training finished: ", (now() - start) / 1e9, "seconds")
+
+
+    model.print_perf_metrics("ms", True)