huangzhenjie
diff --git a/‎CMakeLists.txt
Lines changed: 2 additions & 1 deletion b/‎CMakeLists.txt
Lines changed: 2 additions & 1 deletion
diff --git a/‎README.md
Lines changed: 4 additions & 3 deletions b/‎README.md
Lines changed: 4 additions & 3 deletions
diff --git a/‎application/yolov8_app/README.md
Lines changed: 10 additions & 2 deletions b/‎application/yolov8_app/README.md
Lines changed: 10 additions & 2 deletions
diff --git a/‎application/yolov8_app/yolov8_pose_cuda/yolov8_pose.cpp
Lines changed: 228 additions & 0 deletions b/‎application/yolov8_app/yolov8_pose_cuda/yolov8_pose.cpp
Lines changed: 228 additions & 0 deletions
diff --git a/‎application/yolov8_app/yolov8_pose_cuda/yolov8_pose.hpp
Lines changed: 64 additions & 0 deletions b/‎application/yolov8_app/yolov8_pose_cuda/yolov8_pose.hpp
Lines changed: 64 additions & 0 deletions
diff --git a/‎assets/yolov8_det_seg_pose_res.png
1.48 MB b/‎assets/yolov8_det_seg_pose_res.png
1.48 MB
@@ -58,7 +58,8 @@ cuda_add_library(utils_cu_cpp SHARED ${cpp_cuda_srcs})
 
 # add_executable(infer mains/main_yolov8_det.cpp)
 # add_executable(infer mains/main_yolov8_seg.cpp)
-add_executable(infer mains/main_rtdetr.cpp)
+add_executable(infer mains/main_yolov8_pose.cpp)
+# add_executable(infer mains/main_rtdetr.cpp)
 # 8. 链接要所有要用到的so库
 target_link_libraries(infer
     utils_cu_cpp # 调用上面编译好的so库
 
@@ -9,7 +9,7 @@
     - [导出YOLOv8-Engine模型教程](application/yolov8_app/README.md)
     - [yolov8-detection cuda版本](application/yolov8_app/yolov8_det_cuda)
     - [yolov8-segment cuda版本](application/yolov8_app/yolov8_seg_cuda)
-    - [yolov8-pose cuda版本](coming soon)
+    - [yolov8-pose cuda版本](application/yolov8_app/yolov8_pose_cuda)
 ## 其他backend推理代码
 - [ Openvino ] coming soon
 - [ NCNN ] coming soon
@@ -31,8 +31,8 @@ AiInfer
       |--memory.hpp # 有关cpu、gpu内存申请和释放的工具类
       |--model_info.hpp # 有关模型的前后处理的常用参数定义，例如均值方差、nms阈值等
       |--utils.hpp # cpp中常用到的工具函数，计时、mkdir等
-    |--post_process # 后处理实现目录，包括cpp和cuda后处理加速
-    |--pre_process # 前处理实现目录，包括cpp和cuda前处理加速
+    |--post_process # 后处理实现目录，cuda后处理加速,如果你有自定义的后处理也可以写在这里
+    |--pre_process # 前处理实现目录，cuda前处理加速,如果你有自定义的前处理也可以写在这里
   |--workspaces # 工作目录，里面可以放一些测试图片/视频、模型，然后在main.cpp中直接使用相对路径
   |--mains # 这里面是main.cpp合集，这里采用每个app单独对应一个main文件，便于理解，写一起太冗余
 ```
@@ -43,6 +43,7 @@ AiInfer
 
 - linux推荐使用VSCode,windows推荐使用visual studio 2019
 - 安装显卡驱动、cuda、cudnn、opencv、tensorrt [安装教程](https://zhuanlan.zhihu.com/p/624170244)
+
 </details>
 
 <details>
 
@@ -10,6 +10,12 @@ if dynamic:
         dynamic['output1'] = {0: 'batch', 2: 'mask_height', 3: 'mask_width'}
     elif isinstance(self.model, DetectionModel):
         dynamic['output0'] = {0: 'batch'}
+
+# 补充，注意导出yolov-pose任务的时候有些小问题，作者对pose分支的score进行sigmoid直接使用的是tensor.simoid_()
+  # 这种replace方法，onnx导出时并不把这种当做sigmoid算子导出，所以pose score分支是有问题的，解决：
+  # ultralytics/nn/modules.py Pose类的kpts_decode方法，
+  y[:, 2::3].sigmoid_() # 修改成下面这种形式即可
+  y[:, 2::3] = y[:, 2::3].sigmoid()
 ```
 - 然后使用下面的命令对yolov8的各任务模型进行导出即可，注意，默认的imgsz是640x640,这个根据你实际情况更改
 ```bash
@@ -25,7 +31,7 @@ yolo export \
 - yolov8检测分支导出onnx shape=[-1,box_num+cls_num,8400]，框维度在最后这就带来一个框内存不连续的问题，解决：
 ```bash
 # 前言：yolov3/4/5/x/6/7人家都是[-1,8400,box_num+cls_num],你yolov8咋恁特立独行呢，干他，必须干他
-# 使用assets/yolov8_onnx_trans.py直接转换最后一层layer的维度，适用于detect和segment，pose不需要
+# 使用assets/yolov8_onnx_trans.py直接转换最后一层layer的维度[detect,segment,pose都要转换]，就是将8400这个维度放到前面
 ```
 ### yolov8的onnx生成engine文件
 - fp16量化生成的命令如下，这个精度损失不大，可以直接使用trtexec完成
@@ -42,4 +48,6 @@ trtexec --onnx=xxx_det_seg_pose_trans.onnx \
   - [商汤的ppq的int8量化工具,支持tensorrt|openvino|mnn|ncnn|...](https://github.com/openppl-public/ppq)
   - [ppq不会使用的看yolov6的量化教程:](https://github.com/meituan/YOLOv6/tree/main/tools/quantization/ppq)
 
-**然后将生成的engine模型送入到该项目中进行推理即可**
+**然后将生成的engine模型送入到该项目中进行推理即可**
+### 下面展示一下使用该项目的推理结果
+![yolov8](../../assets/yolov8_det_seg_pose_res.png)
@@ -0,0 +1,228 @@
+#include "yolov8_pose.hpp"
+namespace tensorrt_infer
+{
+    namespace yolov8_cuda
+    {
+        void YOLOv8Pose::initParameters(const std::string &engine_file, float score_thr, float nms_thr)
+        {
+            if (!file_exist(engine_file))
+            {
+                INFO("Error: engine_file is not exist!!!");
+                exit(0);
+            }
+
+            this->model_info = std::make_shared<ModelInfo>();
+            // 传入参数的配置
+            model_info->m_modelPath = engine_file;
+            model_info->m_postProcCfg.confidence_threshold_ = score_thr;
+            model_info->m_postProcCfg.nms_threshold_ = nms_thr;
+
+            this->model_ = trt::infer::load(engine_file); // 加载infer对象
+            this->model_->print();                        // 打印engine的一些基本信息
+
+            // 获取输入的尺寸信息
+            auto input_dim = this->model_->get_network_dims(0); // 获取输入维度信息
+            model_info->m_preProcCfg.infer_batch_size = input_dim[0];
+            model_info->m_preProcCfg.network_input_channels_ = input_dim[1];
+            model_info->m_preProcCfg.network_input_height_ = input_dim[2];
+            model_info->m_preProcCfg.network_input_width_ = input_dim[3];
+            model_info->m_preProcCfg.network_input_numel = input_dim[1] * input_dim[2] * input_dim[3];
+            model_info->m_preProcCfg.isdynamic_model_ = this->model_->has_dynamic_dim();
+            // 对输入的图片预处理进行配置,即，yolov8的预处理是除以255，并且是RGB通道输入
+            model_info->m_preProcCfg.normalize_ = Norm::alpha_beta(1 / 255.0f, 0.0f, ChannelType::RGB);
+
+            // 获取输出的尺寸信息
+            auto output_dim = this->model_->get_network_dims(1);
+            model_info->m_postProcCfg.bbox_head_dims_ = output_dim;
+            model_info->m_postProcCfg.bbox_head_dims_output_numel_ = output_dim[1] * output_dim[2];
+            if (model_info->m_postProcCfg.pose_num_ == 0)
+                model_info->m_postProcCfg.pose_num_ = (int)((output_dim[2] - 5) / 3);             // yolov8 pose,5:xmin,ymin,xmax,ymax,score
+            model_info->m_postProcCfg.NUM_BOX_ELEMENT += model_info->m_postProcCfg.pose_num_ * 3; // 3:pose_x,pose_y,pose_score
+            model_info->m_postProcCfg.IMAGE_MAX_BOXES_ADD_ELEMENT = model_info->m_postProcCfg.MAX_IMAGE_BOXES * model_info->m_postProcCfg.NUM_BOX_ELEMENT;
+
+            CHECK(cudaStreamCreate(&cu_stream)); // 创建cuda流
+        }
+
+        YOLOv8Pose::~YOLOv8Pose()
+        {
+            CHECK(cudaStreamDestroy(cu_stream)); // 销毁cuda流
+        }
+
+        void YOLOv8Pose::adjust_memory(int batch_size)
+        {
+            // 申请模型输入和模型输出所用到的内存
+            input_buffer_.gpu(batch_size * model_info->m_preProcCfg.network_input_numel);           // 申请batch个模型输入的gpu内存
+            bbox_predict_.gpu(batch_size * model_info->m_postProcCfg.bbox_head_dims_output_numel_); // 申请batch个模型输出的gpu内存
+
+            // 申请模型解析成box时需要存储的内存,,+32是因为第一个数要设置为框的个数，防止内存溢出
+            output_boxarray_.gpu(batch_size * (32 + model_info->m_postProcCfg.IMAGE_MAX_BOXES_ADD_ELEMENT));
+            output_boxarray_.cpu(batch_size * (32 + model_info->m_postProcCfg.IMAGE_MAX_BOXES_ADD_ELEMENT));
+
+            if ((int)preprocess_buffers_.size() < batch_size)
+            {
+                for (int i = preprocess_buffers_.size(); i < batch_size; ++i)
+                    preprocess_buffers_.push_back(make_shared<Memory<unsigned char>>()); // 添加batch个Memory对象
+            }
+
+            // 申请batch size个仿射矩阵，由于也是动态batch指定，所以直接在这里写了
+            if ((int)affine_matrixs.size() < batch_size)
+            {
+                for (int i = affine_matrixs.size(); i < batch_size; ++i)
+                    affine_matrixs.push_back(AffineMatrix()); // 添加batch个AffineMatrix对象
+            }
+        }
+
+        void YOLOv8Pose::preprocess_gpu(int ibatch, const Image &image,
+                                        shared_ptr<Memory<unsigned char>> preprocess_buffer, AffineMatrix &affine,
+                                        cudaStream_t stream_)
+        {
+            if (image.channels != model_info->m_preProcCfg.network_input_channels_)
+            {
+                INFO("Warning : Number of channels wanted differs from number of channels in the actual image \n");
+                exit(-1);
+            }
+
+            affine.compute(make_tuple(image.width, image.height),
+                           make_tuple(model_info->m_preProcCfg.network_input_width_, model_info->m_preProcCfg.network_input_height_));
+            float *input_device = input_buffer_.gpu() + ibatch * model_info->m_preProcCfg.network_input_numel; // 获取当前batch的gpu内存指针
+            size_t size_image = image.width * image.height * image.channels;
+            size_t size_matrix = upbound(sizeof(affine.d2i), 32);                      // 向上取整
+            uint8_t *gpu_workspace = preprocess_buffer->gpu(size_matrix + size_image); // 这里把仿射矩阵+image_size放在一起申请gpu内存
+            float *affine_matrix_device = (float *)gpu_workspace;
+            uint8_t *image_device = gpu_workspace + size_matrix; // 这里只取仿射变换矩阵的gpu内存
+
+            // 同上，只不过申请的是cpu内存
+            uint8_t *cpu_workspace = preprocess_buffer->cpu(size_matrix + size_image);
+            float *affine_matrix_host = (float *)cpu_workspace;
+            uint8_t *image_host = cpu_workspace + size_matrix;
+
+            // 赋值这一步并不是多余的，这个是从分页内存到固定页内存的数据传输，可以加速向gpu内存进行数据传输
+            memcpy(image_host, image.bgrptr, size_image);               // 给图片内存赋值
+            memcpy(affine_matrix_host, affine.d2i, sizeof(affine.d2i)); // 给仿射变换矩阵内存赋值
+
+            // 从cpu-->gpu,其中image_host也可以替换为image.bgrptr然后删除上面几行，但会慢个0.02ms左右
+            checkRuntime(cudaMemcpyAsync(image_device, image_host, size_image, cudaMemcpyHostToDevice, stream_)); // 图片 cpu内存上传到gpu内存
+            checkRuntime(cudaMemcpyAsync(affine_matrix_device, affine_matrix_host, sizeof(affine.d2i),
+                                         cudaMemcpyHostToDevice, stream_)); // 仿射变换矩阵 cpu内存上传到gpu内存
+            // 执行resize+fill[114]
+            warp_affine_bilinear_and_normalize_plane(image_device, image.width * image.channels, image.width,
+                                                     image.height, input_device, model_info->m_preProcCfg.network_input_width_,
+                                                     model_info->m_preProcCfg.network_input_height_, affine_matrix_device, const_value,
+                                                     model_info->m_preProcCfg.normalize_, stream_);
+        }
+
+        void YOLOv8Pose::postprocess_gpu(int ibatch, cudaStream_t stream_)
+        {
+            // boxarray_device：对推理结果进行解析后要存储的gpu指针
+            float *boxarray_device = output_boxarray_.gpu() + ibatch * (32 + model_info->m_postProcCfg.IMAGE_MAX_BOXES_ADD_ELEMENT);
+            // affine_matrix_device：获取仿射变换矩阵+size_image的gpu指针，主要是用来是的归一化的框尺寸放缩至相对于图片尺寸
+            float *affine_matrix_device = (float *)preprocess_buffers_[ibatch]->gpu();
+            // image_based_bbox_output:推理结果产生的所有预测框的gpu指针
+            float *image_based_bbox_output = bbox_predict_.gpu() + ibatch * model_info->m_postProcCfg.bbox_head_dims_output_numel_;
+
+            checkRuntime(cudaMemsetAsync(boxarray_device, 0, sizeof(int), stream_));
+            decode_pose_yolov8_kernel_invoker(image_based_bbox_output, model_info->m_postProcCfg.bbox_head_dims_[1], model_info->m_postProcCfg.pose_num_,
+                                              model_info->m_postProcCfg.bbox_head_dims_[2], model_info->m_postProcCfg.confidence_threshold_,
+                                              affine_matrix_device, boxarray_device, model_info->m_postProcCfg.MAX_IMAGE_BOXES,
+                                              model_info->m_postProcCfg.NUM_BOX_ELEMENT, stream_);
+
+            // 对筛选后的框进行nms操作
+            nms_kernel_invoker(boxarray_device, model_info->m_postProcCfg.nms_threshold_, model_info->m_postProcCfg.MAX_IMAGE_BOXES,
+                               model_info->m_postProcCfg.NUM_BOX_ELEMENT, stream_);
+        }
+
+        BatchPoseBoxArray YOLOv8Pose::parser_box(int num_image)
+        {
+            BatchPoseBoxArray arrout(num_image);
+            for (int ib = 0; ib < num_image; ++ib)
+            {
+                float *parray = output_boxarray_.cpu() + ib * (32 + model_info->m_postProcCfg.IMAGE_MAX_BOXES_ADD_ELEMENT);
+                int count = min(model_info->m_postProcCfg.MAX_IMAGE_BOXES, (int)*parray);
+                PoseBoxArray &output = arrout[ib];
+                output.reserve(count); // 增加vector的容量大于或等于count的值
+                for (int i = 0; i < count; ++i)
+                {
+                    float *pbox = parray + 1 + i * model_info->m_postProcCfg.NUM_BOX_ELEMENT;
+                    int label = pbox[5];
+                    int keepflag = pbox[6];
+                    if (keepflag == 1)
+                    {
+                        PoseBox result_object_box(pbox[0], pbox[1], pbox[2], pbox[3], pbox[4], label);
+                        result_object_box.pose = make_shared<InstancePose>();
+                        for (int pindex = 7; pindex < model_info->m_postProcCfg.NUM_BOX_ELEMENT; pindex += 3)
+                            result_object_box.pose->pose_data.push_back({pbox[pindex], pbox[pindex + 1], pbox[pindex + 2]});
+                        output.emplace_back(result_object_box);
+                    }
+                }
+            }
+
+            return arrout;
+        }
+
+        PoseBoxArray YOLOv8Pose::forward(const Image &image)
+        {
+            auto output = forwards({image});
+            if (output.empty())
+                return {};
+            return output[0];
+        }
+
+        BatchPoseBoxArray YOLOv8Pose::forwards(const std::vector<Image> &images)
+        {
+            int num_image = images.size();
+            if (num_image == 0)
+                return {};
+
+            // 动态设置batch size
+            auto input_dims = model_->get_network_dims(0);
+            if (model_info->m_preProcCfg.infer_batch_size != num_image)
+            {
+                if (model_info->m_preProcCfg.isdynamic_model_)
+                {
+                    model_info->m_preProcCfg.infer_batch_size = num_image;
+                    input_dims[0] = num_image;
+                    if (!model_->set_network_dims(0, input_dims)) // 重新绑定输入batch，返回值类型是bool
+                        return {};
+                }
+                else
+                {
+                    if (model_info->m_preProcCfg.infer_batch_size < num_image)
+                    {
+                        INFO(
+                            "When using static shape model, number of images[%d] must be "
+                            "less than or equal to the maximum batch[%d].",
+                            num_image, model_info->m_preProcCfg.infer_batch_size);
+                        return {};
+                    }
+                }
+            }
+
+            // 由于batch size是动态的，所以需要对gpu/cpu内存进行动态的申请
+            adjust_memory(model_info->m_preProcCfg.infer_batch_size);
+
+            // 对图片进行预处理
+            for (int i = 0; i < num_image; ++i)
+                preprocess_gpu(i, images[i], preprocess_buffers_[i], affine_matrixs[i], cu_stream); // input_buffer_会获取到图片预处理好的值
+
+            // 推理模型
+            float *bbox_output_device = bbox_predict_.gpu();                  // 获取推理后要存储结果的gpu指针
+            vector<void *> bindings{input_buffer_.gpu(), bbox_output_device}; // 绑定bindings作为输入进行forward
+            if (!model_->forward(bindings, cu_stream))
+            {
+                INFO("Failed to tensorRT forward.");
+                return {};
+            }
+
+            // 对推理结果进行解析
+            for (int ib = 0; ib < num_image; ++ib)
+                postprocess_gpu(ib, cu_stream);
+
+            // 将nms后的框结果从gpu内存传递到cpu内存
+            checkRuntime(cudaMemcpyAsync(output_boxarray_.cpu(), output_boxarray_.gpu(),
+                                         output_boxarray_.gpu_bytes(), cudaMemcpyDeviceToHost, cu_stream));
+            checkRuntime(cudaStreamSynchronize(cu_stream)); // 阻塞异步流，等流中所有操作执行完成才会继续执行
+
+            return parser_box(num_image);
+        }
+    }
+}
@@ -0,0 +1,64 @@
+#ifndef _YOLOV8_POSE_CUDA_HPP_
+#define _YOLOV8_POSE_CUDA_HPP_
+#include <memory>
+#include "backend/tensorrt/trt_infer.hpp"
+#include "common/model_info.hpp"
+#include "common/utils.hpp"
+#include "common/cv_cpp_utils.hpp"
+#include "common/memory.hpp"
+#include "pre_process/pre_process.cuh"
+#include "post_process/post_process.cuh"
+
+namespace tensorrt_infer
+{
+    namespace yolov8_cuda
+    {
+        using namespace ai::modelInfo;
+        using namespace ai::utils;
+        using namespace ai::cvUtil;
+        using namespace ai::memory;
+        using namespace ai::preprocess;
+        using namespace ai::postprocess;
+
+        class YOLOv8Pose
+        {
+        public:
+            YOLOv8Pose() = default;
+            ~YOLOv8Pose();
+            void initParameters(const std::string &engine_file, float score_thr = 0.5f,
+                                float nms_thr = 0.45f); // 初始化参数
+            void adjust_memory(int batch_size);         // 由于batch size是动态的，所以需要对gpu/cpu内存进行动态的申请
+
+            // forward
+            PoseBoxArray forward(const Image &image);
+            BatchPoseBoxArray forwards(const std::vector<Image> &images);
+
+            // 模型前后处理
+            void preprocess_gpu(int ibatch, const Image &image,
+                                shared_ptr<Memory<unsigned char>> preprocess_buffer, AffineMatrix &affine,
+                                cudaStream_t stream_);
+            void postprocess_gpu(int ibatch, cudaStream_t stream_);
+            BatchPoseBoxArray parser_box(int num_image);
+
+        private:
+            std::shared_ptr<ai::backend::Infer> model_;
+            std::shared_ptr<ModelInfo> model_info = nullptr;
+
+            // 仿射矩阵的声明
+            std::vector<AffineMatrix> affine_matrixs;
+            const uint8_t const_value = 114; // 图片resize补边时的值
+
+            // 使用自定义的Memory类用来申请gpu/cpu内存
+            std::vector<std::shared_ptr<Memory<unsigned char>>> preprocess_buffers_;
+            Memory<float> input_buffer_, bbox_predict_, output_boxarray_;
+
+            // 使用cuda流进行操作
+            cudaStream_t cu_stream;
+
+            // time
+            Timer timer;
+        };
+    }
+}
+
+#endif // _YOLOV8_POSE_CUDA_HPP_