You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Segmentación Semántica a Nivel de Píxel sobre el Oxford-IIIT Pet Dataset
Información del Proyecto
Campo
Detalle
Institución
UTEC — Universidad de Ingeniería & Tecnología
Programa
Especialización en Ciencia de Datos y Machine Learning
Curso
Deep Learning (MIT Professional Education)
Autor
Gerardo Gonzalez
Fecha
Febrero 2026
Notebook
GG_uNet_Pet.ipynb
Descripción General
Este proyecto implementa la arquitectura U-Net desde cero para resolver un problema de segmentación semántica sobre el dataset público Oxford-IIIT Pet Dataset. El objetivo es asignar una etiqueta de clase a cada píxel de una imagen, identificando si pertenece al cuerpo de la mascota (primer plano), al fondo de la escena, o a la franja de borde que los delimita.
El notebook está autocontenido: cubre desde la configuración del entorno y la carga del dataset hasta el entrenamiento, evaluación cuantitativa, visualización de predicciones e inferencia sobre imágenes locales.
Arquitectura: U-Net
U-Net fue propuesta originalmente por Ronneberger, Fischer y Brox (2015) para segmentación de imágenes biomédicas y se ha convertido en una de las arquitecturas más utilizadas para predicción densa. Su característica definitoria es la estructura simétrica codificador–decodificador con conexiones de salto (skip connections).
Ejecutar las celdas en orden secuencial desde la sección 2.
Nota: El dataset se descarga automáticamente via tensorflow_datasets en la primera ejecución (~800 MB). Se recomienda GPU para acelerar el entrenamiento; el notebook es funcional en CPU con la resolución de 96×96 seleccionada.
Hallazgos Principales
La arquitectura U-Net, con ~7.8M parámetros entrenados sobre menos de 3,000 imágenes a 96×96, alcanza una pixel accuracy del 89.64% y un Dice de 0.831 en el conjunto de test.
Las skip connections son validadas empíricamente: los píxeles mal clasificados se concentran mayoritariamente en las fronteras de los objetos, confirmando que la información espacial de alta resolución es crítica.
La jerarquía de rendimiento por clase (Fondo > Mascota > Borde) se alinea con el desbalance de clases y la dificultad intrínseca de la segmentación de bordes delgados.
El modelo generaliza bien a la diversidad del dataset (37 razas, variación en pose, escala e iluminación), con el 81% de imágenes superando IoU = 0.7.
Trabajo Futuro
Mejora
Impacto esperado
Aumentar resolución a 256×256
Mejora significativa en IoU de Borde
Aumentación de datos más completa (deformaciones elásticas, jitter de color)
Mayor robustez a variabilidad intra-clase
Dice Loss / Focal Loss para desbalance de clases
Mejora del IoU en clase Borde
Backbone preentrenado (ResNet-34, EfficientNet)
Representaciones más ricas con dataset pequeño
Post-procesamiento con CRFs o morfología
Refinamiento de contornos sin reentrenamiento
Referencias
Ronneberger, O., Fischer, P., & Brox, T. (2015). U-Net: Convolutional Networks for Biomedical Image Segmentation. MICCAI.
Parkhi, O. M., Vedaldi, A., Zisserman, A., & Jawahar, C. V. (2012). Cats and Dogs. CVPR.
Cordts, M. et al. (2016). The Cityscapes Dataset for Semantic Urban Scene Understanding. CVPR.
Litjens, G. et al. (2017). A Survey on Deep Learning in Medical Image Analysis. Medical Image Analysis.
Proyecto desarrollado para el curso de Deep Learning — MIT Professional Education / UTEC, Especialización en Ciencia de Datos y Machine Learning.