Saltar a contenido

📚 Recursos y Referencias

Esta sección consolida todas las lecturas, tutoriales y recursos utilizados a lo largo del curso de Ingeniería de Datos, organizados por unidad temática.

📅 Última actualización: 16 de Noviembre de 2025
🎓 Curso: Ingeniería de Datos - Universidad Católica del Uruguay
👨‍🏫 Instructor: Prof. Juan F. Kurucz
📖 Programa completo: Syllabus 2025


🔗 Enlaces Principales

Recurso Descripción Enlace
📂 Portfolio GitHub Repositorio con todos los proyectos y notebooks github.com/milagroscancela/portfolio-ia
📘 MkDocs Material Documentación del framework usado para este sitio squidfunk.github.io/mkdocs-material
🗃️ Kaggle Datasets Fuente de datasets abiertos utilizados kaggle.com/datasets

📖 Unidad Temática 1: EDA & Fuentes de Datos

🎯 Competencias Desarrolladas

En esta unidad aprendí a:

  • 📊 Cargar y explorar datasets de diferentes formatos (CSV, JSON, SQLite)
  • 🔍 Aplicar técnicas básicas de EDA con pandas
  • 📈 Crear visualizaciones informativas con matplotlib/seaborn
  • 📝 Documentar hallazgos usando MkDocs para mi portafolio
  • 💡 Interpretar resultados de análisis exploratorio
  • 🔧 Configurar entornos de desarrollo colaborativo con GitHub

📕 Lecturas Mínimas

Evaluación: 20 de Agosto

Estas lecturas fueron obligatorias para la evaluación del 20/08

  1. Brust, A. V. (2023). Ciencia de Datos para Gente Sociable
    📘 Capítulos 1–4
    🔗 Leer online

  2. Google. Good Data Analysis
    📘 Secciones: Introducción, Mindset, Technical
    🔗 Guía oficial


📚 Lecturas Complementarias

Documentación Oficial

Herramienta Enlace Descripción
Pandas pandas.pydata.org/docs Documentación completa de pandas
Matplotlib matplotlib.org/stable Guía de visualización con matplotlib
Seaborn seaborn.pydata.org Statistical data visualization
MkDocs mkdocs.org Documentación de sitios estáticos

Cursos Interactivos de Kaggle

Recomendación

Estos cursos son prácticos y toman ~3-4 horas cada uno

  • 🐼 Pandas Mini-Course
    Temas: Creating, Reading and Writing; Indexing, Selecting & Assigning; Summary Functions; Grouping and Sorting
    🔗 kaggle.com/learn/pandas

  • 📊 Data Visualization
    Temas: Line charts, bar charts, heatmaps, scatter plots, distributions
    🔗 kaggle.com/learn/data-visualization


🧹 Unidad Temática 2: Calidad de Datos & Ética

🎯 Competencias Desarrolladas

En esta unidad desarrollé habilidades para:

  • 🔬 Distinguir entre tipos de missing data (MCAR, MAR, MNAR) en datasets reales
  • 🎯 Detectar patrones de datos faltantes y outliers
  • 🛠️ Aplicar estrategias de imputación apropiadas según el contexto
  • ⚙️ Implementar pipelines de limpieza reproducibles
  • 🚫 Prevenir data leakage usando validación cruzada adecuada
  • ⚖️ Identificar y mitigar sesgo en datasets históricos
  • 📐 Evaluar fairness usando métricas estándar (Fairlearn)
  • 📋 Documentar decisiones éticas en el tratamiento de datos

📕 Lecturas Mínimas

Evaluación: 3 de Septiembre

Estas lecturas fueron obligatorias para la evaluación del 03/09

  1. Zheng, A., & Casari, A. (2018). Feature Engineering for Machine Learning
    📚 Editorial: O'Reilly Media
    📘 Capítulos estudiados:

  2. Cap. 1: ML Pipeline

  3. Cap. 2: Fancy Tricks with Simple Numbers
  4. Cap. 4: Effects of Feature Scaling

🔗 Libro en O'Reilly

  1. Kaggle - Data Cleaning
    📘 Curso completo: Handling missing values, scaling, parsing dates, character encodings
    🔗 kaggle.com/learn/data-cleaning

  2. Kaggle - Intermediate ML: Data Leakage
    📘 Módulo específico sobre prevención de leakage
    🔗 Lección: Data Leakage

  3. Kaggle - Intro to AI Ethics
    📘 Módulos: Identifying Bias in AI; AI Fairness
    🔗 kaggle.com/learn/intro-to-ai-ethics


📚 Lecturas Complementarias

Recursos de Google & Microsoft

Tema Fuente Enlace
ML Fairness Google ML Crash Course developers.google.com/machine-learning/crash-course/fairness
Fairlearn Microsoft - Bias mitigation fairlearn.org

Documentación Técnica


🔧 Unidad Temática 3: Feature Engineering

🎯 Competencias Desarrolladas

En esta unidad trabajé en:

  • 🏗️ Crear features derivadas relevantes según el dominio del problema
  • 🔤 Aplicar técnicas avanzadas de encoding categórico (Label, One-Hot, Target)
  • 📊 Manejar variables de alta cardinalidad efectivamente
  • 🔍 Implementar PCA para reducción dimensional
  • 📉 Interpretar componentes principales y varianza explicada
  • 🔗 Construir pipelines de feature engineering escalables con ColumnTransformer

📕 Lecturas Mínimas

Evaluación: 1 de Octubre

Estas lecturas fueron obligatorias para la evaluación del 01/10

  1. Zheng, A., & Casari, A. (2018). Feature Engineering for Machine Learning
    📚 Editorial: O'Reilly Media
    📘 Capítulos estudiados:

  2. Cap. 2: Fancy Tricks with Simple Numbers
    Transformaciones numéricas, binarización, interacciones

  3. Cap. 5: Categorical Variables
    One-hot, label, ordinal y target encoding

  4. Cap. 6: Dimensionality Reduction
    PCA, feature selection, curse of dimensionality

🔗 Libro en O'Reilly

  1. Kaggle - Feature Engineering
    📘 Curso completo (7 lecciones)
    🔗 kaggle.com/learn/feature-engineering

📚 Lecturas Complementarias

Scikit-learn Documentation

Documentación Oficial

Guías técnicas que utilicé para implementación

Tema Enlace Contenido Clave
Preprocessing & Encoders sklearn - encoding OneHotEncoder, OrdinalEncoder, TargetEncoder
PCA & Decomposition sklearn - PCA Análisis de componentes principales
ColumnTransformer & Pipeline sklearn - compose Pipelines de transformación

📊 Recursos Adicionales

Plataformas de Aprendizaje

┌─────────────────────────────────────────────┐
│  PLATAFORMAS QUE USÉ                        │
├─────────────────────────────────────────────┤
│                                             │
│  🎓 Kaggle Learn                            |
│     • Cursos interactivos gratuitos         │
│     • Notebooks ejecutables                 │
│     • Certificados al completar             │
│                                             │
│  📚 O'Reilly Learning                       │
│     • Libros técnicos completos             │
│     • Acceso universitario UCU              │
│     • Videos y tutoriales                   │
│                                             │
│  🔬 Google ML Crash Course                  │
│     • Teoría + práctica                     │
│     • Casos de uso reales                   │
│     • Énfasis en buenas prácticas           │
│                                             │
└─────────────────────────────────────────────┘

Comunidad y Soporte


🗂️ Organización de Lecturas por Práctica

Mapeo Rápido: Práctica → Recursos Clave

Práctica Recursos Principales
P1-P3: EDA Pandas docs, Kaggle Pandas, Ciencia de Datos para Gente Sociable Cap 1-4
P4-P5: Missing Data Zheng Cap 1-2-4, Kaggle Data Cleaning, Pandas Missing Data Guide
P6: Bias & Fairness Kaggle AI Ethics, Google ML Fairness, Fairlearn docs
P7-P8: Feature Engineering Zheng Cap 2, Kaggle Feature Engineering
P9: Encoding Zheng Cap 5, Sklearn Encoders, Category Encoders docs
P10: PCA Zheng Cap 6, Sklearn PCA, StatQuest PCA videos
P11: Temporal Features Pandas Time Series, Sklearn TimeSeriesSplit

📅 Última actualización: 16 de Noviembre de 2025