📚 Recursos y Referencias¶

Esta sección consolida todas las lecturas, tutoriales y recursos utilizados a lo largo del curso de Ingeniería de Datos, organizados por unidad temática.

📅 Última actualización: 16 de Noviembre de 2025
🎓 Curso: Ingeniería de Datos - Universidad Católica del Uruguay
👨‍🏫 Instructor: Prof. Juan F. Kurucz
📖 Programa completo: Syllabus 2025

🔗 Enlaces Principales¶

Recurso	Descripción	Enlace
📂 Portfolio GitHub	Repositorio con todos los proyectos y notebooks	github.com/milagroscancela/portfolio-ia
📘 MkDocs Material	Documentación del framework usado para este sitio	squidfunk.github.io/mkdocs-material
🗃️ Kaggle Datasets	Fuente de datasets abiertos utilizados	kaggle.com/datasets

📖 Unidad Temática 1: EDA & Fuentes de Datos¶

🎯 Competencias Desarrolladas¶

En esta unidad aprendí a:

📊 Cargar y explorar datasets de diferentes formatos (CSV, JSON, SQLite)
🔍 Aplicar técnicas básicas de EDA con pandas
📈 Crear visualizaciones informativas con matplotlib/seaborn
📝 Documentar hallazgos usando MkDocs para mi portafolio
💡 Interpretar resultados de análisis exploratorio
🔧 Configurar entornos de desarrollo colaborativo con GitHub

📕 Lecturas Mínimas¶

Evaluación: 20 de Agosto

Estas lecturas fueron obligatorias para la evaluación del 20/08

Brust, A. V. (2023). Ciencia de Datos para Gente Sociable
📘 Capítulos 1–4
🔗 Leer online
Google. Good Data Analysis
📘 Secciones: Introducción, Mindset, Technical
🔗 Guía oficial

📚 Lecturas Complementarias¶

Documentación Oficial¶

Herramienta	Enlace	Descripción
Pandas	pandas.pydata.org/docs	Documentación completa de pandas
Matplotlib	matplotlib.org/stable	Guía de visualización con matplotlib
Seaborn	seaborn.pydata.org	Statistical data visualization
MkDocs	mkdocs.org	Documentación de sitios estáticos

Cursos Interactivos de Kaggle¶

Recomendación

Estos cursos son prácticos y toman ~3-4 horas cada uno

🐼 Pandas Mini-Course
Temas: Creating, Reading and Writing; Indexing, Selecting & Assigning; Summary Functions; Grouping and Sorting
🔗 kaggle.com/learn/pandas
📊 Data Visualization
Temas: Line charts, bar charts, heatmaps, scatter plots, distributions
🔗 kaggle.com/learn/data-visualization

🧹 Unidad Temática 2: Calidad de Datos & Ética¶

🎯 Competencias Desarrolladas¶

En esta unidad desarrollé habilidades para:

🔬 Distinguir entre tipos de missing data (MCAR, MAR, MNAR) en datasets reales
🎯 Detectar patrones de datos faltantes y outliers
🛠️ Aplicar estrategias de imputación apropiadas según el contexto
⚙️ Implementar pipelines de limpieza reproducibles
🚫 Prevenir data leakage usando validación cruzada adecuada
⚖️ Identificar y mitigar sesgo en datasets históricos
📐 Evaluar fairness usando métricas estándar (Fairlearn)
📋 Documentar decisiones éticas en el tratamiento de datos

📕 Lecturas Mínimas¶

Evaluación: 3 de Septiembre

Estas lecturas fueron obligatorias para la evaluación del 03/09

Zheng, A., & Casari, A. (2018). Feature Engineering for Machine Learning
📚 Editorial: O'Reilly Media
📘 Capítulos estudiados:
Cap. 1: ML Pipeline
Cap. 2: Fancy Tricks with Simple Numbers
Cap. 4: Effects of Feature Scaling

🔗 Libro en O'Reilly

Kaggle - Data Cleaning
📘 Curso completo: Handling missing values, scaling, parsing dates, character encodings
🔗 kaggle.com/learn/data-cleaning
Kaggle - Intermediate ML: Data Leakage
📘 Módulo específico sobre prevención de leakage
🔗 Lección: Data Leakage
Kaggle - Intro to AI Ethics
📘 Módulos: Identifying Bias in AI; AI Fairness
🔗 kaggle.com/learn/intro-to-ai-ethics

📚 Lecturas Complementarias¶

Recursos de Google & Microsoft¶

Tema	Fuente	Enlace
ML Fairness	Google ML Crash Course	developers.google.com/machine-learning/crash-course/fairness
Fairlearn	Microsoft - Bias mitigation	fairlearn.org

Documentación Técnica¶

📄 Pandas - Missing Data
Guía oficial de manejo de valores faltantes
🔗 pandas.pydata.org/docs/user_guide/missing_data.html

🔧 Unidad Temática 3: Feature Engineering¶

🎯 Competencias Desarrolladas¶

En esta unidad trabajé en:

🏗️ Crear features derivadas relevantes según el dominio del problema
🔤 Aplicar técnicas avanzadas de encoding categórico (Label, One-Hot, Target)
📊 Manejar variables de alta cardinalidad efectivamente
🔍 Implementar PCA para reducción dimensional
📉 Interpretar componentes principales y varianza explicada
🔗 Construir pipelines de feature engineering escalables con ColumnTransformer

📕 Lecturas Mínimas¶

Evaluación: 1 de Octubre

Estas lecturas fueron obligatorias para la evaluación del 01/10

Zheng, A., & Casari, A. (2018). Feature Engineering for Machine Learning
📚 Editorial: O'Reilly Media
📘 Capítulos estudiados:
Cap. 2: Fancy Tricks with Simple Numbers
Transformaciones numéricas, binarización, interacciones
Cap. 5: Categorical Variables
One-hot, label, ordinal y target encoding
Cap. 6: Dimensionality Reduction
PCA, feature selection, curse of dimensionality

🔗 Libro en O'Reilly

Kaggle - Feature Engineering
📘 Curso completo (7 lecciones)
🔗 kaggle.com/learn/feature-engineering

📚 Lecturas Complementarias¶

Scikit-learn Documentation¶

Documentación Oficial

Guías técnicas que utilicé para implementación

Tema	Enlace	Contenido Clave
Preprocessing & Encoders	sklearn - encoding	OneHotEncoder, OrdinalEncoder, TargetEncoder
PCA & Decomposition	sklearn - PCA	Análisis de componentes principales
ColumnTransformer & Pipeline	sklearn - compose	Pipelines de transformación

📊 Recursos Adicionales¶

Plataformas de Aprendizaje¶

┌─────────────────────────────────────────────┐
│  PLATAFORMAS QUE USÉ                        │
├─────────────────────────────────────────────┤
│                                             │
│  🎓 Kaggle Learn                            |
│     • Cursos interactivos gratuitos         │
│     • Notebooks ejecutables                 │
│     • Certificados al completar             │
│                                             │
│  📚 O'Reilly Learning                       │
│     • Libros técnicos completos             │
│     • Acceso universitario UCU              │
│     • Videos y tutoriales                   │
│                                             │
│  🔬 Google ML Crash Course                  │
│     • Teoría + práctica                     │
│     • Casos de uso reales                   │
│     • Énfasis en buenas prácticas           │
│                                             │
└─────────────────────────────────────────────┘

Comunidad y Soporte¶

📺 YouTube - Corey Schafer
🔗 Pandas Tutorials

🗂️ Organización de Lecturas por Práctica¶

Mapeo Rápido: Práctica → Recursos Clave¶

Práctica	Recursos Principales
P1-P3: EDA	Pandas docs, Kaggle Pandas, Ciencia de Datos para Gente Sociable Cap 1-4
P4-P5: Missing Data	Zheng Cap 1-2-4, Kaggle Data Cleaning, Pandas Missing Data Guide
P6: Bias & Fairness	Kaggle AI Ethics, Google ML Fairness, Fairlearn docs
P7-P8: Feature Engineering	Zheng Cap 2, Kaggle Feature Engineering
P9: Encoding	Zheng Cap 5, Sklearn Encoders, Category Encoders docs
P10: PCA	Zheng Cap 6, Sklearn PCA, StatQuest PCA videos
P11: Temporal Features	Pandas Time Series, Sklearn TimeSeriesSplit

📅 Última actualización: 16 de Noviembre de 2025