📚 Recursos y Referencias¶
Esta sección consolida todas las lecturas, tutoriales y recursos utilizados a lo largo del curso de Ingeniería de Datos, organizados por unidad temática.
📅 Última actualización: 16 de Noviembre de 2025
🎓 Curso: Ingeniería de Datos - Universidad Católica del Uruguay
👨🏫 Instructor: Prof. Juan F. Kurucz
📖 Programa completo: Syllabus 2025
🔗 Enlaces Principales¶
| Recurso | Descripción | Enlace |
|---|---|---|
| 📂 Portfolio GitHub | Repositorio con todos los proyectos y notebooks | github.com/milagroscancela/portfolio-ia |
| 📘 MkDocs Material | Documentación del framework usado para este sitio | squidfunk.github.io/mkdocs-material |
| 🗃️ Kaggle Datasets | Fuente de datasets abiertos utilizados | kaggle.com/datasets |
📖 Unidad Temática 1: EDA & Fuentes de Datos¶
🎯 Competencias Desarrolladas¶
En esta unidad aprendí a:
- 📊 Cargar y explorar datasets de diferentes formatos (CSV, JSON, SQLite)
- 🔍 Aplicar técnicas básicas de EDA con pandas
- 📈 Crear visualizaciones informativas con matplotlib/seaborn
- 📝 Documentar hallazgos usando MkDocs para mi portafolio
- 💡 Interpretar resultados de análisis exploratorio
- 🔧 Configurar entornos de desarrollo colaborativo con GitHub
📕 Lecturas Mínimas¶
Evaluación: 20 de Agosto
Estas lecturas fueron obligatorias para la evaluación del 20/08
-
Brust, A. V. (2023). Ciencia de Datos para Gente Sociable
📘 Capítulos 1–4
🔗 Leer online -
Google. Good Data Analysis
📘 Secciones: Introducción, Mindset, Technical
🔗 Guía oficial
📚 Lecturas Complementarias¶
Documentación Oficial¶
| Herramienta | Enlace | Descripción |
|---|---|---|
| Pandas | pandas.pydata.org/docs | Documentación completa de pandas |
| Matplotlib | matplotlib.org/stable | Guía de visualización con matplotlib |
| Seaborn | seaborn.pydata.org | Statistical data visualization |
| MkDocs | mkdocs.org | Documentación de sitios estáticos |
Cursos Interactivos de Kaggle¶
Recomendación
Estos cursos son prácticos y toman ~3-4 horas cada uno
-
🐼 Pandas Mini-Course
Temas: Creating, Reading and Writing; Indexing, Selecting & Assigning; Summary Functions; Grouping and Sorting
🔗 kaggle.com/learn/pandas -
📊 Data Visualization
Temas: Line charts, bar charts, heatmaps, scatter plots, distributions
🔗 kaggle.com/learn/data-visualization
🧹 Unidad Temática 2: Calidad de Datos & Ética¶
🎯 Competencias Desarrolladas¶
En esta unidad desarrollé habilidades para:
- 🔬 Distinguir entre tipos de missing data (MCAR, MAR, MNAR) en datasets reales
- 🎯 Detectar patrones de datos faltantes y outliers
- 🛠️ Aplicar estrategias de imputación apropiadas según el contexto
- ⚙️ Implementar pipelines de limpieza reproducibles
- 🚫 Prevenir data leakage usando validación cruzada adecuada
- ⚖️ Identificar y mitigar sesgo en datasets históricos
- 📐 Evaluar fairness usando métricas estándar (Fairlearn)
- 📋 Documentar decisiones éticas en el tratamiento de datos
📕 Lecturas Mínimas¶
Evaluación: 3 de Septiembre
Estas lecturas fueron obligatorias para la evaluación del 03/09
-
Zheng, A., & Casari, A. (2018). Feature Engineering for Machine Learning
📚 Editorial: O'Reilly Media
📘 Capítulos estudiados: -
Cap. 1: ML Pipeline
- Cap. 2: Fancy Tricks with Simple Numbers
- Cap. 4: Effects of Feature Scaling
-
Kaggle - Data Cleaning
📘 Curso completo: Handling missing values, scaling, parsing dates, character encodings
🔗 kaggle.com/learn/data-cleaning -
Kaggle - Intermediate ML: Data Leakage
📘 Módulo específico sobre prevención de leakage
🔗 Lección: Data Leakage -
Kaggle - Intro to AI Ethics
📘 Módulos: Identifying Bias in AI; AI Fairness
🔗 kaggle.com/learn/intro-to-ai-ethics
📚 Lecturas Complementarias¶
Recursos de Google & Microsoft¶
| Tema | Fuente | Enlace |
|---|---|---|
| ML Fairness | Google ML Crash Course | developers.google.com/machine-learning/crash-course/fairness |
| Fairlearn | Microsoft - Bias mitigation | fairlearn.org |
Documentación Técnica¶
- 📄 Pandas - Missing Data
Guía oficial de manejo de valores faltantes
🔗 pandas.pydata.org/docs/user_guide/missing_data.html
🔧 Unidad Temática 3: Feature Engineering¶
🎯 Competencias Desarrolladas¶
En esta unidad trabajé en:
- 🏗️ Crear features derivadas relevantes según el dominio del problema
- 🔤 Aplicar técnicas avanzadas de encoding categórico (Label, One-Hot, Target)
- 📊 Manejar variables de alta cardinalidad efectivamente
- 🔍 Implementar PCA para reducción dimensional
- 📉 Interpretar componentes principales y varianza explicada
- 🔗 Construir pipelines de feature engineering escalables con ColumnTransformer
📕 Lecturas Mínimas¶
Evaluación: 1 de Octubre
Estas lecturas fueron obligatorias para la evaluación del 01/10
-
Zheng, A., & Casari, A. (2018). Feature Engineering for Machine Learning
📚 Editorial: O'Reilly Media
📘 Capítulos estudiados: -
Cap. 2: Fancy Tricks with Simple Numbers
Transformaciones numéricas, binarización, interacciones -
Cap. 5: Categorical Variables
One-hot, label, ordinal y target encoding -
Cap. 6: Dimensionality Reduction
PCA, feature selection, curse of dimensionality
- Kaggle - Feature Engineering
📘 Curso completo (7 lecciones)
🔗 kaggle.com/learn/feature-engineering
📚 Lecturas Complementarias¶
Scikit-learn Documentation¶
Documentación Oficial
Guías técnicas que utilicé para implementación
| Tema | Enlace | Contenido Clave |
|---|---|---|
| Preprocessing & Encoders | sklearn - encoding | OneHotEncoder, OrdinalEncoder, TargetEncoder |
| PCA & Decomposition | sklearn - PCA | Análisis de componentes principales |
| ColumnTransformer & Pipeline | sklearn - compose | Pipelines de transformación |
📊 Recursos Adicionales¶
Plataformas de Aprendizaje¶
┌─────────────────────────────────────────────┐
│ PLATAFORMAS QUE USÉ │
├─────────────────────────────────────────────┤
│ │
│ 🎓 Kaggle Learn |
│ • Cursos interactivos gratuitos │
│ • Notebooks ejecutables │
│ • Certificados al completar │
│ │
│ 📚 O'Reilly Learning │
│ • Libros técnicos completos │
│ • Acceso universitario UCU │
│ • Videos y tutoriales │
│ │
│ 🔬 Google ML Crash Course │
│ • Teoría + práctica │
│ • Casos de uso reales │
│ • Énfasis en buenas prácticas │
│ │
└─────────────────────────────────────────────┘
Comunidad y Soporte¶
- 📺 YouTube - Corey Schafer
🔗 Pandas Tutorials
🗂️ Organización de Lecturas por Práctica¶
Mapeo Rápido: Práctica → Recursos Clave¶
| Práctica | Recursos Principales |
|---|---|
| P1-P3: EDA | Pandas docs, Kaggle Pandas, Ciencia de Datos para Gente Sociable Cap 1-4 |
| P4-P5: Missing Data | Zheng Cap 1-2-4, Kaggle Data Cleaning, Pandas Missing Data Guide |
| P6: Bias & Fairness | Kaggle AI Ethics, Google ML Fairness, Fairlearn docs |
| P7-P8: Feature Engineering | Zheng Cap 2, Kaggle Feature Engineering |
| P9: Encoding | Zheng Cap 5, Sklearn Encoders, Category Encoders docs |
| P10: PCA | Zheng Cap 6, Sklearn PCA, StatQuest PCA videos |
| P11: Temporal Features | Pandas Time Series, Sklearn TimeSeriesSplit |
📅 Última actualización: 16 de Noviembre de 2025