🎬 Exploración del Dataset Netflix — Análisis Visual y Estrategia de Contenido¶
📚 Tiempo estimado de lectura: ~10 min
- Autores [G1]: Joaquín Batista, Milagros Cancela, Valentín Rodríguez, Alexia Aurrecoechea, Nahuel López
- Fecha: 20/08/2025
- Entorno: Python 3 + Seaborn + Matplotlib
- Referencia de la tarea: Tarea 3 — EDA Netflix con Visualizaciones
💾 Descargar Notebook y Reporte¶
📂 Archivos disponibles dentro del repositorio:
docs/portfolio/assets/netflix/eda_netflix.ipynb
docs/portfolio/assets/netflix/netflix_eda_report.html
🎯 Objetivo¶
El objetivo de esta práctica fue realizar un Análisis Exploratorio de Datos (EDA) sobre el catálogo global de Netflix, aplicando visualizaciones descriptivas y multivariadas con matplotlib y seaborn.
El propósito fue comprender cómo se distribuyen los contenidos por tipo, país, año, rating y género, detectando patrones útiles para la toma de decisiones estratégicas.
💼 Contexto de Negocio¶
Netflix busca entender mejor su catálogo y las dinámicas de su contenido global para optimizar la adquisición y producción.
El dataset proviene de Kaggle – Netflix Titles y representa su catálogo histórico de películas y series.
| Elemento | Descripción |
|---|---|
| Problema | Netflix necesita información clara sobre su oferta de contenido: qué países dominan, qué géneros se repiten y cómo evolucionó el catálogo. |
| Objetivo | Analizar patrones en el tipo de contenido, país, géneros y fechas de lanzamiento para respaldar decisiones de contenido. |
| Variables clave | Tipo de contenido, país, año de lanzamiento, rating, géneros, duración. |
| Valor para el negocio | Mejorar la estrategia de adquisición de contenido, entender preferencias regionales y detectar brechas o concentraciones. |
💡 El análisis se enmarca en la fase de “Business Understanding” del modelo CRISP-DM.
📘 Descripción general del Dataset¶
El dataset contiene 8.807 registros y 12 columnas, representando títulos disponibles en Netflix hasta 2021.
Incluye tanto Movies como TV Shows, con información sobre país, director, rating y género.
| Variable | Tipo | Descripción | Ejemplo |
|---|---|---|---|
type |
Categórica | Tipo de contenido | Movie / TV Show |
title |
Texto | Título del contenido | Stranger Things |
country |
Categórica | País o países de producción | United States |
release_year |
Numérica | Año de lanzamiento | 2019 |
rating |
Categórica | Clasificación por audiencia | TV-MA |
listed_in |
Categórica | Géneros asociados | Dramas, Documentaries |
🔧 Metodología¶
- Carga y validación de datos →
pd.read_csv(url)
Se verificó estructura, tipos de datos y valores faltantes. - Análisis de calidad de datos → detección de duplicados, outliers y nulos con
df.isna()ydf.duplicated(). - Exploración visual → gráficos de barras, distribuciones, mapas de calor y comparaciones por tipo de contenido.
- Dashboard integrador → construcción de panel visual con
matplotlib.gridspec. - Profiling automático → validación con
ydata-profilingpara análisis estadístico completo.
🌎 Distribución global del contenido¶
- Películas (68%) dominan el catálogo frente a las series (32%), confirmando el enfoque de Netflix en volumen y diversidad.
- Producción concentrada en Estados Unidos e India, seguidas por Reino Unido, Canadá y Francia.
- El auge de lanzamientos entre 2015 y 2019 coincide con la expansión global y los primeros Netflix Originals.
- El rating más frecuente es TV-MA (contenido maduro), evidenciando una estrategia orientada a público adulto joven.
- La evolución por décadas muestra un crecimiento sostenido desde el año 2000, con un salto exponencial posterior a 2015.
📊 Análisis de Calidad de los Datos¶
| Criterio | Evaluación | Observación |
|---|---|---|
| Valores faltantes | ⚠️ Moderado | Altos porcentajes en director y cast (>60%) |
| Duplicados | ✅ Mínimos | <2% de títulos duplicados |
| Outliers | ⚠️ Escasos | Algunos registros con años extremos (<1950, >2025) |
| Distribución temporal | 📈 Clara | Incremento progresivo desde 2000 |
| Consistencia general | ✅ Alta | Dataset estable y representativo |
💼 Insights de Negocio¶
🎯 1. Estrategia de Contenido Global¶
El 70% del catálogo se origina en cinco países, lo que indica una oportunidad de diversificación hacia mercados emergentes.
Reforzar la presencia de producciones latinoamericanas y europeas podría mejorar la retención en regiones clave.
🎞️ 2. Preferencias de Audiencia¶
Los géneros Dramas, Comedias y Documentales representan más del 50% del contenido.
Netflix podría potenciar géneros menos explotados (Ciencia ficción, Animación) para captar audiencias específicas.
🕒 3. Tendencias Temporales¶
El pico de lanzamientos en 2018 coincide con el aumento de Netflix Originals.
La caída posterior sugiere un ajuste post-pandemia y una fase de consolidación.
🔞 4. Clasificaciones por Rating¶
Predomina contenido adulto (TV-MA), lo cual indica una estrategia centrada en el engagement adulto joven, más que en programación infantil o familiar.
💡 5. Valor Estratégico¶
El EDA visual permitió validar hipótesis de mercado y entender cómo la estructura del catálogo refleja la estrategia comercial global de la empresa.
🚀 BONUS: Profiling Automático con ydata-profiling¶
El profiling complementó el EDA manual mediante un reporte estadístico automatizado.
Se utilizó la librería ydata-profiling para validar correlaciones, detectar anomalías y evaluar calidad de datos.
