Summary

Keywords

machine learning maching learning machine learing train test split traintest split train test data leakage data leakege data snooping overfitting muestreo estratificado estratified sampling

Full Transcript

En este live vamos a profundizar en una de las etapas más críticas y subestimadas de cualquier proyecto de Machine Learning: la creación correcta del conjunto de entrenamiento y prueba (train/test split). No solo veremos cómo dividir los datos, sino por qué hacerlo mal puede llevar a modelos que parecen buenos… pero fallan en producción. Comenzaremos entendiendo el concepto de data snooping bias y por qué mirar el test set antes de tiempo genera estimaciones demasiado optimistas. A partir de ahí, construiremos un test set desde cero usando muestreo aleatorio, analizaremos sus limitaciones y veremos cómo asegurar reproducibilidad mediante semillas aleatorias. Luego avanzaremos hacia soluciones más robustas: splits estables basados en identificadores, uso de hashes para evitar fugas de información al actualizar datasets, y cómo manejar escenarios donde no existe un ID natural en los datos. Todo esto con ejemplos prácticos en Python. También discutiremos los errores más comunes al dividir datos, cómo evitar fugas de información (data leakage) y por qué la estabilidad del conjunto de prueba es clave cuando los datasets evolucionan con el tiempo. Esta sesión está orientada a que entiendas no solo cómo hacer un train/test split, sino cómo hacerlo correctamente en escenarios reales, pensando en producción y en la confiabilidad de tus métricas. Temas clave: Qué es el train/test split y por qué es crítico Data snooping bias y sobreajuste conceptual Creación manual de conjuntos de entrenamiento y prueba Reproducibilidad y uso de semillas aleatorias Splits estables usando identificadores y hashing Problemas comunes al actualizar datasets Uso de train_test_split en Scikit-Learn Material de apoyo: Leer los siguientes temas del capitulo 2 del libro Hands-On Machine Learning with Scikit-Learn and PyTorch - Aurélien Géron * Get the Data - Create a Test Set Episodio Spotify de apoyo: https://open.spotify.com/episode/3NKxJNWHocviJhWsmgMzpI?si=jFNYQCuARmKdOyCAwqIiEQ 🔗 Suscripciones 👉 https://www.youtube.com/cha.../UCpqqJGMaVEmyinn1J-DhnYg/join 💬 Discord 👉 https://discord.com/users/pildorasdeprogramacion 📸 Instagram 👉 https://www.instagram.com/pildoras_de_programacion/ 🎵 TikTok 👉 https://www.tiktok.com/@pil_programacion?lang=en 📘 Facebook 👉 https://www.facebook.com/pilprogramacion 📺 YouTube 👉 https://www.youtube.com/@pildorasdeprogramacion 🔔 ¡Suscríbete y activa la campanita para no perderte futuros lives! 🔴 ¡Nos vemos en el live! 🚀🐳

Continue this lesson in the app

Install CourseHive on Android or iOS to keep learning while you move.

Related Courses

30-Day Beginner Guitar Challenge for New Players

Master the Guitar in 30 Days: Your Ultimate Beginner Challenge! Unleash your inner guitarist with step-by-step lessons designed to transform you from novice to confident player. Join Your Guitar Academy and kickstart your musical journey today!

⭐ 4.3

36 ratings

7 hours