Course Hive
Search

Welcome

Sign in or create your account

Continue with Google
or
Curso ML 2026 #5 | Train/Test Split explicado
Play lesson

Curso de machine learning 2026 - Curso ML 2026 #5 | Train/Test Split explicado

4.0 (0)
18 learners

What you'll learn

This course includes

  • 19.5 hours of video
  • Certificate of completion
  • Access on mobile and TV

Summary

Keywords

Full Transcript

En este live vamos a profundizar en una de las etapas más críticas y subestimadas de cualquier proyecto de Machine Learning: la creación correcta del conjunto de entrenamiento y prueba (train/test split). No solo veremos cómo dividir los datos, sino por qué hacerlo mal puede llevar a modelos que parecen buenos… pero fallan en producción. Comenzaremos entendiendo el concepto de data snooping bias y por qué mirar el test set antes de tiempo genera estimaciones demasiado optimistas. A partir de ahí, construiremos un test set desde cero usando muestreo aleatorio, analizaremos sus limitaciones y veremos cómo asegurar reproducibilidad mediante semillas aleatorias. Luego avanzaremos hacia soluciones más robustas: splits estables basados en identificadores, uso de hashes para evitar fugas de información al actualizar datasets, y cómo manejar escenarios donde no existe un ID natural en los datos. Todo esto con ejemplos prácticos en Python. También discutiremos los errores más comunes al dividir datos, cómo evitar fugas de información (data leakage) y por qué la estabilidad del conjunto de prueba es clave cuando los datasets evolucionan con el tiempo. Esta sesión está orientada a que entiendas no solo cómo hacer un train/test split, sino cómo hacerlo correctamente en escenarios reales, pensando en producción y en la confiabilidad de tus métricas. Temas clave: Qué es el train/test split y por qué es crítico Data snooping bias y sobreajuste conceptual Creación manual de conjuntos de entrenamiento y prueba Reproducibilidad y uso de semillas aleatorias Splits estables usando identificadores y hashing Problemas comunes al actualizar datasets Uso de train_test_split en Scikit-Learn Material de apoyo: Leer los siguientes temas del capitulo 2 del libro Hands-On Machine Learning with Scikit-Learn and PyTorch - Aurélien Géron * Get the Data - Create a Test Set Episodio Spotify de apoyo: https://open.spotify.com/episode/3NKxJNWHocviJhWsmgMzpI?si=jFNYQCuARmKdOyCAwqIiEQ 🔗 Suscripciones 👉 https://www.youtube.com/cha.../UCpqqJGMaVEmyinn1J-DhnYg/join 💬 Discord 👉 https://discord.com/users/pildorasdeprogramacion 📸 Instagram 👉 https://www.instagram.com/pildoras_de_programacion/ 🎵 TikTok 👉 https://www.tiktok.com/@pil_programacion?lang=en 📘 Facebook 👉 https://www.facebook.com/pilprogramacion 📺 YouTube 👉 https://www.youtube.com/@pildorasdeprogramacion 🔔 ¡Suscríbete y activa la campanita para no perderte futuros lives! 🔴 ¡Nos vemos en el live! 🚀🐳

Course Hive

Continue this lesson in the app

Install CourseHive on Android or iOS to keep learning while you move.

Related Courses

FAQs

Course Hive
Download CourseHive
Keep learning anywhere