Las empresas de aprendizaje automático aman los datos y, lamentablemente, la mayoría de los científicos de datos de hoy en día todavía trabajan con la premisa obsoleta de que más datos siempre es mejor. Como era de esperar, esto crea un entorno en el que la solución a cualquier problema de aprendizaje automático es arrojarle más datos. Eso se produce a expensas de más computación, almacenamiento y procesamiento. Si bien este puede ser un enfoque viable para organizaciones globales con grandes presupuestos, no siempre es el mejor. Recopilar, limpiar y anotar datos requiere mucho tiempo y es costoso. A veces, simplemente no tendrán suficientes datos.

La clave es que no hay garantía de que el análisis de cantidades masivas de datos traduzca información valiosa. ¿El resultado de “más datos siempre es mejor”? Implementaciones decepcionantes y fallas catastróficas que desperdician millones de dólares en la preparación de datos y las horas de trabajo dedicadas a averiguar si es útil o no. En cambio, las empresas deben tomar decisiones conscientes sobre qué y cuántos datos se necesitan.

ThinkstockPhotos-476812603.original.jpg
– ThinkstockPhotos

Big Data

La mayoría de los modelos de aprendizaje automático actuales están entrenados con montañas de datos para garantizar la mayor probabilidad de éxito. Ese es un enfoque válido, pero este proceso es el resultado de la idea errónea de que cuantos más datos tenga, más fácil será la tarea. Por supuesto, nadie quiere comenzar a construir un modelo solo para darse cuenta de que no tiene suficientes datos. Si no puede estimar con precisión la cantidad de datos que necesita, entonces la creencia de tener más datos está justificada, ya que hay una mayor probabilidad de éxito con más información.

En realidad, el proceso de recopilación de datos puede ser extenso y, al final, los científicos de datos se quedan con una cantidad sustancial de datos de los que no saben nada. Con la mayoría de las herramientas de aprendizaje automático, se queda ciego después de ingresar sus datos. Todavía no hay respuestas sobre lo que debe medirse o qué atributos hay en los puntos de datos que necesita. Los ingenieros de datos tienen la tarea de analizar los datos para determinar si ciertas características son más relevantes que otras según su intuición. Luego, construyen un modelo y esperan que pueda predecir la pregunta en cuestión. El resultado es un enfoque ad hoc en el que solo esperamos que la persona que mira los datos encuentre una forma inteligente de dar sentido a los números que tienen delante.

El principal problema es que los científicos de datos de hoy operan bajo grandes cantidades de incertidumbre. No hay una respuesta clara en cuanto a qué modelo es el modelo correcto, cuántos datos se necesitarán o cuánto tiempo, por lo que no hay un presupuesto definido. Bajo esta mentalidad, cuantos más datos estén disponibles para experimentar, más modelos se pueden crear para determinar la mejor solución.

Desacreditando el mito

El enfoque de más datos está impulsado por la incertidumbre de no tener suficientes datos para responder la pregunta en cuestión. Sin embargo, podemos refutar esta teoría con un ejemplo sencillo. Supongamos que se le da un conjunto de números [2, 4, 6, 8] y se le pide que adivine el siguiente número de la secuencia; ¿Cuál sería tu conjetura? La mayoría de la gente diría 10 porque entendería que la regla, “+2”, es evidente de inmediato.

Curiosamente, agregar más instancias a este conjunto de datos no lo hace más fácil de aprender. Si te hubieran dado [2, 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, etc.], aún habrías descubierto la regla después de analizar los primeros cuatro números, así que no hay ningún valor o beneficio en llegar hasta 100. El aprendizaje automático funciona de la misma manera. El objetivo final es inferir un modelo, por lo que una vez que tenga una regla que pueda derivar de sus datos, no es necesario continuar agregando más información al conjunto de datos. Al operar con esta mentalidad, se utiliza más tiempo y cálculo, lo que resulta en un gasto adicional de dinero.

A menudo, hay una discusión sobre el ruido, pero el problema real es que existe una compensación entre la generalización y la precisión. Sería ideal generalizar el ruido para concentrarse en el contenido real, pero un error irreductible no se puede reducir creando buenos modelos. Puede haber una medida de precisión alcanzable. Aún así, la falta de conciencia en la industria actual empuja a los científicos de datos a resolver problemas de precisión con más datos, cálculo y parámetros. Lo peor es que este proceso crea un problema importante para el aprendizaje automático en torno a la verificación, la validación y la confianza.

¿La solución? Es hora de eliminar las conjeturas del aprendizaje automático al dimensionar los modelos de aprendizaje automático y medir la capacidad de aprendizaje de cualquier conjunto de datos etiquetados con los tipos de modelo. Estas dimensiones evitarían el sobreajuste y el desajuste, lo que permitiría a los científicos de datos comprender mejor sus datos con modelos precisos y únicos en los que pueden confiar.

La práctica de la industria del aprendizaje automático ha sido una prisa relativamente desenfrenada para utilizar todos los recursos computacionales disponibles para construir los modelos más grandes y ricos en datos posibles. ¿Por qué? Porque esto es lo que todos han creído que conduce a una mayor precisión. A diferencia de los muchos ingenieros profesionales de diversas disciplinas y los científicos de la mayoría que dicen, "medir dos veces, cortar una vez", los expertos en aprendizaje automático dicen hoy, "más datos son mejores datos". Sin embargo, la noción de medir modelos antes de crearlos transforma la conservación de su conjunto de datos en una ciencia, optimizando el tamaño y la diversidad del conjunto de datos para obtener los mejores resultados posibles del modelo.


Por Gerald Friedland, cofundador y CTO de Brainome