Novedades | News

Algoritmos de aprendizaje profundo demandan suministros casi ilimitados de datos

 
Logo KW
Algoritmos de aprendizaje profundo demandan suministros casi ilimitados de datos
de System Administrator - miércoles, 12 de julio de 2017, 13:12
Grupo Colaboradores / Partners

Algoritmos de aprendizaje profundo demandan suministros casi ilimitados de datos

por Ed Burns

Más datos casi siempre hacen más efectivos a los proyectos de aprendizaje profundo. Un gerente de ciencia de datos dice que, esencialmente, no hay límite a la cantidad de datos a los que quiere tener acceso para los proyectos de su equipo.

En cualquier proyecto de aprendizaje profundo, es casi imposible imaginar un límite superior en la cantidad de datos necesarios para los modelos de entrenamiento y la realización de análisis.

"Necesitamos obtener más datos", dijo Patrick Lucey, director de ciencia de datos de la empresa de consultoría deportiva STATS LLC en Chicago. "Realmente estamos rascando la superficie. Queremos reconstruir esa historia, [y] contar historias mejores, y estamos limitados porque no podemos obtener todos los datos que queremos".

El aprendizaje profundo, tal como se define mediante el uso de múltiples algoritmos de aprendizaje automático, como las redes neuronales encadenadas, no es necesariamente un concepto nuevo. Sin embargo, empezó a ganar más tracción generalizada el año pasado, a medida que los investigadores y las empresas se dieron cuenta de que los modelos analíticos podrían ser liberados en los masivos tesoros de datos que las empresas habían acumulado desde los albores de la era de big data. Los algoritmos de aprendizaje profundo requieren experiencia para mejorar sus recomendaciones, y big data les proporciona exactamente el combustible que necesitan.

Pero esto plantea la cuestión de: ¿cuándo es suficiente información, suficiente? Algunos de los ejemplos de aprendizaje profundo más destacados utilizaron cientos de miles, incluso millones de registros, durante el proceso de formación del modelo. Pero, a veces, incluso eso no es suficiente.

En STATS, Lucey tiene acceso a amplios datos, pero dijo que todavía siente que los modelos podrían funcionar mejor con más. La compañía mantiene bases de datos de datos de juegos desde sus comienzos, en 1981. Sus conjuntos de datos más profundos se remontan a 2010 con la NBA, y provienen de su sistema SportVU, una red de cámaras instaladas en arenas deportivas que captura datos de movimiento de jugadores.

Esta riqueza de datos ha permitido a Lucey y su equipo hacer algunas cosas interesantes con el aprendizaje profundo. Por ejemplo, él y su equipo desarrollaron un modelo que mira los datos de video de los juegos de la NBA y analiza las posiciones del cuerpo de los jugadores para definir mejor cómo se ve un tiro abierto.

Otro proyecto de STATS aplicó algoritmos de aprendizaje profundo a la Premier League inglesa de fútbol. STATS analizó los datos más allá de las estadísticas tradicionales, como disparos y goles, para entender los factores que llevaron a Longshot Leicester City Football Club a llevar a casa el título en la temporada 2015-2016 de la liga.

El equipo de ciencia de datos de STATS principalmente construye modelos en herramientas de código abierto, como el TensorFlow creado por Google y el scikit-learn, una librería de modelos de aprendizaje automático construidos en Python.

Estos proyectos han tenido éxito, según Lucey. Sin embargo, añadió que ya está buscando mejorar los análisis, y piensa que más datos le ayudarán.

 

SportVU crea un esqueleto de las posiciones del cuerpo de los jugadores, convirtiendo el video en datos estructurados.

Además de mayores volúmenes de datos, se necesitará información más detallada, señaló. Los algoritmos de aprendizaje profundo prosperan en datos detallados tanto como con grandes cantidades de datos, y eso jugará un papel importante a medida que estos modelos continúan mejorando y describiendo el mundo con mayor precisión.

"Esa es la clave: encontrar ese contexto", dijo Lucey. "Se puede lograr una buena predicción, pero si es inundada por el contexto, no es tan valiosa. Tienes que tener los datos".

Link: http://searchdatacenter.techtarget.com