Ciencia de datos
La ciencia de datos, bueno, de entrada, es una de esas "palabras rimbombantes" que en la actualidad todos están usando para describir un montón de cosas.
Primero hay que hablar de tres conceptos:
Datos. Son hechos desorganizados, cosas que están ahí y que de inicio no proveen más información que lo que se ve a simple vista. Por ejemplo: una lista de las temperaturas del planeta durante los 200 años anteriores. Eso solo son datos.
Información: Son datos organizados, estructurados y presentados en un contexto, de tal modo que al verlos resulten algo útil para el que los observa. Como ejemplo podríamos tomar los mismos datos sobre las temperaturas, acomodarlos de manera cronológica y presentarlos, tan solo para darnos cuenta de que la temperatura del planeta está aumentando. Esto último ya es información.
Conocimiento: El conocimiento implica dos cosas, tener información y entenderla. El conocimiento se forma internamente a partir de la información que recibimos.
Una vez sacado eso del medio, podría decirse que la ciencia de datos se encarga de transformar los datos en información, y hace lo posible por que esta información se transofrme en conocimiento.
Para lograrlo, la ciencia de datos se apoya en tres pilares:
- El matemático: estadística, cálculo, álgebra
- El computacional: programación, bases de datos, etcétera.
- El comodín (conocimiento específico): Del área del cual provienen los datos y para el cual se quiere usar la ciencia de datos.
Hay un diagrama de Venn muy famoso que ilustra esto:
(En realidad hay un montón de diagramas de Venn que tratan de explicar lo que es la ciencia de datos)
Yo me lo imagino dos islas que tenían un cierto nivel de comunicación entre ellas, hasta que de pronto se estableció un puente entre ellos, el puente del "negocio", este puente puede ser cualquier cosa que recaude datos y esté buscando extraer información de ellos. Entonces ya existió una comunicación entre ellas.
¿Por qué?
¿En qué nos ayuda la ciencia de datos?
- Análisis de riesgo: ya sea para que una aseguradora determine el costo de sus seguros para determinada área de un país o para que los gobiernos decidan en qué zonas es conveniente dar permisos para construcción.
- Detección de fraudes: Los sistemas bancarios sin duda generan una cantidad de información tremenda, que a su vez se usa para detectar transacciones sospechosas. Tal vez la ciencia de datos te ayude por si alguien llegara a clonar tu tarjeta.
- Sistemas de recomendación: ¿alguna vez te has preguntado por qué Netflix es tan adictivo? ¿o cómo es que hace para saber en qué series invertir o qué derechos comprar?
- Planeación de rutas: Empresas como UPS, FedEx y DHL usan los datos que recaudan para determinar las mejores rutas de entrega de paquetes, de tal modo que ahorren tiempo y energía al entregar sus paquetes
Ahora vamos a hablar de algunas confusiones que existen alrededor de la ciencia de datos:
No solo se trata de Big Data, la ciencia de datos no solo se puede aplicar a millones de registros en una tabla, casi cualquier cantidad de información es susceptible a ser analizada.
No es inteligencia artificial, no es aprendizaje máquina… la ciencia de datos se ayuda de estas, pero persiguen distintos fines.
No es una especie de conjuro mágico ni es la solución a los problemas de la compañía, el éxito de la aplicación de la ciencia de datos dependerá de tres factores:
- Los datos con los que se cuente
- El modelo con el que se trabajen
- El contexto que se le de
- A pesar de que el nombre le puede dar fama de ser algo para lo que requieras estudiar un doctorado, no es necesario, al ser una disciplina… interdisciplinaria puedes acercarte a la ciencia de datos desde distintos enfoques, esta es una disciplina donde tener conocimiento sobre el contexto de los datos es tan valioso como saber cómo analizarlos o saber establecer el modelo correcto. ¿Estás interesado en comenzar? tal vez debas comenzar por aprender lenguajes de programación como R o Python, aprendas lo básico de estadística y consigas una fuente de datos. Dejo enlaces que tal vez te ayuden con alguna de estas tareas: Try R, Learn Python. Comunidades de ciencia de datos: kaggle y kdnuggets.