Quería escribir una serie de artículos que exploraran la ciencia de datos desde una perspectiva vista desde lejos. Estos artículos tienen como objetivo responder las siguientes preguntas:
- ¿QUÉ es la ciencia de datos?: ¿Qué es la ciencia de datos y cómo llegó a ser? ¿Cuándo exactamente se convirtió en un campo de conocimiento y qué desarrollos llevaron a su formación?
- ¿CUÁNDO usar ciencia de datos?: ¿Cuándo deberías usar ciencia de datos, y cuándo es una buena opción para los problemas que enfrentas? ¿qué tipo de problemas puede resolver la ciencia de datos? ¿cuándo es la ciencia de datos una mala opción para crear una solución?
- ¿POR QUÉ ciencia de datos?: ¿Por qué es un campo importante de estudio, y por qué deberías dedicar tiempo a familiarizarte con el tema? ¿por qué las empresas gastan dinero en ciencia de datos y por qué hay tanto impulso detrás de ella?
- ¿CÓMO hacer ciencia de datos?: ¿Cómo aplicar la ciencia de datos para resolver problemas, y cuál es el flujo de trabajo general de un proyecto de ciencia de datos?
Estas son muchas preguntas, pero con suerte, después de terminar esta serie tendrás respuestas para todas ellas.
El objetivo no es proporcionarte conocimiento práctico de ciencia de datos (tal vez futuras series manejen eso), es darte una idea general de esta emocionante area de estudio. Después de leer esto estarás en una posición mucho mejor para decidir si quieres profundizar más en el tema y convertirte en un científico de datos, o si podría no ser una buena opción para tus aspiraciones profesionales.
Empecemos respondiendo nuestra primera pregunta: ¿Qué es la ciencia de datos?
Al grano: ¿qué es la ciencia de datos?
Como el nombre implica, la ciencia de datos es una disciplina centrada en el análisis de… bueno, datos.
Encontrarás varias definiciones diferentes de ciencia de datos en internet. Lo que la mayoría tienen en común es que la ciencia de datos es una disciplina centrada en la recolección, manipulación, análisis e interpretación de datos. Esto abarca técnicas y conocimiento de diferentes disciplinas que contribuyen al objetivo de extraer conocimientos valiosos de los datos. Entre estas disciplinas puedes encontrar:
- Probabilidad y estadística. Usa técnicas de este campo para el análisis de datos.
- Minería de datos. Se basa en el conocimiento de este campo para encontrar patrones en datos estructurados y no estructurados.
- Aprendizaje automático. Usa las técnicas y tecnología del campo para extraer información valiosa de los datos y crear modelos.
- Big data. Usa técnicas y tecnología de big data para habilitar el procesamiento y análisis de petabytes de datos.
- Analítica de negocios (u otras formas de analítica), ya que también es responsable de la manipulación de datos desde el inicio del proceso (recolección) hasta las últimas etapas (análisis y comunicación de los conocimientos extraídos).
- Visualización de datos. Usa visualización de datos para ayudar a los científicos de datos en el análisis de datos y para asistirlos en la tarea de comunicar los resultados con otros profesionales.
Basado en el cómic original hecho por SansSerifComics
La era de internet trajo una explosión sin precedentes en la cantidad de información generada cada día. El análisis de este volumen de datos sin la ayuda de tecnología se volvió imposible. Esto llevó al desarrollo del campo que conocemos hoy como ciencia de datos.
El objetivo de la ciencia de datos es la mejora de la toma de decisiones respaldando elecciones en datos del mundo real. Permite a los humanos extraer conocimientos valiosos de datos que pasarían desapercibidos de otra manera.
Estos conocimientos necesitan ser tanto no-obvios como útiles. No-obvio significa que un ser humano no sería capaz de encontrar el patrón por sí mismo, y útil significa que es posible tomar acción como resultado del conocimiento ganado. Estas acciones podrían ser cosas como:
- Identificar tendencias en consumidores y ofrecerles productos que es más probable que disfruten/encuentren útiles, y por lo tanto compren.
- Descubrir qué suscriptores a tu servicio es probable que te dejen por un competidor y tomar acción a tiempo para recuperar su buena voluntad.
- Identificar eventos anormales para prevenir fraudes o ataques terroristas.
- Identificar tipos específicos de cáncer y proporcionar un tratamiento más efectivo para cada caso particular.
La ciencia de datos se diferencia del enfoque tradicional de análisis de datos en su dependencia de herramientas automatizadas para el análisis de datos. El análisis manual del volumen actual de datos disponibles es imposible, por eso las máquinas se han convertido en el mejor amigo de cada analista de datos.
La definición que creo que mejor describe el campo es la siguiente:
La ciencia de datos es un enfoque multidisciplinario para la recopilación, transformación, análisis y presentación automática de datos para extraer conocimientos valiosos y accionables de ellos.
Aunque podría parecer como si el campo fuera algo nuevo y popular, la mayoría de las bases sobre las que se construye la ciencia de datos han existido por un tiempo. Ahora hablaremos sobre desarrollos importantes que llevaron a la creación del campo que hoy conocemos como ciencia de datos.
Una muesca en un palo, dos muescas en un palo
La creación de este campo no sucedió de la noche a la mañana. La humanidad ha estado desarrollando sus herramientas y fundamentos por milenios, mucho más tiempo del que imaginarías. Recapitulemos algunos de los desarrollos más importantes que llevaron al campo que conocemos hoy como ciencia de datos:
-
Antes del 41000 AC: Los humanos empiezan a escribir marcas en huesos y palos para hacer seguimiento de eventos o realizar cálculos simples. Empezamos a crear conceptos matemáticos rudimentarios y hacer seguimiento de fenómenos naturales.
-
3200AC-2000AC: Los mesopotámicos inventan la contabilidad y empiezan a hacer seguimiento de transacciones comerciales y otros tipos de información. Los egipcios se dan cuenta de que tener una idea de los recursos disponibles es bueno para presupuestar comida, recolectar impuestos y reclutar ejércitos, así que empiezan a realizar censos periódicos a través del imperio. Después de este punto, solo seguimos mejorando y mejorando en escribir registros y recaudar impuestos.
-
800DC-1900DC: Inventamos las estadísticas. Como el nombre implica, su objetivo es lidiar con información sobre el estado: demografía, economía, y otras cosas. Pronto descubrimos que podemos aplicar estas técnicas a todo tipo de datos, y las estadísticas empiezan a jugar un papel muy importante en ciencia e ingeniería. También inventamos probabilidad y distribuciones de probabilidad, permitiéndonos realizar aprendizaje estadístico. Gauss inventa el método de mínimos cuadrados y William Playfair crea el campo de visualización de datos. Ah, y creamos dispositivos para analizar grandes cantidades de datos: computadoras.
-
1900DC-1950DC: Turing inventa las bases de las computadoras modernas, y la invención del transistor cataliza la creación de componentes electrónicos más poderosos. La investigación en sistemas inteligentes comienza y creamos modelos teóricos para lo que eventualmente se convertirán en conceptos modernos de aprendizaje automático, como redes neuronales. La humanidad empieza a emplear computadoras para analizar grandes cantidades de datos. Se crean las bases de la teoría de la información, y el uso de técnicas estadísticas multivariadas se vuelve generalizado.
-
1950DC-2000DC: Mucho interés en IA lleva al desarrollo de técnicas modernas como SVMs, agrupación k-means, árboles de decisión y retropropagación en redes neuronales. Edgar Codd publica un paper sobre el modelo de datos relacional, llevando al desarrollo de tecnologías como bases de datos relacionales y SQL. Los almacenes de datos nacen como resultado de que las empresas necesiten centralizar su procesamiento de información e integrar enormes cantidades de datos. Los desafíos para analizar grandes cantidades de datos crean el campo de minería de datos (originalmente conocida como descubrimiento de conocimiento en base de datos). El término ciencia de datos empieza a ser adoptado en los 90s como resultado de la discusión sobre usar computadoras para analizar grandes cantidades de datos. La era de internet comienza.
-
2000DC-AHORA: Las tecnologías móviles y la disponibilidad masiva de internet incrementan la cantidad de datos diarios producidos a niveles sin precedentes. Las empresas invierten en la creación de herramientas de software y librerías (como Hadoop y Spark) para el análisis de cantidades masivas de datos. GPUs poderosos y otro hardware están disponibles a precios de consumidor. Las universidades empiezan a ofrecer ciencia de datos como una opción para estudiantes. La ciencia de datos reúne mucho interés y se convierte en un campo mainstream con muchas aplicaciones útiles.
Genial, ¿pero por qué ahora?
Bueno, si tuviera que adivinar diría que es la combinación de 3 factores:
-
Disponibilidad de hardware poderoso y librerías: La complejidad computacional de muchas de las técnicas de ciencia de datos más poderosas estaban más allá del alcance de la mayoría de organizaciones e individuos, hasta recientemente. Hoy en día, puedes usar tu propia computadora personal y librerías de código abierto para crear aplicaciones de datos útiles, y hay mucha literatura disponible para enseñarte cómo hacer esto.
-
La cantidad de datos disponibles: Con computadoras modernas e internet, nos volvimos bastante buenos recopilando datos y haciéndolos disponibles. La disponibilidad de conjuntos de datos masivos mejoró dramáticamente la precisión de los modelos que podemos crear.
-
Creencia en las oportunidades de la toma de decisiones basada en datos: Las empresas y organizaciones se dieron cuenta del poder oculto detrás de los enormes conjuntos de datos producidos cada día. Darse cuenta de que conocimientos poderosos e importantes pueden ser obtenidos de datos que de otra manera pasarían desapercibidos llevó a las organizaciones a invertir en el avance del campo.
Genial, ¿pero para qué puedo usarlo?
Acabamos de terminar de explicar qué es la ciencia de datos.
En el siguiente artículo de la serie, veremos algunos ejemplos donde la ciencia de datos es una buena opción. ¡Este es un campo increíblemente emocionante con muchas aplicaciones y oportunidades! Así que veamos qué tipo de problemas podemos resolver con ella.
Qué hacer después
- Comparte este artículo con amigos y colegas. Gracias por ayudarme a llegar a personas que podrían encontrar útil esta información.
- El cómic para ML está basado en un cómic original hecho por SandSerif
- Esta serie está basada en los libros de la serie MIT Essential Knowledge sobre ciencia de datos y aprendizaje automático.
- Envíame un email con preguntas, comentarios o sugerencias (está en la página Autor)