sábado, 9 de diciembre de 2023

INTRODUCCION AL ANALISIS DE DATOS

 

Información y datos

 En todas las áreas del conocimiento y en la era digital, los estudiantes y profesionales deben tener una visión general de los datos inherentes a su área de desempeño para identificar tendencias, mostrar informes, analizar el comportamiento de variables, etc. Con el objetivo de mejorar la productividad y eficiencia en los procesos académicos y/o laborales del usuario.

 

Todo el tiempo estamos generando datos, a nuestro alrededor hay datos, incluso un párrafo escrito puede transformarse en datos.

Constantemente, podemos utilizar información y datos de manera indiscriminada, sin embargo no son sinónimos. La información podemos encontrarla de forma no estructurada y los datos deben estar estructurados.

Si queremos datos útiles, debemos analizarlos. Para eso, debemos recurrir a diversas técnicas que dependen del tipo de datos que se esté recopilando; por tanto, es importante tener definida la técnica a utilizar antes de implementarla.


·        Análisis de datos cualitativo: Los datos cualitativos se presentan de manera no estructurada. Las formas más comunes de obtener esta información es a través de entrevistas abiertas, grupos de discusión y grupos de observación.

·        Análisis de datos cuantitativos: Los datos cuantitativos se presentan en forma numérica de forma estructurada como en una tabla. Describe una característica en términos de un valor numérico o cantidad.

·        Los formatos en los que puedes encontrar datos son diversos y varían dependiendo de la facilidad de procesamiento. Así, por ejemplo, hay formatos comunes para texto, imagen o sonido, y otros que son frecuentemente utilizados sólo dentro de ciertas disciplinas o comunidades de investigación. El formato con el que tenemos más familiarización es el tabular, donde hay filas y columnas.

·        Establecer un formato apropiado es esencial para poder reproducir el contenido de los archivos de la manera correcta. Por ejemplo, puede dar formato a las fechas de modo que usen texto completo, era incluida, o bien que usen sólo números y muestren los dos últimos dígitos de los años.

·        Recomendamos ampliamente, definir un formato para cada una de las variables, incluido un rango, eso evitará que trabajes doblemente para la limpieza de datos.


Definir

Definir tu problema implica pasar de un tema — contaminación ambiental, por ejemplo — a una o varias preguntas específicas . Ser específico te fuerza a formular tu pregunta de tal manera que provee pistas hacia los tipos de datos que necesitarás. Este primer paso sentará la pauta para las siguientes etapas y te dará una idea de cómo avanzar a lo largo del proceso y sus implicaciones.


Buscar 🔍

La fase de definición del problema te sugiere qué datos necesitarás, buscar estos datos puede ser un proceso con mucha o poca dificultad, dependiendo del problema. Hay muchas herramientas y técnicas para hacer eso: desde una simple pregunta en tus redes sociales, hasta usar herramientas como un buscador, portales de datos abiertos o una solicitud de acceso a la información pidiendo datos que están disponibles en las instituciónes de los gobiernos. 


Recolectar 🗂

Producir datos puede ser una tarea corta y fácil, o larga y compleja. Lo importante es diseñar un método replicable y elegir la manera más adecuada al proyecto, ya que de esa elección dependen sus alcances y conclusiones. Hay muchas maneras de lograrlo: puedes hacer crowdsourcing usando formularios en línea, generar cuestionarios con apps o impresos, hacer scrapping de varias páginas web en las que se encuentra tu información o convertir archivos no abiertos como PDFs en bases de datos filtrables y combinadas.

Verificar

Obtener los datos no significa que el problema está resuelto. Es necesario verificar si su información es válida, así como revisar los metadatos y la metodología con la que se recolectó este conjunto de información. Es importante también conocer quién organizó este conjunto de datos y si es una fuente con credibilidad en el tema y en la técnica de recolección.


Limpiar 🧹

Es muy común que los datos que se obtienen y validan estén en desorden y tengan problemas de formato: filas duplicadas, nombres de columna que no combinan con los registros, valores que contienen caracteres raros o que impiden el procesamiento de la computadora y otros más. En este paso, necesitamos habilidades y herramientas que nos permitan tener los datos en un formato legible para analizarlo por computadora.

Analizar 🖥

Esta es la parte en la que obtenemos conocimiento sobre el problema que definimos al principio. Al poner en práctica nuestras habilidades estadísticas y matemáticas, podemos entrevistar un conjunto de datos como cualquier periodista entrevista a sus fuentes. Solo que en vez de usar una grabadora y una libreta, analizamos con muchas herramientas y fórmulas.


Presentar 📊

Es necesario presentar los datos: hablar con tu audiencia para que conozca las preguntas que buscabas responder y el medio que te ha permitido llegar a ciertas conclusiones o iniciar una conversación. En esta etapa debemos enfocarnos en entender buenas prácticas para presentar los datos de manera visual y sabernos dar a entender. Trucos, estrategias y conocimiento sobre cómo funcionan nuestros ojos y nuestro cerebro a la hora de estar frente a una visualización.

La siguiente gráfica describe este proceso:

 


 Antes de que los datos se puedan usar para contar una historia, se deben someter a un proceso que permita usarlos en la historia. El análisis de datos es el proceso de identificar, limpiar, transformar y modelar los datos para detectar información significativa y útil. Después, los datos se convierten en una historia a través de informes para el análisis con el fin de admitir el proceso crítico de toma de decisiones.

A medida que el mundo se vuelve más controlado por datos, la narrativa a través del análisis de datos se convierte en un componente y un aspecto fundamental de las pequeñas y grandes empresas. Es el motivo por el que las organizaciones continúan contratando analistas de datos.

Las empresas controladas por datos toman decisiones basadas en la narrativa que transmiten sus datos y, en el mundo actual, los datos no se usan en todo su potencial, un desafío al que la mayoría de las empresas se debe enfrentar. El análisis de datos es y debe ser un aspecto fundamental de todas las organizaciones para ayudar a determinar el impacto para su negocio, y debe incluir la evaluación de la opinión de los clientes, la realización de investigaciones de mercado y productos, y la identificación de tendencias u otra conclusión sobre los datos.




Aunque el proceso de análisis de datos se centra en las tareas de limpieza, modelado y visualización de datos, el concepto de análisis de datos y su importancia para las empresas no se debe subestimar. Para analizar los datos, los componentes principales del análisis se dividen en las siguientes categorías:

·        Descriptivo

·        Diagnóstico

·        Predictivo

·        Prescriptivo

·        Cognitivo

 Análisis descriptivo

El análisis descriptivo ayuda a responder preguntas sobre lo que ha sucedido, en función de datos históricos. Las técnicas de análisis descriptivo resumen grandes modelos semánticos para describir resultados para las partes interesadas.

Mediante el desarrollo de indicadores clave de rendimiento (KPI), estas estrategias pueden facilitar el seguimiento del éxito o el fracaso de los objetivos clave. En muchos sectores se usan métricas como la rentabilidad de la inversión (ROI), y las métricas especializadas se desarrollan para realizar un seguimiento del rendimiento en sectores específicos.

Un ejemplo de análisis descriptivo es la generación de informes para proporcionar una visión de los datos financieros y de ventas de una organización.

Análisis de diagnóstico

El análisis de diagnóstico ayuda a responder preguntas sobre por qué se ha producido un evento. Las técnicas de análisis de diagnóstico complementan el análisis descriptivo básico y usan los resultados del análisis descriptivo para identificar la causa de estos eventos. Después, los indicadores de rendimiento se investigan aún más para descubrir por qué estos eventos han mejorado o empeorado. Este proceso se suele realizar en tres pasos:

1.     Identificación de anomalías en los datos. Estas anomalías pueden ser cambios inesperados en una métrica o en un mercado determinado.

2.     Recopilación de datos relacionados con estas anomalías.

3.     Uso de técnicas estadísticas para detectar relaciones y tendencias que expliquen estas anomalías.

4.     Análisis predictivo

El análisis predictivo ayuda a responder a preguntas sobre lo que ocurrirá en el futuro. Las técnicas de análisis predictivo usan datos históricos para identificar tendencias y determinar la probabilidad de que se repitan. Las herramientas de análisis predictivo proporcionan conclusiones valiosas sobre lo que podría ocurrir en el futuro. Engloban diversas técnicas estadísticas y de aprendizaje automático, como las de redes neuronales, árboles de decisión y regresión.

Análisis prescriptivo

El análisis prescriptivo ayuda a responder preguntas sobre las acciones que se deben llevar a cabo para lograr un objetivo. Las conclusiones obtenidas con el análisis prescriptivo permiten a las organizaciones tomar decisiones basadas en datos. Esta técnica permite que, en caso de incertidumbre, las empresas tomen decisiones fundamentadas. Las técnicas de análisis prescriptivo dependen utilizan el aprendizaje automático como una de sus estrategias para buscar patrones en modelos semánticos de gran tamaño. Mediante el análisis de eventos y decisiones anteriores, las organizaciones pueden calcular la probabilidad de otros resultados.

Análisis cognitivo

El análisis cognitivo intenta obtener inferencias a partir de datos y patrones existentes, derivar conclusiones en función de bases de conocimiento existentes y, después, devolver estos resultados a la base de conocimiento para futuras inferencias, un bucle de comentarios de autoaprendizaje. El análisis cognitivo ayuda a saber lo que podría ocurrir si cambiaran las circunstancias y a determinar cómo se podrían controlar estas situaciones.

Las inferencias no son consultas estructuradas basadas en una base de datos de reglas, sino supuestos no estructurados que se recopilan de varios orígenes y se expresan con distintos grados de confianza. El análisis cognitivo eficaz depende de algoritmos de aprendizaje automático y usa varios conceptos del procesamiento de lenguaje natural para entender orígenes de datos desaprovechados anteriormente, como los registros de conversaciones de centros de llamadas y revisiones de productos.

 

No hay comentarios.:

Publicar un comentario