Hablemos de los datos

Hoy día todos sabemos en líneas generales de qué se trata la palabra DATOS, lo que no sabemos a profundidad es todo lo que podemos hacer con un conjunto de Datos.

Hablemos de los datos, en este artículo quise tomar y desarrollar la perspectiva desde la unidad más pequeña de información, el Dato.

Hoy día todos sabemos en líneas generales de qué se trata de esta palabra, lo que no sabemos a profundidad es todo lo que podemos hacer con un conjunto de Datos.

Los datos inundan nuestra vida cotidiana, le dan forma a nuestro entorno, definen la sociedad moderna ya que  todo está relacionado con los datos, incluso hasta las brechas que se generan por no tener acceso a ellos.

Entremos en concepto, el Dato es una representación que  identifica, califica o cuantifica, los datos pueden ser generados por muchas fuentes, nosotros como seres humanos somos la principal fuente de generación de datos, además de lo que se generan naturalmente en nuestro entorno o entre máquinas hasta el año 2002 (comienzo de la era digital), la humanidad no producía la cantidad de datos que en este momento genera por segundo, es tanto el volumen de datos, que las unidades de medidas se quedaron cortas y se hablan de números sorprendentes que se triplican anualmente. 

Un Dato en digital un byte es la medida más pequeña de información, a continuación unas equivalencias útiles:  equivalencia.

 

¿Qué hacemos con los datos?

Los computadores, las redes, la informática le dieron un enorme empuje al tratamiento de los datos, asimismo, son los precursores de la generación de nuevas fuentes de datos o la habilitación de estas fuentes para generar más datos.

Sobre los datos se genera información, la cual se obtiene por el procesamiento de los datos. La forma como se presenta esa información es prácticamente infinita, comencemos por lo básico, cálculo matemático, estadísticas, documentos, imágenes, etc.

Para poder obtener información útil de los datos estos deben ser obtenidos y correctamente almacenados, clasificados y tratados.  Antes del surgimiento de la computación procesar una simple estadística era un trabajo tedioso, hoy día podemos obtener estadísticas en minutos sobre datos que se encuentra almacenados en formatos de bases de datos o en hojas de cálculo.

La información como activo para generar conocimiento 

Con fechas más recientes se han acuñado términos como “el valor de los datos”, “los datos como activos”, “los datos como moneda”, que ponen en evidencia que somos ricos en datos y muchas veces  pobres en conocimiento.

Nos hemos ocupado de almacenar grandes cantidades de datos que están subutilizados, para el 2020 se estima que la capacidad de almacenamiento digital del mundo llegará a 35ZB, y aun cuando tenemos la tecnología con la capacidad para gestionar, analizar y descubrir el conocimiento implícito en los datos almacenados, no lo hacemos, en una manera oportuna, en tiempo real, de forma ordenada y escalable, en este momento se preguntarán, ¿dónde está la barrera?

Para responder esta pregunta debemos hacer la siguiente revisión.

El conocimiento es el significado que se extrae de información, la información es un conjunto de datos, que pueden ser tratados o comunicados, la información tiene una estructura útil que puede cambiar el estado del conocimiento y modificar las decisiones que se puedan aplicar o no en el momento o en el futuro.

Esto nos permite establecer una relación entre datos – información – conocimiento y decisión, y nos lleva a pensar que, en base a datos ciertos, ordenados de manera adecuada, se genera información útil para tener el conocimiento que será el insumo necesario  la toma de decisiones acertadas.

Un ejemplo sobre datos – información – conocimiento y decisión, en una gráfica de consumo de ancho de banda en una red.

Cada pico y cada valle en la gráfica representa un número aislado, cuando se muestran ordenados en el tiempo y en conjunto estos números se convierten en información sobre lo cual se puede extraer un conocimiento, síntoma o tendencia, que son útiles.

La capacidad cognitiva permite interpretar la información sobre los datos procesados, capacidad que solo está en los cerebros de los humanos. 

Hasta ahora, solo con el aprendizaje adecuado un experto o un especialista puede interpretar la información sobre el campo específico de los datos, medicina, matemática, ingeniería, mecánica, clima, población, etc.

Procesos de descubrimiento de conocimiento en bases de datos 

Para los computadores, el procesamiento de datos estructurados o semi estructurado es factible por medio de la arquitectura tradicional, donde se obtiene la minería de datos, sin embargo, el procesamiento de datos semi estructurados o no estructurado y la múltiple relación de datos o fuentes diversas en grandes volúmenes representan un reto mayor a los que esta arquitectura puede soportar.

El proceso de extraer conocimiento a partir de grandes volúmenes de datos ha sido reconocido por muchos investigadores como un tópico de investigación clave en los sistemas de bases de datos, y por muchas compañías industriales como una importante área y una oportunidad para obtener mayores ganancias (Timarán, 2009). 

Autores como Fayyad, Piatetsky-Shapiro y Smith (1996, p. 89) lo definen como “El proceso no trivial de identificación de patrones válidos, novedosos, potencialmente útiles y fundamentalmente entendibles al usuario a partir de los datos”.

El Proceso de descubrimiento de conocimiento en bases de datos (del inglés Knowledge Discovery in Databases – KDD) es una automatización donde se combinan descubrimiento y análisis, este proceso consiste en extraer patrones en forma de reglas o funciones, a partir de los datos, para que el usuario los analice bajo su capacidad cognitiva. 

Las tareas dentro de este proceso implican “Preprocesar” los datos crudos, hacer “Minería de Datos”, generar “Patrones” para presentar resultados. 

Este proceso puede ser aplicado a diferentes fuentes o dominios para descubrir relaciones implícitas existentes entre síntomas y enfermedades, entre características técnicas y diagnóstico del estado de equipos y máquinas, para determinar perfiles de consumidores en términos de sus características socioeconómicas de manera de establecer patrones de compra en sus canastas de mercado.

Proceso de extracción de conocimiento sobre bases de datos (KDD

 

El KDD tiene como objetivo descubrir patrones y tendencias estructurando la información que se ha obtenido de una manera comprensible para su interpretación, sobre un set limitado de conocimiento o dominio y principalmente de datos estructurados.

Frente a estas limitaciones de KDD surge Big Data, Big Data es la respuesta para el procesamiento de grandes volúmenes de datos que tomaría mucho tiempo y grandes costos de pre-procesamiento para cargarlo en una base de datos, de hecho Big Data soporta datos, estructurados, semi-estructurados y no estructurados.

Es así como  la arquitectura distribuida de Big Data amplifica la capacidad de procesamiento, por medio de un sofisticado sistema de archivo divide los datos en pequeños bloques y los distribuye en la arquitectura, estos pequeños bloques de datos son más sencillos de procesar y forman subconjuntos de datos, además de una extensa base de datos no relacional distribuida.

Big Data apoya múltiples campos científicos, sociales y económico y permite avanzar en la compresión de grandes volúmenes de datos y la obtención de información, de allí surge la afirmación somos ricos en datos y pobres en conocimiento, entonces replanteamos la pregunta, ¿dónde está la barrera?

La clave de la IA

La barrera se encuentra en la capacidad cognitiva de procesar esta información para la toma de decisiones.

n ser humano tiene la capacidad cognitiva de interpretar la información para hacerla conocimiento sin importar la fuente y si está estructurada o no, de forma natural tenemos esta capacidad.

A diferencia de los computadores, los seres humanos no pueden físicamente estar a 100% de su capacidad por largos periodos de tiempo, ni pueden manejar grandes volúmenes de carga de trabajo, por ello nos hemos apoyado en la minería de datos y en Big Data para procesar el número creciente de datos, y con ellos hemos desarrollado especializaciones multidisciplinaria sobre los Datos (ciencia de los datos), sin embargo esto no rompe la limitación Cognitiva.

Coloquialmente, el término inteligencia artificial se aplica cuando una máquina imita las funciones cognitivas que se asocia con otras capacidades humanas como percibir, razonar, aprender y resolver problemas. Andreas Kaplan y Michael Haenlein definen la inteligencia artificial como la capacidad de un sistema para interpretar correctamente datos externos, para aprender de dichos datos y emplear esos conocimientos para lograr tareas y metas concretas a través de la adaptación flexible.

El término Inteligencia Artificial se acuñó en 1956, por John McCarthy definiéndola como la ciencia de hacer máquinas inteligentes o programas de cómputo inteligente.

La inteligencia artificial se apoya en muchas técnicas de procesamiento de datos y es un área muy extensa que merece un artículo particular para desarrollarlo.

La realidad es que entorno al procesamiento de datos para convertirlos en información y conocimiento, la inteligencia artificial potencia el análisis masivo de información y lo entrega como conocimiento para la toma de decisiones y va mucho más allá, asociada a la inteligencia artificial se encuentra el aprendizaje automático (ML) y el aprendizaje profundo (Deep Learning), que amplían las fronteras de la interpretación de los datos, la información haciendo sistemas autonómicos y capaces de tomar decisiones sobre la información obtenida.

Una nueva revolución se encuentra en desarrollo en base a los datos, es esta donde las máquinas mediante la captura ampliada de datos, su procesamiento en información y el conocimiento implícito en ellos pueden tomar acciones preventivas e incluso “predecir el futuro”.

Somos extraordinariamente ricos en datos, encontrar valor de ellos depende de que estos datos sean correctamente procesados e interpretados para obtener de ellos información y conocimiento para la toma de decisiones.

Existen muchas soluciones disponibles en el mercado para el manejo de datos que entregan valor y permite a empresas de cualquier tamaño tomar ventaja de los datos que generan sus clientes, el entorno o los propios procesos productivos, no hay que perder de vista que esta pequeña unidad de información el dato es la base de una gran cúmulo de información y conocimiento, que manejado de la manera adecuada nos da ventaja y permite el éxito mediante la toma de decisiones acertadas.

Hemos descrito en este artículo, los datos, las cantidades enormes que como humanidad y entorno estamos produciendo, la capacidad de almacenamiento de datos que tenemos estimada para este año.

 

Tenemos muchos datos subutilizados y la capacidad para procesarlos con evoluciones tecnológicas permanentes que permiten la capacidad cognitiva para interpretarlos, así como culminación de una era digital y el inicio de una era donde la inteligencia artificial marcará nuestro presente y futuro.

Artículos recomendados