.
El Data Management es una disciplina que surge debido a los elevados volúmenes de datos que se tratan en la actualidad en todas las organizaciones empresariales.
El objetivo de esta disciplina es responder a las necesidades de las empresas y organismos públicos en cuanto a la disposición, gestión, seguridad y calidad de los datos, características fundamentales para garantizar la fiabilidad de estos y servir de apoyo en la toma de decisiones.
A lo largo de este artículo, se presentará de forma introductoria las áreas que engloba esta disciplina para ser analizadas de forma específica en futuros artículos.
Data Management: Antecedentes
Durante los últimos años del siglo pasado, Thomas Devenport y Laurance Prusak, pioneros en la gestión del conocimiento, determinaron una pirámide que diferenciaba los datos, la información y el conocimiento, considerando cada concepto como una fase diferenciada con características fundamentales para facilitar la toma de decisiones en toda empresa.
La información y el conocimiento son áreas que se desarrollan en el campo del Business Intelligence, a diferencia de los datos que son tratados en áreas más operativas: “Business Operation”.
El dato es la unidad primaria de información mientras que la información se define como el conjunto de los datos procesados que aportan valor. Y por último, el conocimiento se compone de la información y otros factores como la experiencia, comprensión teórica y práctica, educación…
En definitiva, esta disciplina tiene como objetivo realizar diferentes procesos y actividades que permitan convertir los datos en información y posteriormente en conocimiento, fundamental para la toma de decisciones.
¿Cuál es la problemática de las empresas para gestionar sus datos?
Los errores en los datos provocan conclusiones erróneas en las capas de información y conocimiento, que llevan a tomar decisiones con impactos contrarios a la lógica y a veces catastróficos. En muchos casos, estos errores se propagan a todas las capas de aplicaciones de la empresa.
Algunos ejemplos que forman parte de la problemática que afecta a la mayor parte de las empresas son: conceptualización diferente del mismo dato en diferentes sistemas, redundancia en aplicaciones distintas, mala calidad…
Una regla muy conocida en los entornos TIC es la regla GiGo (Garbage In Garbage Out) que nos recuerda que si los datos en origen son basura, la información es basura.
Así pues, para convertir los datos en información y posteriormente en conocimiento, se deben emprender acciones que garanticen la integridad, consistencia y precisión de estos.
Sin embargo, la gestión de los datos se complica con el crecimiento exponencial de la cantidad de los mismos que se manejan en una empresa. Debido a este incremento y a la rutina de toda organización, es común encontrar que cada departamento posea diferentes fuentes que sirven de origen incluso de los mismos datos.
El incremento en las transacciones de los datos en movilidad, la evolución del Internet de las Cosas IoT, el Big Data, la gestión en la nube, etc. hacen que la disciplina de Data Management adquiera una relevancia de primer orden en la empresa.
Los datos son uno de los activos más importantes de una organización y por tanto su gestión debe estar entre las principales prioridades de la dirección.
Data Management: 10 funciones básicas de la gestión de datos
El concepto de Data Mangement se define, según la Data Management Association (DAMA), como el desarrollo y ejecución de arquitecturas, políticas, prácticas y procedimientos que gestionan apropiadamente las necesidades del ciclo de vida completo de los datos.
Para ello, esta asociación propone 10 funciones básicas que engloba la gestión de datos alrededor de un modelo de gobernanza, que tienen como objetivo solventar los problemas derivados de la incapacidad de las empresas para abordar el tratamiento de cantidades tan elevadas de datos.
Muchas de las funciones se relacionan entre sí y son fundamentales para la consecución del éxito. Sin embargo, en la mayor parte de los casos es necesario contar con profesionales especializados y con experiencia en el liderazgo de proyectos de tal magnitud.
Modelado y diseño
Es el proceso que se realiza para documentar y reflejar mediante diagramas la forma en la que se relacionan los datos, con el fin de facilitar su comprensión. Existen modelos físicos, lógicos y conceptuales.
Si la documentación asociada al modelado es incompleta o es deficiente, la interpretación de posibles errores , la construcción o rediseño de un SW es a veces una tarea muy costosa y en algunos casos imposible.
Almacenamiento
Función muy importante durante los procesos de extracción, transformación y carga (ETL). Consiste en implementar áreas de almacenamiento (áreas de “stage”) transitorias para el procesamiento de los datos. Esta fase intermedia se encuentra entre las fuentes de datos de origen y su destino, que suele ser un datawarehouse. Sin embargo, estas áreas de stage no siempre contienen metadatos que posteriormente se almacenarán en un datawarehouse, sino que pueden tener todo tipo de datos que deben analizarse desde una perspectiva dentro del gobierno de datos.
Seguridad
Entendiendo ésta como la capacidad para proteger los datos del uso indebido de los mismos y evitar ataques que puedan suprimir, corromper o sustituir los datos o en resumidas cuentas evitar intrusiones no deseadas.
Al tener conexiones con internet bien para enviar o recibir datos o simplemente para consultar, por cualquier medio o dispositivo, estamos ante un punto nuevo de intrusión, la propia red. La seguridad encargada de velar por la integridad, confidencialidad y disponibilidad de nuestros datos es la ciberseguridad.
A su vez, las técnicas empleadas en seguridad deben contemplar qué parte de nuestros datos está en la nube y qué parte es “in house”.
Integración e interoperabilidad
Otro elemento de vital importancia en el gobierno de referencia de los datos es la interoperabilidad entre sistemas y aplicaciones.
Consiste en la gestión y creación de diferentes interfaces que permitan a los sistemas compartir los datos, evitando que estos se pierdan en islas de información y que no se puedan relacionar. Para ello, es preciso llevar a cabo acciones que garanticen la interoperabilidad técnica (conectividad física de HW y SW) y la semántica (sintaxis, formato, estructura de los datos…).
La falta de interoperabilidad origina aumentos de costes, insatisfacción del cliente, imposibilidad de gestionar determinados productos y servicios… Las empresas se enfrentan a estos problemas en su día a día, debido a que en una misma compañía, existen diferentes aplicaciones (CRMs, ERPs, Excel…) que no se comunican entre sí, ni conciben los datos de la misma manera, ya que cada departamento los “mira” desde su propia perspectiva.
Por todo ello, la integración va más allá de la comunicación entre los sistemas, hace referencia a la comprensión y entendimiento de los datos, en función de las formas que existen de almacenamiento en los diferentes sistemas.
Gestión de documentación y contenidos
Los sistemas de gestión de documentos DMS y los sistemas de gestión de contenidos CMS se encargan y facilitan la creación, retención y distribución de documentos y contenidos.
Los sistemas DMS suelen manejar datos no estructurados en formato Word, PowerPoint o similar, mientras que los sistemas CMS manejan datos estructurados y no estructurados como contenidos web.
Los problemas que se encuentran en la gestión documental y de contenidos están relacionados con la facilidad o dificultad de acceder a los datos no estructurados. El objetivo principal de esta área es acceder de forma sencilla a los datos no estructurados, almacenarlos, controlarlos y garantizar la interoperabilidad e integración con los datos estructurados.
El control de versiones es a menudo también fuente de problemas, ocasionando pérdida de productividad y frustración en los empleados.
Masterización
Surge por la dispersión que existe, de forma tan común en las empresas, de las fuentes de datos en distintas herramientas, aplicaciones e incluso hojas Excel personalizadas. Los datos procedentes de distintas fuentes pueden apuntar a un mismo dato maestro (dato fundamental en el negocio de la empresa) pero pueden estar descritos o tabulados de distinta manera, lo que complica su consolidación en información válida.
Para ello, se deben “masterizar” los datos y crear una fuente única de datos maestros. En otras palabras, se procede a ejecutar un proyecto de integración de datos, de manera automática o manual, en función de cada caso.
Sin embargo, la masterización de datos es una tarea muy compleja, dado que el mismo dato puede tener sistemas “master” y responsables diferentes en función del estado en el que se encuentre, tipo de información asociada, segmento de cliente al que va dirigida…
Datawarehousing & BI
Una vez los datos clave están masterizados, diferentes áreas de la empresa, organizaciones o incluso personas procesan estos datos en repositorios fuera de control, lo que da lugar a visualizaciones diferentes de la información, en función del repositorio o del proceso que se haya hecho del dato en distintos ámbitos. Es decir, a partir de diferentes fuentes que contienen datos duplicados, se obtienen visualizaciones y conclusiones dispares.
Para ello es preciso que el equipo de “Business Inteligence” a través de una herramienta única o plataforma de BI, establezca las reglas de procesado, trazabilidad, análisis, etc.
Se definen de manera inequívoca los indicadores clave (KPIs) de la empresa con el fin de que no haya diferentes versiones y por tanto diferentes valores del mismo indicador.
Para evitar que se obtenga información diferente en función del repositorio de origen, se realiza una labor de datawarehousing, que mediante las indicaciones del equipo de BI, desarrollarán un repositorio común (“datwarehouse”), donde se agrupan subconjuntos de datos denominados “data marts”, para realizar consultas de diferentes áreas de la organización.
Esta labor es muy importante, no solo para evitar duplicidad, sino también para reducir los tiempos de consulta y los trámites que se realizan hasta determinar que dato es el que se necesita, en función del área de la compañía. Si los puntos anteriores no son abordados, la tarea de implantación de un “datawarehouse” se enfrentará a multitud de dificultades.
Metadatos
Se definen como los datos que describen otros datos. Una de las áreas del Data Management es la recopilación, categorización, integración, control y gestión de los metadatos con el fin de aprovechar el valor añadido que aportan a otros datos. Por otra parte, la gestión de los metadatos influye en otras áreas como la de Datawarehousing & BI, facilitando la estructura del “data warehouse”, aportando mayor información sobre los datos, facilidad para los usuarios…
Calidad
Los datos son inexactos, no son coherentes, están desactualizados o son de difícil acceso. Este problema se resuelve con técnicas de “data cleaning”. Para ello, es común emprender proyectos que incluyan procesos y responsables que garanticen la calidad del dato, adopción de herramientas de gestión de la calidad, actualizaciones y seguimiento continuado de los estándares establecidos.
No existe ninguna organización en la que el índice de calidad del dato sea del 100%. Sin embargo un plan continuo que garantice un nivel óptimo de calidad en los datos garantiza un ahorro de costes, fiabilidad en los informes analíticos y por ende una mejor experiencia de cliente.
Arquitectura de datos
En muchos casos no existe una arquitectura de datos o bien no está integrada. Entendiendo ésta como la disciplina que se encarga de fijar cómo se relacionan los datos, cómo se configuran, cómo se almacenan y cómo se integran. A veces nos encontramos con decisiones erróneas sobre las tecnologías (arquitectura tecnológica) y herramientas a utilizar, cuando lo importante es el alineamiento entre arquitectura y procesos, estrategias y objetivos de la empresa (arquitectura de negocio).
En la actualidad, lo cierto es que la mayor parte de las empresas no están preparadas para abordar la gestión eficiente de volúmenes tan grandes de datos. Además, esta gestión no solo requiere la puesta en marcha de las funciones anteriormente descritas, sino que para obtener información de los datos, es preciso que estos se organicen con visión de negocio para garantizar beneficios y resultados estratégicos.
Por tanto, para sacar valor de los datos es preciso contar con profesionales experimentados que además de asumir las competencias técnicas, puedan aportar visión estratégica y del negocio.