Ponente: Alexander Rabotaev, Gerente técnico, DIS Group.
Hoy hablaremos sobre la gestión cooperativa de datos, sobre las soluciones que proponemos en esta área. Nuestra empresa está presente en el mercado desde hace mucho tiempo, llevamos 18 años en el mercado. Nos dedicamos a la gestión de datos tanto en la parte de proyectos como en la parte de software.
Hemos trabajado mucho tiempo con el software de la empresa Informática. Y ahora hemos cambiado a soluciones rusas, ofrecemos soluciones Data Innovations, Universe Data y DATAFLEET. Hemos realizado una gran cantidad de proyectos de forma independiente, una gran cantidad de proyectos con socios. Nuestra empresa es muy variada, de diferentes sectores del mercado. Esto incluye organizaciones financieras, telecomunicaciones, retail y empresas industriales, incluidas las de petróleo y gas. Aceptamos cualquier proyecto en el campo de la gestión de datos y la integración de datos, soluciones para la gestión de datos maestros. Implementamos estas soluciones en la plataforma que ofrecemos, es decir, son los componentes principales que son responsables de la gestión de datos. Esto es, repito, integración de datos, soluciones para garantizar la calidad de los datos, soluciones para trabajar con datos maestros y soluciones para la gestión de datos, esto es un glosario de negocios y un catálogo de datos.
¿Por qué la gestión de datos se ha convertido en un tema tan moderno y popular últimamente? Porque ahora los clientes tienen una gran cantidad de programas diferentes, áreas para resolver diferentes tareas.
La gestión de datos es una tarea estratégica de las organizaciones: proporcionar a los usuarios datos modernos, los datos deben ser accesibles, protegidos y confiables, los usuarios no deben buscarlos ellos mismos ni evaluar la calidad de los datos.
La pila normalmente en los grandes clientes incluye varias unidades, decenas o incluso cientos de diferentes sistemas que contienen diferentes datos. Y sería bueno utilizar estos datos no solo dentro de este sistema. Hay muchos datos, y con el tiempo se vuelve cada vez más difícil entender dónde se encuentran los datos. Es decir, no hay un sistema único que, en primer lugar, permita encontrar la información necesaria y, en segundo lugar, cada vez más personas utilizan estos datos, muchas herramientas de BI, algunas otras aplicaciones ofrecen trabajo en modo de servicio, y a una persona que no está familiarizada con un sistema específico le resulta difícil comprender dónde se encuentra un conjunto de datos en particular, quién es responsable de él, cómo obtener acceso, cuál es la calidad de los datos, de dónde provienen.
Y para resolver todas estas tareas, se utiliza una herramienta de gestión de datos. Permiten de forma rápida y cómoda proporcionar información a los usuarios, esto depende del enfoque del proyecto, de cómo se acepta el trabajo con datos en la organización, esto es una unidad especial que, a petición del usuario, puede proporcionar la información necesaria. Tienen una herramienta, saben cómo usarla, buscan rápidamente los conjuntos necesarios y proporcionan información al usuario. O puede ser el trabajo independiente del usuario con esta herramienta, ya que permite buscar de forma fácil y sencilla la información necesaria desde el punto de vista del componente empresarial. Una persona puede simplemente decir: "Quiero entender qué son nuestros ingresos y dónde se encuentran". Esta herramienta permite al sistema comprender qué son los ingresos, o los ingresos, o las ganancias, y en qué sistemas se encuentra esta información. Qué informes están relacionados con estos términos, cómo se forma todo esto. Al mismo tiempo, la herramienta de gestión de datos permite evitar la necesidad de que los usuarios "vayan" ellos mismos a algunos sistemas fuente, busquen dónde se encuentra esta o aquella información, intenten obtener acceso a ella.
Esto acelera la resolución de tareas rutinarias. Tuvimos ejemplos de cuando los clientes, al implementar una herramienta de gestión de datos, realizaron el siguiente experimento. Dos personas resuelven la misma tarea con nuestra herramienta y sin su uso, de la forma clásica, anterior. La ganancia de tiempo fue de decenas de veces. si un analista estándar entra en todos los sistemas, busca algunos conjuntos de datos, es posible que tenga que obtener acceso, evaluar la calidad. Esto suele requerir mucho tiempo, hasta una semana. Si utilizamos una herramienta de gestión de datos, el tiempo se reduce a unas pocas horas. Es decir, la ganancia de tiempo es obvia, y además se puede obtener información adicional sobre la calidad de los datos. Por lo tanto, esta herramienta se ha vuelto popular y moderna recientemente.
La siguiente diapositiva muestra los elementos clave de Data Governance.
Si hablamos de los elementos de gestión de datos en sí, entonces aquí, si hablamos de proyectos, de la implementación en el cliente, entonces simplemente con la herramienta, desafortunadamente, no se puede hacer. Las plataformas que permiten encontrar los datos necesarios y de alguna manera implementar la práctica de la gestión no son suficientes. Se debe utilizar un enfoque determinado, se deben implementar los procesos de negocio correspondientes, es probable que se requieran algunos cambios en la estructura organizativa. Todo esto también son elementos importantes en la gestión de datos.
Se deben construir los procesos correspondientes, se deben realizar, aunque no cambios globales, pequeños en la estructura organizativa. Aunque en las grandes organizaciones normalmente se crean unidades especiales para esto, que son responsables de la gestión de datos, hay un Chief Data Officer (CDO), hay data-stewards. Pero como mínimo, debe haber roles asignados en las unidades relacionadas para gestionar tales procesos. Quiero enfatizar que simplemente comprar una caja y usarla no funcionará. Siempre se requiere una encuesta preliminar, un pequeño proyecto con su ayuda o con la nuestra, que permita construir los procesos necesarios, introducir los cambios necesarios en la estructura organizativa, elaborar enfoques metodológicos.
Hablemos de los elementos clave. La diapositiva muestra una estructura organizativa global para una gran empresa, cuando hay un comité de gestión de datos, hay un propietario corporativo de datos, hay propietarios funcionales de datos. El Chief Data Officer también forma parte de este comité. Hay una estrategia para la gestión de datos, políticas, estándares. Todo esto es importante. Aunque en las pequeñas organizaciones, posiblemente, sea excesivo. Pero este es el enfoque correcto, cuando incluso se crean contratos de calidad de datos. Por ejemplo, cuando una unidad proporciona datos a otra, entonces no es simplemente de un sistema a otro sistema simplemente los transfieren, también firman un documento sobre cómo debe ser la calidad de los datos, no menos de un cierto porcentaje. Y tales historias se encuentran en diferentes organizaciones. Es importante que las unidades de negocio estén seguras de que se les proporcionan datos correctos y de calidad de forma regular.
En el comité de gestión de datos hay un rol de Chief Data Officer, que normalmente tiene un departamento de gestión de datos bajo su mando. Puede incluir arquitectos de datos, que son responsables del desarrollo de capas de datos, flujos de integración, administradores de datos, que son responsables de la descripción de glosarios de negocios, analistas, que pueden estar ubicados en unidades funcionales o en el servicio de TI, y un especialista en calidad. No es necesario que sea una unidad separada. Y todos estos roles resuelven sus tareas específicas para describir conjuntos de datos para que otros usuarios puedan encontrar rápidamente los datos que necesitan, para llevar un registro de las comprobaciones de calidad, para mostrar que los datos no solo están en este sistema, sino que pueden estar seguros de que son actuales y confiables.
Las unidades, que son usuarios de este sistema y de estos procesos, pueden usarlo de diferentes maneras. Sucede que el sistema es utilizado por toda la organización, cuando un usuario de cualquier departamento puede entrar y buscar de forma independiente algún indicador. Pero esto no ocurre con frecuencia. Con mayor frecuencia, el usuario se incluye en el sistema de solicitud estándar.
Él escribe, por ejemplo, la siguiente solicitud: "Quiero encontrar un conjunto de datos que corresponda a mis expectativas de negocio". Esta solicitud llega a la unidad de gestión de datos. Allí hay un usuario que sabe cómo trabajar con herramientas, y en base a la información que estaba en la solicitud, forma una respuesta. Este es el enfoque estándar en las grandes organizaciones. Porque normalmente los usuarios de negocio no tienen tiempo para estudiar un nuevo sistema, es más fácil para ellos asignar una tarea a un especialista y obtener una respuesta cualificada.
En esta diapositiva hay un ejemplo de este proceso. Un usuario de negocio escribe una solicitud en el sistema de gestión de solicitudes habitual para él. Esta solicitud llega al administrador de datos, que ya trabaja con la herramienta de gestión de datos, procesa la solicitud, busca los términos necesarios. Si no puede encontrarlos, se dirige a los expertos en datos para recopilar explicaciones. El arquitecto de datos debe actualizar el modelo en el marco de esta solicitud del usuario de negocio. Si es necesario, se pueden aplicar glosarios de negocio, si no hay suficiente información. O pasa directamente al analista de datos, que en base a las conexiones entre el glosario de negocio y los datos en los sistemas encontrará los atributos necesarios, comprobará su calidad. Se pueden involucrar al oficial de calidad de datos. Pero esta es una división condicional. En principio, todo esto lo puede hacer una persona, que es responsable de todos estos procesos.
Si es necesario, si esta solicitud del usuario de negocio implica inicialmente que es necesario introducir un nuevo indicador para cambiar la estructura del escaparate, entonces se involucra al arquitecto de datos, que crea las tablas correspondientes. Después de esto, el analista crea las especificaciones técnicas para la implementación, el desarrollador implementa. Después de esto, el analista comprueba si todo está implementado, y el administrador de datos proporciona un informe sobre la ejecución de la solicitud. Y el usuario de negocio recibe información de que, por ejemplo, se ha añadido un nuevo indicador al informe. Este es un proceso complejo.
Es más fácil, cuando un usuario de negocio envía una solicitud, por ejemplo: "¿Cómo se calcula tal indicador?" Entonces el administrador de datos va a la herramienta de gestión, encuentra la información y proporciona información sobre esta solicitud. En este caso, el usuario de negocio puede utilizar la herramienta él mismo y encontrar la información necesaria. Es decir, este es un proceso desde el punto de vista de la adición de nuevas funciones, nuevos términos o el recálculo de indicadores, este es un proceso de trabajo con datos.
Hablamos de la estructura organizativa, de la metodología de la herramienta. Ahora hablemos de las capacidades de la herramienta Universe DG en sí. Esta es una herramienta clásica para la gestión de datos, que incluye un glosario de negocio. Esta es una descripción de varios términos, informes, indicadores de rendimiento, estructuras organizativas, políticas, procesos y demás. No está limitado a objetos específicos. Dependiendo de las tareas del cliente, pueden ser diferentes objetos. Los glosarios de negocio son niveles conceptualmente diferentes, cuando describimos los conceptos que utiliza la organización, y cómo estos conceptos están relacionados entre sí. Todo esto permite construir conexiones entre varios conceptos dentro de la herramienta. Por ejemplo, tenemos el concepto de "cliente", tenemos una idea de cómo está relacionado con el contrato, qué es un contrato. En diferentes organizaciones hay diferentes definiciones del concepto de "cliente" incluso dentro de diferentes departamentos. Por ejemplo, tuvimos un proyecto en Sber, allí había 46 definiciones de "cliente" en diferentes departamentos. Alguien considera a los clientes potenciales, alguien que es el cliente que tiene un contrato. Toda esta terminología se une, y gracias a esto aparece una comprensión de dónde se encuentran qué objetos.
Lo siguiente que permite hacer la herramienta es la descripción de objetos lógicos, conjuntos de datos. Un cliente, por ejemplo, tomó un crédito. Se describe con tales atributos. Y un cliente en telecomunicaciones se describe con otros atributos. Todo esto se puede configurar y modelar en la forma que necesite el cliente. La conexión del glosario de negocio con las estructuras lógicas. Además, la herramienta permite conectarse a bases de datos físicas, aplicaciones físicas a nivel de tablas, atributos, leer metadatos que están en los sistemas reales. Para esto hay escáneres especiales que pueden leer metadatos y catalogarlos. Estos son dos grandes bloques conceptuales: un glosario de negocio, donde llevamos todo tipo de descripciones, un modelo lógico y un catálogo de datos, que es responsable de la recopilación de información de tablas reales, escaparates reales y su catalogación. En base a los datos recopilados se construyen conexiones. Por ejemplo, en qué tabla se encuentra la información sobre los clientes. Un usuario puede trabajar con la herramienta de diferentes maneras. Puede encontrar el concepto de "cliente". Digamos, el concepto de "cliente" entra en tal y tal sistema, se utiliza en tales y tales tablas. Esto permite comprender de inmediato, si necesita recopilar un nuevo escaparate, dónde se encuentra el cliente, si no lo sabía antes. Y al revés, un analista de sistemas puede encontrar una tabla en la base de datos o en la aplicación, y ver que en esta tabla se encuentra la información sobre el cliente. Esto funciona en ambas direcciones, para diferentes roles.
La herramienta en sí incluye la posibilidad de construir un proceso de aprobación. Además de la plataforma, se deben construir los procesos correspondientes. En los proyectos de gestión de datos, el concepto mismo de gestión de datos, los procesos de aprobación juegan un papel importante. Porque desde un punto de vista conceptual, sería incorrecto si cualquier usuario tuviera la posibilidad de realizar cualquier cambio. Cualquier cambio debe ser aprobado por todas las partes interesadas. Y para esto hay la posibilidad de construir procesos de negocio en la configuración de la herramienta. Todo esto se hace a través de un constructor especial. Esto se configura fácilmente. Todo se hace a través de la interfaz de configuración. Existe la posibilidad de añadir módulos propios y programar. Pero la mayoría de las tareas siempre se pueden resolver de forma estándar.
Existe la posibilidad de visualizar las comprobaciones de calidad de los datos de su perfilado. Sobre todo esto hay un modelo de roles, un modelo de estado, hay posibilidades de trabajar con suscripciones. Esta es una herramienta completa, que cierra todas las tareas de gestión de datos desde el punto de vista de las plataformas. La construcción de un glosario de negocio, la construcción de conexiones entre varios niveles, las comprobaciones de calidad del mantenimiento de registros - todo esto la herramienta lo cierra prácticamente en una sola ventana.
La principal ventaja es la reducción del time to market, es decir, la reducción del tiempo para la resolución de tareas rutinarias de búsqueda de dónde se encuentran los datos, cuál es su calidad, cómo están relacionados.
Además, se produce un aumento de la confianza en los datos; por ejemplo, además de los informes escritos, se pueden consultar las métricas de calidad y ver de inmediato qué comprobaciones se han realizado. También existen posibilidades de investigar diversos incidentes, cuando se establecen conexiones entre los sistemas, y si por alguna razón un informe genera dudas, se puede comprender de inmediato de qué datos se obtuvo, qué sistemas son las fuentes de este informe, se puede ir a las fichas de estos sistemas y comprobar los resultados de las comprobaciones de calidad; tal vez hoy hubo algún fallo allí, se puede ver de inmediato al responsable y al propietario de estos sistemas, ponerse en contacto con él y comprender qué ocurrió como resultado.