TAREA EXTRACLASE DE SISTEMA DE BASES DE DATOS SITUACION: Análisis y control de consultas. INTEGRANTES: Raul Yordan Pacheco Villarreal. Angel Varona Ruiz. Curso 2022-2023. Resumen teórico: 1. Almacenes de Datos 1.1. Un Almacén de Datos es “Es una colección de datos orientada a temas, integrada, no volátil y variante en el tiempo para ayudar en la toma de decisiones administrativas.” [Inmon] 1.2. Un almacén de datos típico tiene cuatro componentes principales: una base de datos central, herramientas de ETL (extraer, transformar, cargar), metadatos, y herramientas de acceso. Todos estos componentes están diseñados para ser rápidos, de modo que usted pueda obtener resultados en seguida y analizar los datos sobre la marcha. 1.2.1. Base de datos central: una base de datos sirve como cimiento de su almacén de datos. Tradicionalmente, han sido bases de datos relacionales estándar que operan on-premise o en la nube. Pero debido a los Big Data, la necesidad de un rendimiento verdaderamente en tiempo real y una drástica reducción en el costo de la RAM, las bases de datos in-memory están ganando popularidad rápido. 1.2.2. Integración de datos: los datos se extraen de los sistemas fuente y se modifican a fin de alinear la información para un consumo analítico rápido usando una variedad de enfoques de integración de datos, como ETL (extraer, transformar, cargar) y ELT, así como replicación de datos en tiempo real, procesamiento de carga por lotes, transformación de datos, y servicios de calidad y enriquecimiento de datos. 1.2.3. Metadatos: los metadatos son datos sobre sus datos. Especifican fuente, uso, valores, y otras características de los data sets en su almacén de datos. Hay metadatos de negocio, que añaden contexto a sus datos, y metadatos técnicos, que describen cómo acceder a los datos –incluyendo dónde residen y cómo están estructurados–. 1.2.4. Herramientas de acceso al almacén de datos: las herramientas de acceso permiten a los usuarios interactuar con los datos de su almacén de datos. Ejemplos de herramientas de acceso incluyen: herramientas de consulta y generación de informes, herramientas de desarrollo de aplicaciones, herramientas de minería de datos, y herramientas OLAP. 1.3. El almacén de datos en los sistemas de inteligencia empresarial juega un papel muy importante ya que detrás de cada BI (por sus siglas en ingles Business Intelligence) exitoso hay un poderoso DataWareHouse. Los datos guardados en el DWH se usarán después para análisis e inteligencia comercial permitiendo generar informes, incluidos pronósticos, tendencias y otras visualizaciones que alimentan conocimientos prácticos todo esto contribuye a la toma de decisiones. 1.4. El modelo multidimensional en un esquema multidimensional se representa una actividad que es objeto de análisis (hecho) y las dimensiones que caracterizan la actividad (dimensiones). 1.5. Diferencias entre el modelo multidimensional y el modelo relacional: El modelo entidad-relación (MER) es una técnica poderosa para el diseño de sistema transaccionales en el entorno de las bases de datos relacionales. Permite la normalización de la estructura de datos física, obteniéndose un diseño sin redundancias en lo datos y ocupándose el menor espacio de almacenamiento. Sin embargo, no contribuye en la habilidad del usuario en el momento de consultar la base de datos. Una técnica mucho más poderosa para la interrogación de los datos, es el modelo dimensional o multidimensional. El modelo multidimensional, es mucho menos riguroso en cuanto a organización; le permite a analistas y diseñadores más flexibilidad en el diseño, para lograr un mayor desempeño y optimizar la recuperación de la información, desde un punto de vista más cercano al usuario final. No es una tarea fácil, transformar un modelo entidad-relación en un modelo multidimensional aun cuando los datos que se modelan son los mismos. Ambos enfoques tienen diferentes puntos de partida, se emplean técnicas distintas y producen resultados de diseño de bases de datos desiguales. El modelo multidimensional produce una base de datos que es simple de navegar y encuestar. Existen menor cantidad de tablas y relaciones en este, que en el modelo entidad-relación, el cual tiene cientos de tablas relacionadas entre sí y hay diferentes caminos para obtener una misma información, desde la perspectiva del usuario final resulta prácticamente inusable. 1.6. ¿Cómo se diseña un modelo de datos multidimensional para resolver los requisitos de información en una empresa? 1.7. Se analizan los requerimientos Se identifican los indicadores y las perspectivas Se decide el gránulo o nivel de detalle de la representación Hacer el diseño conceptual (identificar hechos, dimensiones y medidas) Decidir la información que se almacenará La técnica de Extracción – Transformación – Carga es el proceso de extraer datos de múltiples sistemas de origen, transformarlos para adaptarlos a las necesidades del negocio y cargarlos en una base de datos de destino. 2. Visualización de Datos 2.1. La visualización de datos es el proceso de utilizar elementos visuales como gráficos o mapas para representar datos. De esta manera, se trasladan datos complejos, de alto volumen o numéricos a una representación visual más fácil de procesar. 2.2. La visualización de datos permite identificar las relaciones entre los datos y detectar patrones o tendencias ocultas, permite crear historias que fomentan la inteligencia comercial y así contribuir a la toma de decisiones basada en datos, así como la planificación estratégica. 2.3. 2.4. Las técnicas de visualización más utilizadas son: Gráfico de área. Gráfico de barras. Diagramas de caja y bigotes. Nube de burbujas. Gráfico de bala. Cartograma. Vista circular. Mapa de distribución de puntos. Las técnicas de visualización se vinculan con los diferentes tipos de datos dependiendo del contexto, la dinámica, el propósito y el contenido de los datos. 3. Bases de Datos NoSQL 3.1. Una Base de Datos NoSQL o Not Only SQL es una base de datos no relacional que no cuenta con un identificador que relacione un conjunto de datos con otro. En las bases de datos No SQL la información es organizada generalmente como documentos y no requieren que los datos están estructurados para poder manipularlos. 3.2. 3.3. 3.4. 4. Diseño Ejemplos de Bases de Datos NoSQL: MongoDB Apache Cassandra. CouchDB. Redis Neo4j Ejemplos de aplicaciones que usen Bases de Datos NoSQL: Facebook, Reddit y Twitter utilizan Apache Cassandra Codecademy y Windows Azure usan MongoDB Pinterest y Snapchat usan Redis Características de MongoDB: base de datos NoSQL orientada a documentos se utiliza para almacenar volúmenes masivos de datos los datos se almacenan como colecciones y documentos los documentos son pares value/key que sirven como unidad básica de datos las colecciones contienen conjuntos de documentos y funciones 4.1 Requerimientos R1: Mostrar las asignaturas por departamento de las cuales se ha impartido una mayor cantidad de consultas en el mes en curso. R2: Mostrar las facultades en que mayor cantidad de consultas se impartieron en el mes X del año Y. R3: Mostrar las asignaturas de las cuales se ha impartido una menor cantidad de consultas por parte de profesores Titulares históricamente. R4: Mostrar la cantidad máxima de estudiantes que han asistido a las consultas de la asignatura X históricamente. R5: Mostrar el tipo de local más utilizado para impartir consultas de la asignatura históricamente. R6: Mostrar las facultades que mayor cantidad de consultas han impartido en el presente año. R7: Mostrar el tiempo promedio de duración de una consulta impartida por un profesor Instructor en la asignatura X. Hecho: Consulta Medidas: cant_consultas, max_estudent_consulta, promedio_duracion_consulta Dimensiones: tiempo, Categoria de profesor, departamento, facultad, asignatura, local, estudiantes Dimensiones D1_Tiempo D2_Categoría de profesor D3_Departamento D4_Facultad D_5Asignatura D_6Local D7_Estudiantes Medidas M1_cant_consultas M2_cant_estudiante M3_promedio_duracion_consulta Dimensión R1 R2 R3 R4 R5 R6 R7 /Medidas X Regla D1 X X D2 X X X X X X X D3 D4 X D5 D6 X X X X X D7 X D8 M1 M2 M3 X X X X X X X X X