Uploaded by Angel Moises Varona Ruiz

trabajo final

advertisement
TAREA EXTRACLASE
DE
SISTEMA DE
BASES DE DATOS
SITUACION: Análisis y control de consultas.
INTEGRANTES:
 Raul Yordan Pacheco Villarreal.
 Angel Varona Ruiz.
Curso 2022-2023.
Resumen teórico:
1. Almacenes de Datos
1.1.
Un Almacén de Datos es “Es una colección de datos orientada a temas, integrada, no
volátil y variante en el tiempo para ayudar en la toma de decisiones administrativas.”
[Inmon]
1.2.
Un almacén de datos típico tiene cuatro componentes principales: una base de datos
central, herramientas de ETL (extraer, transformar, cargar), metadatos, y herramientas
de acceso. Todos estos componentes están diseñados para ser rápidos, de modo que
usted pueda obtener resultados en seguida y analizar los datos sobre la marcha.
1.2.1.
Base de datos central: una base de datos sirve como cimiento de su almacén de
datos. Tradicionalmente, han sido bases de datos relacionales estándar que operan
on-premise o en la nube. Pero debido a los Big Data, la necesidad de un rendimiento
verdaderamente en tiempo real y una drástica reducción en el costo de la RAM, las
bases de datos in-memory están ganando popularidad rápido.
1.2.2.
Integración de datos: los datos se extraen de los sistemas fuente y se modifican a fin
de alinear la información para un consumo analítico rápido usando una variedad de
enfoques de integración de datos, como ETL (extraer, transformar, cargar) y ELT, así
como replicación de datos en tiempo real, procesamiento de carga por lotes,
transformación de datos, y servicios de calidad y enriquecimiento de datos.
1.2.3.
Metadatos: los metadatos son datos sobre sus datos. Especifican fuente, uso,
valores, y otras características de los data sets en su almacén de datos. Hay
metadatos de negocio, que añaden contexto a sus datos, y metadatos técnicos,
que describen cómo acceder a los datos –incluyendo dónde residen y cómo están
estructurados–.
1.2.4.
Herramientas de acceso al almacén de datos: las herramientas de acceso permiten a
los usuarios interactuar con los datos de su almacén de datos. Ejemplos de
herramientas de acceso incluyen: herramientas de consulta y generación de
informes, herramientas de desarrollo de aplicaciones, herramientas de minería de
datos, y herramientas OLAP.
1.3.
El almacén de datos en los sistemas de inteligencia empresarial juega un papel muy
importante ya que detrás de cada BI (por sus siglas en ingles Business Intelligence)
exitoso hay un poderoso DataWareHouse. Los datos guardados en el DWH se usarán
después para análisis e inteligencia comercial permitiendo generar informes, incluidos
pronósticos, tendencias y otras visualizaciones que alimentan conocimientos prácticos
todo esto contribuye a la toma de decisiones.
1.4.
El modelo multidimensional en un esquema multidimensional se representa una
actividad que es objeto de análisis (hecho) y las dimensiones que caracterizan la actividad
(dimensiones).
1.5.
Diferencias entre el modelo multidimensional y el modelo relacional:
El modelo entidad-relación (MER) es una técnica poderosa
para el diseño de sistema transaccionales en el entorno de las bases de datos
relacionales. Permite la normalización de la estructura de datos física, obteniéndose un
diseño sin redundancias en lo datos y ocupándose el menor espacio de almacenamiento.
Sin embargo, no contribuye en la habilidad del usuario en el momento de consultar la
base de datos. Una técnica mucho más poderosa para la interrogación de los datos, es el
modelo dimensional o multidimensional.
El modelo multidimensional, es mucho menos riguroso en cuanto a organización; le
permite a analistas y diseñadores más flexibilidad en el diseño, para lograr un mayor
desempeño y optimizar la recuperación de la información, desde un punto de vista más
cercano al usuario final.
No es una tarea fácil, transformar un modelo entidad-relación en un modelo
multidimensional aun cuando los datos que se modelan son los mismos. Ambos enfoques
tienen diferentes puntos de partida, se emplean técnicas distintas y producen resultados
de diseño de bases de datos desiguales.
El modelo multidimensional produce una base de datos que es simple de navegar y
encuestar. Existen menor cantidad de tablas y relaciones en este, que en el modelo
entidad-relación, el cual tiene cientos de tablas relacionadas entre sí y hay diferentes
caminos para obtener una misma información, desde la perspectiva del usuario final
resulta prácticamente inusable.
1.6.
¿Cómo se diseña un modelo de datos multidimensional para resolver los requisitos de
información en una empresa?
1.7.

Se analizan los requerimientos

Se identifican los indicadores y las perspectivas

Se decide el gránulo o nivel de detalle de la representación

Hacer el diseño conceptual (identificar hechos, dimensiones y medidas)

Decidir la información que se almacenará
La técnica de Extracción – Transformación – Carga es el proceso de extraer datos de
múltiples sistemas de origen, transformarlos para adaptarlos a las necesidades del
negocio y cargarlos en una base de datos de destino.
2.
Visualización de Datos
2.1.
La visualización de datos es el proceso de utilizar elementos visuales como gráficos o
mapas para representar datos. De esta manera, se trasladan datos complejos, de alto
volumen o numéricos a una representación visual más fácil de procesar.
2.2.
La visualización de datos permite identificar las relaciones entre los datos y detectar
patrones o tendencias ocultas, permite crear historias que fomentan la inteligencia
comercial y así contribuir a la toma de decisiones basada en datos, así como la
planificación estratégica.
2.3.
2.4.
Las técnicas de visualización más utilizadas son:

Gráfico de área.

Gráfico de barras.

Diagramas de caja y bigotes.

Nube de burbujas.

Gráfico de bala.

Cartograma.

Vista circular.

Mapa de distribución de puntos.
Las técnicas de visualización se vinculan con los diferentes tipos de datos dependiendo
del contexto, la dinámica, el propósito y el contenido de los datos.
3.
Bases de Datos NoSQL
3.1.
Una Base de Datos NoSQL o Not Only SQL es una base de datos no relacional que no
cuenta con un identificador que relacione un conjunto de datos con otro. En las bases de
datos No SQL la información es organizada generalmente como documentos y no
requieren que los datos están estructurados para poder manipularlos.
3.2.
3.3.
3.4.
4.
Diseño
Ejemplos de Bases de Datos NoSQL:

MongoDB

Apache Cassandra.

CouchDB.

Redis

Neo4j
Ejemplos de aplicaciones que usen Bases de Datos NoSQL:

Facebook, Reddit y Twitter utilizan Apache Cassandra

Codecademy y Windows Azure usan MongoDB

Pinterest y Snapchat usan Redis
Características de MongoDB:

base de datos NoSQL orientada a documentos

se utiliza para almacenar volúmenes masivos de datos

los datos se almacenan como colecciones y documentos

los documentos son pares value/key que sirven como unidad básica de datos

las colecciones contienen conjuntos de documentos y funciones
4.1 Requerimientos

R1: Mostrar las asignaturas por departamento de las cuales se ha impartido una mayor
cantidad de consultas en el mes en curso.

R2: Mostrar las facultades en que mayor cantidad de consultas se impartieron en el mes X
del año Y.

R3: Mostrar las asignaturas de las cuales se ha impartido una menor cantidad de consultas
por parte de profesores Titulares históricamente.

R4: Mostrar la cantidad máxima de estudiantes que han asistido a las consultas de la
asignatura X históricamente.

R5: Mostrar el tipo de local más utilizado para impartir consultas de la asignatura
históricamente.

R6: Mostrar las facultades que mayor cantidad de consultas han impartido en el presente
año.

R7: Mostrar el tiempo promedio de duración de una consulta impartida por un profesor
Instructor en la asignatura X.
Hecho: Consulta
Medidas: cant_consultas, max_estudent_consulta, promedio_duracion_consulta
Dimensiones: tiempo, Categoria de profesor, departamento, facultad, asignatura, local,
estudiantes
Dimensiones

D1_Tiempo

D2_Categoría de profesor

D3_Departamento

D4_Facultad

D_5Asignatura

D_6Local

D7_Estudiantes
Medidas

M1_cant_consultas

M2_cant_estudiante

M3_promedio_duracion_consulta
Dimensión
R1
R2
R3
R4
R5
R6
R7
/Medidas
X
Regla
D1
X
X
D2
X
X
X
X
X
X
X
D3
D4
X
D5
D6
X
X
X
X
X
D7
X
D8
M1
M2
M3
X
X
X
X
X
X
X
X
X
Download