Uploaded by Manu framil de amorin

Fuzzy logic summary-ES

advertisement
Framil de Amorín, Manuel
Conjuntos difusos
En los conjuntos difusos [Introducidos por Zadeh y Klaua, 1965] pueden contener
elementos de forma parcial. Esto es, dado un elemento x y un conjunto A , podemos definir
un grado de pertenencia de x en A. El grado de pertenencia es (generalmente) un número
real en el intervalo [0, 1] y para determinar su valor debemos definir una función de
pertenencia μ para A, tal que μA(x) → [0, 1].
Por otro lado, podemos asignar una escala semántica a intervalos de μ A. Este proceso se
denomina fuzzificación, y debemos tener en cuenta que: las escalas lingüísticas son
arbitrarias, así como el número de elementos de la escala; podemos definir conjuntos
difusos complementarios; y cualquier conjunto es difuminable.
Formalmente, dado un universo referencial U y un subconjunto A de ese universo U:
ο€’A ⊂ U: A_difuso ↔ ∃μA (x): U→ [0, 1] ο€’x Ο΅ U
Es decir, un conjunto es difuso si puede definirse una función que para elemento del
universo referencial devuelva un valor entre 0 y 1. Si definimos esta función f de forma
f(x)=0 si x no pertenece a A y f(x)=1 si x pertenece a A. Por tanto, podemos decir que el
razonamiento categórico es un caso particular del razonamiento probabilístico.
Controlador difuso
Un controlador difuso es un sistema basado en lógica difusa que analiza una serie de
variables de entrada y decide como actuar, modificando una serie de variables de control
(es decir, las variables de salida).
Podemos distinguir cuatro partes: 1. Codificación o fuzzificación, trasforma las variables
crisp en variables difusas; 2. Base de conocimiento, que es el conjunto de reglas del sistema;
3. Motor de inferencias, el núcleo del sistema, necesitamos definir la implicación difusa; 4.
Decodificación o defuzzificación, el principal método es Centro de Gravedad (COG) o
método del centroide.
Implicaciones difusas
Implicación de Mamdani (Corte): La función de implicación definida de esta forma se
convierte en una conjunción, y la evaluación de dicha implicación se hace aplicando el
mínimo entre antecedente y la función de pertenencia del resultado. La operación es
sencilla, pero se pierde la verdadera forma del conjunto difuso.
Implicación de Larsen (Escalamiento): La evaluación de la implicación se hace aplicando el
producto entre antecedente y la función de pertenencia del resultado. La operación es más
compleja, pero se pierde menos información que con el corte.
Razonamiento categórico
El dominio de discurso D está formado por las manifestaciones posibles M = {m1, …, mn}, las
interpretaciones posibles I = {i1, …, in} y las relaciones causa-efecto, que se formalizan a
través de la función de conocimiento E = E (M, I).
El conjunto de complejos manifestación-interpretación (hay 2n+m) representa todas las
situaciones (idealmente) posibles, no obstante, podemos reducir el número si tenemos en
cuenta el conocimiento del sistema. Esto es, el conjunto de complejos manifestacióninterpretación es la Base Lógica Expandida (BLE), y mediante el conocimiento podemos
eliminar las combinaciones absurdas y pasar a una Base Lógica Reducida (BLR). Si el
conocimiento es completo y la descripción del dominio es correcta, entonces la solución a
cualquier problema está en la BLR. No obstante, las interpretaciones categóricas son poco
frecuentes en la realidad.
Métodos bayesianos
Dado un universo N, un conjunto de interpretaciones Dj = {i 1, …, in}, y N(Dj) es el número de
elementos cuyo “problema” es Dj, entonces la probabilidad del complejo de interpretaciones
es P(Dj) es:
𝑁(𝐷𝑗)
𝑃(𝐷𝑗 ) =
𝑁
La probabilidad condicional puede ser definida como la probabilidad de las causas.
Un tratamiento exhaustivo del problema nos obliga a conocer todas las probabilidades. Para
ello, es necesaria la independencia de todas las variables en el modelo bayesiano, esto es,
asumir que la presencia o ausencia de cualquier variable no afecta a otra(s) característica.
Otros problemas del esquema Bayesiano son la aparición secuencial de información, la
aplicación poco cuidadosa del modelo (correlación no implica causalidad), y la consistencia
del modelo.
Razonamiento cuasi-estadístico
Intenta resolver los problemas del modelo estadístico. Para ello introduce la probabilidad
subjetiva: Dada una manifestación S, hay una probabilidad subjetiva x de que la
interpretación sea I:
𝑃(𝐼 ⁄𝑆) = π‘₯
π‘₯
que puede entenderse como una implicación 𝑆 → 𝐼
donde x es la potencia evidencial de la implicación. Si x Ο΅ [0, 1) la implicación viene afectada
por incertidumbre. La intensidad de la relación causal I/S viene determinada por la potencia
evidencial x.
Factores de certidumbre
Fue desarrollado por Shortliffe y Buchanan para el sistema experto Mycin [1975], cuya
principal función era diagnosticar enfermedades infecciosas de la sangre.
Dada una hipótesis, la potencia evidencial de una declaración se debe representar a través
de dos medidas: la medida de confianza creciente MB (h, e) y la medida desconfianza
creciente MD (h, e). Ambas medidas son índices dinámicos que representan incrementos
asociados a evidencias nuevas. Dada una hipótesis h, una evidencia e no puede,
simultáneamente, incrementar la confianza en h y disminuir la confianza en h.
El Factor de certidumbre CF (h, e) = MB(h, e) - MD(h, e) es una medida formal, pues uno de
los va a valer cero siempre (o ambos). Está entre [-1, 1]. Los CFs de h y οƒ˜h no son
complementarios a la unidad, son opuestos. Si el apoyo de una evidencia es bajo, el apoyo
de negación también es bajo.
Para la propagación de la incertidumbre
π‘₯
𝑦
𝐸1 → 𝐸2 → 𝐻
proponen CF (H, E1) = CF (H, E2) · max {0, CF (E2, E1)}
Pero sigue sin resolver el problema de la combinación de evidencias.
Teoría evidencial
La teoría evidencial [Dempster-Shafer] es una extensión a la teoría de la probabilidad para
describir incertidumbre en la evidencia. Permite que la evidencia adquirida mediante
observaciones o experimentos apoye al mismo tiempo varias conclusiones mutuamente
excluyentes o ninguna conclusión en particular. Contiene la teoría de la probabilidad como
un caso particular, y contiene algunas funciones combinatorias del modelo de Shortliffe y
Buchanan.
El Marco de discernimiento Θ es el conjunto exhaustivo de hipótesis mutuamente
excluyentes. El impacto de las evidencias no se considera solo sobre las hipótesis
individuales originales, sino sobre todos los subconjuntos de Θ, es decir, sobre partes de Θ,
representado como P(Θ). Esto quiere decir que cuando una evidencia apoya parcialmente
una hipótesis, la credibilidad restante hasta la unidad se reparte entre las hipótesis
mutuamente excluyentes, es decir, se asigna Θ. Además, si una evidencia apoya un
subconjunto de Θ no unitario, aumenta la credibilidad en dicho conjunto, pero no concreta
como afecta a cada hipótesis por separado.
Esta teoría utiliza una función µ de Asignación Básica de Verosimilitud, para asignarle a cada
elemento de P(Θ) un valor de credibilidad dada una evidencia e.
La función µ debe cumplir: 1. La credibilidad del conjunto vacío es siempre 0; 2. A todos los
subconjuntos de πœƒ se le asigna un valor entre 0 y 1; 3. La suma de todos los valores asignados
tiene que ser 1.
La Combinación de evidencias en la teoría evidencial se realiza mediante la Regla de
Combinación de Dempster, donde tenemos e1Ο΅A y e2Ο΅B, C = A∩B, entonces
πœ‡12 (𝐢 ) =
∑ πœ‡1 (𝐴𝑖 ) ∗ πœ‡2 (𝐡𝑗 )
𝐢=𝐴∩𝐡
Gracias a la propiedad conmutativa de la multiplicación, el orden de aparición de las
evidencias no afecta al resultado final. No obstante, esta formulación coincide con la
asignación de probabilidad a la intersección de dos sucesos independientes, por lo que
asume independencia entre evidencias. Si la intersección entre dos elementos focales es
nula, se le asignará πœ‡12 (∅) > 0 , lo que viola primera condición de la Función Básica de
Verosimilitud. Para solucionar esto, es necesario normalizar el resultado.
𝐾=
∑
πœ‡1 (𝐴𝑖 ) ∗ πœ‡2 (𝐡𝑗 )
𝐴𝑖∩𝐡𝑗=∅
1
1−𝐾
Y para normalizar πœ‡12 (𝐢 ) simplemente lo multiplicamos por el Factor de Normalización FN:
1
πœ‡12 (𝐢 ) =
∗ ∑ πœ‡1 (𝐴𝑖 ) ∗ πœ‡2 (𝐡𝑗 )
1−𝐾
𝐹𝑁 =
𝐢=𝐴𝑖∩𝐡𝑗
Métricas de la teoría evidencial
Credibilidad Cr(A): Representa la confianza mínima en una hipótesis A (es decir, en un
elemento focal). Es la suma de las asignaciones básicas de verosimilitud de todos los
subconjuntos de A.
𝐡𝑒𝑙 (𝐴) = ∑ πœ‡(𝑋)
𝑋∈𝐴
Grado de duda D(A): Representa la mínima creencia en la negación de la hipótesis A. Es el
grado de creencia en la negación de A.
𝐷 (𝐴) = 𝐡𝑒𝑙(¬π΄)
Plausibilidad Pl(A): Representa la credibilidad máxima en un elemento focal A. Es por tanto
la falta de Duda en la hipótesis. También puede calcularse como la suma de asignaciones
básicas de verosimilitud de todos los elementos X de P(Θ) cuya intersección no es vacía.
𝑃𝑙(𝐴) = 1 − 𝐷(𝐴) = ∑ πœ‡(𝑋)
𝑋∩𝐴≠∅
Intervalo de confianza: Representa el nivel de incertidumbre asociado a un elemento focal
dado. Es un segmento [0, 1] cuyo mínimo es la Credibilidad de A y el máximo es la
Plausibilidad de A.
𝐼𝐢 (𝐴) = [πΆπ‘Ÿ(𝐴), 𝑃𝑙 (𝐴)]
La diferencia entre la Cr(A) y la Pl(A) es una medida de certidumbre. Cuando son iguales,
tenemos certeza absoluta sobre el impacto de una evidencia sobre A. En cambio, cuando
Cr(A) = 0 y Pl(A) = 1, no sabemos nada sobre el efecto en A de una evidencia. En resumen,
podemos decir que:
πΆπ‘Ÿ(𝐴) ≤ 𝑃(𝐴) ≤ 𝑃𝑙(𝐴)
Siendo P(A) la probabilidad (clásica) del elemento focal A.
Download