SciELO - Scientific Electronic Library Online

 
vol.18 número6Plataforma Distribuida para la Realización de Prácticas de Robótica Móvil a través de InternetNuevos Patrones de Reconocimiento Visual en el Ciclo Cardiaco índice de autoresíndice de materiabúsqueda de artículos
Home Pagelista alfabética de revistas  

Servicios Personalizados

Revista

Articulo

Indicadores

Links relacionados

Compartir


Información tecnológica

versión On-line ISSN 0718-0764

Inf. tecnol. v.18 n.6 La Serena  2007

http://dx.doi.org/10.4067/S0718-07642007000600006 

 

 

Información Tecnológica-Vol. 18 N°6-2007, pág.: 39-50

TÉCNICAS NUMÉRICAS

Descubrimiento de Conocimiento en Bases de Datos Utilizando Técnicas de Morfología Matemática Borrosa

Knowledge Discovery in Databases Using Fuzzy Mathematical Morphology Techniques

Noé N. Frago y Ramón Fuentes-González
Universidad Pública de Navarra, Departamento de Automática y Computación, 31006 Pamplona-España (e-mail: noe.frago@unavarra.es, rfuentes@unavarra.es)


Resumen

En este artículo se analiza el efecto, la utilidad y la interpretación de los filtros asociados a la Morfología Matemática Borrosa en procesos de Descubrimiento de Conocimiento en Bases de Datos. En particular se estudian los operadores morfológicos erosión, dilatación, apertura, cierre, Top-Hat y Hit-or-Miss. Usando información de las bases de datos y relaciones binarias ordinarias como elementos estructurales, se implementan algunos de estos filtros. Con esta implementación se justifica que, con estos filtros morfológicos, pueden analizarse datos estructurados como tabla de registros, obteniéndose información útil no evidente. Finalmente se analizan diversas características de los operadores definidos, ilustrando los resultados con un ejemplo.

Palabras clave: descubrimiento de conocimiento, matemática borrosa, filtros morfológicos, bases de datos


Abstract

In this paper the effect and usefulness of some filters associated to Fuzzy Mathematical Morphology operators, erosion, dilation, opening, closing, Top-Hat and Hit-or-Miss are analyzed. We propose the interpretation of those operators in processes of Database Knowledge Discovery. Using database information and binary crisp relations as structuring elements, some of these filters are implemented. Also, and using the morphological filters, it is verified that it is possible to analyze information constructed in table of records, interpreted as fuzzy subsets, obtaining not evident useful information. Finally, some properties of the defined operators are analyzed, illustrating the results with an example.

Keywords: knowledge discovery, fuzzy mathematical morphology, morphological filters, databases


INTRODUCCION

En una primera etapa, una parte importante del esfuerzo de las ciencias de la computación se dedicó a la representación y almacenamiento de la información adquirida del mundo real, para pos-teriormente obtener conocimiento útil no evidente. Fruto de ese esfuerzo, existen en la actualidad numerosos modelos para el almacenamiento de la información, así como para su representación, entre los que cabe destacar el modelo relacional (Codd, 1970). Un problema común a la hora de representar información en una base de datos, es que dicha información pueda estar afectada de imprecisión e incertidumbre en su definición. Para afrontar esta situación surgió (Zadeh, 1965) la teoría de conjuntos borrosos. Esa misma problemática obligó a desarrollar nuevos modelos de bases de datos, como el Modelo FIRST para manejar bases de datos borrosas. En los últimos años, con enormes cantidades de información almacenada, se están desarrollando técnicas que permitan ana-lizarla y obtener conocimiento útil, hasta ese momento desconocido. Esas técnicas engloban meto-dologías muy diversas, que se agrupan bajo el nombre de Minería de Datos y extracción de Conocimientos en Bases de Datos (Frawley et al., 1991). En el campo del procesamiento de imá-genes, el término Morfología Matemática (Matheron, 1967; Serra, 1982) hace referencia a una teoría y a una metodología específica no lineal, basada fundamentalmente en operaciones de la teoría de conjuntos. Se han desarrollado estas técnicas para el procesamiento y análisis de imágenes digitalizadas, tanto para las imágenes binarias, como para las que poseen diferentes tonos de gris o para las imágenes en color, consideradas todas ellas como subconjuntos del plano digital Z2.

Desde un punto de vista geométrico, la morfología matemática consiste en el análisis de las imágenes mediante otra imagen prefijada en forma, denominada elemento estructurante y que determina, para cada píxel de la imagen a procesar, la vecindad que condiciona su modificación. Con ese análisis se pretende la obtención de información relevante subyacente en esas imágenes digitalizadas. Los operadores básicos de la Morfología Matemática son la dilatación y la erosión. Un apartado fundamental de esta teoría es el posterior desarrollo de filtros morfológicos, como funciones que permiten resaltar o eliminar determinados elemento de las imágenes. Entre esos filtros, cabe destacar la apertura y el cierre. En Serra (1988), la Morfología Matemática se amplia a contextos más generales, relacionados con un tipo distinguido de conjuntos ordenados: los retículos completos (Heimans y Vincent, 1993). Posteriormente, se extiende esta teoría a subconjuntos borrosos (Bloch y Maître, 1995; Divyendu y Dougherty, 1992), aunque siempre desde la perspectiva del tratamiento de imágenes.

En un contexto distinto del tratamiento de imágenes digitalizadas, se introduce (Fuentes-González et al., 2002) la aplicación de técnicas de la Morfología Matemática borrosa en el campo de análisis de datos, posibilitando la selección de registros de una tabla U a partir de un subconjunto borroso A de U y de una relación R (borrosa o nítida) en U. La novedad de estas técnicas reside en que los criterios de selección se realizan fundamentalmente, teniendo en cuenta características de vecindad entre elementos, vecindad que se determina mediante la mencionada relación binaria R, que hace el papel de elemento estructurante. Los efectos de filtrado son el resultado de la composición de los operadores morfológicos básicos erosión y dilatación, que se construyen a utilizando t-normas e implicaciones borrosas. En este trabajo, por una parte, se extienden resultados anteriores (Fuentes-González et al., 2002 y Frago y Fuentes-González, 2006) y, por otra, se justifica posteriormente la teoría mediante su aplicación a un ejemplo real que proporciona una base de datos estructurada con 15.000 registros (apartado Ejemplo de este trabajo).

Antecedentes: operadores erosión y dilatación borrosa

La erosión y la dilatación son las operaciones básicas en la teoría Morfología Matemática, a partir de las cuales se definen la mayoría de los posteriores filtros utilizados. Comenzaremos aquí presentando la versión de estas definiciones en el contexto que nos interesa: el de descubrimiento de conocimientos en bases de datos (Fuentes-González, 2002; Frago 2006).

Sea U un referencial, conjunto finito cuyos elementos son registros en una base de datos.

Sea ([0,1], £)  la cadena  completa [0,1] Í R con la relación  de orden usual £. Consideramos en [0,1]

las siguientes operaciones:

(a) Una t-norma  tal que, para todo M Í [0, 1] verifique:
T(a, supM) = sup(T(a, M)).

(b) La implicación borrosa  obtenida por residuación (Erich et al., 2000) de la
t-norma anterior T, es decir, T:  I (a, b) = sup {w | T(a, w) ≤ b }  "(a, b)

Con estos elementos, fijada una relación borrosa R en U  (que llamamos relación estructurante), y un subconjunto borroso A de U, Fuentes-González, R., et al. 2002, proponen la siguiente definición de operadores erosión y dilatación.

Definición 1.- Sea A: U® [0,1] un subconjunto borroso de registros y sea R una relación estructurante. Se define  la erosión ER(A) y la dilatación DR(A) de A asociadas a la relación estructurante R como los nuevos subconjuntos borrosos tales que,

ER(A))(x) = inf {I (Rop(x,y),A(y)) /yÎU}  "xÎU     y    DR(A)(x) = sup{T(R(x,y), A(y)) / yÎU} "xÎU,

(1)

siendo T una t-norma del tipo (a), I   su implicación residuada dada por  (b) y Rop la relación borrosa opuesta de R  definida por  Rop(x,y) = R(y,x)   " (x,y) Î U ´U.

Si para xÎ U se considera su R-vecindad, es decir el subconjunto borroso Rx tal que Rx(y) = R(x, y)  "yÎ U, las expresiones (1) pueden representarse por:

ER(A))(x)= inf {I (Rxop(y),A(y)) | yÎU}  "xÎU     y     DR(A)(x)=sup {T(Rx(y), A(y)) | yÎU}  "xÎU.

(2)

 

En las condiciones de la definición 1, si £, Ù y Ú representan, las extensiones puntuales habituales a [0,1]U de la relación de orden y de las operaciones mínimo y máximo en [0,1], se verifica el siguiente teorema.

Teorema 1.- Sean A y B subconjuntos borrosos de registros, y sea R una relación estructurante entre registros. Entonces los operadores erosión y dilatación morfológicas definidos en (1) verifican:

1) ER(A ÙB) = ER(A) Ù ER(B)  "(A, B)Î [0,1]U´ [0,1]U

2) DR(A Ú B) = DR(A) Ú DR(B) "(A, B) Î [0,1]U´ [0,1]U

3) Si A £ B, entonces,  ER(A) £ ER(B)  DR(A) £ DR(B).

Estos operadores nos permiten manipular los registros de una tabla U utilizando un subconjunto borroso A y una relación R (borrosa o no), obteniendo los nuevos subconjuntos borrosos ER(A) y DR(A). El grado de pertenencia borrosa de un registro x de U a cada uno de estos nuevos subconjuntos borrosos se ha determinado, no por las características de dicho elemento, sino en función de las relaciones de sus R-vecindades  con los elementos del subconjunto borroso A.

Un caso particular interesante se obtiene, al considerar los operadores morfológicos asociados a la implicación de Lukasiewicz en [0,1]. Concretamente, considerando en [0,1] la t-norma determinada por la expresión:

T(a, b) = max(0, a+b–1)  "(a,b)Î [0,1] ´ [0,1], cuya implicación asociada es la de Lukasiewicz:

I(a, b) = min(1, 1–a+b) "(a, b)Î [0,1]´ [0,1]. De esta forma las expresiones (1) para los operadores erosión y dilatación son ahora:

ER(A)(x)=min{min(1, 1-R(y,x)+A(y)) | yÎ U } "xÎU   DR(A)(x)=max{max(0, R(x,y)+A(y)-1) | yÎU}  "xÎU

(3)

El interés de este caso reside en que, al estar además relacionadas la t-norma y la implicación de Lukasiewicz  por medio de la negación de Zadeh: 1-T(a, 1– b) = I(a, b)  "(a, b) Î [0,1]´ [0,1], se induce también una relación, entre los operadores erosión y dilatación morfológicos:

ER(A´)´ = DRop(A) "AÎ [0,1]U,

          (4)

en donde representa el subconjunto borroso A´(x) = 1- A(x)   " xÎU.

Aunque el elemento estructurante utilizado para calcular erosiones y dilataciones morfológicas puede ser cualquier relación borrosa [0,1]U´U, hacemos notar que aparece otro caso distinguido cuando se utilizan como elementos estructurantes relaciones nítidas R, R(U´U) Í {0,1}. En este caso Rx y Rxop representan los subconjuntos ordinarios {yÎ U | R(x,y)=1}  y  {yÎ U | R(y, x)=1}. Además, en este caso, las expresiones (1) para la erosión y dilatación morfológicas no dependen de la t-norma y de la implicación, ya que las expresiones son:

.

(5).

Obsérvese que ER(A)(x) = 0 si y solo si existe zÎ tal que A(z) = 0,  y que DR(A)(x) = 0 si y solo si
Rx =
Æ  ó A(z) = 0 para todo zÎRx.

En estas condiciones, si para un xÎU se verifica que ER(A)(x) = entonces la Rop-vecindad de x esta incluida en el a-corte de A : Í Aa. En el caso de la dilatación, si para un xÎU se verifica que
DR(A)(x) =
entonces, para todo z perteneciente a la  R-vecindad de, x se verifica  que A(z) £ a.  En

este caso además de los resultados que aparecen en el teorema 1, si la relación R es reflexiva y Í representa la extensión puntual habitual de ≤ a [0,1]U, entonces ER(A) Í A Í DR(A), lo que justifica los nombres de erosión y dilatación en función de sus efectos sobre A.

FILTROS MORFOLOGICOS: APERTURA Y CIERRE MORFOLOGICOS

La composición de los operadores anteriores nos permite construir nuevos operadores, filtros morfológicos, sobre subconjuntos de registros. En particular, los filtros más simples son la apertura y el cierre. Con ellos, al igual que en el contexto del procesamiento de imágenes, se pueden construir nuevos filtros por unión e intersección de aquellos (en paralelo) o por composición (en serie) de los mismos. Definimos a continuación los operadores apertura y cierre.

Definición 2.- Sea A un subconjunto borroso de registros y R una relación borrosa entre registros. Se define la apertura morfológica gR y el cierre morfológico zR  de A asociados a la relación estructurante R  respectivamente por:

gR(A) = DR(ER(A))      y       zR(A) = ERop(DRop(A)) "AÎ [0,1]U.

(6)

La forma en que se construyen los operadores apertura y cierre determinan su función de filtro, la erosión (“con efecto eliminar”) y la dilatación (“con efecto añadir”) caracterizan los nuevos subconjuntos obtenidos gR(A) y zR(A).

Si I es la implicación residuada asociada a la t-norma T, y ER y DR son los operadores morfológicos dados por (1), los nuevos operadores apertura gR y cierre zR verifican el siguiente teorema.

Teorema 2.- Sean A y B dos subconjuntos borrosos de la tabla de registros U, y sea R una relación binaria de U. Entonces los operadores apertura y cierre verifican:

1) Si A B, entonces: gR(A) gR(B) y  zR(A) ≤ zR(B).

2) gR(A) ≤ A ≤ zR(A)  "AÎ [0,1]U.

3) gR(gR(A)) = gR(A), zR(CR(A)) = CR(A) "AÎ [0,1]U.

4) Además, en el caso en que T sea la t-norma T(a, b) = max(0, a+b –1) "(a, b) o si la relación estructurante R es nítida, entonces: (gR (A)) = zR(A´)´ "AÎ [0,1]U.

En este caso, además de los resultados que aparecen en el teorema 2, si la relación R es reflexiva y Í representa la extensión puntual habitual a [0,1]U, entonces ER(A) Í  gR(A) Í A Í zR(A) Í  DR(A).

Al igual que en el contexto del tratamiento de imágenes, podemos considerar nuevos operadores asociados a los anteriores, como los gradientes utilizados en el procesamiento de imágenes para la obtención de contornos. Ejemplo de esos gradientes son los de tipo Top-Hat.

Definición 3.- Sea A un subconjunto borroso de registros. Sea R una relación borrosa entre registros. Se define el gradiente Top-Hat apertura THa,R (respectivamente Top-Hat cierre THc,R) de A asociado a R por:

THa,R(A)=AÙ(gR(A))´     y          THc,R(A)=zR(A)ÙA´,

  (7)

en donde Ù representa la intersección de subconjuntos borrosos asociada a una t-norma.

Se obtiene así los operadores Top-Hat apertura THa y Top-Hat cierre THc en [0,1]U.

EJEMPLO

A lo largo de este trabajo, utilizaremos el universo U formado por los registros de una tabla de acceso público (que se puede encontrar en la dirección www.isc.uic.edu/~mlearn/MLSummary.html), que está relacionada con el censo de EE.UU. Dicha tabla tiene 15.000 registros y en ella se recogen datos relativos a personas, los campos de dicha tabla pueden verse en la Tabla 1.

En primer lugar,  hemos  construimos a  partir de  esa tabla un subconjunto borroso  A de U,  asociado a una función de grado de pertenencia A: U ® [0,1]. Para ello, consideramos la función obtenida por el cociente SalAnuHts(x)= , que llamamos salario anual por hora de trabajo semanal. Como Ca3(x) es el salario anual y Ca13(x) el número de horas de trabajo a la semana, el cociente puede interpretarse como una medida de la “bondad” del pago del trabajo. A continuación, utilizando este cociente y la constante SalAnuHtsMe, (salario anual por hora de trabajo semanal medio), obtenida mediante, SalAnuHtsMe = = 5757. Definimos finalmente el subconjunto borroso A, mediante la función de pertenencia dada por la Formula 9. Cuyo grafo se representa en la Figura 1 (para el trazado de este grafo se ordenaron los registros por los valores de la variable SalAnuHts). Evidentemente, el grafo de A(x), depende de la definición de la función grado de pertenencia al subconjunto borroso A.

En la Tabla 2 muestran los valores de algunos estadísticos descriptivos de los conjuntos U y A, que se compararan posteriormente con los correspondientes a los de los subconjuntos borrosos ER(A), DR(A), gR(A), THa,R(A), THc,R(A) y HM(R1,R2)(A), que hemos tomado como referencias en este análisis. Son medias y porcentajes. Concretamente el cálculo de las medias se obtiene mediante la siguiente fórmula:

.

(8)

En donde P se sustituye por A, Ca1, Ca5, Ca13 y en donde Q se sustituye por los conjuntos, U, A, ER(A), DR(A), gR(A), THa,R(A), THc,R(A) y HM(R1,R2)(A). La expresión Sop(Q) representa el soporte del subconjunto borroso Q y Card(Sop(Q)) indica el cardinal de Sop(q). De forma similar se han calculado los porcentajes.

Para obtener conocimiento de U a partir de A, utilizaremos como relación estructurante la relación binaria ordinaria (nítida) R Í UxU definida por:

R(x, z) = 1 Û (x.Ca1 = z.Ca1  AND  |x.Ca5-z.Ca5| £ 1  AND  x.Ca9 = z.Ca9  AND  x.Ca10 = z.Ca10). En otro caso R(x, y) = 0.

Esta relación es reflexiva y simétrica, es decir, es una relación de semejanza (o tolerancia). Y expresa lo siguiente: “dos personas x y z están relacionadas, si y sólo si x y z tienen la misma edad y sexo, son de la misma etnia y su diferencia de años de estudios es menor o igual a 1”. En este caso las personas x e y son semejantes.

Se puede considerar que A(x) nos da una medida de la proximidad, por exceso o por defecto, de SalAnuHts(x) respecto de la constante SalAnuHtsMe.

(9)


Tabla 1: Campos de la Tabla U

Ca1

Edad

Ca8

Parentesco

Ca2

Tipo de empleo

Ca9

Etnia

Ca3

Sueldo

Ca10

Sexo

Ca4

Estudios

Ca11

Ganancia

Ca5

Años de estudio

Ca12

Pérdida

Ca6

Estado civil

Ca13

Horas de trabajo a la semana

Ca7

Empleo

Ca14

País de nacimiento


Tabla 2: Estadísticos descriptivos de U y A

 

U

A

Media GraPerA

0.4

0.6

Media de edad

38.5

39

Media años-estudio

10.1

10

Media H-T-S

40.5

41.2

Media SalAnu

189980

199839

Porcentaje de mujeres

33%

32,8%

Porcentaje de blancos

85.8%

85,9%

Análisis de los Subconjuntos: ER(A), DR(A), gR(A), zR(A), THa,R(A) y THc,R(A)

En adelante, las gráficas de las distintas figuras se corresponden con los datos del ejemplo anterior y con los registros de U ordenados en función de la variable SalAnuHts. Los resultados de los teoremas y proposiciones siguientes son independientes de los datos del ejemplo, pero se utilizan para ilustrar los resultados. Las siguientes propiedades nos aportan información sobre distintos agrupamientos de datos:

Proposición 1.- Sea xÎU y R una relación reflexiva y simétrica (semejanza), entonces:

1) ER(A)(x) = a si y sólo si existe z1 semejante a x tal que A(z1) = a y para todo z semejante a x se verifica que A(z) ³ a.

2) DR(A)(x) = b si y sólo si existe z2 semejante a x, tal que A(z2) = b  y para todo z semejante a x se verifica queb ³ A(z).

3) Si xÎU es tal que ER(A)(x) ³ a y DR(A)(x)£b, entonces a £ A(z) £ b "zÎRx.

4) a = b = A(x) si y sólo si A(z) = A(x) "zÎRx.

5) ER(A)(x) = A(x) si y sólo si Rx = {x} ó A(z) ³ A(x) "zÎRx

6) ER(A)(x) = 0 si y sólo si existe z semejante a x, tal que A(z) = 0.

7) ER(A)(x) = 1 si y sólo si A(z) = 1 para todo z semejante a x.

8) DR(A)(x) = A(x) si y sólo si Rx = {x} ó A(z) £ A(x) "xÎRx.

9) DR(A)(x) = 0 si y sólo si A(z) = 0 para todo z semejante a x.

10) DR(A)(x) = 1 si y sólo si existe z semejante a x, tal que A(z) = 1.

Según el tercer apartado de la proposición 1, los valores de la erosión y de la dilatación de un elemento x determinan el subintervalo [a, b] de [0, 1], en el que están los grados de pertenencia al subconjunto A de los semejantes a x. Esto permite determinar, el rango de los valores de SalAnuHts(y) con y semejante a x. Nótese que los intervalos determinados, con sus respectivos significados, se mantienen para los elementos del conjunto {xÎU | ER(A)(x) = a, DR(A)(x) = b}. Es decir, dados a y bÎ[0, 1], determinan un subconjunto H de U, H = {xÎU | ER(A)(x)= a,
ER(A)(x)= b}
, tal que, los semejantes de cualquier elemento de H tienen su grado de pertenencia al subconjunto A dentro del intervalo [a, b].

En la Tabla 3 se dan los datos descriptivos correspondientes a los conjuntos erosión y dilatación de A asociadas a la relación R, puede observarse diferencias apreciables respecto a los datos de A (Tabla 2) y entre los datos de ER(A) y DR(A). En las Figuras 2 y 3 se representan los grafos de las funciones de pertenencia a los subconjuntos borrosos ER(A) y DR(A). Queda reflejado que, ER(A)(x) £ A(x) £ DR(A)(x), que ER(A)(x) > 0 solo para 658 personas (Sop(ER(A)= 658)  y que DR(A)(x) = 1 para la mayoría registros (11826).

      Fig. 1: Grafo de la función A(x)

Tabla 3: Estadísticos de ER(A) y DR(A)

 

ER(A)

DR(A)

Media GraPerA

0.6

0.4

Media de edad

44,5

38,3

Media años de estudio

8.7

10.1

Media H-T-S

39.6

40.6

Media SalAnu

195595

190249

Porcentaje de mujeres

45.1%

32.7%

Porcentaje de blancos

29.6%

86.8%

En el caso de los operadores apertura y cierre asociados al subconjunto borroso A y a la relación R, se verifica las Proposiciones 2 y 3 que nos proporcionan nuevos elementos para el análisis de datos.

Proposición 2.- Sea xÎU y R una relación reflexiva y simétrica, entonces:

1) gR(A)(x) = g si y sólo si $zÎRx tal que A(h) ³ g  "hÎRz  y además "zÎRx $hÎRz tal que  A(h) £ g.

2) zR(A)(x) = m si y sólo si $zÎRx tal que  A(h) £ m "hÎRz  y además "zÎRx $hÎRz tal que A(h) ³ m.

En las Figura 4 y 5 se representan los grafos de las funciones de pertenencia a los subconjuntos borrosos gR(A) y zR(A). Queda reflejado que gR(A)(x) £ A(x) £ zR(A)(x) y que en este caso, la mayoría de las personas toman valores cero para la apertura y uno para el cierre.

Proposición 3.- Sea xÎU y R una relación reflexiva y simétrica (semejanza). Entonces:

1) gR(A)(x) = A(x) si y sólo si $zÎRx tal que A(h)³ A(x) "hÎRz  y  "zÎRx $hÎRz tal que  A(h)£A(x).

2) zR(A)(x) = A(x) si y sólo si $zÎRx tal que A(h) £ A(x)  "hÎRz  y  "zÎRx $hÎRz tal que A(h)³ A(x).

3) Si ER(A)(x) = a = b = DR(A)(x) Þ  g = m = a = b.

4) gR(A)(x) = 0 si y sólo si "zÎRx existe hÎRz tal que A(h) = 0

5) zR(A)(x) = 0 si y sólo si existe zÎRx tal que A(h) = 0 "hÎRz

6) gR(A)(x) = 1 si y sólo si existe zÎRx tal que A(h) = 1 "hÎRz

7) zR(A)(x) = 1 si y sólo si "zÎRx existe  hÎRz tal que A(h) = 1

       Fig. 2: Grafo de ER(A)(x)

Fig. 3: Grafo de DR(A)(x)

En nuestro ejemplo, la Tabla 4 recoge datos descriptivos correspondientes al conjunto apertura de A asociada a la relación R. Pueden apreciarse diferencias apreciables respecto a los datos de A y una similitud respecto a los datos de ER(A).

Para el operador Top-Hat asociado al subconjunto borroso A y a la relación R, se verifica la siguiente proposición.

        Fig. 4: Grafos de gR(A)(x)

Fig. 5: Grafos de zR(A)(x)

Proposición 4.- Sea xÎU y R una relación reflexiva y simétrica, entonces:

1) El Top-Hat de la apertura se puede escribir, THa,R(A)(x) = min(A(x), 1-gR(A)(x)) "xÎU.

2) THa,R(A)(x) = a  para xÎU  y  aÎ[o, 1] es equivalente a: A(x) ³ a, existe zÎRx tal que A(h) ³ gR(A)(x) "hÎRz  y  "zÎRx existe hÎRz tal que A(h) £ gR(A)(x).

Obsérvese que gR(A)(x) £ 1-a.

Decir que para xÎU se verifica que THa,R(A)(x) = 0.7 es equivalente a decir que: A(x) ³ 0.7, que para todo zÎRx existe hÎRz tal que A(h) £ 0.3 y que existe un zÎRx tal que A(h) ³ gR(A)(x)  "hÎRz (gR(A)(x)£ 0.3). Se puede concluir que los vecinos de los vecinos de x tienen un grado de pertenencia al subconjunto borroso A, poco homogéneo y mas alejado del valor A(x), según THa,R(A)(x) esté más próximo a 1.

Proposición 5.- Sea R una relación reflexiva y simétrica. Sea THa,R(A) el gradiente Top-Hat de la apertura. En estas condiciones, se verifica:

1) THa,R(A)(x) = 1 Û A(x) = 1  y  "zÎRx  $hÎRz ' A(h) = 0.

2) A(x) £ 0.5 Þ THa,R(A)(x) = A(x)

3) A(x) = 0 Þ THa,R(A)(x) = 0  y  "zÎRx $hÎRz ' A(h) = 0

4) A(x) > 0.5  y  A(x) = gR(A)(x) Þ THa,R(A)(x) = 1-gR(A)(x) = 1-A(x)

5) A(x) > 0.5  y  gR(A)(x) < A(x)  Þ  1-A(x) < THa,R(A)(x) £ A(x)

Proposición 6.- Sea xÎU y R una relación reflexiva y simétrica. Entonces:

1) El Top-Hat del cierre se puede escribir, THc,R(A)(x) = min(zR(A)(x),1-A(x)) "xÎU.

2) THc,R(A)(x) = a para xÎU y aÎ[0,1] es equivalente a: 1-a ³ A(x), existe zÎRx tal que A(h) £ zR(A)(x) "hÎRz  y  "zÎRx existe hÎRz tal que A(h) ³ zR(A)(x).

Observar que zR(A)(x) ³ a.

Los resultados de las proposiciones 4 y 6 quedan reflejados en las Figuras 6-7 para nuestro ejemplo.

Proposición 7.- Sea R una relación reflexiva y simétrica. Sea THa,R(A) el gradiente Top-Hat de la apertura. Entonces se verifica:

1) THc,R(A)(x) = 1 Û A(x) = 0  y  "zÎRx existe hÎRz tal que A(h) = 1

2) THc,R(A)(x) = 0 Û A(x) = 1  ó  existe zÎRx  tal que A(h) = 0 "hÎRz

3) A(x) ³ 0.5 Þ THc,R(A)(x) = 1-A(x)

4) A(x) < 0.5  y  A(x) = zR(A)(x) Þ THc,R(A)(x) = zR(A)(x) = A(x)

5) A(x) < 0.5  y  A(x) < zR(A)(x) Þ A(x) < THc,R(A)(x) £ 1-A(x).

Como ejemplo, en la Tabla 5, se dan los datos descriptivos correspondientes al 0.75-corte (a = 0,75) de los conjuntos Top-Hat de la apertura y del cierre del conjunto borroso A asociado a la relación R. Pueden observarse diferencias apreciables respecto a los datos de A y entre a los datos de THa,R(A)0.75  y THc,R(A)0.75.

En la definición del Top-Hat podemos utilizar la t-norma t(a, b) = max(0, a+b-1) para caracterizar la intersección borrosa, obteniéndose los siguientes resultados.

Proposición 8.- Sea xÎ U y R una relación reflexiva y simétrica. Entonces:

1) El Top-Hat de la apertura, THa,R(A)(x) = A(x) - gR(A)(x) "xÎ U.

2) THa,R(A)(x) = a para xÎU y aÎ[0,1] es equivalente a: existe zÎ Rx tal que A(h) ³ A(x) - a " hÎRz  y  "zÎ Rx existe hÎ Rz tal que A(h) £ A(x) - a.

Proposición 9.- Sea R una relación reflexiva y simétrica. Sea THa,R(A) el gradiente Top-Hat de la apertura, entonces:

1) 0 £ THa,R(A)(x) £ A(x)

2) THa,R(A)(x) = 0 para xÎU es equivalente a: A(x) = gR(A)(x) Û existe zÎRx tal que A(h) ³ A(x) "hÎRz  y  "zÎRx existe hÎRz tal que A(h) £ (A)(x)

3) THa,R(A)(x) = 1 Û A(x) = 1  y  "zÎ Rx existe hÎRz tal que A(h) = 0.

4) THa,R(A)(x) = A(x) Û gR(A)(x) = 0 Û "zÎ Rx existe hÎ Rz tal que A(h) = 0.

Proposición 10.- Sea xÎU y R una relación reflexiva y simétrica. Entonces:

1) El Top-Hat del cierre, THc,R(A)(x) = zR(A)(x)-A(x) "xÎU.

2) THc,R(A)(x) = a para xÎU y aÎ[0, 1] es equivalente a: existe zÎRx tal que A(h) £ A(x)+a "hÎRz  y  "zÎRx existe hÎRz tal que A(h) ³ A(x)+a.

Los resultados de las proposiciones 9-10 quedan reflejados en las Figuras 8 y 9.

Proposición 11.- Sea R una relación reflexiva y simétrica. Sea THa,R(A) el gradiente Top-Hat de la apertura. Entonces:

1) 0 £ THc,R(A)(x) £z(x)

2) THc,R(A)(x) = 0 Û A(x) = zR(A)(x) Û  existe zÎRx tal que A(h) £ A(x) "hÎRz  y  "zÎRx existe hÎRz tal que A(h) ³ A(x)

3) THc,R(A)(x) = 1 Û A(x) = 0  y  "zÎ Rx existe hÎRz tal que A(h) =1

4) THc,R(A)(x) ³0,5 Û zR(A)(x) ³ 0,5  y  A(x) ³ 0,5

5) A(x) = 0 Û THc,R(A)(x) = zR(A)(x) Û existe zÎRx tal que "hÎRz A(h) £ A(x)+zR(A)(x)  y  "zÎRx existe hÎRz tal que A(h) ³ A(x)+zR(A)(x).

Análisis del filtro Hit-OR-Miss

Sea R una relación binaria (RÍUxU) y sea R1 una relación tal que R1Í R. Consideramos
R2 = R - R1 = {(x,y)ÎUxU | R(x,y) = 1 ^ xR1y=0}.

Tabla 4: Estadísticos descriptivos de gR(A)

 

gR(A)

Media GraPerA

0.6

Media de edad

43,6

Media años-estudio

8,6

Media H-T-S

39.6

Media SalAnu

197270

Porcentaje de mujeres

45,6%

Porcentaje de blancos

34.9%


Tabla 5: Estadísticos de THa,R(A)0.75 y THc,R(A)0.75

 

THa,R(A)0.75

THc,R(A)0.75

Media GraPerA

0.9

0.04

Media de edad

37

37.4

Media años-estudio

10

10.2

Media H-T-S

40

40.6

Media SalAnu

222762

168129

Porcentaje de mujeres

33.7%

30.7%

Porcentaje de blancos

88.4%

91.8%

En estas condiciones se verifica:

1) R1Ç R2

2) Si R y R1 son simétricas, entonces, R2 es simétrica.

3) Si las relaciones R y R1 son reflexivas, entonces R2 es no reflexiva.

4) Si la relación R es no reflexiva, entonces R1 y R2 son no reflexivas.

Dado un subconjunto AÍU y dos relaciones reflexivas y simétricas RÍ UxU y R1Í R, se define el operador Hit-or-Miss.

Definición 4.- Sea A un subconjunto borroso de U, R una relación binaria (RÍUxU), R1 una relación, tal que R1 Í RR2 =R - R1 = {(x,y)ÎUxU | xRy=1 ^ xR1y=0}. Se define el Hit-Or-Miss de A, asociado al par de relaciones (R1, R2), por la siguiente expresión:

 

HM(R1,R2)(A) = ER1(A)Ç ER2(AC),

(10)


    Fig. 6: Grafo de THa,R(A)(x)

Fig. 7: Grafo de THc,R(A)

que se puede expresar mediante la función de pertenencia HM(R1,R2)(A)(x) = min(ER1(A)(x), ER2(AC)(x))

Proposición 12.- En las condiciones de la definición 4, y considerando que (ER1(A)ÇER2(AC))(x) = min(ER1(A)(x),ER2(AC)(x)), se tiene:

1) HM(R1,R2)(A)(x) = a para xÎU y aÎ[0, 1] es equivalente a: [A(z) ³ a para todo zÎR1x y existe zÎR1x tal que A(z) = a  y  1-a ³ A(z) para todo zÎR2x]  o  [A(z) ³ a para todo zÎR1x y existe zÎ R1x tal que 1-a = A(z)  y  1-a ³ A(z) para todo zÎR2x].

2) HM(R1,R2)(A)(x) = A(x) si y sólo A(z) ³ A(x) "zÎR1x1-A(x) ³ A(z) "zÎR2x.

3) HM(R1,R2)(A)(x) = 0 si y sólo si existe zÎR1x tal que A(z) = 0  o existe zÎR2x tal que A(z) = 1.

4) HM(R1,R2)(A)(x) = 1 si y sólo si A(z) = 1 para todo zÎR1x  y  A(z) = 0 para todo zÎR2x.

Para los datos del ejemplo y utilizando las relaciones definidas por:

R(x,y) = 1 Û |x.Ca5-y.Ca5| ² 1  AND  x.Ca1 = y.Ca1  AND  x.Ca9 = y.Ca9. En otro caso R(x,y) =0.

R1(x,y) = 1 Û |x.Ca5-y.Ca5| ² 1  AND  x.Ca1 = y.Ca1 AND  x.Ca9 = y.Ca9  AND  x.Ca13 = y.Ca13.

En otro caso R1(x,y) =0.

R2(x,y) = 1 Û |x.Ca5-y.Ca5|£1  AND  x.Ca1 = y.Ca1  AND  x.Ca9 = y.Ca9  AND  x.Ca13 <> y.Ca13.

En otro caso R2(x,y) =0.

Se tiene que de las 15000 persona registradas en U, sólo 182 personas han obtenido HM(R1,R2)(A)(x) > 0.5, y de ellas 21 han obtenido HM(R1,R2)(A)(x) = 1.

Por la proposición 12 se puede decir que:

1) HM(R1,R2)(A)(x) = 1 si y sólo si todas las personas con la misma edad y que pertenecen al mismo grupo étnico que x, tales que la diferencia de años de estudio con respecto a x sea menor o igual que 1, tienen 1 ó 0 como grado de pertenencia al subconjunto A, según coincida o no el número de horas de trabajo semanal con el de x.

2) HM(R1,R2)(A)(x) = 0 si y sólo si existe una persona con la misma edad, y grupo étnico que x, cuya diferencia de años de estudio con respecto a x es menor o igual que 1, tal que, o trabaja las misma horas semanales que x y su grado de pertenencia al subconjunto A es 0, ó trabaja un número de horas semanales distinto que x y su grado de pertenencia al subconjunto A es 1.

En la figura 10 se representa la distribución de los valores HM(R1,R2)(A)(x), con los datos del Ejemplo y tomando las relaciones binarias anteriores. En la Tabla 6, se dan los datos descriptivos correspondientes al subconjunto HM(R1, R2)(A) del subconjunto borroso A, pueden apreciarse diferencias notables, respecto a los datos de A y el resto de conjuntos analizados.

Fig. 8: Grafo de THa,R(A), si se utiliza la  t-norma t(a, b) = max(0,a+b-1) para caracterizar la inclusión borrosa.


Fig. 9: Grafo de THc,R(A) si se utiliza la  t-norma t(a, b) = max(0,a+b-1) para caracterizar la inclusión borrosa.


     Fig. 10: Grafo de la función HM(R1,R2)(A)(x)

Tabla 6: Estadísticos de HM(R1, R2)(A)

HM(R1,R2)(A)

Media GraPerA

0.55

Media de edad

45,6

Media años-estudio

9,2

Media H-T-S

40,3

Media SalAnu

195042

Porcentaje de mujeres

35,4

Porcentaje de blancos

29,1

CONCLUSIONES

En este trabajo se han aplicado métodos de la Morfología Matemática Borrosa al proceso de filtrado de Datos, considerando como referencial una tabla U, un subconjunto borroso [0,1]U y una relación RÎ[0,1]U´U como elemento estructurante.

Dado un referencial U, un subconjunto borroso A de U y una relación ordinaria {0,1}U´U; la Morfología Matemática permite realizar distintos tipos de filtrado, obteniendo subconjuntos borrosos de U, ER(A), gR(A), THa,R(A)(x), etc. El grado de pertenencia de un elemento xÎU a uno de estos subconjuntos se determina en función de la verificación o no, por parte de los elementos de su R-vecindad o Rop-vecindad, de condiciones preestablecidas por la operación seleccionada para el filtrado.

El interés de estos filtros radica en que para cada uno de los elementos del subconjunto obtenido del filtrado, además de las características de ese elemento, disponemos de información sobre los elementos de sus respectivas R-vecindades, información que depende del operador utilizado. Los elementos seleccionados en U por un filtro, pueden considerarse como patrones de grupos de ítems con características preestablecidas por la relación y la operación utilizadas, así como por el subconjunto borroso A con el que estamos trabajando.

Los operadores utilizados en este trabajo se implementaron en una base de datos ACCESS, se utilizaron las sentencias clásicas de SQL para la selección de registros en la programación de los algoritmos. Se considera que estos métodos pueden integrase sin dificultad en lenguajes de bases de datos que incorporan el lenguaje SQL, y por tanto, el comportamiento con grandes volúmenes de información va a depender fundamentalmente de la base de datos y del lenguaje de programación que incorpore.

El objetivo de este trabajo estaba limitado a investigar las posibilidades de utilizar los métodos de la Morfología Matemática Borrosa en la búsqueda de información relevante en una base de datos. Por ello en este trabajo no aparece un estudio comparativo con otros métodos. Se puede decir que los operadores dilatación, erosión, apertura y cierre de un subconjunto borroso A de U tienen un coste computacional de orden q(n2), siendo n el numero de registros del referencial U.

Como se ha comprobado con el ejemplo analizado en este trabajo, el análisis de los subconjuntos borrosos de registros seleccionados y la comparación de estadísticos con el subconjunto borroso A y el referencial U, puede aportar conocimiento, entendiendo como tal la obtención de nueva información desconocida previamente. Por ello parece interesante seguir investigando sobre el papel que pueden desempeñar los filtros morfológicos en el descubrimiento de conocimientos en las Bases de Datos.

REFERENCIAS

Bloch, I. y H. Maître; Fuzzy Mathematical Morphologies: a comparative study, Pattern Recognition, 28, 1341-1387 (1995).

Codd, E.F.; A Relational Model of Data for Large Shared Data Banks, ACM, 13(6): 377-387 (1970)

Divyendu, S. y E.R., Dougherty,  Characterization of fuzzification Minkowski Algebra, SPIE Vol 1769, Image Algebra and Morfological Image Processing III, 59-69 (1992).

Erich, P.K., R. Mesiar y E. Pap; Triangular Norms. Kluwer Academic Publishers (2000).

Frago, N. y R. Fuentes-González; Técnicas de Morfología Matemática en el tratamiento Sistemas Relacionales Difusos. Actas del Congreso Español Sobre Tecnologías y Lógica Fuzzy. Ciudad Real (España), Septiembre (2006).

Fuentes-González, R., P. Burillo y N. Frago; Aportación al proceso de Descubrimiento de Conocimiento utilizando técnicas de Morfología Matemática. Actas del Congreso Español Sobre Tecnologías y Lógica Fuzzy. León (España), Septiembre (2002).

Frawley, W.J., G. Piatetsky-Shapiro y C.J. Matheus; Knowledge discovery databases: An Overview. In Piatetsky-Shapiro y Frawley (eds) Knowledge Discovery in Databases, AAAI/MIT,1-27 (1991).

Heimans, H. y L. Vincent; Graph Morphology in Image Analysis, in E.R. Dougerty (Ed.) Mathematical Morphology in Image Processing, 171-204, Marcel Deckker, Inc. (1993).

Matheron, D.; Elements pour une théories des milieux poreus, Masson, Paris (1967).

Serra, J.; Image Analysis and Mathematical Morphology. Academic Press Vol I (1982) -II (1988)

Zadeh, L. A.; Fuzzy Sets, Information Control, 8:338-335 (1965).

 

Creative Commons License Todo el contenido de esta revista, excepto dónde está identificado, está bajo una Licencia Creative Commons