Professional Documents
Culture Documents
Candidata = superclave mnima Clave Primaria = clave candidata elegida Clave Ajena = clave externa o clave fornea
Qu es normalizacin? Normalizacin es un proceso que clasifica relaciones, objetos, formas de relacin y dems elementos en grupos, en base a las caractersticas que cada uno posee.
Evitar la redundancia de los datos. Evitar problemas de actualizacin de los datos en las tablas. Proteger la integridad de los datos.
Primer nivel de Formalizacin/Normalizacin. (F/N) 1. Eliminar los grupos repetitivos de la tablas individuales. 2. Crear una tabla separada por cada grupo de datos relacionados. 3. Identificar cada grupo de datos relacionados con una clave primaria.
Formalizacin CERO Usuarios Nombre Joe Jill empresa ABC XYZ direccion_empresa 1 Work Lane 1 Job Street url1 abc.com abc.com url2 xyz.com xyz.com
Ves que estamos rompiendo la primera regla cuando repetimos los campos url1 y url2 ? Y que pasa con la tercera regla, la clave primaria ? La regla tres bsicamente significa que tenemos que poner campo tipo contador autoincrementable para cada registro. De otra forma, Qu pasaria si tuvieramos dos usuarios llamados Joe y queremos diferenciarlos. Una vez que aplicaramos el primer nivel de F/N nos encontrariamos con la siguiente tabla: Usuarios userId 1 1 2 2 nombre Joe Joe Jill Jill Empresa ABC ABC XYZ XYZ direccion_empresa 1 Work Lane 1 Work Lane 1 Job Street 1 Job Street url abc.com xyz.com abc.com xyz.com
Hemos solucionado el problema de la limitacin del campo url. Pero sin embargo vemos otros problemas....Cada vez que introducimos un nuevo registro en la tabla usuarios, tenemos que duplicar el nombre de la empresa y del usuario. No slo nuestra BD crecer muchsimo, sino que ser muy facil que la BD se corrompa si escribimos mal alguno de los datos redundantes.
Usuarios userId 1 2 nombre Joe Jill empresa ABC XYZ direccion_empresa 1 Work Lane 1 Job Street
Hemos creado tablas separadas y la clave primaria en la tabla usuarios, userId, esta relacionada ahora con la clave externa En la tabla urls, relUserId. Esto esta mejor. Pero que ocurre cuando queremos aadir otro empleado a la empresa ABC ? o 200 empleados ? Ahora tenemos el nombre de la empresa y su direccin duplicandose, otra situacin que puede inducirnos a introducir errores en nuestros datos. As que tendrmos que aplicar el tercer nivel de F/N:
tercer nivel de F/N. 1Eliminar aquellos campos que no dependan de la clave. n uestro nombre de empresa y su direccin no tienen nada que ver con el campo userId, asi
que tienen que tener su propio empresaId:
empresas emprId 1 2 empresa ABC XYZ direccion_empresa 1 Work Lane 1 Job Street
Ahora tenemos la clave primaria emprId en la tabla empresas relacionada con la clave externa recEmpresaId en la tabla usuarios, y podemos aadir 200 usuarios mientras que slo tenemos que insertar el nombre 'ABC' una vez. Nuestras tablas de usuarios y urls pueden crecer todo lo que quieran sin duplicacin ni corrupcin de datos. Pero hechemos un vistazo a nuestro campo urls - Ves duplicacin de datos ? Esto es perfectamente aceptable si la entrada de datos de este campo es solicitada al usuario en nuestra apliacin para que teclee libremente su url, y por lo tanto es slo una coincidencia que Joe y Jill teclearon la misma url. Pero que pasa si en lugar de entrada libre de texto usramos un men desplegable con 20 o incluso ms urls predefinidas ? Entonces tendramos que llevar nuestro diseo de BD al siguiente nivel de F/N, el cuarto, muchos desarrolladores lo pasan por alto porque depende mucho de un tipo muy especfico de relacin, la relacin 'varios-con-varios', la cual an no hemos encontrado en nuestra aplicacin.
usuarios esten relacionados con varias urls y as tendremos una relacin varios-convarios. Veamos como quedaran nuestras tablas antes de seguir con este planteamiento:
empresas emprId 1 2 empresa ABC XYZ direccion_empresa 1 Work Lane 1 Job Street
urlId 1 2
Para disminuir la duplicacin de los datos ( este proceso nos llevar al Cuarto Nivel de F/N), hemos creado una tabla que slo tiene claves externas y primarias url_relations. Hemos sido capaces de remover la entradas duplicadas en la tabla urls creando la tabla url_relations. Ahora podemos expresar fielmente la relacin que ambos Joe and Jill tienen entre cada uno de ellos, y entre ambos, las urls. As que veamos exctamente que es lo que el Cuarto Nivel de F/N. supone
Ya que slo se aplica a las relaciones varios-con-varios, la mayoria de los desarrolladores pueden ignorar esta regla de forma correcta. Pero es muy til en ciertas situaciones, tal como esta. Hemos optimizado nuestra tabla urls eliminado duplicados y hemos puesto las relaciones en su propia tabla. Os voy a poner un ejemplo prtico, ahora podemos seleccionar todas las urls de Joe realizando la siguiente instruccin SQL: SELECT nombre, url FROM usuarios, urls, url_relations WHERE url_relations.relatedUserId = 1 AND usuarios.userId = 1 AND urls.urlId = url_relations.relatedUrlId Y si queremos recorrer todas las urls de cada uno de los usuarios, hariamos algo as: SELECT nombre, url FROM usuarios, urls, url_relations WHERE usuarios.userId = url_relations.relatedUserId AND urls.urlId = url_relations.relatedUrlId Quinto Nivel de F/N. Existe otro nivel de normalizacin que se aplica a veces, pero es de hecho algo esotrico y en la mayoria de los casos no es necesario para obtener la mejor funcionalidad de nuestra estructura de datos o aplicacin. Su principio sugiere: 1. La tabla original debe ser reconstruida desde las tablas resultantes en las cuales a sido troceada. Los beneficios de aplicar esta regla aseguran que no has creado ninguna columna extraa en tus tablas y que la estructura de las tablas que has creado sea del tamao justo que tiene que ser. Es una buena prctica aplicar este regla, pero a no ser que estes tratando con una extensa estructura de datos probablemente no la necesitars. Otra ventaja de la nomlalizacin de su base de datos es el consumo de espacio. Una base de datos nomlalizada puede ocupar menos espacio en disco que una no nomlalizada. Hay menos repeticin de datos, lo que tiene como consecuencia un mucho menor uso de espacio en disco .
Primera Forma Normal La regla de la Primera Forma Normal establece que las columnas repetidas deben eliminarse y colocarse en tablas separadas. sta es una regla muy fcil de seguir. Observe el esquema de la tabla Clientes de la base de datos. . Clientes ID Cliente Nombre Apellidos Nombre_Producto1 Costo_Producto1 Imagen_Producto1 Nombre_Producto2 Costo_Producto2 Imagen_Producto2 Fecha_Pedido Cantidad_Pedido Nombre Cia Envios La tabla tiene varias columnas repetidas. stas se refieren principalmente a los productos. De acuerdo con la regla, debe eliminar las columnas repetidas y crearles su propia tabla. Eliminacin de datos repetidos en una base de datos Clientes Pedidos ID_Clientes Nombre_Productos Nombre Costo_Producto Apellidos Imagen_Producto Direccion Numero_Pedido Fecha_Pedido Cantidad_Pedido Clave_Cia_Envios Nombre_Ci_ Envios
Ahora tiene dos tablas. Pero todava hay un problema. No hay forma de relacionar los datos de la tabla original con los de la nueva tabla. Para hacerlo, debe aadir un campo clave a la segunda tabla de forma que se establezca la relacin. Aada a la tabla Productos una clave primaria que se llame ID_Producto y aada una clave a la tabla Clientes que la relacione con la tabla Productos. El campo ID_Producto es el candidato ideal. Primera Forma Normal Clientes Pedidos ID_Productos ID_Productos ID_Clientes Nombre_Productos Nombre Costo_Producto Apellidos Imagen_Producto Direccion Numero_Pedido Fecha_Pedido Cantidad_Pedido Clave_Cia_Envios As, se ha establecido una relacin uno a varios. sta representa lo que la base de datos
estar haciendo en la vida real. El cliente tendr muchos productos que podr comprar, sin importar cuntos otros clientes quieran comprarlos tambin. Adems, el cliente necesitar haber pedido un producto para ser un cliente. Usted ya no est obligado a aadir un cliente cada vez que aade un nuevo producto a su inventario. Poner la base de datos en la Primera Forma Normal resuelve el problema de los encabezados de columna mltiples. Muy a menudo, los diseadores de bases de datos inexpertos harn algo similar a la tabla no normalizada. Una y otra vez, crearn columnas que representen los mismos datos. En una empresa de servicios de electricidad, haba una base de datos para el control de refacciones de una planta nuclear. La tabla de su base de datos, la cual contena los nmeros de parte de las refacciones, tena una columna repetida ms de treinta veces. Cada vez que una nueva parte se tena que dar de alta, se creaba una nueva columna para almacenar la informacin. Obviamente, el diseo de la base de datos era bastante pobre y, por lo mismo, resultaba una pesadilla para sus programadores/administradores. La normalizacin ayuda a clarificar la base de datos ya organizarla en partes ms pequeas y ms fciles de entender. En lugar de tener que entender una tabla gigantesca y monoltica que tiene muchos diferentes aspectos, usted slo tiene que entender objetos pequeos y ms tangibles, as como las relaciones que guardan con otros objetos tambin pequeos. No es necesario mencionar que un mejor entendimiento del funcionamiento de su base de datos conducir aun mejor aprovechamiento de sus activos. Segunda Forma Normal La regla de la Segunda Forma Normal establece que todas las dependencias parciales se deben eliminar y separar dentro de sus propias tablas. Una depen dencia parcial es un trmino que describe a aquellos datos que no dependen de la clave de la tabla para identificarlos. En la base de datos de muestra, la informacin de pedidos est en cada uno de los registros. Sera mucho ms simple utilizar nicamente el nmero del pedido. El resto de la informacin podra residir en su propia tabla. Una vez que haya organizado la informacin de pedidos. Eliminacin de las dependencias parciales -Segunda Forma Normal Clientes Pedidos Productos ID_Productos ID_Productos ID_Producto ID_Clientes Nombre_Productos Fecha_Compra Nombre Cantidad_Pedido Costos_Productos Apellidos Imagen_Producto Direccion Numero_Pedido Nombre_Cia_Envios De nuevo, al organizar el esquema de esta forma puede reflejar el mundo real en su base de datos. Tendra que hacer algunos cambios en sus reglas del negocio para que esto fuera aplicable, pero para ilustrar la normalizacin, as est bien. Una de las mayores desventajas de la normalizacin es el tiempo que lleva hacerlo. La mayora de la gente est demasiado ocupada, y emplear tiempo para asegurarse de que sus datos estn normalizados cuando todo funciona ms o menos bien, parece ser un desperdicio de tiempo. Pero no es as. Usted tendr que emplear ms tiempo arreglando una base de datos no normalizada que el que empleara en una normalizada. Al haber alcanzado la Segunda Forma Normal, usted puede disfrutar de algunas de las ventajas de las bases de datos relacionales. Por ejemplo, puede aadir nuevas columnas a la tabla Clientes sin afectar a las tablas Productos y Pedidos. Lo mismo aplica para las otras tablas. Alcanzar este nivel de normalizacin permite que los datos se acomoden de una manera natural dentro de los lmites esperados.
Una vez que ha alcanzado el nivel de la Segunda Forma Normal, se han controlado la mayora de los problemas de lgica. Puede insertar un registro sin un exceso de datos en la mayora de las tablas. Observando un poco ms de cerca la tabla Clientes, vemos la columna Nombre_Cia_Envios. sta no es dependiente del cliente. El siguiente nivel de normalizacin explicar cmo solucionar esto. Tercera Forma Normal La regla de la Tercera Forma Normal seala que hay que eliminar y separar cualquier dato que no sea clave. El valor de esta columna debe depender de la clave. Todos los valores deben identificarse nicamente por la clave. En la base de datos de muestra, la tabla Clientes contiene la columna Nombre_Cia_Envios, la cual no se identifica nicamente por la clave. Podra separar estos datos de la tabla y ponerlos en una tabla aparte. Eliminacin de los datos que no son claves para la Tercera Forma Normal Clientes Productos PedidoMaestro PedidoDetallado Cias_Envios ID_cliente ID_Producto ID_Pedido ID_PedidoDetallado ID_Cia_Envios ID_Producto Nombre_Producto Fecha_Pedido ID_Pedido Nombre_Cia_Envios. Numero_Pedido Costos_Productos Cantidad_Pedidos Fecha_Pedido ID_Cia_Envios Foto_Producto Cantidad_Pedido Nombre Apellidos Direccion Ahora todas sus tablas estn en la Tercera Forma Normal. Esto le da ms flexibilidad y previene errores de lgica cuando inserta o borra registros. Cada columna en la tabla est identificada de manera nica por la clave, y no hay datos repetidos. Esto provee un esquema limpio y elegante, que es fcil de trabajar y expandir. Qu tan lejos debe llevar la normalizacin La siguiente decisin es qu tan lejos debe llevar la normalizacin? La normalizacin es una ciencia subjetiva. Determinar las necesidades de simplificacin depende de usted. Si su base de datos va a proveer informacin aun solo usuario para un propsito simple y existen pocas posibilidades de expansin, normalizar sus datos hasta la 3FN sea quiz algo extremoso. Las reglas de normalizacin existen como guas para crear tablas que sean fciles de manejar, as como flexibles y eficientes. A veces puede ocurrir que normalizar sus datos hasta el nivel ms alto no tenga sentido. Por ejemplo, suponga que aade una columna extra para la direccin en su base de datos. Es muy normal tener dos lneas para la direccin. El esquema de la tabla podra verse como se muestra a continuacin: ID_Cliente Nombre Apellidos Direccion1 Direccion2 De acuerdo con las reglas, si aplica la Primera Forma Normal, la columna de direccin debera sacarse de esta tabla y reemplazarse con la clave de una nueva tabla. El resultado de este esquema se muestra a continuacin: ID_Ciente ID_Direccion Nombre ID_Cliente Apellidos Direccion
La base de datos ahora cumple con la Primera Forma Normal. Los clientes pueden tener ms de una direccin. El problema aqu es que usted ha complicado demasiado una idea simple, por tratar de seguir las reglas de normalizacin. En el ejemplo mostrado, la segunda direccin es totalmente opcional. Est ah slo para colectar informacin que pudiera utilizarse como informacin de contacto. No hay necesidad de partir la tabla en dos y forzar las reglas de la normalizacin. En esta instancia, el exceso de normalizacin frustra el propsito para el que se utilizan los datos. Aade, de manera innecesaria, un nivel ms de complejidad. Una buena forma de determinar si est llevando demasiado lejos su normalizacin, es ver el nmero de tablas que tiene. Un nmero grande de tablas pudiera indicar que est normalizando demasiado. Observe su esquema. Est dividiendo tablas slo para seguir las reglas o estas divisiones son en verdad prcticas? stas son el tipo de cosas que usted, el diseador de la base de datos, necesita decidir. La experiencia y el sentido comn lo pueden auxiliar para tomar la decisin correcta. La normalizacin no es una ciencia exacta. Es subjetiva. Existen seis niveles ms de normalizacin que no se han discutido aqu. Ellos son Forma Normal Boyce-Codd, Cuarta Forma Normal (4NF), Quinta Forma Normal (5NF) o Forma Normal de Proyeccin-Unin, Forma Normal de Proyeccin-Unin Fuerte, Forma Normal de Proyeccin-Unin Extra Fuerte y Forma Normal de Clave de Dominio. Estas formas de normalizacin pueden llevar las cosas ms all de lo que necesita. stas existen para hacer una base de datos realmente relacional. Tienen que ver principalmente con dependencias mltiples y claves relacionales. En resumen La normalizacin es una tcnica que se utiliza para crear relaciones lgicas apropiadas entre tablas de una base de datos. Ayuda a prevenir errores lgicos en la manipulacin de datos. La normalizacin facilita tambin agregar nuevas columnas sin romper el esquema actual ni las relaciones. Existen varios niveles de normalizacin: Primera Forma Normal, Segunda Forma Normal, Tercera Forma Normal, Forma Normal Boyce-Codd, Cuarta Forma Normal, Quinta Forma Normal o Forma Normal de Proyeccin-Unin, Forma Normal de Proyeccin-Unin Fuerte, Forma Normal de Proyeccin-Unin Extra Fuerte y Forma Normal de Clave de Dominio. Cada nuevo nivel o forma lo acerca ms a hacer su base de datos verdaderamente relacional. Se discutieron las primeras tres formas. stas proveen suficiente nivel de normalizacin para cumplir con las necesidades de la mayora de las bases de datos. Normalizar demasiado puede conducir a tener una base de datos ineficiente y hacer a su esquema demasiado complejo para trabajar. Un balance apropiado de sentido comn y prctico puede ayudarle a decidir cundo normalizar. BOYCE/CODD NORMAL FORM: Es una extensin de la definicin original de la 3FN, la cual tiene problemas cuando 1. 2. 3. existen varias claves candidatas, donde dichas claves son compuestas, y tienen al menos un atributo en comn( overlapped)
Por cada materia, cada estudiante de esa materia puede tomar clases de solamente un maestro Cada maestro ensea una sola materia
Enlaces a la imagen
Relacin = tabla o archivo Tupla = registro, fila o rengln Atributo = campo o columna Clave = llave o cdigo de identificacin Clave Candidata = superclave mnima Clave Primaria = clave candidata elegida Clave Ajena = clave externa o clave fornea Clave Alternativa = clave secundaria Dependencia Multivaluada = dependencia multivalor RDBMS = Del ingls Relational Data Base Manager System que significa, Sistema Gestor de Bases de Datos Relacionales . 1FN = Significa, Primera Forma Normal o 1NF del ingles First Normal Form.
Los trminos Relacin, Tupla y Atributo derivan de las matemticas relacionales, que constituyen la fuente terica del modelo de base de datos relacional. Todo atributo en una tabla tiene un dominio, el cual representa el conjunto de valores que el mismo puede tomar. Una instancia de una tabla puede verse entonces como un subconjunto del producto cartesiano entre los dominios de los atributos. Sin embargo,
suele haber algunas diferencias con la analoga matemtica, dado que algunos RDBMS permiten filas duplicadas, entre otras cosas. Finalmente, una tupla puede razonarse matemticamente como un elemento del producto cartesiano entre los dominios.
Dependencia [editar]
Dependencia funcional [editar]
B es funcionalmente dependiente de A.
Una dependencia funcional es una conexin entre uno o ms atributos. Por ejemplo si conocemos el valor de FechaDeNacimiento podemos conocer el valor de Edad. Las dependencias funcionales del sistema se escriben utilizando una flecha, de la siguiente manera: FechaDeNacimiento Edad
Aqu a FechaDeNacimiento se le conoce como un determinante. Se puede leer de dos formas FechaDeNacimiento determina a Edad o Edad es funcionalmente dependiente de FechaDeNacimiento. De la normalizacin (lgica) a la implementacin (fsica o real) puede ser sugerible tener stas dependencias funcionales para lograr mayor eficiencia en las tablas.
dni,direccin
Si con el dni se determina el nombre de una persona, entonces con el dni ms la direccin tambin se determina el nombre o su direccin. Dependencia funcional transitiva [editar]
Edad
FechaDeNacimiento
Edad
Conducir
Entonces tenemos que FechaDeNacimiento determina a Edad y la Edad determina a Conducir, indirectamente podemos saber a travs de FechaDeNacimiento a Conducir (En muchos paises , para una persona poder conducir un automovil la persona necesita ser mayor de X edad, por eso se utiliza este ejemplo).
Claves [editar]
Una clave primaria es aquella columna (pueden ser tambin dos columnas o ms) que identifica nicamente a esa fila. La clave primaria es un identificador que va a ser nico para cada fila. Se acostumbra poner la clave primaria como la primera columna de la tabla pero esto no tiene que ser necesario, si no es ms una conveniencia. Muchas veces la clave primaria es autonumrica. En una tabla puede que tengamos ms de una clave, en tal caso se puede escoger una para ser la clave primaria, las demas claves son las claves candidatas.ademas es la posible clave primaria.
Una clave fornea es aquella columna que existiendo como dependiente en una tabla, es a su vez clave primaria en otra tabla. Una clave alternativa es aquella clave candidata que no ha sido seleccionada como clave primaria, pero que tambin puede identificar de forma unica a una fila dentro de una tabla. Una clave compuesta es una clave que est compuesta por ms de una columna.
Todos los atributos son atmicos. Un atributo es atmico si los elementos del dominio son indivisibles, mnimos. La tabla contiene una clave primaria La tabla no contiene atributos nulos
Una columna no puede tener mltiples valores. Los datos son atmicos. (Si a cada valor de X le pertenece un valor de Y, entonces a cada valor de Y le pertenece un valor de X)....
Dependencia Funcional. Una relacin est en 2FN si est en 1FN y si los atributos que no forman parte de ninguna clave dependen de forma completa de la clave principal. Es decir que no existen dependencias parciales. En otras palabras podramos decir que la segunda forma normal est basada en el concepto de dependencia completamente funcional. Una dependencia funcional X -> Y es completamente funcional si al eliminar los atributos A de X significa que la dependencia no es mantenida, esto es que A X, (X {A}) -x-> Y. Una dependencia funcional X-> Y es una dependencia parcial si hay algunos atributos A X que pueden ser removidos de X y la dependencia todava se mantiene, esto es A X, (X {A}) -> Y . Por ejemplo {SSN,PNUMBER} -> HOURS es completamente dependencia dado
que ni SSN -> HOURS ni PNUMBER -> HOURS mantienen la dependencia. Sin embargo {SSN,PNUMBER} -> ENAME es parcialmente dependiente dado que SSN>ENAME mantiene la dependencia
La tabla se encuentra en 3FN si es 2FN y cada atributo que no forma parte de ninguna clave, depende directamente y no transitivamente, de la clave primaria. Un ejemplo de este concepto sera que, una dependencia funcional X->Y en un esquema de relacin R es una dependencia transitiva si hay un conjunto de atributos Z que no es un subconjunto de alguna clave de R, donde se mantiene X->Z y Z->Y.. Por ejemplo, la dependencia SSN->DMGRSSN es una dependencia transitiva en EMP_DEPT de la siguiente figura. Decimos que la dependencia de DMGRSSN el atributo clave SSN es transitiva via DNUMBER porque las dependencias SSN->DNUMBER y DNUMBER>DMGRSSN son mantenidas, y DNUMBER no es un subconjunto de la clave de EMP_DEPT. Intuitivamente, podemos ver que la dependencia de DMGRSSN sobre DNUMBER es indeseable en EMP_DEPT dado que DNUMBER no es una clave de EMP_DEPT.
La tabla se encuentra en BCNF si cada determinante, atributo que determina completamente a otro, es clave candidata.
Una tabla se encuentra en 4FN si, y slo si, para cada una de sus dependencias mltiples no funcionales X->->Y, siendo X una super-clave que, X es o una clave candidata o un conjunto de claves primarias.
La tabla esta en 4FN No existen relaciones de dependencias no triviales que no siguen los criterios de las claves. Una tabla que se encuentra en la 4FN se dice que esta en la 5FN si, y slo si, cada relacin de dependencia se encuentra definida por las claves candidatas.
La informacin de tablas, vistas, permisos de acceso de usuarios autorizados, etc, debe ser almacenada exactamente de la misma manera: En tablas. Estas tablas deben ser accesibles igual que todas las tablas, a travs de sentencias de SQL.
La independencia lgica de los datos especifica que los programas de aplicacin y las actividades de terminal deben ser independientes de la estructura lgica, por lo tanto los cambios en la estructura lgica no deben alterar o modificar estos programas de aplicacin.
Referencias [editar]
1. A Relational Model of Data for Large Shared Data Banks Communications of the ACM, Vol. 13, No. 6, June 1970, pp. 377-387 [1]
E.F.Codd (junio 1970), "A Relational Model of Data for Large Shared Databanks", Communications of the ACM. C.J.Date (1994), "An Introduction to Database Systems", AddisonWesley.
1NF - 2NF - 3NF - BCNF - 4NF - 5NF - DKNF - 6NF - Denormalizacin Edgar Frank Codd Base de datos