Um grupo de itens de dados relacionados, tratados como entidade isolada por uma aplicao chamado de registro. Um arquivo uma coleo de registros de um mesmo tipo. Um item de dados chamado de coluna ou atributo, um registro chamado de linha ou tupla; um arquivo chamado de tabela. Um banco de dados um objeto mais complexo; uma coleo de dados armazenados e inter relacionados, que atende s necessidades de vrios usurios dentro de uma ou mais organizaes, ou seja, colees inter-relacionadas de muitos tipos diferentes de tabela. Um sistema gerenciador de banco de dados (SGBD) um sistema de software genrico para manipular banco de dados. Um SGDB admite uma viso lgica (esquema, subesquema); viso fsica ( mtodos de acesso, clustering de dados); linguagem de definio de dados; linguagem de manipulao de dados e utilitrios importantes, como gerenciamento de transao e controle de concorrncia, integridade de dados, recuperao de falhas e segurana. A independncia dos dados a capacidade de fazer mudanas na estrutura lgica ou fsica do banco de dados sem exigir reprogramao dos programas de aplicao.
a.Modelagem de dados conceitual. Os requisitos de dados so analisado e modelados por meio de um diagrama ER ou UML que inclui, por exemplo, a semntica dos relacionamentos opcionais, relacionamentos ternrios, supertipos e subtipos (categorias). Os requisitos de processamento so normalmente especificados usando-se expresses da linguagem natural de comandos SQL, junto com a frequncia da ocorrncia. b.Integrao da viso. Normalmente, quando o projeto grande e h mais de uma pessoa envolvida na anlise de requisitos, ocorrem vrias vises dos dados e relacionamentos. Para eliminar redundncias e inconsistncias do modelo, essas vises por fim precisam ser racionalizadas, de depois consolidadas em uma nica viso global. c.Transformao do modelo de dados conceitual em tabelas SQL. Com base em uma categorizao das construes de modelagem de dados e um conjunto de regras de mapeamento, cada relacionamento e suas entidades associadas so transformados em um conjunto de tabelas relacionais candidatas especficas do SGBD. d.Nomalizao de tabelas. Dependncias funcionais (DFs) so derivadas do diagrama do modelo de dados conceitual e da semntica dos relacionamentos de dados na anlise de requisitos. Elas representam as dependncias entre os elementos de dados que so identificadores exclusivos (chaves) das entidades. III.Projeto Fsico. A etapa do projeto fsico envolve a seleo de ndices (mtodos de acesso), particionamento e clustering de dados.
Clustering
Origem: Wikipdia, a enciclopdia livre. Clustering uma tcnica de Data Mining para fazer agrupamentos automticos de dados segundo seu grau de semelhana. O critrio de semelhana faz parte da definio do problema e, dependendo, do algoritmo. O procedimento de Clustering tambm pode ser aplicado a bases de texto utilizando algoritmos de Text Mining, onde o algoritmo procura agrupar textos que falem sobre o mesmo assunto e separar textos de contedo diferentes. Normalmente o usurio do sistema deve escolher a priori o nmero de grupos a serem detectados. Alguns algortmos mais sofisticados pedem apenas o nmero mnimo, outros tem a capacidade de subdividir um grupo em dois.