Conceito Aplicado nas Universidades

Material

Conteúdo


Conceito Aplicado nas Universidades


ETL (Extração Transformação e Carga)
O processo de ETL (Extract, Transform and Load) é o processo mais crítico e demorado na construção de um Data Warehouse, pois consiste na extração dos dados de bases heterogêneas, na transformação e limpeza destes dados, e na carga dos dados na base do DW.\r\n\r\nAs decisões gerenciais são tomadas com base nas informações geradas pelas ferramentas do tipo front-end. Estas informações são geradas através dos dados armazenados no Data Warehouse. Se estes dados não forem corretamente trabalhados no processo de extração, as informações geradas através deles farão com que decisões sejam tomadas erroneamente, podendo afetar diretamente os negócios da organização. \r\n\r\nPortanto, os dados devem representar a verdade, a mais pura verdade, nada mais que a verdade (KIMBALL, 1998 apud ABREU, 2007). A maior parte do esforço exigido no desenvolvimento de um DW é consumido neste momento e não é incomum que 80% de todo esforço seja empregado no processo de ETL, (INMON, 1997 apud ABREU, 2007).\r\nSomente a extração dos dados leva mais ou menos 60% das horas de desenvolvimento de um DW (KIMBALL, 1998 apud ABREU, 2007). Esta etapa do processo deve se basear na busca das informações mais importantes em sistemas fontes ou externos e que estejam em conformidade com a modelagem do DW. Tal busca de dados pode ser obstruída por problemas como a distribuição das origens dos dados, que podem estar em bases distintas com plataformas diferentes gerando a demanda de utilização de formas de extração diferentes para cada local (ALMEIDA, 2006 apud ABREU, 2007).\r\nNo momento de criação do DW é comum uma carga de dados inicial que faça com que a extração busque todos os dados dos sistemas fontes, mas com o decorrer do tempo a extração deve estar preparada apenas para fazer cargas incrementais. A carga incremental que carrega apenas os registros que foram alterados ou inseridos desde a carga inicial é muito mais eficiente (KIMBALL, 1998 apud ABREU, 2007).\r\nA transformação dos dados é a fase subseqüente à sua extração. Esta fase não só transforma os dados, mas também realiza a limpeza dos mesmos. A correção de erros de digitação, a descoberta de violações de integridade, a substituição de caracteres desconhecidos, a padronização de abreviações podem ser exemplos desta limpeza (GONÇALVES, 2003 apud ABREU, 2007). Segundo Kimball (1998), as características mais relevantes para garantir a qualidade dos dados são:\r\n • Unicidade, evitando assim duplicações de informação;\r\n • Precisão. Os dados não podem perder suas características originais assim que são carregados para o DW;\r\n • Completude, não gerando dados parciais de todo o conjunto relevante às análises; e \r\n • Consistência, ou seja, os fatos devem apresentar consistência com as dimensões que o compõem.\r\nÉ necessário que os dados fiquem em uma forma homogênea para serem carregados no DW. (Revista de Sistemas de Informação n°. 02 Jul./Dez. 2008)Durante o processo de homogeneização, são encontrados muitos conflitos de modelagem. Estes conflitos podem ser divididos em semânticos e estruturais.\r\nOs conflitos semânticos são todos aqueles que envolvem o nome ou a palavra associada às estruturas de modelagem, por exemplo, mesmo nome para diferentes entidades ou diferentes nomes para a mesma entidade. Já os conflitos estruturais englobam os conflitos relativos às estruturas de modelagem escolhidas, tanto no nível de estrutura propriamente dita como no nível de domínios. Os principais tipos de conflitos estruturais são aqueles de domínio de atributo que se caracterizam pelo uso de diferentes tipos de dados para os mesmos campos (GONÇALVES, 2003 apud ABREU, 2007).\r\nDe acordo com Gonçalves (2003), os conflitos típicos de domínio de atributo são:\r\n • Diferenças de unidades: quando as unidades utilizadas diferem, embora forneçam a mesma informação (exemplo: distância em centímetros ou polegadas);\r\n • Diferenças de precisão: quando a precisão escolhida varia de um ambiente para outro (exemplo: o custo do produto é armazenado com duas posições '0,12' ou com seis posições decimais '0,123456');\r\n • Diferenças em códigos ou expressões: quando o código utilizado difere um do outro (exemplo: sexo representado por M ou F e por 0 ou 1);\r\n • Diferenças de granularidade: quando os critérios associados a uma informação, embora utilizando uma mesma unidade, são distintos (exemplo: quando horas trabalhadas correspondem às horas trabalhadas na semana ou às horas trabalhadas no mês);\r\n • Diferenças de abstração: quando a forma de estruturar uma mesma informação segue critérios diferentes (exemplo: endereço armazenado em um único atributo, ou subdividido em rua e complemento).\r\nDepois de identificados os conflitos de modelagem, devem-se criar as regras de conversão para os padrões estabelecidos pelo Data Warehouse (GONÇALVES, 2003 apud ABREU, 2007). Essas regras podem ser criadas com o auxílio de ferramentas de integração utilizadas para o processo de extração e carga de dados. Após a criação das regras, a etapa de carga dos dados pode ser planejada.\r\nSegundo Almeida (2006), basicamente são carregadas as dimensões estáticas, de modificação lenta ou remanescente e fatos integrantes ao modelo do DW. Este processo pode ter alto custo de processamento alem de implicar em tempo de carga que na maioria das vezes não pode ser extenso devido à utilização contínua do DW. Assim, algumas precauções podem ser tomadas antes de se iniciar a carga dos dados, como: (Revista de Sistemas de Informação n°. 02 Jul./Dez.2008)\r\n • Desligamento de índices e referências de integridade (isso pode prejudicar na qualidade dos dados pois apesar de diminuir o processamento, os dados não são validados no momento da inserção);\r\n • Utilização de comandos do tipo TRUNCATE ao invés de DELETE pois nos SGBDs mais atuais este recurso não gera armazenamento de informações em áreas de recuperação de dados;\r\n • Ter a consciência de que no momento da carga alguns dados não serão carregados e deste modo os mecanismos do processo devem dar suporte a auditorias de carga para que a mesma possa ser reiniciada no momento em que foi parada e a possibilidade de manter logs com os dados rejeitados para a avaliação dos motivos pelo qual não foram carregados e assim ajustados para integrarem o conjunto a ser carregado.\r\nDimensões estáticas normalmente não oferecem problemas, pois estas mantêm dados que não sofrem alteração na sua origem e serão carregados uma única vez, assim como as remanescentes que normalmente são originadas de esforço manual na sua confecção, por exemplo, as planilhas eletrônicas. Já as dimensões de modificação lenta necessitam da verificação em suas fontes e nas auditorias das cargas para que se possa identificar qual o momento seguinte depois da última carga que deve iniciar o processo, gerando processamento na leitura de logs de sistemas operacionais e comparação de atributos, podendo então ser necessário sobrescrever todo o conteúdo de um registro, gerar um novo registro na dimensão ou criar um atributo a mais para armazenar o valor antigo (KIMBALL, 1998 apud ABREU, 2007).\r\nApós as dimensões estarem corretamente carregadas, já é possível iniciar a carga dos fatos, que depois de modelados para conter apenas os dados de importância para a organização, direcionam quais regras serão utilizadas como, por exemplo, filtros do que será inserido ou somas a serem realizadas, provocando o aparecimento de regras que passaram despercebidas no início da modelagem.\r\nNo entanto, os fatos demandam cuidados na sua carga como o uso das chaves artificiais das dimensões para que se tenha uma integridade referencial, controle de valores nulos obtidos no momento da transação para que não gerem a falta de integridade referencial como datas que, estando nulas, invalidarão o histórico do fato. Técnicas para amenizar o processo devido ao grande volume de dados podem ser usadas, como a carga incremental dos fatos, que irá carregar apenas dados novos ou alterados, execução do processo em paralelo e em momentos de pouco ou nenhum uso do SGBD e a utilização de tabelas auxiliares que serão renomeadas como definitivas ao fim da carga (KIMBALL, 1998 apud ABREU, 2007).\r\n

Conceito

CONTATO

Entre em contato e retornamos em até 24 horas.

Brasília, DF

+55 (61) 98204-9522 - Marcelo

mafonsoalves@gmail.com.br

contato@aprendendoetl.com.br