Resolvendo Todos Os Problemas Do Windows E Outros Programas

IBM remolda DB2 10.5 como um assassino Hadoop

Na nova atualização do DB2, lançada sexta-feira, a IBM adicionou um conjunto de tecnologias de aceleração, coletivamente chamadas de BLU, que prometem tornar o venerável sistema de gerenciamento de banco de dados (DBMS) mais adequado para executar grandes trabalhos de análise de dados na memória. 'O BLU tem benefícios significativos para as cargas de trabalho analíticas e de relatórios', disse Tim Vincent, vice-presidente e diretor de tecnologia da IBM para software de gerenciamento de informações.

Desenvolvido pelo IBM Research and Development Labs, https://www.ibm.com/developerworks/community/blogs/SusanVisser/entry/do_you_know_blu?lang=en '> BLU (um nome de código de desenvolvimento que significa Big data, Lightening fast , Ultra easy) é um pacote de novas técnicas para processamento colunar, desduplicação de dados, processamento de vetor paralelo e compactação de dados.



O foco do BLU era permitir que os bancos de dados fossem 'otimizados para memória', disse Vincent. 'Vai rodar na memória, mas você não tem que colocar tudo na memória.' A tecnologia BLU também pode eliminar a necessidade de muitos ajustes manuais de consultas SQL para aumentar o desempenho.



Por causa do BLU, o DB2 10.5 pode acelerar a análise de dados em 25 vezes ou mais, afirmou a IBM. Essa melhoria pode eliminar a necessidade de adquirir um banco de dados em memória separado - como o TimesTen da Oracle - para agilizar a análise de dados e trabalhos de processamento de transações. “Não estamos forçando você a dimensionar seu banco de dados de uma perspectiva de modelo de custo para que tudo caiba na memória”, disse Vincent.

Na Web, IBM forneceu um exemplo de como um sistema de 32 núcleos usando tecnologias BLU pode executar uma consulta em um conjunto de dados de 10 TB em menos de um segundo.



'Nesses 10 TB, você [provavelmente] está interagindo com 25% desses dados nas operações do dia-a-dia. Você só precisa manter 25% desses dados na memória ', disse Vincent. 'Você pode comprar hoje um servidor com um terabyte de RAM e 5 TB de armazenamento de estado sólido por menos de US $ 35.000.'

Além disso, o uso do DB2 pode reduzir os custos de mão-de-obra de execução de um data warehouse separado, visto que o pool de administradores de banco de dados disponíveis é geralmente maior do que o de especialistas em data warehouse. Em alguns casos, ele http://davebeulke.com/ibm-blu-acceleration-best-yet-for-big-data/ '> poderia até servir como uma alternativa mais fácil de manter para a plataforma de processamento de dados Hadoop, Vincent disse. Entre as novas tecnologias está um algoritmo de compressão que armazena os dados de forma que, em alguns casos, os dados não precisem ser descompactados antes de serem lidos. Vincent explicou que os dados são compactados na ordem em que são armazenados, o que significa que operações de predicado, como adicionar uma cláusula WHERE a uma consulta, podem ser executadas sem descompactar o conjunto de dados.

Outro truque para economizar tempo: o software mantém uma tabela de metadados que lista os valores de chave alta e baixa para cada página de dados ou coluna de dados. Portanto, quando uma consulta é executada, o banco de dados pode verificar se algum dos valores buscados está na página de dados.



'Se a página não está na memória, não precisamos lê-la na memória. Se estiver na memória, não precisamos trazê-lo através do barramento para a CPU e queimar os ciclos da CPU analisando todos os valores na página ', disse Vincent. 'Isso nos permite ser muito mais eficientes na utilização da CPU e largura de banda.'

Com o processamento colunar, uma consulta pode obter apenas as colunas selecionadas de uma tabela de banco de dados, em vez de todas as linhas, o que consumiria mais memória. “Nós criamos um algoritmo que é muito eficiente para determinar quais colunas e quais intervalos de colunas você deseja armazenar em cache na memória”, disse Vincent.

No lado do hardware, o software vem com recursos de processamento de vetor paralelo, uma maneira de emitir uma única instrução para vários processadores usando o conjunto de instruções SIMD (Single Instruction Multiple Data) disponível nos chips Intel e PowerPC. O software pode então executar uma única consulta em tantas colunas quanto o sistema puder colocar em um registro. “O registro é o aspecto de utilização de memória mais eficiente do sistema”, disse Vincent.

o que você pode fazer com um tablet

A IBM não está sozinha na investigação de novas maneiras de enfiar grandes bancos de dados na memória do servidor. Na semana passada, a Microsoft anunciou que seu SQL Server 2014 também viria com uma série de técnicas, coletivamente chamadas de Hekaton, para maximizar o uso da memória de trabalho, bem como uma técnica de processamento colunar emprestada da tecnologia PowerPivot do Excel.

O analista de banco de dados Curt Monash, da Monash Research, notou que com o lançamento do DB2 10.5 da IBM, a Oracle agora é 'agora o único grande fornecedor de DBMS relacional que ficou sem uma história colunar verdadeira'.

A própria IBM está usando o BLU componentes do DB2 10.5 como base para sua http://www.computerworld.com/s/article/9239507/IBM_preps_SmartCloud_for_real_time_analytics'> infraestrutura SmartCloud como serviço (IaaS) do DB2, para adicionar peso computacional para relatórios de dados e trabalhos de análise. Ele também pode inserir as tecnologias BLU em outro armazenamento de dados IBM e produtos de análise, como Informix.

Joab Jackson cobre software empresarial e notícias de última hora de tecnologia em geral para The IDG News Service . Siga Joab no Twitter em @Joab_Jackson . O endereço de e-mail do Joab é Joab_Jackson@idg.com