Resolvendo Todos Os Problemas Do Windows E Outros Programas

Dica Unix: Comparando Arquivos com Checksums

Envie em seu Questões Unix hoje! | Veja dicas e truques adicionais do Unix

Os sistemas Unix oferecem várias maneiras de comparar arquivos. A maneira mais comum de verificar se você recebeu ou baixou o arquivo adequado é calcular uma soma de verificação e compará-la com uma calculada por uma fonte confiável. MD5 é freqüentemente usado para calcular somas de verificação porque é computacionalmente improvável que dois arquivos diferentes tenham a mesma soma de verificação. Comandos semelhantes, como sum e cksum, também calculam somas de verificação, mas não com tanta confiabilidade. Vamos examinar várias somas de verificação e ver por quê.



Uma das primeiras coisas que você notará se comparar a saída dos comandos sum, time e md5 é o comprimento de cada valor calculado. O comando sum imprime dois números. O primeiro (31339 em nosso exemplo) é uma soma de verificação de 16 bits. Isso significa que você obterá qualquer uma das 65.536 respostas distintas (de 0 a 65.535) para qualquer arquivo. A chance de obter a mesma soma de verificação para dois arquivos diferentes é muito pequena. Se você tiver 65.000 arquivos para comparar, no entanto, a chance de que dois deles tenham a mesma soma de verificação, embora diferentes, é bastante alta. Na verdade, você provavelmente terá várias correspondências falsas.



# sum /export/home/jdoe/bigfile.gz 31339 165523 home / jdoe / bigfile.gzUma característica do comando sum é que o comprimento da soma de verificação tem alguma relação com o comprimento do arquivo. Se um arquivo contém 'abc' e outro contém 'abd', as somas de verificação são diferentes apenas por 1. Este comando está claramente usando um cálculo muito simples, melhor para verificar a integridade de um arquivo do que para verificação pesada ou de alta segurança.

# sum /tmp/ab* 304 1 /tmp/abc 305 1 /tmp/abd 
O segundo número que soma as impressões é o número de blocos de 512 bytes que estão no arquivo. Isso ajuda consideravelmente a garantir que arquivos diferentes sejam claramente diferentes. A menos que os arquivos que você está comparando também tenham aproximadamente o mesmo tamanho, o fato de as somas de verificação serem iguais pode ser descontado.

registro do windows 7 ajusta a velocidade da internet

O comando cksum funciona de forma semelhante. O primeiro número que ele imprime é uma verificação de redundância cíclica (CRC) para o arquivo. Como você pode ver no exemplo de saída abaixo, o CRC é um número bastante grande. Isso diminui a chance de que dois arquivos sejam considerados idênticos, quando não o são. Observe a diferença na soma de verificação de nossos dois arquivos de três bytes.

# cksum /tmp/ab* 1112837078 4 /tmp/abc 1197460547 4 /tmp/abd 
Usando cksum em relação ao arquivo grande que vimos anteriormente, vemos uma soma de verificação semelhante, embora o tamanho do arquivo seja drasticamente maior.
# cksum /export/home/jdoe/bigfile.gz 3574185895 84747520 home/tcs/bigfile.gz 
O segundo número na saída cksum é o número de octetos (bytes) no arquivo. Este é um conceito semelhante ao do número de blocos, mas é consideravelmente mais refinado. Dois arquivos que ocupam o mesmo número de blocos provavelmente incluirão um número diferente de octetos.



O comando md5 é o mais confiável dos três comandos e o único recomendado para verificação séria de arquivos. Se você estiver enviando um arquivo compactado para um cliente e deseja que o cliente tenha certeza de que o arquivo enviado está intacto e o arquivo que você pretendia enviar, fornecer a ele uma soma de verificação md5 é uma boa ideia. Observe o comprimento da soma de verificação abaixo.

# md5 /export/home/jdoe/bigfile.gz MD5 (/export/home/jdoe/bigfile.gz) = e1e0aec5c73eeb3bcf4cff4d5a44b067 
Este número hexadecimal de trinta e dois pode assumir qualquer um de 2 ** 128 valores possíveis. Este é um número maior do que a maioria de nós pode imaginar. É bilhões vezes bilhões grande. Disseram-me que é exatamente:
340,282,366,920,938,463,463,374,607,431,768,211,456 
Provavelmente sim. Não quero nem pensar em calcular um número tão grande.

A chance de dois arquivos terem a mesma soma de verificação md5 é infinitesimalmente pequena. Olhando para os dois pequenos arquivos, vemos que as somas de verificação md5 parecem não ter nenhuma semelhança.

# md5 /tmp/ab* MD5 (/tmp/abc) = 0bee89b07a248e27c83fc3d5951213c1 MD5 (/tmp/abd) = 8f0abafc5f8e6686a882c78cac4bcb9f 

Obviamente, para serem valiosas, as somas de verificação precisam ser computadas de forma idêntica em sistemas diferentes. Felizmente para nós, esse sempre deve ser o caso.



como pesquisar e-mails antigos no gmail

Esta história, 'Dica Unix: Comparando Arquivos com Checksums' foi publicada originalmente porITworld.