Uma dúvida diferente que as pessoas têm quanto a indexação de sites e páginas nas ferramentas de busca na Internet é em relação aos tipos de arquivos que são de fato indexados – PDF, SWF, PHP, JPG, ASP entre outros – e como as search engines tratam esses tipos de arquivo.
Primeiro de tudo: os bots não indexam toda URL que encontram na web, eles analisam sim o tipo de URL, o tipo do arquivo apontado pela URL para então tratá-lo. Geralmente, isto está associado ao objetivo da varredura do bot, ou seja, se ele saiu a procura de imagens, links apontando arquivos JPG, GIF, etc., vão interessar; enquanto em uma varredura genérica, ele não costuma baixar imagens e outros arquivos.
Tipos de Arquivos
Os arquivos são separados em alguns tipos, como imagem, texto, áudio, vídeo e outros, sendo identificados pela extensão do arquivo. A extensão de arquivo é o que vem depois do ponto, depois do nome do arquivo:
nome_do_arquivo.extensao
Tipicamente, arquivos com extensão JPG e GIF são imagens, EXE são executáveis (programas, jogos, aplicativos), PDF para o formato de documento do Adobe Acrobat Reader (número 1 para busca “click here“), HTM, HTML, PHP, ASP entre outros para páginas da Internet.
SEO e Tipos de Arquivos
Normalmente a extensão de uma página na web de nada influencia no posicionamento de um site ou de uma página, as search engines apenas verificam o tipo de arquivo, pois quando encontram URLs apontando arquivos com extensão EXE, elas não fazem o download desses arquivos. O mesmo vale para arquivos MP3, AVI, WMA, WMV e outros formatos de áudio e vídeo, pois são arquivos grandes e arquivos cujo conteúdo a search engine não consegue avaliar.
Arquivos com extensões de documentos de web (HTM, HTML, PHP, ASP, …) são seguidos e indexados normalmente. As search engines fazem o download desses arquivos e avaliam o seu conteúdo. Um detalhe aqui: se a search engine não está fazendo uma varredura por busca de imagens, ao baixar um documento de web, ela não faz o download de imagens que estejam nesse documento sempre, pois é pouco provável que a imagem tenha sido trocada, assim a search engine poupa tempo, largura de banda e capacidade de transferência de bytes.
Por outro lado, se a varredura é uma busca por imagens, então a search engine faz o download de imagens com atenção ao texto que está próximo das imagens.
Não posso deixar de citar arquivos em flash: recentemente o Google e a Adobe fizeram o anúncio de que o Google indexa sites em flash agora – Na verdade nenhuma novidade foi publicada, pois eles divulgaram que embora o Google tenha problemas para indexar flash, o que não é novidade, ele consegue indexar alguma coisa (mas foi uma brilhante jogada de marketing da Adobe…). E o Yahoo! também está nessa. De qualquer forma, pelo bem do SEO do site, evite Flash.
O que chama a atenção dentre os tipos de arquivo é o PDF, pois, além de ser indexado, ele tem um valor de PageRank atribuído e os search bots seguem os links em documentos PDF. Uma característica peculiar do PDF, que eu acredito ser a razão de ele ter um PageRank atribuído, é o fato de poder ser usado um navegador/browser para visualizar um documento PDF – diferente de arquivos DOC ou PPT, que embora sejam indexados, é difícil saber se possuem ou não PageRank, mas é provável que tenham seus links seguidos, uma vez que os search bots conseguem identificar o texto nesses documentos.
Por Fim
Demais extensões de arquivo também tem o seu download feito por parte dos search bots, pois eles tentam identificar o conteúdo, mas se nada útil for encontrado, então os search bots descartam o arquivo e o download. Outro ponto interessante é que os searchbots, ou o Googlebot pelo menos, identificam vírus nos arquivos que encontram e, naturalmente, descartam o arquivo. Mas, de modo geral, qualquer arquivo com conteúdo em texto pode ser indexado.
Qualquer dúvida, deixe um comentário ou entre em contato com a gente por email. Não deixem de assinar o nosso feed e participar da promoção que leva você ao SMX São Paulo. Abraços e até a próxima!
Uma dica válida é não alterar o final de extensões, como as .php, para parecer que é uma linguagem exclusiva da sua empresa (por exemplo, a empresa XYZ Web trocar o final das extensões para .xyz).
Além de prejudicar o SEO, um usuário mais experiente pode relutar em clicar em um link que termina com uma extensão desconhecida.
E aí Walmar! Bem observado, também tem esse lado da segurança do usuário. Ele se sente mais confiante quando vê páginas com extensões conhecidas, ou sem nenhuma, como também é comum em blogs.
Olá!
Quanto a estrutura da URL, o que ficaria melhor para o Google ?
meusite.com.br/23/artigo-sobre-seo
meusite.com.br/23/artigo-sobre-seo/
meusite.com.br/23/artigo-sobre-seo.html
Sendo que o projeto está em MVC, e ele faria o select do artifo pela ID 23 que está na URL.
Muitos usam o .html (G1, Yahoo…) ela beneficia ?
Abraço…
O melhor seria não ter o ID. No mais, com ou sem barra, com ou sem .html, tanto faz, desde que não seja possível acessar a URL por todas as formas, pois seria conteúdo duplicado.
Você encontra mais informações sobre URLs no artigo de Otimização de URLs.