Indexação para busca na web
Preparo do site para indexação (SEO)
Sitemaps em XML
Sitemaps em XML são arquivos de texto que contêm listas de URLs das principais páginas de um web site, acrescidas de metadados que facilitam a sua indexação pelos buscadores. É importante não confundi-los com os diagramas das relações hierárquicas entre as camadas de informação, também chamadas mapas do site, em inglês também sitemaps, usados para projetar os percursos dos usuários no veículo.
Em 16 de novembro de 2006, as 3 principais empresas de buscas da internet, Google, Yahoo e Microsoft chegaram a um acordo para reconhecer um padrão único de sitemaps que facilitasse a sua indexação nos seus buscadores. A padronização visava sistematizar as informações coletadas e prover resultados de buscas mais informativos.
Não só os buscadores, mas qualquer pessoa ou empresa que publique um web site pode se beneficiar do uso de sitemaps. Um site de notícias com milhares de páginas publicadas diariamente pode manter um sitemap que atualize permanentemente a data de atualização de cada página, bem como informar se estão ou não no ar. Através destes dados, os buscadores podem verificar rapidamente onde encontrar as atualizações mais recentes e indexar o seu conteúdo. Como decorrência da maior facilidade de indexação, o site pode ganhar maior número de acessos e realizar campanhas de marketing mais efetivas.
Como funcionam
■ As aranhas dos buscadores (robôs que rastreiam o conteúdo publicado na web) descobrem páginas a partir dos links internos de um site e dos links que provêm de outros sites. Os sitemaps complementam estes dados publicando metadados que proveem informação sobre o conteúdo associado a determinadas URLs, facilitando o seu rastreamento.
Assim, além de URLs, os sitemaps podem informar também a data da última atualização de cada página, de quanto em quanto tempo é feita a sua atualização e sua importância dentro do ambiente do site.
-> Exemplo de sitemap simples:
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://www.avellareduarte.com.br/projeto/lancamento/lancamento3/lancamento3bl+sitemaps.htm</loc>
<lastmod>2010-5-30</lastmod>
<priority>0.8</priority>
<changefreq>monthly</changefreq>
</url>
</urlset>
O código acima informa que o arquivo e suas referências estão circunscritos ao protocolo padrão corrente (xmlns="http://www.sitemaps.org/schemas/sitemap/0.9). Além disso, que a URL "http://www.avellareduarte.com.br/projeto/lancamento/lancamento3/lancamento3bl+sitemaps.htm" deve ser indexada pela aranha do buscador, que foi atualizada no dia 30 de maio de 2010 ("lastmod") e é atualizada mensalmente ("changefreq"). Numa escala de 0 a 1, tem prioridade 0.8 e é atualizada mensalmente ("priority").
Localização do arquivo
■ A localização do arquivo sitemap.xml na estrutura de arquivos do site sinaliza a base das URLs incluídas no arquivo e fica a critério de cada webmaster: se o arquivo ficar localizado na raiz do diretório do site, pode incluir endereços de todas as páginas do site; se ficar localizado dentro de um diretório específico, seu escopo se restringe às páginas desse diretório.
-> Por exemplo, um sitemap situado em http://www.avellareduarte.com.br/projeto/conceitos/ inclui qualquer URL que inicie com http://www.avellareduarte.com.br/projeto/conceitos/, mas não arquivos que cuja URL comece por http://www.avellareduarte.com.br/projeto/interface/.
Publicação de diversos sitemaps
■ Cada sitemap ter no máximo 50.000 URLs e tamanho máximo de 10MB (se compactado em formato .zip, o tamanho máximo do arquivo aberto ainda permanece este). Para sites com número de URLs acima deste limite, pode-se publicar diversos arquivos.
No caso de publicação de muitos sitemaps, cada um pode ser listado num arquivo de índice com número máximo de 50.000 sitemaps. Caso o número de URLs ultrapasse os 50.000 (URLs) x 50.000 (sitemaps), pode-se publicar mais de um arquivo de índice, como por exemplo:
<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<sitemap>
<loc>http://www.avellareduarte.com.br/sitemap1.xml.gz</loc>
<lastmod>2010-5-30T18:23:17+00:00</lastmod>
</sitemap>
<sitemap>
<loc>http://www.avellareduarte.com.br/sitemap2.xml.gz</loc>
<lastmod>2010-5-1T18:23:17+00:00</lastmod>
</sitemap>
</sitemapindex>
O mapa de índices deve começar com a marcação <sitemapindex> e fechar com a marcação correspondente </sitemapindex>. Deve também incluir a marcação <sitemap> para cada sitemap subordinado, bem como a marcação subordinada <loc> para cada sitemap listado. A marcação <lastmod> é opcional e identifica quando o sitemap foi modificado pela última vez.
Como os buscadores sabem sobre os sitemaps
■ Para automatizar o reconhecimento e a indexação pelas aranhas dos buscadores, deve-se informá-los sobre a localização do arquivo sitemap.xml. Para isto, há 3 opções:
1) Acrescentar uma linha de texto ao arquivo robots.txt e informar as aranhas sobre a localização do arquivo.
-> Por exemplo, no arquivo robots, inserir:
Sitemap: http://www.avellareduarte.com.br/sitemap.xml
2) Comunicar a publicação do arquivo a cada buscador, sendo necessário para isto consultar a documentação de cada um.
3) Submeter o sitemap com HTTP request, ou seja, substituir <searchengine_URL> com a URL da ferramenta de busca. Ou seja, para um sitemap em http://www.avellareduarte.com.br/sitemap.xml, a URL é escrita <searchengine_URL>/ping?sitemap=http://www.avellareduarte.com.br/sitemap.xml (para maiores informações, consulte sitemaps.org).
A atualização dos sitemaps pode ser automatizada e qualquer pessoa ou empresa que publique um web site pode criá-los, subi-los no servidor web e comunicar a sua URL aos buscadores. Desta forma pode contribuir para resultados de buscas mais completos e informativos e, em consequência, para o aperfeiçoamento da experiência de uso da internet em geral.
Texto publicado em 30.5.2010.Assuntos relacionados
► Sobre XML
► Exemplo de XML
► Mapa do site
Referências sobre sitemaps em XML
► Sitemaps.org (acesso em 30.5.2010)
► XML – Sitemaps.com – Sitemap Generator
Mais informação sobre Sitemaps em XML (links externos)
► Major search engines unite to support a common mechanism for website submission (Google Press Center, acesso em 30.5.2010)
► Projeto Google sitemaps, que usa o mapa para obter informações sobre a estrutura do site (acesso em 13.3.2006)
► Google sitemaps – script para a criação de mapas de sites a partir de URLs, diretórios localizados em servidores web e logs de acesso (acesso em 30.1.2006)