Indexação para busca na web

Preparo de site para buscas (SEO)

Algoritmos dos buscadores

Atualizado em 18.1.2012

Para rastrear o conteúdo publicado online, os sites de busca enviam mecanismos automatizados, as "aranhas" (spiders), que indexam informações de cada domínio nos seus bancos de dados. Seus algoritmos, aperfeiçoados continuamente, estimam o valor de cada página e especificam a sua localização na ordem (ranking) de resultados.

De modo geral, os buscadores valorizam os seguintes fatores para privilegiar um site nas páginas de resultados:

O número de links que apontam para cada página, inclusive o texto destes links e o número de citações em outros sites. Também a subordinação dos links dentro da estrutura interna dos site é considerada, desde que semanticamente relacionada.

O conteúdo e o assunto dos textos, bem como palavras-chave neles presentes.

O modo como o código é estruturado, com marcações como <title> – o titulo da página –, h1, h2, h3, etc. para a titulação dos textos), textos alternativos ("alt") em fotos, "title" nas marcações de links, "summary" nas tabelas.

O modo como o código é apresentado (uso de CSS e marcações que informem a funcionalidade dos elementos). A rigor, as tags h1 devem ser publicadas antes das h2, que devem vir antes das h3, para sinalizar a ordem de precedência.

A frequência de atualização das páginas, que condiciona a frequência das visitas das aranhas.

Os percursos dos usuários ao selecionar uma URL. Se verificam que a maioria dos usuários achou a informação que procurava, associam o endereço às palavras-chave usadas nas buscas.

Vídeo, imagens, áudio ("rich content"), que complementem textos, o que reduz a taxa de abandono (bounce rate) e aparecem junto aos resultados.

Padrões de busca locais. Alguns resultados são adaptados para o local da busca. Este aspecto é especialmente importante para a configuração de páginas de perfil comercial, cujo conteúdo sobre os produtos se baseia na proximidade dos clientes.

Em relação aos tamanhos dos textos indexados, as principais ferramentas de busca (Google, Yahoo) apresentam diferenças significativas na indexação.

Segundo teste realizado por Serge Bondar (SitePoint, Search engine indexing limits: Where do the bots stop?, 28.4.2006), o Google indexa textos com até 520kb, o Yahoo com até 210Kb. Por isto, os trechos dos textos com as principais palavras-chave devem considerar estes limites. Como estas pesquisas são antigas, não sabemos se estes números se mantêm.

Independentemente dos critérios de indexação de cada buscador, o valor de um site deve ser independente da sua localização nas listas de resultados, e se basear na qualidade do conteúdo e em maneiras diversificadas de atrair o público.

 

Assuntos relacionados
Sobre a metatags
Preparo de site para buscas (SEO)
Links e fraudes
SEO para dispositivos móveis (mobile SEO)

Referências e fontes
Search can't scale without social, and Bing has Facebook and Twitter on its side, Jason Hiner (HTML Googies, acesso em 15.11.2011)
Powerful SEO content: Understanding breadth of coverage, John Lynch (SearchEngineWatch, acesso em 21.5.2010)
SEO link building is just like business development, Eric Enge (SearchEngineWatch, acesso em 18.5.2010)
Four new signals in search, Eric Enge (SearchEngineWatch, acesso em 1.12.2009)
Link building for smart webmasters (no dummies here) (SEM 101) (Bing Community, acesso em 23.11.2009)
Will personal search turn SEO on its ear? (WebProNews, acesso em 23.12.2008)

Glossário
Relevância – Seleção de informações úteis, pertinentes para uma necessidade de informação. Um documento é relevante se contribui para satisfazer a necessidade de informação de um determinado usuário. É um termo bastante aplicado nas buscas online, que procuram situar os resultados mais relevantes no alto das listas de resultados.

Avellar e Duarte no Twitter Avellar e Duarte no Facebook Feeds da Avellar e Duarte Avellar e Duarte no Delicious