Para rastrear o conteúdo na web, os sites de busca enviam mecanismos automatizados, as “aranhas” (spiders), que indexam informações de cada domínio nos seus bancos de dados. Seus algoritmos, aperfeiçoados continuamente, estimam o valor de cada página e especificam sua localização na ordem (ranking) de resultados.

De modo geral, os buscadores valorizam os seguintes fatores para privilegiar um site nas páginas de resultados (SERPs – Serch Engine Results Pages):

O número de links que apontam para cada página, incluindo o texto desses links e o número de citações desses textos em outros sites. Também a subordinação desses links dentro da estrutura interna do site é considerada, desde que semanticamente relacionada.

O conteúdo e o assunto dos textos, bem como palavras-chave neles presentes.

O modo como o código é estruturado, com marcações como <title> – o titulo da página –, h1, h2, h3, etc. (para a titulação dos textos), textos alternativos (“alt”) em fotos, “title” nas marcações de links, “summary” nas tabelas.

O modo como o código é apresentado (uso de CSS e marcações que informem a funcionalidade dos elementos). As tags h1 devem ser publicadas antes das h2, que devem vir antes das h3, para sinalizar a ordem de precedência.

A frequência de atualização das páginas, que condiciona a frequência das visitas das aranhas.

O percurso dos usuários ao selecionar uma URL. Se as aranhas verificam que a maioria dos usuários achou a informação que procurava, associam o endereço às palavras-chave usadas nas buscas.

Vídeo, imagens, áudio (“rich content”), que complementem textos, o que reduz a taxa de abandono (bounce rate) e aparecem junto aos resultados.

Padrões de busca locais. Alguns resultados são adaptados para o local da busca. Esse aspecto é especialmente importante para a configuração de páginas de perfil comercial, cujo conteúdo sobre os produtos se baseia na proximidade dos clientes.

Em relação aos tamanhos dos textos indexados, as principais ferramentas de busca (Google, Yahoo) apresentam diferenças significativas na indexação.

Segundo teste realizado por Serge Bondar (SitePoint, 28.4.2006), o Google indexava textos com até 520kb, o Yahoo com até 210Kb. Por isto, os trechos dos textos com as principais palavras-chave deveriam considerar estes limites. Como estas pesquisas são antigas, não sabemos se estes números se mantêm.

Independentemente dos critérios de indexação de cada buscador, o valor de uma mídia digital deve ser independente da sua localização nas listas de resultados, e se basear na qualidade do conteúdo e em maneiras diversificadas de atrair o público.

(Atualizado em 14.10.2014)

Referências

Search can’t scale without social, and Bing has Facebook and Twitter on its side, Jason Hiner (HTML Googies, acesso em 15.11.2011)

Four new signals in search, Eric Enge (SearchEngineWatch, acesso em 1.12.2009)

Link building for smart webmasters (no dummies here) (SEM 101) (Bing Community, acesso em 23.11.2009)

Termos utilizados

Relevância – Seleção de informações úteis, pertinentes para uma necessidade de informação. Um documento é relevante se contribui para satisfazer a necessidade de informação de um determinado usuário. É um termo bastante aplicado nas buscas online, que procuram situar os resultados mais relevantes no alto das listas de resultados.