Para rastrear o conteúdo na web, os sites de busca enviam mecanismos automatizados, as “aranhas” (spiders), que indexam informações de cada domínio nos seus bancos de dados. Seus algoritmos, aperfeiçoados continuamente, estimam o valor de cada página e especificam sua localização na ordem (ranking) de resultados.
De modo geral, os buscadores valorizam os seguintes fatores para privilegiar um site nas páginas de resultados (SERPs – Serch Engine Results Pages):
■ O número de links que apontam para cada página, incluindo o texto desses links e o número de citações desses textos em outros sites. Também a subordinação desses links dentro da estrutura interna do site é considerada, desde que semanticamente relacionada.
■ O conteúdo e o assunto dos textos, bem como palavras-chave neles presentes.
■ O modo como o código é estruturado, com marcações como <title> – o titulo da página –, h1, h2, h3, etc. (para a titulação dos textos), textos alternativos (“alt”) em fotos, “title” nas marcações de links, “summary” nas tabelas.
■ O modo como o código é apresentado (uso de CSS e marcações que informem a funcionalidade dos elementos). As tags h1 devem ser publicadas antes das h2, que devem vir antes das h3, para sinalizar a ordem de precedência.
■ A frequência de atualização das páginas, que condiciona a frequência das visitas das aranhas.
■ O percurso dos usuários ao selecionar uma URL. Se as aranhas verificam que a maioria dos usuários achou a informação que procurava, associam o endereço às palavras-chave usadas nas buscas.
■ Vídeo, imagens, áudio (“rich content”), que complementem textos, o que reduz a taxa de abandono (bounce rate) e aparecem junto aos resultados.
■ Padrões de busca locais. Alguns resultados são adaptados para o local da busca. Esse aspecto é especialmente importante para a configuração de páginas de perfil comercial, cujo conteúdo sobre os produtos se baseia na proximidade dos clientes.
■ Em relação aos tamanhos dos textos indexados, as principais ferramentas de busca (Google, Yahoo) apresentam diferenças significativas na indexação.
Segundo teste realizado por Serge Bondar (SitePoint, 28.4.2006), o Google indexava textos com até 520kb, o Yahoo com até 210Kb. Por isto, os trechos dos textos com as principais palavras-chave deveriam considerar estes limites. Como estas pesquisas são antigas, não sabemos se estes números se mantêm.
■ Independentemente dos critérios de indexação de cada buscador, o valor de uma mídia digital deve ser independente da sua localização nas listas de resultados, e se basear na qualidade do conteúdo e em maneiras diversificadas de atrair o público.
(Atualizado em 14.10.2014)
Referências
→ Search can’t scale without social, and Bing has Facebook and Twitter on its side, Jason Hiner (HTML Googies, acesso em 15.11.2011)
→ Four new signals in search, Eric Enge (SearchEngineWatch, acesso em 1.12.2009)
→ Link building for smart webmasters (no dummies here) (SEM 101) (Bing Community, acesso em 23.11.2009)
Termos utilizados
▪ Relevância – Seleção de informações úteis, pertinentes para uma necessidade de informação. Um documento é relevante se contribui para satisfazer a necessidade de informação de um determinado usuário. É um termo bastante aplicado nas buscas online, que procuram situar os resultados mais relevantes no alto das listas de resultados.