Indexação para busca na web
Preparo do site para indexação (ou otimização para buscadores)
Algoritmos dos buscadores
Para rastrear o conteúdo dos sites, os sites de busca enviam mecanismos automatizados, as "aranhas" (spiders), que indexam informações de cada domínio nos seus bancos de dados. Os algoritmos, aperfeiçoados continuamente, estimam o valor de cada página e determinam a sua localização na ordem (ranking) de resultados.
De modo geral, todos os buscadores valorizam os seguintes fatores para privilegiar um site nas páginas de resultados:
◊ O número de links que apontam para cada página, inclusive o texto dos links e o número de citações em outros sites. Também a subordinação dos links dentro da estrutura interna dos site é considerada.
◊ O conteúdo e o assunto dos textos, bem como palavras-chave neles presentes.
◊ O modo como o código é estruturado, com marcações como <title> - o titulo da página -, h1, h2, h3, etc. para a titulação dos textos), textos alternativos ("alt") em fotos, "title" nas marcações de links, "summary" nas tabelas.
◊ O modo como o código é apresentado (uso de CSS e marcações que informem a funcionalidade dos elementos). A rigor, as tags h1 devem ser publicadas antes das h2, que devem vir antes das h3, para sinalizar a ordem de precedência.
◊ A frequência de atualização das páginas, que condiciona a frequência das visitas das aranhas.
◊ Os percursos dos usuários ao selecionar uma URL. Se verificam que a maioria dos usuários achou a informação que procurava, associam o endereço às palavras-chave usadas nas buscas.
◊ Padrões de busca locais. Alguns resultados são adaptados para o local da busca. Este aspecto é especialmente importante para a configuração de páginas de perfil comercial, cujo conteúdo sobre os produtos deve ser baseado na proximidade dos clientes.
O Google e seus algoritmos (PageRank)
◊ Valoriza as marcações "HREF" e "SRC" que apontam para páginas e arquivos, bem como o número de links para cada página - tanto sob o ponto de vista quantitativo quanto qualitativo. Um link da página A para a página B é como um voto de A para B e afeta a sua relevância. No entanto, sites com má reputação prejudicam a reputação do web site para o qual apontam. Também a qualidade e a abrangência do conteúdo afetam os resultados das buscas. O número de links por página não deve passar de 100.
O texto dos links externos para um site também é considerado um fator importante para o ranking. (7)
◊ Valoriza a credibilidade de um veículo para o público.
◊ Pode demorar meses para registrar a mudança de uma URL. O PageRank muda sempre - em 2007 mudou 450 vezes. Um site que ocupa os primeiros lugares nos resultados numa semana pode ocupar outra posição na semana seguinte. No entanto, embora as aranhas visitem a maioria dos sites em semanas, as URLs se mantêm por meses. Assim, se precisar mudar um endereço, considere este tempo até a página recuperar seu ranking anterior.
◊ Valoriza "title" tags adaptadas para cada página e a correta marcação de HTML nas páginas. No entanto, a equipe do Google reconhece que pode alterá-los nas páginas de resultados se considerá-los muito longos ou inadequados (como "Untitled", por exemplo, ou títulos não relacionados ao conteúdo da página). (1)
◊ Verifica se os links para uma página apresentam palavras em comum com os textos publicados. Se a repetição dos termos dos links for excessiva, pode apontar para uma estratégia de spam e o site é penalizado nas buscas.
◊ Penaliza estratégias agressivas de links cruzados por sites do mesmo dono. Estas estratégias também são diagnosticadas pela velocidade brusca com que o número de links para uma URL aumenta. Em ambos os casos, os sites envolvidos são desfavorecidos.
◊ Verifica o conteúdo que se repete no mesmo site ou em outros sites e indexa apenas uma versão. A empresa rastreia textos duplicados usados por webmasters que publicam conteúdo para diversas mídias. Para assinalar o conteúdo prioritário, as páginas secundárias devem ter marcações "noindex" e "nofollow" nas meta tags. (ver Sobre as meta tags)
Para sinalizar os links para o conteúdo prioritário, usar a tag rel="canonical" na marcação.
-> Por exemplo: <a href="lancamento3bd.htm" rel="canonical" >
Este recurso é especialmente útil quando se está migrando de um domínio para outro, e o servidor não oferece recursos de redirecionamento. Neste caso, é preciso publicar conteúdo duplicado durante algum tempo, para sinalizar a mudança ao público. (6)
◊ Valoriza uma ampla e ativa base de membros em sites participativos e de mídias sociais. Também valoriza as referências comerciais a uma empresa ou pessoa citadas nestas mídias, independentemente de terem links ou não.
■ Valoriza domínios que publicam conteúdo semântica ou tematicamente consistente de um determinado domínio de conhecimento ou atividade. Considera que quanto mais autoridade um site tem num tema, maiores as chances de ser favorecido no ranking dos resultados para os termos de maior importância. O Google chama este alcance temático de "breath of coverage", ou BOC. (8)
◊ Indexa textos publicados em arquivos em Flash e PDF. No entanto, não favorece sites cuja navegação se baseie nestas plataformas. Em junho de 2010 a busca por "Pepsi" no Google não gera links secundários no resultado principal, apesar da importância comercial desta marca.
◊ Embora com imperfeições, indexa textos publicados como imagens. (1) O algoritmo considera também os textos de botões e textos associados a arquivos swf. (4)
◊ Personaliza cada vez mais os resultados para cada usuário, usando como referência o histórico de buscas anteriores de cada IP. (2)
◊ Desvaloriza sites com altas taxas de visitas únicas com apenas uma página (bounce rates) - cada visita é considerada o número de páginas percorridas num intervalo mínimo de 30 minutos, e se muitos usuários veem apenas uma página por visita sinalizam que o conteúdo pode não atender às suas necessidades. (3)
◊ Ignora as meta "Keywords" no <head> do HTML.
◊ Pode começar a considerar o tempo de carregação das páginas nos browsers a partir de 2010 - o fator é importante na medida em que afeta diretamente a experiência dos usuários. Ver Page Speed, add-on para o Firefox/ Firebug que avalia o tempo de carregação das páginas.
Características dos algoritmos do Yahoo
◊ Na priorização do conteúdo, considera igualmente links internos e externos, embora os primeiros sejam menos confiáveis, pois podem conduzir a informação promocional.
◊ Considera as páginas que mudaram de endereço ou foram "recicladas" por seus editores e perderam seu valor inicial.
◊ Mantém fatores de cálculo que combatem o spam de links e não refletem apenas as preferências dos usuários, como o TrustRank.
◊ Considera os links um a um, sem bloquear conjuntos de links com origem no mesmo servidor ou no mesmo domínio.
◊ Ainda leva em conta as meta tags de cada página, embora estas sejam indiferentes para as aranhas do Google.
Características dos algoritmos do Bing
◊ Valoriza links para/ de sites de boa reputação e considera a relevância do link para o conteúdo do site. Textos escondidos devem ser evitados, bem como comentários sem relevâncias em blogs.
◊ Valoriza citações de um site em discussões em mídias sociais.
◊ Indexa os nomes dos arquivos e dos diretórios.
◊ Limita a busca a diretórios mais superficiais.
◊ Valoriza Javascript e CSS externos aos arquivos HTML.
◊ Valoriza páginas mais leves.
◊ Evita redirecionamentos de páginas via Javascript e meta refresh. Os redirecionamentos devem ser feitos via código 301.
◊ Considera páginas de erro (404) adaptadas aos site.
◊ Não valoriza estratégias de links muito agressivas (que criam subitamente muitos links para o mesmo site).
Outros buscadores
◊ O Inktomi considera as palavras-chaves como elementos de grande importância.
◊ O site Alexa valoriza o volume de tráfico que o site recebe para avaliar a sua relevância para os usuários. O algoritmo Alexa Ratings estima o volume de acessos que cada site recebe e compara com o de outros sites relacionados.
◊ Como o Yahoo, a MSN também considera as meta tags de cada página para a sua indexação.
◊ O LiveSearch desvaloriza links interrompidos - File Not Found (404) - e URLs muito longas; considera as instruções do arquivo robot.txt, valoriza conteúdo em formatos como XML e PowerPoint, mas não considera arquivos em formato .exe (WebProNews, 8.2008)
Tamanho do texto indexado
■ Em relação aos tamanhos dos textos indexados, as principais ferramentas de busca (Google, Yahoo e MSN) apresentam diferenças significativas na indexação.
Segundo teste realizado por Serge Bondar (SitePoint, Search engine indexing limits: Where do the bots stop?, 28.4.2006), o MSN considera textos de até 1020Kb, o Google indexa textos com até 520kb, o Yahoo com até 210Kb. Por isto, os trechos dos textos com as principais palavras-chave devem considerar estes limites.
■ Independentemente dos critérios de indexação de cada buscador, o valor de um site deve ser independente da sua localização nas listas de resultados, e se basear na qualidade do conteúdo e em maneiras diversificadas de atrair o público.
Assuntos relacionados
► Sobre a metatags
► Preparo do site para indexação
► Links e fraudes
Referências e fontes
8) Powerful SEO content: Understanding breadth of coverage, de John Lynch (SearchEngineWatch, acesso em 21.5.2010)
7) SEO link building is just like business development, de Eric Enge (SearchEngineWatch, acesso em 18.5.2010)
6) Duplicate content owners catch a new break from Google, de Chris Crum (SearchEngineWatch, acesso em 23.12.2009)
5) Four new signals in search, de Eric Enge (SearchEngineWatch, acesso em 1.12.2009)
► Link building for Bing rankings: Dos and don'ts, de Cris Crum (WebproNews, acesso em 23.11.2009)
► Link building for smart webmasters (no dummies here) (SEM 101) (Bing Community, acesso em 23.11.2009)
1) Google may change your page titles, de Chris Crum (WebProNews, acesso em 13.11.2009)
► Google and Bing tips for site architecture issues (WebProNews, acesso em 7.7.2009)
4) Google improves flash indexing capabilities, de Chris Crum (WebProNews, acesso em 23.6.2009)
3) Google answers bounce rate questions (WebProNews, acesso em 2.1.2009)
2) Will personal search turn SEO on its ear? (WebProNews, acesso em 23.12.2008)
► Google answers some tricky questions (WebProNews, acesso em 19.11.2008)
► Hitwise looks at the effects of Google's blacklist (WebProNews, 16.4.2008)
► The ten commandments of keyword selection
► Google moves to continual indexing
► How affiliate programs can affect search rankings
► Search engine indexing limits: Where do the bots stop? (SitePoint, acesso em 20.4.2006)
► Google lays down duplicate content law (Webpronews.com, acesso em 19.12.2006)
Mais informação sobre o assunto
► Where Google stands on the "Keywords" meta tag, de Chris Crum (WebProNews, acesso em 22.9.2009)
► Top 10 ways to raise your site in Google (WebProNews, acesso em 29.12.2008)
► Check Page Rank of any web site pages instantly (PRChecker, acesso em 17.10.2008)
► How does google rank your blog? (WebProNews, acesso em 6.7.2006)
► Matt Cutts: Gadgets, Google, and SEO - Blog com informações sobre o PageRank (acesso em 3.10.2006)
► Diretrizes para webmasters, do Google para webmasters (acesso em 13.3.2006)
► Googlebot: Google's web crawler
Glossário
■ Relevância - Seleção de informações úteis, pertinentes para uma necessidade de informação. Um documento é relevante se contribui para satisfazer a necessidade de informação de um determinado usuário. É um termo bastante aplicado nas buscas online, que procuram situar os resultados mais relevantes no alto das listas de resultados.