Indexação para busca na web

Preparo do site para indexação (SEO)

Algoritmo do Google

Atualizado em 23.1.2012

O PageRank (nome baseado no seu autor, Larry Page) é o conjunto de algoritmos usado pelo mecanismo de busca do Google para a indexação de páginas, aplicativos e arquivos online. Baseia-se essencialmente na análise de links e na atribuição de pesos para cada elemento situado em arquivos aos quais os links estão relacionados. Quanto mais alto for o peso do elemento, mais alto o seu posicionamento no ranking de resultados das buscas.

De modo geral, os o Google valoriza os seguintes fatores para privilegiar um site nas páginas de resultados:

Marcações "HREF" e "SRC" que apontam para páginas e arquivos, bem como o número de links para cada página - tanto sob o ponto de vista quantitativo quanto qualitativo. Um link da página A para a página B é como um voto de A para B e afeta a sua relevância. No entanto, sites com má reputação prejudicam a reputação do web site para o qual apontam. Também a qualidade e a abrangência do conteúdo afetam os resultados das buscas. O número de links por página não deve passar de 100.

O texto dos links externos para um site também é considerado um fator importante para o ranking. (6)

O conteúdo de qualidade, compartilhável, especialmente no Google+, tem cada vez mais valor. Cada indivíduo representa uma oportunidade de apresentar conteúdo não só para uma, mas também para os seus círculos de relacionamento.

Personaliza cada vez mais os resultados para cada usuário. A participação de cada pessoa na internet influencia os resultados das suas buscas, ou seja, os resultados estão cada vez mais personalizados, especialmente dos usuários cadastrados que estiverem logados, usando como referência o histórico de buscas anteriores de cada IP. (2).

Uma ampla e ativa base de membros em sites participativos e de mídias sociais, embora o Google conte com dados estimados – não tem acesso aos posts do Facebook e do Twitter. Também valoriza as referências comerciais a uma empresa ou pessoa citadas nestas mídias, independentemente de terem links ou não.

Domínios que publicam conteúdo semântica ou tematicamente consistente de um determinado domínio de conhecimento ou atividade. Considera que quanto mais autoridade um site tem num tema, maiores as chances de ser favorecido no ranking dos resultados para os termos de maior importância. O Google chama este alcance temático de "breath of coverage", ou BOC. (7)

Conteúdo mais recente e o conteúdo atualizado com frequência. Assim, é valorizado conteúdo de eventos recentes (notícias, eventos recentes ou futuros), eventos regulares (anuais, de temporada, esportivos que ficam menos relevantes em pouco tempo.), gírias ou termos que podem ter importância num determinado momento e pouco depois são esquecidos (gírias, siglas). (8)

A credibilidade de um veículo para o público.

"Title" tags adaptadas para cada página e a correta marcação de HTML nas páginas. No entanto, a equipe do Google reconhece que pode alterá-los nas páginas de resultados se considerá-los muito longos ou inadequados (como "Untitled", por exemplo, ou títulos não relacionados ao conteúdo da página). (1)

Relação direta entre os textos-âncora dos links e o conteúdo publicado nas páginas de destino. Se a repetição dos termos dos links for excessiva, pode apontar para uma estratégia de spam e o site é penalizado nas buscas.

Penaliza estratégias agressivas de links cruzados por sites do mesmo dono. Estas estratégias também são diagnosticadas pela velocidade brusca com que o número de links para uma URL aumenta. Em ambos os casos, os sites envolvidos são desfavorecidos.

Verifica o conteúdo que se repete no mesmo site ou em outros sites e indexa apenas uma versão, a que reconhece como canônica. O robot rastreia textos duplicados usados por webmasters que publicam conteúdo para diversas mídias. Para assinalar o conteúdo prioritário, as páginas secundárias devem ter marcações "noindex" e "nofollow" nas meta tags. (ver Sobre as meta tags)

Para sinalizar os links para o conteúdo prioritário, usar a tag rel="canonical" na marcação.

-> Por exemplo: <a href="http://www.avellareduarte.com.br/lançamento 3/lancamento3bd.htm" rel="canonical" >

Este recurso é útil quando se está migrando de um domínio para outro e o servidor não oferece redirecionamento. Neste caso, é preciso publicar conteúdo duplicado durante algum tempo, para sinalizar a mudança ao público. (5)

Sites de comércio não devem repetir as descrições dos produtos criadas pelos fabricantes ou publicadas por outros site, pois podem ser penalizados com a má localização nas páginas de resultados de buscas (SERP – Search Engine Results Pages).

Sites com os mesmos textos publicados em diversos idiomas devem acrescentar tags que identifiquem a repetição, como

<link rel=”alternate” hreflang="english" href="http://www.avellareduarte.com.br/lançamento 3/lancamento3bd.htm" /> (9)

Indexa textos publicados em arquivos em Flash e PDF. No entanto, não favorece sites cuja navegação se baseie nestas plataformas. Em junho de 2010 a busca por "Pepsi" no Google não gera links secundários no resultado principal, apesar da importância comercial desta marca.

Embora com imperfeições, indexa textos publicados como imagens. (1) O algoritmo considera também os textos de botões e textos associados a arquivos swf. (4)

Desvaloriza sites com altas taxas de visitas únicas com apenas uma página (bounce rates) – cada visita é considerada o número de páginas percorridas num intervalo mínimo de 30 minutos, e se muitos usuários veem apenas uma página por visita sinalizam que o conteúdo pode não atender às suas necessidades. (3)

Ignora as meta "Keywords" no <head> do HTML.

Considera o tempo de carregação das páginas nos browsers – o fator é importante na medida em que afeta diretamente a experiência dos usuários. Ver Page Speed, add-on para o Firefox/ Firebug que avalia o tempo de carregação das páginas.

Desvaloriza os sites que saturam as páginas com anúncios demais, também dentro da política de valorizar aqueles que proveem uma boa experiência aos usuários. (10)

Desvaloriza os sites que não têm muito conteúdo "acima da dobra", o que também afeta a experiência do usuário (partindo do princípio de que os usuários, ao acessarem um site, querem ver logo seu conteúdo.

Pode demorar meses para registrar a mudança de uma URL. O PageRank muda sempre – em 2007 mudou 450 vezes. Um site que ocupa os primeiros lugares nos resultados numa semana pode ocupar outra posição na semana seguinte. No entanto, embora as aranhas visitem a maioria dos sites em semanas, as URLs se mantêm por meses. Assim, se precisar mudar um endereço, considere este tempo até a página recuperar seu ranking anterior.

Em relação aos tamanhos dos textos indexados, o Google, privilegia os textos com até 520KB, por isto, os trechos dos textos com as principais palavras-chave devem considerar estes limites.

 

Assuntos relacionados
Sobre a metatags
Preparo do site para indexação
Links e fraudes

Referências e fontesx
10) Google’s new page layout update targets sites with too many ads (SearchEngineWatch, acesso em 23.1.2012)
9) Unifying content under multilingual templates (Google Webmaster Central Blog, acesso em 23.12.2011)
8) Google discusses 10 recent algorithm changes, de Rob D. Young (Search Engine Watch, acesso em 17.11.2011)
7) Powerful SEO content: Understanding breadth of coverage, de John Lynch (SearchEngineWatch, acesso em 21.5.2010)
6) SEO link building is just like business development, de Eric Enge (SearchEngineWatch, acesso em 18.5.2010)
5) Duplicate content owners catch a new break from Google, de Chris Crum (SearchEngineWatch, acesso em 23.12.2009)
Link building for Bing rankings: Dos and don'ts, de Cris Crum (WebproNews, acesso em 23.11.2009)
1) Google may change your page titles, de Chris Crum (WebProNews, acesso em 13.11.2009)
Google and Bing tips for site architecture issues (WebProNews, acesso em 7.7.2009)
4) Google improves flash indexing capabilities, de Chris Crum (WebProNews, acesso em 23.6.2009)
3) Google answers bounce rate questions (WebProNews, acesso em 2.1.2009)
2) Will personal search turn SEO on its ear? (WebProNews, acesso em 23.12.2008)

Mais informação sobre o assunto
PageRank, de P. Cassão (Dicas úteis do Cassão, acesso em 22.9.2011)
Where Google stands on the "Keywords" meta tag, de Chris Crum (WebProNews, acesso em 22.9.2009)
Top 10 ways to raise your site in Google (WebProNews, acesso em 29.12.2008)
Check Page Rank of any web site pages instantly (PRChecker, acesso em 17.10.2008)

Glossário
Relevância – Seleção de informações úteis, pertinentes para uma necessidade de informação. Um documento é relevante se contribui para satisfazer a necessidade de informação de um determinado usuário. É um termo bastante aplicado nas buscas online, que procuram situar os resultados mais relevantes no alto das listas de resultados.

Avellar e Duarte no Twitter Avellar e Duarte no Facebook

Mapas temáticos
Buscas na web