Em Preparo de site para buscas (SEO) pelos buscadores examinamos atividades que ajudam a melhorar o posicionamento de um site no ranking de resultados dos buscadores da web. É importante também  evitar procedimentos que atrapalham este posicionamento, ou as “piores práticas”, da otimização para buscadores:

Não publicar conteúdo duplicado no mesmo site ou em outros sites, especialmente se for muito procurado. O Google considera com cuidado o conteúdo publicado duas vezes no mesmo site, pois pode ser utilizado irregularmente para duplicar índices.

Esse buscador chega a enviar o conteúdo duplicado para índices suplementares, não considerados para a lista de resultados principais. E tem uma ferramenta, o Report Scrapper Pages, para que gestores de sites prejudicados possam relatar casos em que seu conteúdo foi duplicado irregularmente por outros sites e o ranking nas buscas do texto original foi prejudicado.

Uma prática comum é a publicação de conteúdo duplicado para veiculação em diversos formatos, dispositivos ou configurações de hardware e software dos usuários. Também é comum a criação de cópias dos textos para impressão, o que não é considerado irregularidade. Esses sites devem deixar claro nas meta tags que as páginas duplicadas não devem ser indexadas.

Para avisar aos buscadores sobre a URL de conteúdo duplicado que deve ser indexada, os editores de sites devem publicar, na cabeça (<head>) do código de todas as páginas, a marcação:

<link rel=”canonical” href="http://www.dominiodo site.com/conteudoPrincipal.htm" />

Assim os buscadores vão entender que o conteúdo duplicado se refere ao da URL canônica identificada.

Não publicar conteúdo copiado de outros sites, o que na verdade duplica o conteúdo (como indicado acima) e prejudica sua priorização no ranking de resultados, tanto para o original quanto para a cópia. Essa recomendação é crítica para sites de comércio que copiam as indicações dos fabricantes sobre os produtos, pois essas tendem a competir com suas cópias, publicadas nos sites da concorrência.

Não publicar meta tags (“description”, “keywords”) ou títulos de páginas duplicados no mesmo site, pois os buscadores consideram que cada página deve ter conteúdo diferente, que a identifica.

Não usar demais os links cruzados entre páginas do mesmo site. Quando a lista de links cruzados cresce muito (mais de 25 links aproximadamente), esses podem não valorizar as páginas para as quais apontam.

Não publicar palavras-chave, expressões ou nomes de arquivos (imagens, vídeos, áudios) sem relação direta com o site, ou publicar excesso de palavras-chave, com muitas combinações das mesmas palavras e redundância de ideias.

Não usar variáveis demais nas URLs, pois informações excessivas podem gerar índices contraditórios e classificações imprecisas.

Não usar Javascript em links nos quais uma simples marcação em HTML seria aplicável, pois muitas vezes URLs podem ficar indecifráveis para as aranhas dos buscadores.

Não publicar conteúdo importante em camadas muito profundas do site, não priorizados pelos buscadores, que priorizam as páginas de camadas mais superficiais.

Não publicar texto escondido, visível apenas pelos buscadores, aplicando-se, por exemplo, a mesma cor que o fundo da página. Essa prática é usada para que o texto seja indexado pelos buscadores mas fique invisível aos visitantes, o que pode gerar indexações direcionadas de acordo com interesses nem sempre éticos dos webmasters.

Não disponibilizar para as aranhas dos buscadores as páginas de registro, erro, de agradecimento, para permitir que as páginas mais importantes sejam rastreadas. Nesse caso, as meta tags “robots” devem sinalizar:

<META NAME="robots" CONTENT="noindex, nofollow">.

Não publicar páginas “órfãs”, isoladas da estrutura geral do site. Essas geralmente vão para listas de índices secundários e, dependendo da sua quantidade, podem comprometer o ranking geral do site nos resultados principais.

Não migrar o site todo de um endereço para outro sem redirecionar cada página antiga para o endereço da página nova. O trabalho de redirecionamento informa ao site de busca que o endereço do site foi alterado.

Não publicar links de sites não confiáveis e não permitir a publicação de links para seu site em sites associados a irregularidades. Publicar links e ter links publicados em outros sites não é suficiente para ter boa localização no ranking de resultados. A idoneidade das publicações que apontam para um site também conta.

Os algoritmos dos buscadores desconfiam de sites que publicam muitos links de uns para os outros ou para sites associados à publicação de spam ou à compra e venda de links. Sites da mesma empresa que publicam links uns para os outros são examinados pelos buscadores com especial cuidado, para verificar a afinidade do conteúdo e a existência de fraudes.

Não comprar links ou implementar esquemas de spam, que acabam cedo ou tarde sendo descobertos e penalizados pelos principais buscadores.

Não adotar as mesmas práticas de SEO que os grandes sites, pois, além terem as vantagens do tamanho, e às vezes do pioneirismo, contam com alguma autoridade em uma área de atividade que lhes reserva espaço para erro.

(Atualizado em 23.12.2011)

Referências

10 ways rehashed content fails your website, Kevin Gibbons (SearchEngineWatch, acesso em 23.12.2011)

Canonical tag announced: Google’s Matt Cutts interviewed, Chris Crum (WebProNews, acesso em 20.2.2009)

Sites que verificam IP bloqueado em função do site ser identificado como origem de spam

MXToolBox (acesso em 3.5.2010)

Spamhaus (acesso em 3.5.2010)

Formulário para registro de sites que copiam conteúdo de outros e os prejudicam no ranking de buscas

Report Scraper Pages (acesso em 30.8.2011)