Primeiro, a definição:
Stop words (ou palavras de parada – tradução livre) são palavras que podem ser consideradas irrelevantes para o conjunto de resultados a ser exibido em uma busca realizada em uma search engine. Exemplos: as, e, os, de, para, com, sem, foi.
Claro que, irrelevantes, depende da busca realizada, pois o contexto da busca fará toda a diferença para cada palavra usada na pesquisa realizada.
Mas por que eu estou levantando este tema? Porque muitas pessoas que procuram fazer algum SEO acabam se perguntando sobre a relevância de utilizar stop words em seu conteúdo: títulos, meta description, meta keywords e no conteúdo propriamente.
Antes de prosseguir, é importante entender como as search engines trabalham as palavras de uma frase: dada uma frase, a search engine a quebra em tokens, sendo cada token um subconjunto formado pelas palavras dessa frase. A Nathalia descreveu como funciona este processo em um artigo aqui na Agência Mestre sobre como search engines tratam texto âncora. O exemplo foi:
Suponhamos que o search engine encontre um link com texto âncora “Dez Dicas Rápidas”. Convertendo em tokens:
- “Dez Dicas Rápidas”
- “Dez”
- “Dicas”
- “Rápidas”
- “Dicas Rápidas”
- “Dez Dicas”
- “Dez Rápidas”
Entendido como são tratadas frases em pesquisas, vamos para o tratamento de stop words e como search engines identificam possíveis stop words.
Stop Words – Como o Google Identifica?
Encontrei um post “antigo” (agosto/08) no site SEObytheSEA que reportava uma patente do Google sobre como a sua search engine pode trabalhar para identificar stop words de acordo com a pesquisa realizada, e ela funciona da seguinte maneira:
- Para uma dada busca, ela é quebrada em tokens e são montados conjuntos de resultados para tokens contendo as possíveis stop words e sem as possíveis stop word; os resultados obtidos nos conjuntos são comparados, sua similaridade definida e as possíveis stop words identificadas:
Complicou? Vamos ver um exemplo: ao realizar a busca “os outros” no Google, o conjunto dos 10 primeiros resultados é composto de:
- 4, entre os 7 primeiros resultados, sobre o filme “Os Outros”
- 3 resultados de música
- 3 resultados de literatura
Por outro lado, a busca por “outros“, retorna em seu conjunto de 10 primeiros resultados:
- 2 resultados sobre música
- 2 resultados de vídeos (pe. Fabio de Melo e Kid Abelha)
- Google Maps
- 1 sobre o filme
- mais 5 resultados diversos
Ou seja, o artigo definido “os”, neste caso, é totalmente relevante para o conjunto de resultados apresentado. Por outro lado, comparando o conjunto de resultados da busca “as pérolas da internet” (1) contra o conjunto de “pérolas da internet” (2), nota-se que 7 dos 10 primeiros resultados em (1) estão entre os 10 primeiros em (2) – uma similaridade de 70%. O artigo definido “as” pode ser tratado como uma stop word.
Conclusão
De fato, a patente do Google faz sentido e pode ser que esteja realmente sendo usada, ou, talvez, uma versão bem próxima desta patente garantida o ano passado ao Google. Para saber se um termo pode ser considerado ou não como stop word, é realmente necessário fazer o teste e avaliar o resultado.
Mas tenha sempre em mente que o uso adequado de stop words também influencia a decisão de clique do usuário. Frases mal escritas podem aumentar a rejeição do usuário, conforme eu comentei no meu artigo sobre otimização de palavras escritas de forma errada.
Nos exemplos deste artigo, eu testei somente os primeiros 10 resultados de 2 tokens, o Google pode testar muito mais e definir o grau de similaridade ( 70%, 30%, 90%) como lhe parecer mais apropriado, mas os testes se mostram bem conclusivos. O que você acha? Qual a sua experiência com stop words? Deixe seu recado nos comentários, até a próxima!
Realemnte as palavras consideradas como conjuncoes, proposicoes, entre outras não são consideradas pelo engine. Muitas pessoas registram dominios com as palavras “como” na fernete pra tentar ficar nas primeiras posicoes e se dá mal. Um exemplo é um site chamado receitade.com.br que o diretor da publiweb publicou no Cd-Rom. Ele achou que se alguém pesquisasse por “Receita de Bolo” ia cair no site dele no endereço receitade.com.br/bolo. Se deu mal, pois o “de” não foi considerado pelo Google e ele ficou no rankeamento das palavras “receita” e “bolo” apenas. Valeu pelo Post. Isto vai ajudar que pessoas evitem poluir a web com dominios exclusivos pra seo.
Parabéns Frank;
Há muito tempo não tenho visto um texto tão relevante sobre SEO nos blogs e sites brasileiros que falam sobre o assunto.
Pensar, escolher, analisar e descobrir as melhores palavras ou termos chave é algo trabalhoso e que requer muito estudo, teste e paciência e as “Stop Words” influenciam bastante na escolha desses termos.
Parabéns!
@Cleverson: Não conhecia esse caso, mas é um exemplo interessante! Valeu por compartilhar.
@LéoCabral: valeu!
Mas porque NÃO por os stop words?
O que isso poderia perjudicar…pode não ajudar, mas prejudica de alguma forma?
Ou apenas em função do limite de caracteres?
E aí Alexandre!
As pessoas ficam com dúvidas sim, justamente nesse caso de contar os caracteres e tal. Mas extendendo esse conceito para otimizar plural e singular, acentuação ou não, etc., enfim, deve ser tratado tudo da mesma maneira, ou de modo bem similar.
Especialmente para URLs, stop words são válidas de se analisar.
Abraços!
Ola Frank,
Eu vejo uma situação interessante, estou estudando o SEO aqui pela internet, aprendi muito aqui no Agência Mestre, veja, eu publiquei um site de vendas de soft para clinicas medicas e veterinarias, qdo digito “programa DE consultorio medico” o resultado éum, se difito “programa PARA consultorio medico” é outro, quer dizer as stopwords tem relevancia nesse case. Agora tire uma dúvida, eu li um texto de SEO onde sugerem substituir as stopwords por “|”, o que voce acha?
Abraços!
Jorge, embora no seu caso “de” e “para” não sejam consideradas stop words, é possível rankear para os 2 termos sem ter 1 deles no Título, afinal, você pode trabalhar com as duas versões por todo o HTML da página, não precisa ser só no título…
Substituindo segundo a sua sugestão, o título fica “Programa | Consultório Médico”, você vai ficar sem “de” e sem “para” no título. Eu não aplicaria em um site que estivesse trabalhando, pelo que já disse antes.
Abraços! Valeu pelo comment!
Entendi, no meu eu usei “Programa, software para conultorio médico e clinicas”, e dentro do texto fiz o que você sugeriu. Essa é uma area com muitos SEO’s, estou me esforçando para melhorar o ranking. Ja com as paginas para software de clinica veterinaria estou entre os 10, e o de laboratorio veterinario consegui 1ª linha com qq combinação de palavras(programa para ou de laboratorio veterinario). Esta sendo um estudo muito bom esse.
Obrigado! Espero mais artigos!
Abraços!
Assunto bem interessante, já fiz algumas buscas com e sem as Stop Words o fas muita diferença na hora do resultado, mas eu quase não a coloco nas URLs.
Muito bom o conteúdo do artigo, estou iniciando na carreira de blogueiro e estou correndo atrás de muito conteúdo. Principalmente no que tange a otimização para buscadores. Obrigado!
valeu amigao, vou utilizar muito em meus trabalhos 🙂