O maior vazamento de dados que presenciei na minha carreira de mais de 20 anos com SEO aconteceu no dia 28/05/2024: documentos internos da engenharia do Google, contendo 2.596 módulos e 14.014 atributos (funcionalidades) relacionados ao sistema de busca, o algoritmo do Google, ficaram públicos.
Incrivelmente, o maior objeto de desejo dos profissionais de SEO (eu me incluo aqui) sempre foi dar uma “espiadinha” na fórmula secreta do Google, o tal algoritmo, que fez a gigante de tecnologia ser o maior buscador e sistema para encontrar informações.
Para se ter uma ideia é como se tivéssemos acesso a calibração dos ingredientes da máquina de Coca-Cola ou ainda detalhes das porções que fazem o molho do Big Mac. Entendeu agora?
Como Essa Informação Surgiu?
A informação surgiu de um vazamento de documentos internos do Google, através de repositórios do GitHub, que foram divulgados por uma fonte anônima (que se identificou depois e menciono logo mais no artigo). Esses documentos, que incluem informações detalhadas sobre o algoritmo de busca e a API do Google, foram compartilhados inicialmente com o ex-profissional de SEO e ex-referência do mercado Rand Fishkin. Com acesso a essa informação, Rand, convidou um profissional especializado em questões técnicas e patentes da área de SEO, Mike King, para analisar com mais precisão as informações dos documentos que revelam mais de 14 mil características de classificação, incluindo métricas como “autoridade do site” e o uso de dados de navegação do Chrome.
Quem revelou os dados internos do Algoritmo do Google?
Os dados internos do algoritmo do Google foram revelados por uma fonte anônima. Ainda no dia da sua revelação, uma mensagem na plataforma X, feita pelo Mike King, apontou Erfan Azimi como a pessoa que compartilhou os documentos vazados da API do Google:
The gentleman that shared the leaked documents Google API documents is named Erfan Azimi and he has something he wants to say.https://t.co/afLjEZVeHh
— Mic King (@iPullRank) May 28, 2024
O vídeo do Erfan Azimi, publicado no Youtube, pode ser assistido aqui:
Vale apontar ainda, que na publicação do Youtube, o próprio Rand Fishkin, agradece o contato com Erfan, realmente dando clareza de que ele foi a fonte a contatá-lo inicialmente:
A partir do contato do Erfan Azimi com Rand Fishkin, este publicou em seu site SparkToro e, em conjunto, também um detalhamento mais profundo foi publicado pelo Mike King em seu blog, o IPullRank. As publicações fornecem fornecem uma visão detalhada dos critérios e processos internos usados pelo Google para classificar páginas na busca analisando pela ótica de profissionais experientes e questionadores do sistema de classificação do Google.
Podemos confiar nesse material que foi divulgado?
Em seu artigo inicial, Rand Fishkin aponta que “os documentos vazados foram confirmados por ex-funcionários e outras pessoas que possuem conhecimento da operação do Google”.
Também em uma publicação no X (antigo Twitter), um ex-Googler, analista da área de Search Quality e Engenharia, Fili Wiese, confirmou que reconhece o tipo de escrita usada nos documentos e o repositório do Gihub onde foi publicado o grupo de documentos. Ele ainda aponta que acredita que os documentos são legítimos.
I do recognize wording in the documents and the Github repo where it was published is under Google's control (except that Github is owned by Microsoft 😉 so I do think these docs are legit. Of course the right interpretation of the information is shared is another thing.
— Fili 🇪🇺 🇳🇱 (@filiwiese) May 28, 2024
Ainda nesta sequência de publicações no X, o profissional aponta que o conteúdo foi compartilhado por um “bot” (um robô) chamado “yoshi-code-bot” no dia 13 de Março de 2023 e não no dia 27 de Março como apontado nas publicações do Rand Fishkin e Mike King. O Fili ainda menciona que acredita que essa publicação dos documentos foi um “incidente” possivelmente automatizado e não realizado por uma única pessoa.
Just a correction for @randfish and @iPullRank : the docs were published on March 13th, not March 27th, by a bot called yoshi-code-bot. My guess is that this was accidentally pushed live from Google's internal code base, possibly automated and not by any person. #SEO #Googleleak
— Fili 🇪🇺 🇳🇱 (@filiwiese) May 28, 2024
Google vs Profissionais de SEO: Eles tinham versões diferentes do Algoritmo
Os documentos vazados revelam que há uma significativa discrepância entre o que os profissionais do Google publicamente afirmam sobre o algoritmo de busca e o que realmente ocorre nos bastidores. Essa diferença pode ser vista em vários aspectos cruciais:
1. Uso de Dados de Cliques e Comportamento do Usuário
Os profissionais do Google, que possuem extremo contato com webmasters e profissionais de SEO, John Mueller e Danny Sullivan, frequentemente afirmaram que o Google não utiliza dados de cliques e comportamento pós-clique como fatores diretos de classificação. No entanto, os documentos vazados apontam outro caminho para estas alegações, revelando que esses dados são utilizados de maneira significativa ao analisar a documentação.
Conforme destacado na fonte do iPullRank, o Google coleta e analisa dados de cliques e comportamento de usuários para avaliar a qualidade das páginas. Isso inclui métricas como a taxa de cliques (CTR), o tempo de permanência na página e o comportamento de navegação subsequente. Tais informações são cruciais para entender como os usuários interagem com os resultados de busca e ajustam os rankings de acordo.
2. Métrica de Autoridade do Site
Outro aspecto controverso é a métrica interna de “autoridade do site”, que contradiz as declarações públicas do Google sobre a inexistência de uma métrica única de autoridade. Os profissionais de SEO sempre suspeitaram da existência de algum tipo de métrica que avaliasse a autoridade global de um site, mas o Google nunca confirmou isso publicamente.
Os documentos revelados, conforme discutido no site SE Roundtable, confirmam que o Google realmente utiliza uma métrica interna denominada “siteAuthority” para ajudar a classificar páginas. Essa métrica é calculada com base em uma variedade de fatores, incluindo a qualidade dos links de entrada (backlinks), a reputação do site em setores específicos e o comportamento dos usuários em relação ao site.
3. Sandbox para Sites Novos
A existência de um “sandbox” para sites novos é outra área onde há discrepância entre o que o Google admite publicamente e o que ocorre internamente. Publicamente, o Google sempre negou a existência de um período de sandboxing, onde novos sites seriam intencionalmente “rebaixados” (ou não priorizados) nos rankings até provarem seu valor.
No entanto, os documentos revelados indicam que o Google realmente aplica um período de avaliação para novos sites, durante o qual esses sites podem ter dificuldade em posicionar/rankear bem, independentemente da qualidade do conteúdo. Esse período é utilizado para monitorar o comportamento do site e garantir que ele não se envolva em práticas de spam ou manipulação de rankings.
4. Listas Brancas (Whitelists) de Sites Confiáveis
Outra revelação surpreendente dos documentos vazados é a existência de listas brancas (ou whitelists – que “soa” melhor na língua nativa) para sites confiáveis em setores críticos. Publicamente, o Google tem sido muito vocal sobre a imparcialidade do seu algoritmo, afirmando que todos os sites são tratados igualmente. No entanto, conforme revelado no post da SparkToro, o Google mantém listas de sites que são considerados autoritativos e confiáveis em áreas sensíveis, como saúde e finanças.
Esses sites recebem tratamento preferencial, o que significa que eles podem evitar penalizações algorítmicas que outros sites poderiam enfrentar. Além disso, esses sites têm maior probabilidade de serem exibidos em resultados de busca para consultas importantes, independentemente das flutuações no algoritmo de classificação.
5. Uso de Dados do Chrome para Avaliação de Qualidade
Os documentos também revelam que o Google utiliza dados do navegador Chrome para avaliar a qualidade das páginas. Isso inclui informações sobre o tempo de carregamento da página, a experiência do usuário (UX), cliques do usuário nos links da página e a estabilidade da página durante a navegação. Esses dados são utilizados para ajustar os rankings e melhorar a precisão dos resultados de busca.
6. NavBoost e Avaliadores Humanos
O sistema “NavBoost” e suas variantes são utilizados para determinar a qualidade e relevância dos sites. Além disso, os documentos indicam que o Google ainda depende significativamente de avaliadores humanos para refinar seus algoritmos. Avaliadores humanos fornecem feedback que é utilizado para ajustar os algoritmos e garantir que os resultados de busca atendam aos padrões de qualidade esperados pelos usuários.
Sistemas e Detalhes Importantes do Vazamento do Algoritmo do Google
O que mais me chamou atenção na leitura das fonte foram os “TWIDDLERS”. Eles são elementos essenciais no algoritmo de busca do Google, responsáveis por ajustar e otimizar os fatores de classificação de maneira contínua e precisa. Eles desempenham um papel crucial na melhoria da relevância e qualidade dos resultados de busca.
De forma presumida, quaisquer funções com o sufixo “Boost” nas documentações operam no framework “TWIDDLER”. Alguns dos “boost” (ajustes) que foram identificados nos documentos:
- NavBoost
- QualityBoost
- RealTimeBoost
- WebImageBoost
1. Definição e Propósito
Os “TWIDDLERS” são essencialmente parâmetros ajustáveis dentro do algoritmo de busca do Google. Eles permitem que os engenheiros do Google alterem a ponderação de diferentes sinais de classificação sem a necessidade de reescrever o código fundamental do algoritmo. Este mecanismo facilita ajustes rápidos e precisos, respondendo dinamicamente às mudanças no comportamento do usuário e nas tendências de busca.
2. Funcionamento Interno
Os “TWIDDLERS” funcionam ajustando os valores de importância de diversos sinais de classificação. Por exemplo, se o Google decide que a velocidade de carregamento da página deve ter mais peso na classificação dos resultados, os engenheiros podem ajustar o “TWIDDLER” correspondente para aumentar sua influência. Isso permite uma grande flexibilidade na afinação do algoritmo para garantir que os resultados mais relevantes e de alta qualidade sejam exibidos aos usuários.
3. Tipos de Sinais Ajustados
Os sinais que podem ser ajustados pelos “TWIDDLERS” incluem, mas não estão limitados a:
- Qualidade do Conteúdo: Fatores como a originalidade, a relevância e a profundidade do conteúdo.
- Experiência do Usuário (UX): Inclui a velocidade de carregamento da página, a estabilidade da página durante a navegação e a facilidade de uso.
- Interação do Usuário: Dados de cliques, comportamento de navegação, e tempo de permanência na página.
- Autoridade e Credibilidade: A quantidade e a qualidade dos backlinks, bem como a reputação do site.
4. Implementação Prática
Na prática, os “TWIDDLERS” permitem ao Google realizar testes A/B em larga escala, onde diferentes configurações de parâmetros podem ser testadas simultaneamente em subconjuntos dos usuários. Com base nos resultados desses testes, o Google pode determinar quais ajustes produzem os melhores resultados em termos de satisfação do usuário e precisão dos resultados de busca.
5. Impacto na Comunidade de SEO
Para os profissionais de SEO, os “TWIDDLERS” representam um desafio constante. Como o Google pode ajustar rapidamente a importância de diferentes sinais de classificação, as estratégias de SEO precisam ser flexíveis e adaptáveis. Manter-se atualizado com as mudanças nos algoritmos e entender como diferentes fatores são ponderados é crucial para o sucesso na otimização de sites para mecanismos de busca.
6. Exemplos de Ajustes
- Ajustes na Relevância de Palavras-Chave: Alterações na importância atribuída às palavras-chave em títulos, cabeçalhos e corpo do texto.
- Atualizações de Experiência do Usuário: Aumentar a importância de fatores como a velocidade de carregamento da página e a responsividade móvel.
- Relevância de Backlinks: Ajustes na maneira como os backlinks são avaliados, considerando não apenas a quantidade, mas também a qualidade e a relevância contextual.
Resposta Oficial do Google sobre o Vazamento dos Documentos
Em contato com o blog Search Engine Land, um representante do Google enviou a seguinte mensagem:
“Recomendamos cautela ao fazer suposições imprecisas sobre a Busca com base em informações fora de contexto, desatualizadas ou incompletas. Compartilhamos informações extensivas sobre como a busca funciona e os tipos de fatores que nossos sistemas consideram, enquanto também trabalhamos para proteger a integridade de nossos resultados contra manipulações.”
Ainda no contato com Barry Schwartz, autor do artigo, o representante do Google disse que seria incorreto assumir que esse vazamento de dados seja abrangente, totalmente relevante ou que forneça informações atualizadas sobre o algoritmo do Google.
Por fim, o Google ainda disse que ainda estão comprometidos em fornecer informações precisas, mas, como ressaltado acima, não farão em detalhes específicos sobre cada sinal de classificação. O Google também afirmou que seus sistemas de classificação mudam ao longo do tempo e continuarão a comunicar as informações que puderem à comunidade.
O que me chamou a atenção neste contato do Google com o blog Search Engine Land é que eles não negaram a veracidade do material, mas somente apontam que “falta contexto”. Estaria o Google tentando “minimizar” o impacto desse mega vazamento?
O que os profissionais de SEO deveriam fazer com estas informações?
Neste primeiro momento, toda a comunidade de SEO está analisando a documentação vazada do Algoritmo do Google (documentação da API) para entender, confrontar suas antigas crenças e comparar com experiências.
Ao meu ver, o primeiro passo é fazer o mesmo: analisar.
O segundo passo é não criar teorias ou apontar certezas, pois este material vazado aparenta ser de meados 2023, indicando que algumas novas funcionalidades possam ser adicionadas de lá para cá. Também não temos certeza se todos os itens são, de fato, utilizados no sistema de classificação de páginas, porém, é uma fonte oficial. São realmente documentos internos.
A expectativa que crio é que agora nós poderemos aprender ainda mais sobre o funcionamento do algoritmo do Google, podendo aplicar melhorias em nossos processos e consultorias de SEO.
Seguirei atualizando este artigo conforme novidades surgirem.