Pense nisso. Por que você cria um site? Para que seus clientes em potencial ou público possam encontrá-lo facilmente e para que você se destaque entre a concorrência, certo? Como seu conteúdo realmente chega a ser visto? Todo o conteúdo do seu site é sempre visto?

Por que você precisa encontrar todas as páginas do seu site

É possível que páginas contendo informações valiosas que realmente precisam ser vistas, não cheguem a ser vistas de forma alguma. Se este for o caso do seu site, então você provavelmente está perdendo um tráfego considerável, ou até mesmo clientes em potencial.

Também pode haver páginas que são raramente vistas, e quando são, usuários/visitantes/potenciais clientes encontram um beco sem saída, pois não conseguem acessar outras páginas. Eles só podem sair. Isso é tão ruim quanto aquelas páginas que nunca são vistas. O Google começará a notar as altas taxas de rejeição e questionar a credibilidade do seu site. Isso fará com que suas páginas da web sejam classificadas cada vez mais baixas.

Como seu conteúdo realmente chega a ser visto

bot de mecanismo de busca rastreando páginas da web

Para que usuários, visitantes ou potenciais clientes vejam seu conteúdo, é necessário realizar a rastreabilidade e indexação, e fazê-lo com frequência. O que é rastreabilidade e indexação?

O que é rastreamento e indexação?

Para o Google mostrar seu conteúdo para usuários/visitantes/potenciais clientes, ele precisa saber primeiro que o conteúdo existe. Isso acontece por meio da rastreabilidade. Isso é quando os motores de busca procuram por novo conteúdo e o adicionam ao seu banco de dados de conteúdo já existente.

O que torna possível o rastreamento?

  • Links
  • Mapas do Site
  • Sistemas de Gerenciamento de Conteúdo (CMS - Wix, Blogger)

Quando você adiciona um link de uma página existente para outra nova página, por exemplo, através de texto âncora, os bots de mecanismos de busca ou aranhas são capazes de seguir a nova página e adicioná-la ao 'banco de dados' do Google para referência futura.

Mapas do Site:

Estes também são conhecidos como Sitemaps XML. Aqui, o proprietário do site envia uma lista de todas as suas páginas para o motor de busca. O webmaster também pode incluir detalhes como a última data de modificação. As páginas são então rastreadas e adicionadas ao ‘banco de dados’. No entanto, isso não é em tempo real. Suas novas páginas ou conteúdos não serão rastreados assim que você enviar seu sitemap. O rastreamento pode acontecer após dias ou semanas.

A maioria dos sites que usam um Sistema de Gerenciamento de Conteúdo (CMS) gera automaticamente esses, então é um pouco de um atalho. A única vez que um site pode não ter o mapa do site gerado é se você criou um site do zero.

exemplo de um sitemap

CMS:

Se o seu site é alimentado por um CMS como o Blogger ou Wix, o provedor de hospedagem (neste caso, o CMS) é capaz de 'dizer aos motores de busca para rastrear quaisquer novas páginas ou conteúdos no seu site.'

Aqui estão algumas informações para ajudá-lo com o processo:

Adicionando um sitemap ao WordPress

Visualizando o sitemap

Onde está o sitemap para Wix?

Mapa do site para Shopify

O que é indexação?

Indexar, em termos simples, é a adição das páginas rastreadas e do conteúdo no 'banco de dados' do Google, que na verdade é conhecido como índice do Google.

Antes que o conteúdo e as páginas sejam adicionados ao índice, os bots dos motores de busca se esforçam para entender a página e o conteúdo nela contido. Eles até prosseguem para catalogar arquivos como imagens e vídeos.

É por isso que, como webmaster, o SEO on-page é útil (títulos de página, cabeçalhos e uso de texto alternativo, entre outros). Quando sua página ou páginas possuem esses aspectos, fica mais fácil para o Google 'entender' seu conteúdo, catalogá-lo adequadamente e indexá-lo corretamente.

Usando robots.txt

Às vezes, você pode não querer que algumas páginas sejam indexadas, ou partes de um site. Você precisa dar diretrizes para os bots dos motores de busca. Usar tais diretrizes também facilita a rastreabilidade e indexação, pois há menos páginas sendo rastreadas. Saiba mais sobre robots.txt aqui.

robots.txt

Usando ‘noindex’

Você também pode usar esta outra diretiva se houver páginas que você não quer que apareçam nos resultados de busca. Saiba mais sobre o noindex.

Antes de começar a adicionar noindex, você vai querer identificar todas as suas páginas para poder limpar seu site e facilitar para que os rastreadores possam rastrear e indexar seu site corretamente.

Quais são algumas razões pelas quais você precisa encontrar todas as suas páginas?

O que são páginas órfãs?

Uma página órfã pode ser definida como uma que não possui links de outras páginas do seu site. Isso torna quase impossível que essas páginas sejam encontradas pelos bots de motores de busca, e além disso, pelos usuários. Se os bots não conseguem encontrar a página, então eles não a mostrarão nos resultados de busca, o que reduz ainda mais as chances de os usuários a encontrarem.

Como surgem as páginas órfãs?

Páginas órfãs podem resultar de uma tentativa de manter o conteúdo privado, erros de sintaxe, erros de digitação, conteúdo duplicado ou conteúdo expirado que não foi vinculado. Aqui estão mais maneiras:

  • Páginas de teste que foram usadas para testes A/B e que nunca foram desativadas
  • Páginas de destino que foram baseadas em uma estação, por exemplo, Natal, Ação de Graças ou Páscoa
  • Páginas ‘esquecidas’ como resultado de migração de site

E quanto às páginas sem saída?

Ao contrário das páginas órfãs, as páginas sem saída possuem links de outras páginas no site, mas não possuem links para outros sites externos. Exemplos de páginas sem saída incluem páginas de agradecimento, páginas de serviços sem chamadas para ação e páginas de “nada encontrado” quando os usuários procuram algo através da opção de busca.

Quando você tem páginas sem saída, as pessoas que as visitam têm apenas duas opções: sair do site ou voltar para a página anterior. Isso significa que você está perdendo tráfego significativo, especialmente se essas páginas acontecerem de ser 'páginas principais' no seu site. Ainda pior, os usuários ficam frustrados, confusos ou se perguntando, 'o que vem a seguir'?

Se os usuários saírem do seu site sentindo-se frustrados, confusos ou com qualquer emoção negativa, é provável que eles nunca voltem, assim como clientes insatisfeitos nunca tendem a comprar de uma marca novamente.

De onde vêm as páginas sem saída?

As páginas sem saída são o resultado de páginas sem chamadas para ação. Um exemplo aqui seria uma página sobre que alude aos serviços que sua empresa oferece, mas não tem nenhum link para esses serviços. Uma vez que o leitor entenda o que motiva sua empresa, os valores que você defende, como a empresa foi fundada e os serviços que você oferece e já esteja empolgado, você precisa dizer a eles o que fazer em seguida.

Um simples botão de chamada para ação 'veja nossos serviços' fará o trabalho. Certifique-se de que o botão, quando clicado, realmente abra a página de serviços. Você não quer que o usuário se depare com um 404, o que também o deixará frustrado.

página sem saída

O que são páginas ocultas?

Páginas ocultas são aquelas que não estão acessíveis por meio de um menu ou navegação. Embora um visitante possa visualizá-las, especialmente através de texto âncora ou links de entrada, elas podem ser difíceis de encontrar.

Páginas que caem na seção de categoria provavelmente também são páginas ocultas, pois estão localizadas no painel de administração. O mecanismo de busca pode nunca ser capaz de acessá-las, pois eles não acessam informações armazenadas em bancos de dados.

Páginas ocultas também podem resultar de páginas que nunca foram adicionadas ao sitemap do site, mas existem no servidor.

Todas as páginas ocultas devem ser eliminadas?

Não exatamente. Existem páginas ocultas que são absolutamente necessárias e nunca devem ser acessíveis a partir de suas navegações. Vamos olhar alguns exemplos:

Inscrições na Newsletter

Você pode ter uma página que detalha os benefícios de se inscrever na newsletter, com que frequência os usuários devem esperar recebê-la, ou um gráfico mostrando a newsletter (ou newsletter anterior). Lembre-se de incluir também o link de inscrição.

Páginas contendo informações do usuário

Páginas que exigem que os usuários compartilhem suas informações definitivamente devem ser ocultadas. Os usuários precisam criar contas antes de poderem acessá-las. Inscrições em newsletters também podem ser categorizadas aqui.

Como encontrar páginas ocultas

Como mencionamos, você pode encontrar páginas ocultas usando todos os métodos que são usados para encontrar páginas órfãs ou sem saída. Vamos explorar mais alguns.

Usando robots.txt

Páginas ocultas têm uma grande probabilidade de serem escondidas dos motores de busca através do robots.txt. Para acessar o robots.txt de um site, digite [nome do domínio]/robots.txt em um navegador e pressione enter. Substitua 'nome do domínio' pelo nome de domínio do seu site. Fique atento a entradas que começam com 'disallow' ou 'nofollow'.

Encontrando-os manualmente

Se você vende produtos através do seu site, por exemplo, e suspeita que uma de suas categorias de produtos possa estar oculta, você pode procurá-la manualmente. Para fazer isso, copie e cole a URL de outro produto e edite-a de acordo. Se você não encontrá-la, então você estava certo!.

E se você não tiver ideia do que poderiam ser as páginas ocultas? Se você organizar seu site em diretórios, você pode adicionar seu domainname/folder-name ao navegador de um site e navegar pelas páginas e subdiretórios.

Uma vez que você tenha encontrado suas páginas ocultas (e elas não precisam permanecer ocultas, conforme discutido acima), você precisa adicioná-las ao seu sitemap e enviar uma solicitação de rastreamento.

Como encontrar todas as páginas do seu site

Você precisa encontrar todas as suas páginas da web para saber quais delas são sem saída ou órfãs. Vamos explorar as diferentes maneiras de conseguir isso:

Usando seu arquivo de sitemap

Já analisamos os sitemaps. Seu sitemap seria útil ao analisar todas as suas páginas da web. Se você não tem um sitemap, pode usar um gerador de sitemap para gerar um para você. Tudo o que você precisa fazer é inserir o nome do seu domínio e o sitemap será gerado para você.

Usando seu CMS

Se o seu site é alimentado por um sistema de gerenciamento de conteúdo (CMS) como o WordPress, e o seu sitemap não contém todos os links, é possível gerar a lista de todas as suas páginas da web a partir do CMS. Para fazer isso, use um plugin como Export All URLs.

Usando um registro

Um registro de todas as páginas fornecidas aos visitantes também é útil. Para acessar o registro, faça login no seu cPanel e, em seguida, encontre 'arquivos de log brutos'. Alternativamente, solicite ao seu provedor de hospedagem para compartilhá-lo. Dessa forma, você consegue ver as páginas mais visitadas, as páginas nunca visitadas e aquelas com as maiores taxas de desistência. Páginas com altas taxas de rejeição ou sem visitantes podem ser páginas sem saída ou órfãs.

Usando o Google Analytics

Aqui estão os passos a seguir:

Passo 1: Faça login na sua página de Analytics.

Passo 2: Vá para "comportamento" e depois "conteúdo do site"

Etapa 3: Vá para 'todas as páginas'

Passo 4: Role até o final e, à direita, escolha ‘mostrar linhas’

Passo 5: Selecione 500 ou 1000 dependendo de quantas páginas você estima que seu site tenha

Passo 6: Role para cima e no canto superior direito escolha ‘exportar’

Passo 7: Escolha ‘exportar como .xlsx’ (excel)

Passo 8: Uma vez que o Excel for exportado, escolha 'conjunto de dados 1'

Etapa 9: Ordene por ‘visualizações únicas de página’.

Passo 10: Exclua todas as outras linhas e colunas, exceto a que contém seus URLs

Passo 11: Use esta fórmula na segunda coluna:

=CONCATENATE("http://domain.com",A1)

Passo 12: Substitua o domínio pelo domínio do seu site. Arraste a fórmula para que ela seja aplicada às outras células também.

Você agora tem todas as suas URLs.

Se você deseja convertê-los em hiperlinks para poder clicar e acessá-los facilmente ao procurar algo, prossiga para a etapa 13.

Passo 13: Use esta fórmula na terceira linha:

=HYPERLINK(B1)

Arraste a fórmula para que ela seja aplicada às outras células também.

Digitando manualmente na consulta de pesquisa do Google

Você também pode digitar este site: www.abc.com na consulta de pesquisa do Google. Substitua 'abc' pelo nome do seu domínio. Você obterá resultados de pesquisa com todas as URLs que o Google rastreou e indexou, incluindo imagens, links para menções em outros sites e até hashtags às quais sua marca pode estar vinculada.

Você pode então copiar manualmente cada um e colá-los em uma planilha do Excel.

como fazer uma consulta de pesquisa no Google

O que então você faz com sua lista de URLs?

Neste ponto, você pode estar se perguntando o que precisa fazer com sua lista de URLs. Vamos olhar as opções disponíveis:

Comparação manual com dados de log

Uma das opções seria comparar manualmente sua lista de URLs com o log do CMS e identificar as páginas que parecem não ter tráfego algum, ou que parecem ter as maiores taxas de rejeição. Você pode então usar uma ferramenta como a nossa para verificar os links de entrada e saída para cada uma das páginas que você suspeita serem órfãs ou sem saída.

Outra abordagem é baixar todas as suas URLs como um arquivo .xlsx (excel) e também o seu log. Compare-os lado a lado (em duas colunas, por exemplo) e depois use a opção ‘remover duplicatas’ no excel. Siga as instruções passo a passo. Ao final do processo, você terá apenas páginas órfãs e sem saída restantes.

A terceira abordagem de comparação é copiar dois conjuntos de dados - seu log e a lista de URLs para o Google Sheets. Isso permite que você use esta fórmula: =PROCV(A1, A:B,2,) para procurar URLs que estão presentes na sua lista de URLs, mas não no seu log. As páginas ausentes (renderizadas como N/D) devem ser interpretadas como páginas órfãs. Certifique-se de que os dados do log estejam na primeira ou na coluna da esquerda.

Usando ferramentas de rastreamento de sites

A outra opção seria carregar sua lista de URLs em ferramentas que podem realizar rastreamentos de sites, esperar que eles rastreiem o site e então você copia e cola suas URLs em uma planilha antes de analisá-las uma a uma, e tentar descobrir quais delas são órfãs ou sem saída.

Essas duas opções podem ser demoradas, especialmente se você tem muitas páginas no seu site, certo?

Bem, que tal uma ferramenta que não apenas encontre todos os seus URLs, mas também permita que você os filtre e mostre o status deles (para que você saiba quais são sem saída ou órfãos?). Em outras palavras, se você quer um atalho para encontrar todas as páginas do seu site, use a Ferramenta de Rastreamento SEO da SEOptimer.

Ferramenta de Rastreamento SEO da SEOptimer

Esta ferramenta permite que você acesse todas as suas páginas do seu site. Você pode começar indo para “Rastreamentos de Site” e inserir a url do seu site. Clique em “Rastrear

insira a URL do seu site e clique em "rastrear" ferramenta seoptimer

Uma vez que a varredura esteja concluída, você pode clicar em “Ver Relatório”:

como visualizar relatório da ferramenta de rastreamento do seoptimer

Nossa ferramenta de rastreamento detectará todas as páginas do seu site e as listará na seção “Página Encontrada” do rastreamento.

seção de páginas encontradas da ferramenta de rastreamento do seoptimer

Você pode identificar problemas de “404 Error” na nossa seção “Problemas Encontrados”, logo abaixo da seção “Páginas Encontradas”:

como encontrar quaisquer problemas no relatório da ferramenta de rastreamento do seoptimer

Nossos rastreadores podem identificar outros problemas, como encontrar páginas com Título ausente, Meta Descrições, etc. Uma vez que você encontrar todas as suas páginas, você pode começar a filtrar e trabalhar nos problemas em questão.

Em conclusão

Neste artigo, analisamos como encontrar todas as páginas do seu site e por que isso é importante. Também exploramos conceitos como páginas órfãs e sem saída, assim como páginas ocultas. Diferenciamos cada uma, como identificar cada uma entre suas URLs. Não há melhor momento para descobrir se você está perdendo devido a páginas ocultas, órfãs ou sem saída.