Optimización del rastreo y la indexación en buscadores

Optimización del rastreo y la
indexación en buscadores
Javier Lorente | http://www.javierlorente.es/ | twitter.com/javier_lorente

¿Qué intenta ser esta presentación?
● Una GUÍA o conjunto de trucos y best practices
para programadores y SEOs técnicos.
● El objetivo es aprovechar al máximo los
recursos que Google nos dedica.
¿Qué es lo que NO pretende ser?
● Una guía avanzada sobre cómo funciona Google,
cómo crawlea la deep-web, Information Retrieval...

Crawl
•Rastreo
Index
•Indexación
Rank
•Posicionamiento
¿Cómo funciona un buscador?

Códigos de respuesta http
● 200: Todo bien.
● 3XX: (301, 302, 307...) redirecciones.
● 4XX: Error en la URL que se está atacando
● 5XX: Errores de Servidor, 500, 503...

URLs totales
URLs rastreables
URLs rastreadas
URLs indexables
URLs
indexadas
URLs
posicionadas
Pirámide con los tipos de URLs

URLs Totales
● El concepto totales es muy relativo:
● Pueden ser "Todas las URLs" que tengan contenido
y que únicamente se puedan sacar de una DB.
● Pero mucho mejor para el SEO llamar "totales" a
todas las URLs que tienen un enlace en la web.
● Las "URLs totales" también podríamos decir que son
las que antiguamente aparecían en el informe de GSC
"rastreadas alguna vez“ pero sin el agregado histórico.
● Una 301 en principio no la consideramos “rastreable”

Antiguo informe “alguna vez…”

Informe actual Estado de Indexación

URLs rastreables
● El concepto "rastreables" también es relativo:
● Que podrían llegar a rastrearse si se atacan.
● Mejor para SEO; que están linkadas en la web
y no hay nada que impida rastrear su HTML:
– Son URLs que devuelven códigos 2xx (Nunca 3xx o 4xx)
– Su rastreo no está deshabilitado mediante robots.txt
 Si en el HTML hay enlaces hacia URLs que
devuelven error o redirecciones, los corregimos.

URLs rastreadas
● Para no variar… las “rastreadas" también son
relativas y depende con el prisma que se mire.
● Rastreadas… sí, pero ¿cuándo? ¿alguna
vez? ¿en el último año? ¿mes? ¿día? ¿hora?
 La única forma empírica de saber las URLs
rastreadas es accediendo a los LOGs
 Google Search Console ofrece información muy
pobre e inexacta (normalmente de menos)

URLs Indexables / Posicionables
● Este concepto NO es relativo. Se trata de un
valor absoluto y finito. Son todas las URLs que:
● Están enlazadas desde algún sitio (llegan los bots)
● Devuelven un 200. Única y exclusivamente, 200.
● Si tiene canonical, apunta hacia esa misma URL.
● Podemos obtener el total de URLs indexables
de una web rastreándola entera con spiders
como Screaming SEO Frog, por ejemplo.

URLs Indexadas
● Este concepto TAMPOCO es relativo.
● Lo podemos ver de forma aproximada con site:tld
● De forma mucho más precisa en Search Console >
Estado de Indexación. Vemos el agregado anual.
● Y mucho más preciso todavía, mediante sitemaps.
● El volumen de indexadas, a diferencia de todos
los anteriores, depende de cada buscador.

URLs Posicionadas
● De nuevo, concepto relativo. ¿cuándo?
● Posicionadas = con tráfico SEO en el último ¿mes?
● Las podemos medir con herramientas de
Analítica Web (BootBoard de Ikhuerta)
● Mucho mejor si las medimos mediante Logs

URLs totales
URLs rastreables
URLs rastreadas
URLs indexables
URLs
indexadas
URLs
posicionadas
Recapitulemos

En una web “perfecta” / utópica…
URLs totales
URLs rastreables
URLs rastreadas
URLs indexables
URLs indexadas
URLs posicionadas

En una web real, intentamos…
URLs totales
URLs rastreables
URLs rastreadas
URLs indexables
URLs indexadas
URLs posicionadas

Optimización básica
● Todas las URLs de un servidor deben devolver
200, 301 ó 404. Nada más, el resto = error.
● Todos los links presentes en una web, deben
apuntar a un http 200. Todos, tampoco a 301.
● No debe haber 2 o más URLs con un alto % de
contenido demasiado parecido ni thin content.
● Todas las URLs con canonical hacia si mismas.
● Los trackins, etc. Mejor tras una # antes de la ?

Optimización Intermedia
● Probamos diferentes configuraciones de rastreo
● Todo abierto, paginaciones con rel prev/next…
● Nofollow para enlaces internos (crawl sculpting)
● ¿Incluir meta noindex en algunos contenidos?
● URLs o directorios capados mediante robots.txt
● Mover contenidos a otros niveles de profundidad…
 Probar > Medir > Probar > Volver a medir.. etc

Optimización Avanzada
● Google Search Console se queda muy pobre,
únicamente saca algunos errores de rastreo.

Puntos fuertes de cada herramienta
● Deepcrawl
● Posibilidad de acceder a PRE / DNS propias.
● OnPage.org
● Análisis de Palabras clave.
● Botify.com
● Concepto compliant vs no compliant vs activas.
● Sistrix (optimizer)
● Buscador de código fuente.

La clave de la optimización avanzada

¿Cómo analizamos los logs?
● A manubrio, con la consola de comandos.
● Con Google Analytics y el código de Lino.
● Con herramientas como Kibana, Splunk, etc
● Con herramientas en la nube como Botify Log
Analyzer, donde cada día subes tus logs.
 De las 4 herramientas de optimización de rastreo
vistas anteriormente, Botify Log Analyzer es la única que
analiza logs para presentar informes de todo lo visto hoy.

¿Qué echo en falta?
Una herramienta que no requiera re rastrear todo
cada vez que plantee un cambio de estructura. La
posibilidad de simular niveles de profundidad
medios con un robots.txt virtual, etc.
También veo demasiada reticencia en muchoa gente a la hora de
eliminar (o capar con robots) el contenido sin tráfico SEO
Es mejor no tener nada que URLs rastreadas y no posicionadas.

Optimización del rastreo y la indexación en buscadores

Optimización del rastreo y la indexación en buscadores

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a Optimización del rastreo y la indexación en buscadores

Similar a Optimización del rastreo y la indexación en buscadores (20)

Último

Último (14)

Optimización del rastreo y la indexación en buscadores