Cómo aprovechar el tiempo y recursos que los bots, especialmente Googlebot dedica a rastrear e indexar tu web. No solo analices usuarios, analiza también bots. :-)
Software y servicios de internet mapa conceptual.pdf
Optimización del rastreo y la indexación en buscadores
1. Optimización del rastreo y la
indexación en buscadores
Javier Lorente | http://www.javierlorente.es/ | twitter.com/javier_lorente
2. ¿Qué intenta ser esta presentación?
● Una GUÍA o conjunto de trucos y best practices
para programadores y SEOs técnicos.
● El objetivo es aprovechar al máximo los
recursos que Google nos dedica.
¿Qué es lo que NO pretende ser?
● Una guía avanzada sobre cómo funciona Google,
cómo crawlea la deep-web, Information Retrieval...
4. Códigos de respuesta http
● 200: Todo bien.
● 3XX: (301, 302, 307...) redirecciones.
● 4XX: Error en la URL que se está atacando
● 5XX: Errores de Servidor, 500, 503...
6. URLs Totales
● El concepto totales es muy relativo:
● Pueden ser "Todas las URLs" que tengan contenido
y que únicamente se puedan sacar de una DB.
● Pero mucho mejor para el SEO llamar "totales" a
todas las URLs que tienen un enlace en la web.
● Las "URLs totales" también podríamos decir que son
las que antiguamente aparecían en el informe de GSC
"rastreadas alguna vez“ pero sin el agregado histórico.
● Una 301 en principio no la consideramos “rastreable”
9. URLs rastreables
● El concepto "rastreables" también es relativo:
● Que podrían llegar a rastrearse si se atacan.
● Mejor para SEO; que están linkadas en la web
y no hay nada que impida rastrear su HTML:
– Son URLs que devuelven códigos 2xx (Nunca 3xx o 4xx)
– Su rastreo no está deshabilitado mediante robots.txt
Si en el HTML hay enlaces hacia URLs que
devuelven error o redirecciones, los corregimos.
10. URLs rastreadas
● Para no variar… las “rastreadas" también son
relativas y depende con el prisma que se mire.
● Rastreadas… sí, pero ¿cuándo? ¿alguna
vez? ¿en el último año? ¿mes? ¿día? ¿hora?
La única forma empírica de saber las URLs
rastreadas es accediendo a los LOGs
Google Search Console ofrece información muy
pobre e inexacta (normalmente de menos)
11. URLs Indexables / Posicionables
● Este concepto NO es relativo. Se trata de un
valor absoluto y finito. Son todas las URLs que:
● Están enlazadas desde algún sitio (llegan los bots)
● Devuelven un 200. Única y exclusivamente, 200.
● Si tiene canonical, apunta hacia esa misma URL.
● Podemos obtener el total de URLs indexables
de una web rastreándola entera con spiders
como Screaming SEO Frog, por ejemplo.
12. URLs Indexadas
● Este concepto TAMPOCO es relativo.
● Lo podemos ver de forma aproximada con site:tld
● De forma mucho más precisa en Search Console >
Estado de Indexación. Vemos el agregado anual.
● Y mucho más preciso todavía, mediante sitemaps.
● El volumen de indexadas, a diferencia de todos
los anteriores, depende de cada buscador.
13. URLs Posicionadas
● De nuevo, concepto relativo. ¿cuándo?
● Posicionadas = con tráfico SEO en el último ¿mes?
● Las podemos medir con herramientas de
Analítica Web (BootBoard de Ikhuerta)
● Mucho mejor si las medimos mediante Logs
15. En una web “perfecta” / utópica…
URLs totales
URLs rastreables
URLs rastreadas
URLs indexables
URLs indexadas
URLs posicionadas
16. En una web real, intentamos…
URLs totales
URLs rastreables
URLs rastreadas
URLs indexables
URLs indexadas
URLs posicionadas
17. Optimización básica
● Todas las URLs de un servidor deben devolver
200, 301 ó 404. Nada más, el resto = error.
● Todos los links presentes en una web, deben
apuntar a un http 200. Todos, tampoco a 301.
● No debe haber 2 o más URLs con un alto % de
contenido demasiado parecido ni thin content.
● Todas las URLs con canonical hacia si mismas.
● Los trackins, etc. Mejor tras una # antes de la ?
18. Optimización Intermedia
● Probamos diferentes configuraciones de rastreo
● Todo abierto, paginaciones con rel prev/next…
● Nofollow para enlaces internos (crawl sculpting)
● ¿Incluir meta noindex en algunos contenidos?
● URLs o directorios capados mediante robots.txt
● Mover contenidos a otros niveles de profundidad…
Probar > Medir > Probar > Volver a medir.. etc
20. Puntos fuertes de cada herramienta
● Deepcrawl
● Posibilidad de acceder a PRE / DNS propias.
● OnPage.org
● Análisis de Palabras clave.
● Botify.com
● Concepto compliant vs no compliant vs activas.
● Sistrix (optimizer)
● Buscador de código fuente.
22. ¿Cómo analizamos los logs?
● A manubrio, con la consola de comandos.
● Con Google Analytics y el código de Lino.
● Con herramientas como Kibana, Splunk, etc
● Con herramientas en la nube como Botify Log
Analyzer, donde cada día subes tus logs.
De las 4 herramientas de optimización de rastreo
vistas anteriormente, Botify Log Analyzer es la única que
analiza logs para presentar informes de todo lo visto hoy.
23. ¿Qué echo en falta?
Una herramienta que no requiera re rastrear todo
cada vez que plantee un cambio de estructura. La
posibilidad de simular niveles de profundidad
medios con un robots.txt virtual, etc.
También veo demasiada reticencia en muchoa gente a la hora de
eliminar (o capar con robots) el contenido sin tráfico SEO
Es mejor no tener nada que URLs rastreadas y no posicionadas.