SlideShare una empresa de Scribd logo
1 de 26
Descargar para leer sin conexión
WEB y TEXT MINING
Link AnalysisJuan Azcurra
Introducción
 Al comienzo los motores de búsquedas comparaban
la similaridad de contenido una consulta y las páginas
indexadas.
 Utilizando métodos de information retrieval coseno, TF-IDF, ...
 A partir de 1996, se hizo evidente que la similaridad de
contenido no era suficiente.
 El número de páginas creció rapidamente a mediados de los
90.
 Intentaron “técnicas de clasificación”, Google estimó 10 millones
de páginas relevantes.
 Cómo seleccionar solo 30-40 páginas y clasificarlas
adecuadamente para presentarlas a los usuarios?
 Similaridad de contenido es fácil de spam
 El dueño de una página se puede repetir unas palabras y
agregar muchas palabras relacionadas para impulsar el
ranking de sus páginas y/o para hacer las páginas relevantes
para un gran número de consultas.
2
Introducción
 A comienzo de 1996 los investigadores
comenzaron a trabajar e el problema, recurriendo
a hyperlinks.
 En 1997 Robin Li registró una patente de búsqueda
basada en hyperlinks. El método usa las palabras en
el texto del hyperlink.
 Las páginas web son conectadas a través de
hyperlinks, que contienen información importante:
 Algunos hyperlinks: organizan información al mismo sitio.
 Otros hyperlinks: apuntan a páginas de otros Web sites. Estos
hyperlinks salientes a menudo indican una transmisión implicita
de autoridad a las páginas que apuntan.
 Aquellas páginas que son apuntadas por muchas otras
páginas pueden contener información fidedigna
(autoridad).
3
Introducción
 Durante 1997-1998 aparecieron dos de los más
influyentes algoritmos de búsqueda basados en
hyperlinks: PageRank y HITS.
 Ambos algoritmos se relacionan con redes
sociales, explotan los hipervínculos de la Web
para clasificar las páginas en función de sus
niveles de prestigio o autoridad.
 HITS: Jon Kleinberg (Cornel University), en el
Simposio sobre algoritmos discretos, enero de 1998.
 PageRank: Sergey Brin y Larry Page, (Stanford
University), (WWW7), abril de 1998. PageRank
potencia el motor de búsqueda de Google.
4
Introducción
 Además del ranking de búsquedas, los hyperlinks
son útiles encontrando comunidades Web.
 Una comunidad Web es un conjunto de páginas
densamente unidas representando un grupo de
personas con un interés en común.
 Más allá de hyperlinks explícitos en la Web, links en
otros contextos son útiles también.
 para descubrir comunidades de entidades (personas u
organizaciones) en textos libres de documentos, etc.
 para analizar fenómenos sociales en mais.
5
Análisis de redes sociales
 Redes sociales es el estudio de entidades sociales
(personas en una organización, llamados actores) y sus
interacciones y relaciones.
 Las interacciones y relaciones pueden ser
representadas con una red o grafo,
 cada vértice (o nodo) representa un actor
 cada link representa una relación.
 Desde la red, podemos estudiar las propiedades
de su estructura, y el rol, posición y prestigio de
cada actor social.
 Podemos también encontrar varios tipos de sub-
grafos, comunidades formadas por grupos de
actores.
6
Redes sociales y la Web
 Análisis de redes sociales es muy útil para la Web
porque la Web es esencialmente una sociedad
virtual,
 cada página: un actor social,
 cada hyperlink: una relación.
 Muchos resultados de redes sociales pueden ser
adaptados y extendidos para usar en el contexto
de la Web.
 Estudiaremos 2 tipos de análisis de redes
sociales, centralidad y prestigio, que están
relacionadas a análisis de hyperlink y búsqueda
en la Web.
7
Centralidad
 Actores importantes o prominentes son
aquellos que están involucrados con otros
actores ampliamente.
 Una persona con amplios contactos (links) o
comunicaciones con muchas otras personas
en la organización es considerado más
importante que una persona con menos
contactos.
 Los links también pueden ser llamados lazos.
Un actor central es uno que participa en
muchos lazos.
8
Grado de centralidad
9
Prestigio
 El prestigio es una medida más precisa de un
actor que la centralidad.
 Distinguir: lazo enviado (link saliente) y lazo recibido (link
entrante)
 Un actor de prestigio es aquel con altos vinculos
entrantes.
 Para calcular el prestigio: solamente utilizamos links
entrantes.
 Diferencia entre centralidad y prestigio:
 Centralidad se basa en los links salientes.
 Prestigio se basa en los links entrantes.
 Medidas de prestigio. Rank prestige constituye la base
de la mayoría de los algoritmos de Web page link
analysis, incluyendo PageRank y HITS.
10
Grado de prestigio
11
PageRank
 El año 1998 fue un año agitado para el
modelo de análisis de enlaces Web. Los
algoritmos PageRank y HITS fueron
publicados en ese año.
 Las conexiones entre PageRank y HITS son
bastantes sorprendentes.
 Desde ese momento, PageRank se ha
convertido en el modelo de análisis de link
domintante:
 debido a la independencia de las consultas,
 su habilidad para combatir el spamming,
 gran suceso del negocio de Google.
12
PageRank: definición general
 PageRank confia en la naturaleza democrática de
la web usando su basta estructura de links
como un indicador de valor de calidad de cada
página individual.
 PageRank interpreta un hyperlink de una página x a
una página y como un voto, de la página x para la
página y.
 Sin embargo, PageRank mira más que el número
total de votos, también analiza la página que emite
el voto.
 Votos emitidos por páginas “importantes” pesan más y
ayudan a hacer “más importantes” otras páginas.
 Esto es exactamente la idea de ranking de
prestigio en una red social.
13
PageRank: más
especificamente
 Un hyperlink de una página a otra es un medio
implícito de autoridad a la página de destino.
 Cuánto más links-entrantes una página i recibe,
más prestigio la página i tiene.
 Las páginas que apuntan a la página i también
tienen su nivel de prestigio.
 Una página de alto prestigio apuntando a i es más
importante que una página de menor prestigio
apuntando a i.
 En otras palabras, una página es más importante si
es apuntanda por otras páginas importantes.
14
PageRank: Algoritmo
 De acuerdo al ranking de prestigio, la
importante de una página i (valor PageRank
de i) es la suma de valores de PageRank de
todas las páginas que apuntan a i.
 Desde que una página puede apuntar a
muchas otras, su valor de prestigio debe ser
compartido.
 La Web como un grafo dirigido G = (V, E).
Donde el número de páginas es n. El valor
de PageRank de una página i (denotada
P(i)) es definida como:,
)(
)(
),(


Eij jO
jP
iP Oj is the number
of out-link of j
15
PageRank: Ejemplo
 Asumiendo 4 páginas (A, B, C, D) con un
PageRank inicial de 0.25
 Si B, C y D apuntan a A, entonces el PR de A
será de 0.75
 Suponiendo que B tiene links a C y A y D tiene
links a las 3, entonces en la siguiente iteración B
le transferirá la mitad de su valor a A y D a las 3,
mientras que C no tiene links salientes.
 En otras palabras, el PR conferido por un link
saliente es igual al score de PR divido la cantidad
de links salientes.
 Obteniendo la formula general:
16
PageRank: Ejemplo
Matematicamente PageRanks para
una red simple, expresado como
porcentajes (Google usa una escala
logaritmica). C tiene el más alto
PageRank más que E, a pesar que hay
menos enlances a C, el link a C viene
de una página de mayor importancia y
por lo tanto es de gran valor. Si los
navegantes comenzaran por una
página al azar tendría 85% de
probabilidad de elegir un link al azar a
partir de la página que están visitando y
un 15% de probabilidad de saltar a una
página elegida al azar de la web, ellos
llegarían a la página E el 8,1% de las
veces (el 15% de probabilidad de saltar
a una página arbitraria corresponde al
factor de damping de 85%).
17
PageRank: Ventajas
 Lucha contra el spam. Una página es importante
si las páginas que apuntan a ella también lo son.
 Dado que no es fácil para el dueño de una página
Web agregar enlaces en página desde otras
páginas importantes, no es por lo tanto fácil de
influenciar PageRank.
 PageRank es una medida global independiente
de las consultas.
 Los valores de PageRank para todas las páginas son
calculadas y guardas en forma off-line más que en tiempo
de la consulta.
18
HITS
 HITS proviene de Hypertext Induced Topic
Search.
 A diferencia de PageRank que es un algoritmo
de ranking estático, HITS es dependiente a la
consulta de búsqueda.
 Cuando un usuario envia una consulta de
búsqueda,
 HITS primero expande la lista de páginas
relevantes devueltas por el motor de búsqueda, y
 produce 2 rankings del conjunto de páginas
expandidas, ranking de autoridad y ranking
19
Autoridad y Hubs
Autoridad: a grandes rasgos, la autoridad es
una página con muchos links entrantes.
 La idea es que la página tenga un buen
contenido o autoridad sobre un tema,
 así que mucha gente confía en ella y enlazar con
ella.
Hub: Un hub es una página con muchos links
salientes.
 La página sirve como un organizador de la
información de un tema en particular y
 apunta a muchas páginas de autoridad sobre el
20
Ejemplos
21
Ideas claves de HITS
22
 Un hub bueno apunta a muchas
autoridades buenas, y
 Una autoridad buena es apuntada por
muchos hubs buenos.
 Autoridades y hubs tienen una
relación de refuerzo mutuo
HITS: Algoritmo
23
 Dado una consulta de búsqueda q, HITS
recolecta un conjunto de páginas con los
siguientes pasos:
 Envia la consulta q al motor de búsqueda.
 Se recoge entonces t (t = 200 es usando en el
paper de HITS) el valor más alto de páginas
rankeadas. Esto es llamada el conjunto raiz W.
 Crece W incluyendo cualquier página que apunte
a una en W y cualquiera apuntada por W. Esto da
lugar al conjunto S, conjunto base.
Grafo G
24
 HITS trabaja en las páginas en S y asigna
a cada página S un score de autoridad y
un score de hub.
 Sea n el número de páginas en S.
 Nuevamente se usa G = (V, E) para
denotar el grafo de hyperlinks de S
 Usamos L para denotar la matriz de
adyacencia del grafo.


 

otherwise
Ejiif
Lij
0
),(1
HITS: Algoritmo
25
 Sea a(i) el score de autoridad de una página i,
y h(i) el score de hub de la página i.
 La relación de refuerzo mutual de los dos
scores están representado por:


Eij
jhia
),(
)()(


Eji
jaih
),(
)()(
Ventajas y desventas de HITS
26
 Ventajas: su habilidad de rankear páginas de
acuerdo al tema de la consulta, puede ser capaz de
proveer autoridades y hubs más relevantes.
 Desventajas:
 Spam. De hecho es facil de influenciar HITS desde afuera
añadiendo enlaces de la propia página.
 Derivación de temas. Muchas páginas en el conjunto
expandido no pueden ser del mismo tema.
 Tiempo de respuesta ineficiente. El tiempo de evaluación
de la consulta es bajo. Recolectar el conjunto raiz,
expandirlo y calcular el autovector de todas las
operaciones es expansiva.

Más contenido relacionado

La actualidad más candente

Metodos de búsqueda en internet kellyshito
Metodos de búsqueda en internet kellyshitoMetodos de búsqueda en internet kellyshito
Metodos de búsqueda en internet kellyshitoPaulandrea19
 
Herramientas de ranking web
Herramientas de ranking webHerramientas de ranking web
Herramientas de ranking webbloxxx
 
Cómo mejorar mi seo con las redes sociales slideshare
Cómo mejorar mi seo con las redes sociales slideshareCómo mejorar mi seo con las redes sociales slideshare
Cómo mejorar mi seo con las redes sociales slideshareA Patricia Quiñones
 
Posicionamiento Web y Computación en la Nube
Posicionamiento Web y Computación en la NubePosicionamiento Web y Computación en la Nube
Posicionamiento Web y Computación en la NubeHersson Escobar
 
Redes sociales
Redes socialesRedes sociales
Redes socialesykena
 
Carlosguerra2 a3
Carlosguerra2 a3Carlosguerra2 a3
Carlosguerra2 a3DJCWAR
 
Tecnicas e instrumentos de evaluacion para garantizar la veracidad en la info...
Tecnicas e instrumentos de evaluacion para garantizar la veracidad en la info...Tecnicas e instrumentos de evaluacion para garantizar la veracidad en la info...
Tecnicas e instrumentos de evaluacion para garantizar la veracidad en la info...Veronica Lizbeth
 
Estrategias para buscar información en internet
Estrategias para buscar información en internet Estrategias para buscar información en internet
Estrategias para buscar información en internet malelujan22
 
Sesion 15 busquedas recursos internet
Sesion 15 busquedas recursos internetSesion 15 busquedas recursos internet
Sesion 15 busquedas recursos internetWilly Figueroa
 
Operadores y Criterios de Búsqueda
Operadores y Criterios de BúsquedaOperadores y Criterios de Búsqueda
Operadores y Criterios de Búsquedabrendsruiz
 
Motor de busqueda Yahoo.
Motor de busqueda Yahoo.Motor de busqueda Yahoo.
Motor de busqueda Yahoo.Catalina Rincon
 
2.5 financiar una publicacion digital.
2.5 financiar una publicacion digital.2.5 financiar una publicacion digital.
2.5 financiar una publicacion digital.Leonel Soto Alemán
 
Técnicas e instrumentos de la evaluación para garantizar la veracidad de la i...
Técnicas e instrumentos de la evaluación para garantizar la veracidad de la i...Técnicas e instrumentos de la evaluación para garantizar la veracidad de la i...
Técnicas e instrumentos de la evaluación para garantizar la veracidad de la i...Evelyn Garza
 
Curso SEO para ISCIII
Curso SEO para ISCIIICurso SEO para ISCIII
Curso SEO para ISCIIIMASmedios com
 
SEO - Search Engine Optimization por Yamil Lambert
SEO - Search Engine Optimization  por Yamil LambertSEO - Search Engine Optimization  por Yamil Lambert
SEO - Search Engine Optimization por Yamil LambertYamil Lambert
 
Redes Sociales 2.0. Crea y gestiona la presencia on-line de tu negocio
Redes Sociales 2.0. Crea y gestiona la presencia on-line de tu negocioRedes Sociales 2.0. Crea y gestiona la presencia on-line de tu negocio
Redes Sociales 2.0. Crea y gestiona la presencia on-line de tu negocioAlbert Martínez
 

La actualidad más candente (19)

Seo & PageRank (Marvin Calderón-3A6-UG)
Seo & PageRank (Marvin Calderón-3A6-UG)Seo & PageRank (Marvin Calderón-3A6-UG)
Seo & PageRank (Marvin Calderón-3A6-UG)
 
Metodos de búsqueda en internet kellyshito
Metodos de búsqueda en internet kellyshitoMetodos de búsqueda en internet kellyshito
Metodos de búsqueda en internet kellyshito
 
Herramientas de ranking web
Herramientas de ranking webHerramientas de ranking web
Herramientas de ranking web
 
Cómo mejorar mi seo con las redes sociales slideshare
Cómo mejorar mi seo con las redes sociales slideshareCómo mejorar mi seo con las redes sociales slideshare
Cómo mejorar mi seo con las redes sociales slideshare
 
Posicionamiento Web y Computación en la Nube
Posicionamiento Web y Computación en la NubePosicionamiento Web y Computación en la Nube
Posicionamiento Web y Computación en la Nube
 
Redes sociales
Redes socialesRedes sociales
Redes sociales
 
Carlosguerra2 a3
Carlosguerra2 a3Carlosguerra2 a3
Carlosguerra2 a3
 
Tecnicas e instrumentos de evaluacion para garantizar la veracidad en la info...
Tecnicas e instrumentos de evaluacion para garantizar la veracidad en la info...Tecnicas e instrumentos de evaluacion para garantizar la veracidad en la info...
Tecnicas e instrumentos de evaluacion para garantizar la veracidad en la info...
 
Estrategias para buscar información en internet
Estrategias para buscar información en internet Estrategias para buscar información en internet
Estrategias para buscar información en internet
 
Sesion 15 busquedas recursos internet
Sesion 15 busquedas recursos internetSesion 15 busquedas recursos internet
Sesion 15 busquedas recursos internet
 
Busquedas en internet
Busquedas en internet Busquedas en internet
Busquedas en internet
 
Operadores y Criterios de Búsqueda
Operadores y Criterios de BúsquedaOperadores y Criterios de Búsqueda
Operadores y Criterios de Búsqueda
 
Motor de busqueda Yahoo.
Motor de busqueda Yahoo.Motor de busqueda Yahoo.
Motor de busqueda Yahoo.
 
2.5 financiar una publicacion digital.
2.5 financiar una publicacion digital.2.5 financiar una publicacion digital.
2.5 financiar una publicacion digital.
 
Informatica
InformaticaInformatica
Informatica
 
Técnicas e instrumentos de la evaluación para garantizar la veracidad de la i...
Técnicas e instrumentos de la evaluación para garantizar la veracidad de la i...Técnicas e instrumentos de la evaluación para garantizar la veracidad de la i...
Técnicas e instrumentos de la evaluación para garantizar la veracidad de la i...
 
Curso SEO para ISCIII
Curso SEO para ISCIIICurso SEO para ISCIII
Curso SEO para ISCIII
 
SEO - Search Engine Optimization por Yamil Lambert
SEO - Search Engine Optimization  por Yamil LambertSEO - Search Engine Optimization  por Yamil Lambert
SEO - Search Engine Optimization por Yamil Lambert
 
Redes Sociales 2.0. Crea y gestiona la presencia on-line de tu negocio
Redes Sociales 2.0. Crea y gestiona la presencia on-line de tu negocioRedes Sociales 2.0. Crea y gestiona la presencia on-line de tu negocio
Redes Sociales 2.0. Crea y gestiona la presencia on-line de tu negocio
 

Destacado

Destacado (19)

Presentación1
Presentación1Presentación1
Presentación1
 
Danska 1
Danska 1Danska 1
Danska 1
 
Adicción al internet
Adicción al internetAdicción al internet
Adicción al internet
 
Tpu 2011
Tpu 2011Tpu 2011
Tpu 2011
 
Magicnature
MagicnatureMagicnature
Magicnature
 
EMC Presentation
EMC PresentationEMC Presentation
EMC Presentation
 
Presentación (irene)
Presentación (irene)Presentación (irene)
Presentación (irene)
 
Cimentacion
CimentacionCimentacion
Cimentacion
 
Calidad En Servicios De Salud
Calidad En Servicios De SaludCalidad En Servicios De Salud
Calidad En Servicios De Salud
 
Simplifying the Complex: Serving Data from Pipeline Data Models
Simplifying the Complex: Serving Data from Pipeline Data ModelsSimplifying the Complex: Serving Data from Pipeline Data Models
Simplifying the Complex: Serving Data from Pipeline Data Models
 
Semana del Cerebro en Asturias
Semana del Cerebro en AsturiasSemana del Cerebro en Asturias
Semana del Cerebro en Asturias
 
Vidrio2
Vidrio2Vidrio2
Vidrio2
 
CITd
CITdCITd
CITd
 
Mind map title sequnace ideas
Mind map title sequnace ideasMind map title sequnace ideas
Mind map title sequnace ideas
 
Fotos capacitacion docentes
Fotos capacitacion docentesFotos capacitacion docentes
Fotos capacitacion docentes
 
Chapter 1
Chapter 1Chapter 1
Chapter 1
 
20 Meses de Reformas pelo PSD
20 Meses de Reformas pelo PSD20 Meses de Reformas pelo PSD
20 Meses de Reformas pelo PSD
 
GHGHGH
GHGHGHGHGHGH
GHGHGH
 
Albañilería
AlbañileríaAlbañilería
Albañilería
 

Similar a Web Link Analysis

Linkbuilding posicionamiento-buscadores-seo-39567-completo
Linkbuilding posicionamiento-buscadores-seo-39567-completoLinkbuilding posicionamiento-buscadores-seo-39567-completo
Linkbuilding posicionamiento-buscadores-seo-39567-completoMiguel García Pérez
 
Segunda clase sistemas y tecnología - Daniela Diaz Cardoso
Segunda clase sistemas y tecnología - Daniela Diaz CardosoSegunda clase sistemas y tecnología - Daniela Diaz Cardoso
Segunda clase sistemas y tecnología - Daniela Diaz Cardosodmdiazc
 
Seo y social media
Seo y social mediaSeo y social media
Seo y social mediagracejaz07
 
El seo después de google pinguino
El seo después de google pinguinoEl seo después de google pinguino
El seo después de google pinguinoFranco Arrigoni
 
Posicionamiento En Buscadores
Posicionamiento En BuscadoresPosicionamiento En Buscadores
Posicionamiento En Buscadoresaltanet
 
Tu Popularidad En Internet
Tu Popularidad En InternetTu Popularidad En Internet
Tu Popularidad En Internetsuperbuzoneo
 
La diferencia entre contar y trasmitir
La diferencia entre contar y trasmitirLa diferencia entre contar y trasmitir
La diferencia entre contar y trasmitiragabarre
 
Optimización onpage y offpage
Optimización onpage y offpageOptimización onpage y offpage
Optimización onpage y offpageMASmedios com
 
IV.Interlat Upb Curso Ebusiness Pymes Modulo IV
IV.Interlat Upb Curso Ebusiness Pymes Modulo IVIV.Interlat Upb Curso Ebusiness Pymes Modulo IV
IV.Interlat Upb Curso Ebusiness Pymes Modulo IVInterlat
 
¿Cómo funciona internet y los motores de búsqueda?
¿Cómo funciona internet y los motores de búsqueda? ¿Cómo funciona internet y los motores de búsqueda?
¿Cómo funciona internet y los motores de búsqueda? JulioAlonso35
 
El Futuro Del Internet 1
El Futuro Del Internet 1El Futuro Del Internet 1
El Futuro Del Internet 1addreal
 
Averiguar el pagerank de tu dominio
Averiguar el pagerank de tu dominioAveriguar el pagerank de tu dominio
Averiguar el pagerank de tu dominioAuxi Gifmania
 
Visibilidad posicionamiento y usabilidad
Visibilidad posicionamiento y usabilidad Visibilidad posicionamiento y usabilidad
Visibilidad posicionamiento y usabilidad Julio Alonso Arévalo
 
Cuadernillo temario del curso Posicionamiento SEO
Cuadernillo temario del curso Posicionamiento SEOCuadernillo temario del curso Posicionamiento SEO
Cuadernillo temario del curso Posicionamiento SEOAntonio Pérez
 
Posicionamiento en buscadores web SEO 10 acciones para realizar
Posicionamiento en buscadores web SEO 10 acciones para realizarPosicionamiento en buscadores web SEO 10 acciones para realizar
Posicionamiento en buscadores web SEO 10 acciones para realizarInterlat
 

Similar a Web Link Analysis (20)

Linkbuilding posicionamiento-buscadores-seo-39567-completo
Linkbuilding posicionamiento-buscadores-seo-39567-completoLinkbuilding posicionamiento-buscadores-seo-39567-completo
Linkbuilding posicionamiento-buscadores-seo-39567-completo
 
2.5 financiar una publicacion digital.
2.5 financiar una publicacion digital.2.5 financiar una publicacion digital.
2.5 financiar una publicacion digital.
 
Segunda clase sistemas y tecnología - Daniela Diaz Cardoso
Segunda clase sistemas y tecnología - Daniela Diaz CardosoSegunda clase sistemas y tecnología - Daniela Diaz Cardoso
Segunda clase sistemas y tecnología - Daniela Diaz Cardoso
 
Seo y social media
Seo y social mediaSeo y social media
Seo y social media
 
El seo después de google pinguino
El seo después de google pinguinoEl seo después de google pinguino
El seo después de google pinguino
 
Posicionamiento En Buscadores
Posicionamiento En BuscadoresPosicionamiento En Buscadores
Posicionamiento En Buscadores
 
Tu Popularidad En Internet
Tu Popularidad En InternetTu Popularidad En Internet
Tu Popularidad En Internet
 
La diferencia entre contar y trasmitir
La diferencia entre contar y trasmitirLa diferencia entre contar y trasmitir
La diferencia entre contar y trasmitir
 
7.6 google plus
7.6 google plus7.6 google plus
7.6 google plus
 
Optimización onpage y offpage
Optimización onpage y offpageOptimización onpage y offpage
Optimización onpage y offpage
 
IV.Interlat Upb Curso Ebusiness Pymes Modulo IV
IV.Interlat Upb Curso Ebusiness Pymes Modulo IVIV.Interlat Upb Curso Ebusiness Pymes Modulo IV
IV.Interlat Upb Curso Ebusiness Pymes Modulo IV
 
¿Cómo funciona internet y los motores de búsqueda?
¿Cómo funciona internet y los motores de búsqueda? ¿Cómo funciona internet y los motores de búsqueda?
¿Cómo funciona internet y los motores de búsqueda?
 
El Futuro Del Internet 1
El Futuro Del Internet 1El Futuro Del Internet 1
El Futuro Del Internet 1
 
SEO - SOCIAL MEDIA
SEO - SOCIAL MEDIASEO - SOCIAL MEDIA
SEO - SOCIAL MEDIA
 
¿Cómo funciona Google?
¿Cómo funciona Google?¿Cómo funciona Google?
¿Cómo funciona Google?
 
Page rank medios
Page rank mediosPage rank medios
Page rank medios
 
Averiguar el pagerank de tu dominio
Averiguar el pagerank de tu dominioAveriguar el pagerank de tu dominio
Averiguar el pagerank de tu dominio
 
Visibilidad posicionamiento y usabilidad
Visibilidad posicionamiento y usabilidad Visibilidad posicionamiento y usabilidad
Visibilidad posicionamiento y usabilidad
 
Cuadernillo temario del curso Posicionamiento SEO
Cuadernillo temario del curso Posicionamiento SEOCuadernillo temario del curso Posicionamiento SEO
Cuadernillo temario del curso Posicionamiento SEO
 
Posicionamiento en buscadores web SEO 10 acciones para realizar
Posicionamiento en buscadores web SEO 10 acciones para realizarPosicionamiento en buscadores web SEO 10 acciones para realizar
Posicionamiento en buscadores web SEO 10 acciones para realizar
 

Más de Juan Azcurra

Gestión de la Calidad en Proyectos
Gestión de la Calidad en ProyectosGestión de la Calidad en Proyectos
Gestión de la Calidad en ProyectosJuan Azcurra
 
Gestión del Alcance en los Proyectos
Gestión del Alcance en los ProyectosGestión del Alcance en los Proyectos
Gestión del Alcance en los ProyectosJuan Azcurra
 
Fundamentos de Administración de Proyectos
Fundamentos de Administración de ProyectosFundamentos de Administración de Proyectos
Fundamentos de Administración de ProyectosJuan Azcurra
 
Introducción a Business Intelligence
Introducción a Business IntelligenceIntroducción a Business Intelligence
Introducción a Business IntelligenceJuan Azcurra
 
Web Log Analysis - AWK
Web Log Analysis - AWKWeb Log Analysis - AWK
Web Log Analysis - AWKJuan Azcurra
 
Web Usage Mining - Temas Avanzados
Web Usage Mining - Temas AvanzadosWeb Usage Mining - Temas Avanzados
Web Usage Mining - Temas AvanzadosJuan Azcurra
 
Web Content Mining - Information Retrieval
Web Content Mining - Information RetrievalWeb Content Mining - Information Retrieval
Web Content Mining - Information RetrievalJuan Azcurra
 
Web Content Mining - Datos estructurados
Web Content Mining - Datos estructuradosWeb Content Mining - Datos estructurados
Web Content Mining - Datos estructuradosJuan Azcurra
 
Introducción a Web Mining
Introducción a Web MiningIntroducción a Web Mining
Introducción a Web MiningJuan Azcurra
 
Introducción a Big Data
Introducción a Big DataIntroducción a Big Data
Introducción a Big DataJuan Azcurra
 
Introducción a Text Mining
Introducción a Text MiningIntroducción a Text Mining
Introducción a Text MiningJuan Azcurra
 

Más de Juan Azcurra (16)

Gestión de la Calidad en Proyectos
Gestión de la Calidad en ProyectosGestión de la Calidad en Proyectos
Gestión de la Calidad en Proyectos
 
Gestión del Alcance en los Proyectos
Gestión del Alcance en los ProyectosGestión del Alcance en los Proyectos
Gestión del Alcance en los Proyectos
 
Fundamentos de Administración de Proyectos
Fundamentos de Administración de ProyectosFundamentos de Administración de Proyectos
Fundamentos de Administración de Proyectos
 
Elasticsearch
ElasticsearchElasticsearch
Elasticsearch
 
Introducción a Business Intelligence
Introducción a Business IntelligenceIntroducción a Business Intelligence
Introducción a Business Intelligence
 
NoSQL - MongoDB
NoSQL - MongoDBNoSQL - MongoDB
NoSQL - MongoDB
 
Text mining
Text miningText mining
Text mining
 
Opinion mining
Opinion miningOpinion mining
Opinion mining
 
Web Log Analysis - AWK
Web Log Analysis - AWKWeb Log Analysis - AWK
Web Log Analysis - AWK
 
Web Usage Mining
Web Usage MiningWeb Usage Mining
Web Usage Mining
 
Web Usage Mining - Temas Avanzados
Web Usage Mining - Temas AvanzadosWeb Usage Mining - Temas Avanzados
Web Usage Mining - Temas Avanzados
 
Web Content Mining - Information Retrieval
Web Content Mining - Information RetrievalWeb Content Mining - Information Retrieval
Web Content Mining - Information Retrieval
 
Web Content Mining - Datos estructurados
Web Content Mining - Datos estructuradosWeb Content Mining - Datos estructurados
Web Content Mining - Datos estructurados
 
Introducción a Web Mining
Introducción a Web MiningIntroducción a Web Mining
Introducción a Web Mining
 
Introducción a Big Data
Introducción a Big DataIntroducción a Big Data
Introducción a Big Data
 
Introducción a Text Mining
Introducción a Text MiningIntroducción a Text Mining
Introducción a Text Mining
 

Último

Trabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfTrabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfedepmariaperez
 
La electricidad y la electronica.10-7.pdf
La electricidad y la electronica.10-7.pdfLa electricidad y la electronica.10-7.pdf
La electricidad y la electronica.10-7.pdfcristianrb0324
 
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdfBetianaJuarez1
 
PROYECCIÓN DE VISTAS planos de vistas y mas
PROYECCIÓN DE VISTAS planos de vistas y masPROYECCIÓN DE VISTAS planos de vistas y mas
PROYECCIÓN DE VISTAS planos de vistas y maslida630411
 
Tecnología Educativa- presentación maestría
Tecnología Educativa- presentación maestríaTecnología Educativa- presentación maestría
Tecnología Educativa- presentación maestríaElizabethLpezSoto
 
Guía de Registro slideshare paso a paso 1
Guía de Registro slideshare paso a paso 1Guía de Registro slideshare paso a paso 1
Guía de Registro slideshare paso a paso 1ivanapaterninar
 
Clasificación de Conjuntos de Datos Desequilibrados.pptx
Clasificación de Conjuntos de Datos Desequilibrados.pptxClasificación de Conjuntos de Datos Desequilibrados.pptx
Clasificación de Conjuntos de Datos Desequilibrados.pptxCarolina Bujaico
 
Herramientas que posibilitan la información y la investigación.pdf
Herramientas que posibilitan la información y la investigación.pdfHerramientas que posibilitan la información y la investigación.pdf
Herramientas que posibilitan la información y la investigación.pdfKarinaCambero3
 
PLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docx
PLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docxPLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docx
PLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docxhasbleidit
 
TALLER DE ANALISIS SOLUCION PART 2 (1)-1.docx
TALLER DE ANALISIS SOLUCION  PART 2 (1)-1.docxTALLER DE ANALISIS SOLUCION  PART 2 (1)-1.docx
TALLER DE ANALISIS SOLUCION PART 2 (1)-1.docxobandopaula444
 
Trabajo de tecnología primer periodo 2024
Trabajo de tecnología primer periodo 2024Trabajo de tecnología primer periodo 2024
Trabajo de tecnología primer periodo 2024anasofiarodriguezcru
 
Trabajo de tecnología liceo departamental
Trabajo de tecnología liceo departamentalTrabajo de tecnología liceo departamental
Trabajo de tecnología liceo departamentalEmanuelCastro64
 
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024u20211198540
 
CommitConf 2024 - Spring Boot <3 Testcontainers
CommitConf 2024 - Spring Boot <3 TestcontainersCommitConf 2024 - Spring Boot <3 Testcontainers
CommitConf 2024 - Spring Boot <3 TestcontainersIván López Martín
 
Trabajo de Tecnología .pdfywhwhejsjsjsjsjsk
Trabajo de Tecnología .pdfywhwhejsjsjsjsjskTrabajo de Tecnología .pdfywhwhejsjsjsjsjsk
Trabajo de Tecnología .pdfywhwhejsjsjsjsjskbydaniela5
 
Slideshare y Scribd - Noli Cubillan Gerencia
Slideshare y Scribd - Noli Cubillan GerenciaSlideshare y Scribd - Noli Cubillan Gerencia
Slideshare y Scribd - Noli Cubillan Gerenciacubillannoly
 
Actividades de computación para alumnos de preescolar
Actividades de computación para alumnos de preescolarActividades de computación para alumnos de preescolar
Actividades de computación para alumnos de preescolar24roberto21
 
ORIENTACIONES DE INFORMÁTICA-2024.pdf-guia
ORIENTACIONES DE INFORMÁTICA-2024.pdf-guiaORIENTACIONES DE INFORMÁTICA-2024.pdf-guia
ORIENTACIONES DE INFORMÁTICA-2024.pdf-guiaYeimys Ch
 
tecnologiaactividad11-240323205859-a9b9b9bc.pdf
tecnologiaactividad11-240323205859-a9b9b9bc.pdftecnologiaactividad11-240323205859-a9b9b9bc.pdf
tecnologiaactividad11-240323205859-a9b9b9bc.pdflauralizcano0319
 
certificado de oracle academy cetrificado.pdf
certificado de oracle academy cetrificado.pdfcertificado de oracle academy cetrificado.pdf
certificado de oracle academy cetrificado.pdfFernandoOblitasVivan
 

Último (20)

Trabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfTrabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdf
 
La electricidad y la electronica.10-7.pdf
La electricidad y la electronica.10-7.pdfLa electricidad y la electronica.10-7.pdf
La electricidad y la electronica.10-7.pdf
 
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf
 
PROYECCIÓN DE VISTAS planos de vistas y mas
PROYECCIÓN DE VISTAS planos de vistas y masPROYECCIÓN DE VISTAS planos de vistas y mas
PROYECCIÓN DE VISTAS planos de vistas y mas
 
Tecnología Educativa- presentación maestría
Tecnología Educativa- presentación maestríaTecnología Educativa- presentación maestría
Tecnología Educativa- presentación maestría
 
Guía de Registro slideshare paso a paso 1
Guía de Registro slideshare paso a paso 1Guía de Registro slideshare paso a paso 1
Guía de Registro slideshare paso a paso 1
 
Clasificación de Conjuntos de Datos Desequilibrados.pptx
Clasificación de Conjuntos de Datos Desequilibrados.pptxClasificación de Conjuntos de Datos Desequilibrados.pptx
Clasificación de Conjuntos de Datos Desequilibrados.pptx
 
Herramientas que posibilitan la información y la investigación.pdf
Herramientas que posibilitan la información y la investigación.pdfHerramientas que posibilitan la información y la investigación.pdf
Herramientas que posibilitan la información y la investigación.pdf
 
PLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docx
PLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docxPLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docx
PLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docx
 
TALLER DE ANALISIS SOLUCION PART 2 (1)-1.docx
TALLER DE ANALISIS SOLUCION  PART 2 (1)-1.docxTALLER DE ANALISIS SOLUCION  PART 2 (1)-1.docx
TALLER DE ANALISIS SOLUCION PART 2 (1)-1.docx
 
Trabajo de tecnología primer periodo 2024
Trabajo de tecnología primer periodo 2024Trabajo de tecnología primer periodo 2024
Trabajo de tecnología primer periodo 2024
 
Trabajo de tecnología liceo departamental
Trabajo de tecnología liceo departamentalTrabajo de tecnología liceo departamental
Trabajo de tecnología liceo departamental
 
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024
 
CommitConf 2024 - Spring Boot <3 Testcontainers
CommitConf 2024 - Spring Boot <3 TestcontainersCommitConf 2024 - Spring Boot <3 Testcontainers
CommitConf 2024 - Spring Boot <3 Testcontainers
 
Trabajo de Tecnología .pdfywhwhejsjsjsjsjsk
Trabajo de Tecnología .pdfywhwhejsjsjsjsjskTrabajo de Tecnología .pdfywhwhejsjsjsjsjsk
Trabajo de Tecnología .pdfywhwhejsjsjsjsjsk
 
Slideshare y Scribd - Noli Cubillan Gerencia
Slideshare y Scribd - Noli Cubillan GerenciaSlideshare y Scribd - Noli Cubillan Gerencia
Slideshare y Scribd - Noli Cubillan Gerencia
 
Actividades de computación para alumnos de preescolar
Actividades de computación para alumnos de preescolarActividades de computación para alumnos de preescolar
Actividades de computación para alumnos de preescolar
 
ORIENTACIONES DE INFORMÁTICA-2024.pdf-guia
ORIENTACIONES DE INFORMÁTICA-2024.pdf-guiaORIENTACIONES DE INFORMÁTICA-2024.pdf-guia
ORIENTACIONES DE INFORMÁTICA-2024.pdf-guia
 
tecnologiaactividad11-240323205859-a9b9b9bc.pdf
tecnologiaactividad11-240323205859-a9b9b9bc.pdftecnologiaactividad11-240323205859-a9b9b9bc.pdf
tecnologiaactividad11-240323205859-a9b9b9bc.pdf
 
certificado de oracle academy cetrificado.pdf
certificado de oracle academy cetrificado.pdfcertificado de oracle academy cetrificado.pdf
certificado de oracle academy cetrificado.pdf
 

Web Link Analysis

  • 1. WEB y TEXT MINING Link AnalysisJuan Azcurra
  • 2. Introducción  Al comienzo los motores de búsquedas comparaban la similaridad de contenido una consulta y las páginas indexadas.  Utilizando métodos de information retrieval coseno, TF-IDF, ...  A partir de 1996, se hizo evidente que la similaridad de contenido no era suficiente.  El número de páginas creció rapidamente a mediados de los 90.  Intentaron “técnicas de clasificación”, Google estimó 10 millones de páginas relevantes.  Cómo seleccionar solo 30-40 páginas y clasificarlas adecuadamente para presentarlas a los usuarios?  Similaridad de contenido es fácil de spam  El dueño de una página se puede repetir unas palabras y agregar muchas palabras relacionadas para impulsar el ranking de sus páginas y/o para hacer las páginas relevantes para un gran número de consultas. 2
  • 3. Introducción  A comienzo de 1996 los investigadores comenzaron a trabajar e el problema, recurriendo a hyperlinks.  En 1997 Robin Li registró una patente de búsqueda basada en hyperlinks. El método usa las palabras en el texto del hyperlink.  Las páginas web son conectadas a través de hyperlinks, que contienen información importante:  Algunos hyperlinks: organizan información al mismo sitio.  Otros hyperlinks: apuntan a páginas de otros Web sites. Estos hyperlinks salientes a menudo indican una transmisión implicita de autoridad a las páginas que apuntan.  Aquellas páginas que son apuntadas por muchas otras páginas pueden contener información fidedigna (autoridad). 3
  • 4. Introducción  Durante 1997-1998 aparecieron dos de los más influyentes algoritmos de búsqueda basados en hyperlinks: PageRank y HITS.  Ambos algoritmos se relacionan con redes sociales, explotan los hipervínculos de la Web para clasificar las páginas en función de sus niveles de prestigio o autoridad.  HITS: Jon Kleinberg (Cornel University), en el Simposio sobre algoritmos discretos, enero de 1998.  PageRank: Sergey Brin y Larry Page, (Stanford University), (WWW7), abril de 1998. PageRank potencia el motor de búsqueda de Google. 4
  • 5. Introducción  Además del ranking de búsquedas, los hyperlinks son útiles encontrando comunidades Web.  Una comunidad Web es un conjunto de páginas densamente unidas representando un grupo de personas con un interés en común.  Más allá de hyperlinks explícitos en la Web, links en otros contextos son útiles también.  para descubrir comunidades de entidades (personas u organizaciones) en textos libres de documentos, etc.  para analizar fenómenos sociales en mais. 5
  • 6. Análisis de redes sociales  Redes sociales es el estudio de entidades sociales (personas en una organización, llamados actores) y sus interacciones y relaciones.  Las interacciones y relaciones pueden ser representadas con una red o grafo,  cada vértice (o nodo) representa un actor  cada link representa una relación.  Desde la red, podemos estudiar las propiedades de su estructura, y el rol, posición y prestigio de cada actor social.  Podemos también encontrar varios tipos de sub- grafos, comunidades formadas por grupos de actores. 6
  • 7. Redes sociales y la Web  Análisis de redes sociales es muy útil para la Web porque la Web es esencialmente una sociedad virtual,  cada página: un actor social,  cada hyperlink: una relación.  Muchos resultados de redes sociales pueden ser adaptados y extendidos para usar en el contexto de la Web.  Estudiaremos 2 tipos de análisis de redes sociales, centralidad y prestigio, que están relacionadas a análisis de hyperlink y búsqueda en la Web. 7
  • 8. Centralidad  Actores importantes o prominentes son aquellos que están involucrados con otros actores ampliamente.  Una persona con amplios contactos (links) o comunicaciones con muchas otras personas en la organización es considerado más importante que una persona con menos contactos.  Los links también pueden ser llamados lazos. Un actor central es uno que participa en muchos lazos. 8
  • 10. Prestigio  El prestigio es una medida más precisa de un actor que la centralidad.  Distinguir: lazo enviado (link saliente) y lazo recibido (link entrante)  Un actor de prestigio es aquel con altos vinculos entrantes.  Para calcular el prestigio: solamente utilizamos links entrantes.  Diferencia entre centralidad y prestigio:  Centralidad se basa en los links salientes.  Prestigio se basa en los links entrantes.  Medidas de prestigio. Rank prestige constituye la base de la mayoría de los algoritmos de Web page link analysis, incluyendo PageRank y HITS. 10
  • 12. PageRank  El año 1998 fue un año agitado para el modelo de análisis de enlaces Web. Los algoritmos PageRank y HITS fueron publicados en ese año.  Las conexiones entre PageRank y HITS son bastantes sorprendentes.  Desde ese momento, PageRank se ha convertido en el modelo de análisis de link domintante:  debido a la independencia de las consultas,  su habilidad para combatir el spamming,  gran suceso del negocio de Google. 12
  • 13. PageRank: definición general  PageRank confia en la naturaleza democrática de la web usando su basta estructura de links como un indicador de valor de calidad de cada página individual.  PageRank interpreta un hyperlink de una página x a una página y como un voto, de la página x para la página y.  Sin embargo, PageRank mira más que el número total de votos, también analiza la página que emite el voto.  Votos emitidos por páginas “importantes” pesan más y ayudan a hacer “más importantes” otras páginas.  Esto es exactamente la idea de ranking de prestigio en una red social. 13
  • 14. PageRank: más especificamente  Un hyperlink de una página a otra es un medio implícito de autoridad a la página de destino.  Cuánto más links-entrantes una página i recibe, más prestigio la página i tiene.  Las páginas que apuntan a la página i también tienen su nivel de prestigio.  Una página de alto prestigio apuntando a i es más importante que una página de menor prestigio apuntando a i.  En otras palabras, una página es más importante si es apuntanda por otras páginas importantes. 14
  • 15. PageRank: Algoritmo  De acuerdo al ranking de prestigio, la importante de una página i (valor PageRank de i) es la suma de valores de PageRank de todas las páginas que apuntan a i.  Desde que una página puede apuntar a muchas otras, su valor de prestigio debe ser compartido.  La Web como un grafo dirigido G = (V, E). Donde el número de páginas es n. El valor de PageRank de una página i (denotada P(i)) es definida como:, )( )( ),(   Eij jO jP iP Oj is the number of out-link of j 15
  • 16. PageRank: Ejemplo  Asumiendo 4 páginas (A, B, C, D) con un PageRank inicial de 0.25  Si B, C y D apuntan a A, entonces el PR de A será de 0.75  Suponiendo que B tiene links a C y A y D tiene links a las 3, entonces en la siguiente iteración B le transferirá la mitad de su valor a A y D a las 3, mientras que C no tiene links salientes.  En otras palabras, el PR conferido por un link saliente es igual al score de PR divido la cantidad de links salientes.  Obteniendo la formula general: 16
  • 17. PageRank: Ejemplo Matematicamente PageRanks para una red simple, expresado como porcentajes (Google usa una escala logaritmica). C tiene el más alto PageRank más que E, a pesar que hay menos enlances a C, el link a C viene de una página de mayor importancia y por lo tanto es de gran valor. Si los navegantes comenzaran por una página al azar tendría 85% de probabilidad de elegir un link al azar a partir de la página que están visitando y un 15% de probabilidad de saltar a una página elegida al azar de la web, ellos llegarían a la página E el 8,1% de las veces (el 15% de probabilidad de saltar a una página arbitraria corresponde al factor de damping de 85%). 17
  • 18. PageRank: Ventajas  Lucha contra el spam. Una página es importante si las páginas que apuntan a ella también lo son.  Dado que no es fácil para el dueño de una página Web agregar enlaces en página desde otras páginas importantes, no es por lo tanto fácil de influenciar PageRank.  PageRank es una medida global independiente de las consultas.  Los valores de PageRank para todas las páginas son calculadas y guardas en forma off-line más que en tiempo de la consulta. 18
  • 19. HITS  HITS proviene de Hypertext Induced Topic Search.  A diferencia de PageRank que es un algoritmo de ranking estático, HITS es dependiente a la consulta de búsqueda.  Cuando un usuario envia una consulta de búsqueda,  HITS primero expande la lista de páginas relevantes devueltas por el motor de búsqueda, y  produce 2 rankings del conjunto de páginas expandidas, ranking de autoridad y ranking 19
  • 20. Autoridad y Hubs Autoridad: a grandes rasgos, la autoridad es una página con muchos links entrantes.  La idea es que la página tenga un buen contenido o autoridad sobre un tema,  así que mucha gente confía en ella y enlazar con ella. Hub: Un hub es una página con muchos links salientes.  La página sirve como un organizador de la información de un tema en particular y  apunta a muchas páginas de autoridad sobre el 20
  • 22. Ideas claves de HITS 22  Un hub bueno apunta a muchas autoridades buenas, y  Una autoridad buena es apuntada por muchos hubs buenos.  Autoridades y hubs tienen una relación de refuerzo mutuo
  • 23. HITS: Algoritmo 23  Dado una consulta de búsqueda q, HITS recolecta un conjunto de páginas con los siguientes pasos:  Envia la consulta q al motor de búsqueda.  Se recoge entonces t (t = 200 es usando en el paper de HITS) el valor más alto de páginas rankeadas. Esto es llamada el conjunto raiz W.  Crece W incluyendo cualquier página que apunte a una en W y cualquiera apuntada por W. Esto da lugar al conjunto S, conjunto base.
  • 24. Grafo G 24  HITS trabaja en las páginas en S y asigna a cada página S un score de autoridad y un score de hub.  Sea n el número de páginas en S.  Nuevamente se usa G = (V, E) para denotar el grafo de hyperlinks de S  Usamos L para denotar la matriz de adyacencia del grafo.      otherwise Ejiif Lij 0 ),(1
  • 25. HITS: Algoritmo 25  Sea a(i) el score de autoridad de una página i, y h(i) el score de hub de la página i.  La relación de refuerzo mutual de los dos scores están representado por:   Eij jhia ),( )()(   Eji jaih ),( )()(
  • 26. Ventajas y desventas de HITS 26  Ventajas: su habilidad de rankear páginas de acuerdo al tema de la consulta, puede ser capaz de proveer autoridades y hubs más relevantes.  Desventajas:  Spam. De hecho es facil de influenciar HITS desde afuera añadiendo enlaces de la propia página.  Derivación de temas. Muchas páginas en el conjunto expandido no pueden ser del mismo tema.  Tiempo de respuesta ineficiente. El tiempo de evaluación de la consulta es bajo. Recolectar el conjunto raiz, expandirlo y calcular el autovector de todas las operaciones es expansiva.