Vordiplomarbeit, 2016
157 Seiten, Note: 15.94
I. INTRODUCCION
II. ANTECEDENTES
III. OBJETIVOS
A. OBJETIVO GENERAL
B. OBJETIVOS ESPECIFICOS
IV. JUSTIFICACION
CAPÍTULO I
MARCO TEÓRICO
1.1. FUNDAMENTOS MATEMATICOS
1.1.1. CADENA DE MARKOV
1.1.1.1. MATRIZ ESTACIONARIA
1.1.1.2. MATRIZ ESTACIONARIA EN VARIOS PASOS
1.1.1.3. CADENAS IRREDUCTIBLES
1.1.2. NORMA DE VECTORES
1.1.2.1. NORMALIZACION DE UN VECTOR
1.1.2.2. NORMA DE FROBENIUS
1.1.3. DEPENDENCIA E INDEPENDENCIA LINEAL
1.1.4. VALOR PROPIO Y VECTOR PROPIO
1.1.4.1. CALCULO DE VALORES PROPIOS
1.1.4.2. MULTIPLICIDAD ALGEBRAICA Y GEOMETRICA
1.1.4.3. CALCULO DE VECTORES PROPIOS
1.1.4.4. PROPIEDADES DE LOS VALORES PROPIOS [16] y [17]
1.1.4.5. PROPIEDADES DE LOS VECTORES PROPIOS [18]
1.1.5. MATRIZ DIAGONIZABLE
1.5.1.1. PROPIEDADES DE UNA MATRIZ DIAGONIZABLE [10] y [15]
1.1.6. TEOREMA DE PERRON-FROBENIUS
1.1.7. METODO DE LAS POTENCIAS
1.2. WEB CRAWLER
1.2.1. DEFINICION
1.2.2. BREVE HISTORIA DE LOS WEB CRAWLER
1.2.3. FUNCIONAMIENTO DE LOS WEBS CRAWLER
1.2.4. USO DE LOS WEB CRAWLERS
1.3. INTRODUCCION AL ENTORNO DE OPENWEBSPIDER(JS)V.0.2.3
1.3.1. REQUERIMIENTOS
1.3.2. CONFIGURACION
1.3.3. CONFIGURACION DE LA BASE DE DATOS
1.3.4. RASTEAR URLS
1.4. INTRODUCCION AL ENTORNO DE PAJEK
1.4.1. DEFINICIÓN
1.4.2. INICIANDO PAJEK
1.4.3. GENERANDO GRAFOS EN PAJEK
1.4.4. CENTRALIDAD
1.5. INTRODUCCION AL MATLAB
1.5.1. DEFICION
1.5.2. ENTORNO
1.5.3. OPERADORES BASICOS
1.5.4. DECLARACIÓN DE VARIABLES
1.5.5. MATRICES Y VECTORES
1.5.6. OPERACIONES ESPECIFICAS CON MATRICES
1.5.7. VALOR Y VECTOR PROPIO
1.5.8. PROGRAMACION EN MATLAB
1.6. BUSCADORES
1.6.1. DEFINICION
1.7. GOOGLE
1.7.1. BREVE HISTORIA DE GOOGLE [38].
1.7.2. MEDICION DE LA IMPORTANCIA DE UN DOCUMENTO WEB [36] y [39]
CAPÍTULO II
EL ALGOTIRMO DE ORDENACION DE GOOGLE
2.1. PLANTEAMIENTO DEL MODELO
2.2. EL ALGORITMO PAGERANK Y EL TEOREMA DE PERRON-FROBENIUS
2.3. CALCULO DEL VECTOR PAGERANK
CAPÍTULO III
PLANTEAMIENTO DE LOS CASOS DE ESTUDIO
3.1. CASO I: CALCULO DEL VECTOR DE IMPORTANCIAS
3.2. CASO II: CALCULO DEL PAGERANK CON EL METODO DE LAS POTENCIAS
CAPÍTULO IV
SIMULACIÓN
4.1. INICIAR EL RASTREO DE LA PAGINAS
4.2. CONSTRUIR EL ARCHIVO .NET DE PAJEK
4.3. CONSTRUIR EL GRAFO DE CONEXIONES EN PAJEK
4.4. CONSTRUCCIÓN DE LA MATRIZ DE ADYACENCIA
4.5. ASIGNACION DEL PAGERANK DE CADA NODO(VERTICE)
CAPÍTULO V
CONCLUSIONES Y RECOMENDACIONES
5.1. CONCLUSIONES
5.2. RECOMENDACIONES
BIBLIOGRAFÍA
El objetivo principal de esta tesis es desarrollar una aproximación matemática y computacional del funcionamiento del buscador Google, centrándose especialmente en el algoritmo PageRank y su relación con la teoría de cadenas de Markov y el álgebra lineal para la ordenación de resultados web.
1.1.1. CADENA DE MARKOV
En esta sección se exponen algunos conceptos esenciales sobre cadenas de Markov¹ considerados necesarios para el desarrollo de la tesis. Se comenzará definiendo algunos conceptos esenciales para luego tratar brevemente las Cadenas de Markov propiamente dichas. Las definiciones y las propiedades aquí citados se encuentran en [1], [2] y [3]
Definición. Es un proceso estocástico a tiempo discreto {xn: n = 0,1,2 ...} con espacios de estados discretos S = {0,1, ...}, que sin pérdida de generalidad supondremos que consta de los primeros enteros a partir del 0 y que satisface la propiedad de Markov.
P(xn+1 = xn+1 | x0 = x0 ... xn = xn) = P(xn+1 = xn+1 | xn = xn) (1.1)
Esto es para cualquiera estado x0, x1 hasta xn+1 y para cualquier valor entero de n a partir de 0, la probabilidad que xn+1 tome el valor de xn+1, dado que el proceso ha pasado por los estados x0, x1 hasta xn, es simplemente la probabilidad del mismo evento dado xn = xn.
La propiedad de Markov significa que dado que se conoce la trayectoria del proceso hasta el tiempo n, la distribución de la variable xn+1 depende únicamente del ultimo valor observado, esto es xn y no de los valores anteriores (figura 1)
MARCO TEÓRICO: Proporciona la base matemática necesaria, incluyendo cadenas de Markov, normas de vectores, autovalores, vectores propios y el funcionamiento de herramientas como Web Crawlers, PAJEK y MATLAB.
EL ALGOTIRMO DE ORDENACION DE GOOGLE: Presenta la modelización matemática del funcionamiento de búsqueda y la aplicación del teorema de Perron-Frobenius para definir la importancia de los nodos en la web.
PLANTEAMIENTO DE LOS CASOS DE ESTUDIO: Desarrolla la aplicación práctica del algoritmo PageRank en redes pequeñas para ilustrar el cálculo de importancia de páginas mediante matrices.
SIMULACIÓN: Detalla el proceso de rastreo real de un sitio web, la construcción de matrices de adyacencia y la simulación del cálculo de PageRank utilizando herramientas computacionales.
CONCLUSIONES Y RECOMENDACIONES: Sintetiza los resultados obtenidos sobre la eficacia del modelo y sugiere la integración de estas herramientas en la formación académica de la facultad.
Crawlers, PAJEK, Cadenas de Markov, Matriz estocástica, vector propio, método de las potencias, Google, PageRank, MATLAB, álgebra lineal, ordenación, simulación, teoría de grafos, matriz de adyacencia, nodos.
El propósito es aproximar matemática y computacionalmente el funcionamiento del motor de búsqueda Google, explicando cómo utiliza el algoritmo PageRank para ordenar resultados basándose en la relevancia de las páginas.
Abarca principalmente el álgebra lineal, la teoría de procesos estocásticos (específicamente cadenas de Markov), el funcionamiento técnico de los Web Crawlers y el uso de software especializado para análisis de redes.
Es crucial, ya que bajo ciertas condiciones garantiza la existencia y unicidad del vector de importancia (PageRank), permitiendo justificar matemáticamente la ordenación de los resultados de búsqueda.
PAJEK se utiliza para visualizar grafos de conexiones web y calcular centralidad, mientras que MATLAB se emplea para realizar los cálculos de álgebra lineal necesarios para determinar el vector PageRank mediante el método de las potencias.
Se define mediante un sistema de ecuaciones donde la importancia de una página es proporcional a la suma de las importancias de las páginas que la enlazan, modelado como un problema de autovector dominante.
Los términos destacan la intersección entre el modelado matemático (vectores propios, Markov) y su aplicación técnica en la arquitectura de buscadores (Crawlers, PageRank).
Se eligió por su capacidad para rastrear sitios web de forma automatizada y almacenar las relaciones entre páginas en una base de datos MySQL, facilitando así la obtención de la matriz de adyacencia necesaria.
Se observa que en casos reales la matriz de enlaces de la web puede ser reducible. Por ello, se explica cómo Brin y Page ajustaron el modelo para garantizar una matriz irreducible y estocástica que permita siempre converger a una solución.
Der GRIN Verlag hat sich seit 1998 auf die Veröffentlichung akademischer eBooks und Bücher spezialisiert. Der GRIN Verlag steht damit als erstes Unternehmen für User Generated Quality Content. Die Verlagsseiten GRIN.com, Hausarbeiten.de und Diplomarbeiten24 bieten für Hochschullehrer, Absolventen und Studenten die ideale Plattform, wissenschaftliche Texte wie Hausarbeiten, Referate, Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Dissertationen und wissenschaftliche Aufsätze einem breiten Publikum zu präsentieren.
Kostenfreie Veröffentlichung: Hausarbeit, Bachelorarbeit, Diplomarbeit, Dissertation, Masterarbeit, Interpretation oder Referat jetzt veröffentlichen!

