
Brian Curtis
0
2569
424
Artículo actualizado por Joel Lee el 10/10/2017
Para muchos, Google es La Internet. Es el punto de partida para encontrar nuevos sitios, y es posiblemente el invento más importante desde Internet. Sin motores de búsqueda, el contenido web nuevo sería inaccesible para las masas.
¿Pero sabes cómo funcionan los motores de búsqueda?? Cada motor de búsqueda tiene tres funciones principales: rastreo (para descubrir contenido), indexación (para rastrear y almacenar contenido) y recuperación (para obtener contenido relevante cuando los usuarios consultan el motor de búsqueda).
Gateando
El rastreo es donde todo comienza: la adquisición de datos sobre un sitio web.
Esto implica escanear sitios y recopilar detalles sobre cada página: títulos, imágenes, palabras clave, otras páginas vinculadas, etc. Los diferentes rastreadores también pueden buscar diferentes detalles, como diseños de página, dónde se colocan los anuncios, si los enlaces están repletos, etc..
Pero, ¿cómo se rastrea un sitio web?? Un bot automatizado (llamado “araña”) visita página tras página lo más rápido posible, utilizando enlaces de página para encontrar a dónde ir después. Incluso en los primeros días, las arañas de Google podían leer varios cientos de páginas por segundo. Hoy en día está en los miles.
Cuando un rastreador web visita una página, recopila todos los enlaces de la página y los agrega a su lista de páginas siguientes para visitar. Va a la siguiente página de su lista, recoge los enlaces en ese página, y se repite. Los rastreadores web también vuelven a visitar páginas pasadas de vez en cuando para ver si ocurrieron cambios..
Esto significa que cualquier sitio que esté vinculado desde un sitio indexado eventualmente será rastreado. Algunos sitios se rastrean con mayor frecuencia, y otros se rastrean a mayores profundidades, pero a veces un rastreador puede darse por vencido si la jerarquía de páginas de un sitio es demasiado compleja.
Una forma de entender cómo funciona un rastreador web es crear uno usted mismo. Hemos escrito un tutorial sobre cómo crear un rastreador web básico en PHP, así que échale un vistazo si tienes experiencia en programación..
Tenga en cuenta que las páginas se pueden marcar como “noindex,” que es como pedirle a los motores de búsqueda que omitan su indexación. Las partes no indexadas de Internet se conocen como “red profunda” ¿Qué es la web profunda? Es más importante de lo que piensas ¿Qué es la Web profunda? Es más importante de lo que piensas La web profunda y la web oscura suenan aterradoras y nefastas, pero los peligros han sido exagerados. ¡Esto es lo que realmente tienen y cómo puedes acceder a ellos tú mismo! , y algunos sitios, como los alojados en la red TOR, no pueden ser indexados por los motores de búsqueda. (¿Qué es TOR y el enrutamiento de cebolla? ¿Qué es exactamente el enrutamiento de cebolla? sus peores características, dependiendo de a quién le pregunte). Dejando de lado el tipo de problemas que surgen ...)
Indexación
La indexación es cuando los datos de un rastreo se procesan y se colocan en una base de datos.
Imagínese hacer una lista de todos los libros que posee, sus editores, sus autores, sus géneros, sus recuentos de páginas, etc. El rastreo es cuando revisa cada libro mientras que la indexación es cuando los registra en su lista.
Ahora imagine que no es solo una habitación llena de libros, sino todas las bibliotecas del mundo. Esa es una versión a pequeña escala de lo que hace Google, que almacena todos estos datos en vastos centros de datos con miles de petabytes de unidades. Tamaños de memoria explicados: Gigabytes, terabytes y petabytes en contexto. en contexto Es fácil ver que 500 GB es más de 100 GB. Pero, ¿cómo se comparan los diferentes tamaños? ¿Qué es un gigabyte a un terabyte? ¿Dónde encaja un petabyte? Vamos a aclararlo! .
Aquí hay un vistazo dentro de uno de los centros de datos de búsqueda de Google:
Crédito de imagen: Google
Recuperación y Clasificación
La recuperación es cuando el motor de búsqueda procesa su consulta de búsqueda y devuelve las páginas más relevantes que coinciden con su consulta.
La mayoría de los motores de búsqueda se diferencian a través de sus métodos de recuperación: utilizan diferentes criterios para elegir qué páginas se ajustan mejor a lo que desea encontrar. Es por eso que los resultados de búsqueda varían entre Google y Bing, y por qué Wolfram Alpha es tan útil. 10 Usos geniales de Wolfram Alpha si lee y escribe en inglés 10 Usos geniales de Wolfram Alpha si lee y escribe en inglés me da tiempo para comprender Wolfram Alpha y las consultas que utiliza para dar a conocer esos resultados. Tienes que sumergirte profundamente en Wolfram Alpha para realmente explotarlo para ... .
Los algoritmos de clasificación comparan su consulta de búsqueda con miles de millones de páginas para determinar la relevancia de cada uno. Las empresas protegen sus algoritmos de clasificación como secretos industriales patentados debido a su complejidad. Un mejor algoritmo se traduce en una mejor experiencia de búsqueda..
Tampoco quieren que los creadores web jueguen con el sistema y suban injustamente a la cima de los resultados de búsqueda. Si alguna vez surgiera la metodología interna de un motor de búsqueda, todo tipo de personas seguramente explotarían ese conocimiento en detrimento de buscadores como usted y yo..
Crédito de la imagen: photovibes a través de Shutterstock
Explotación de motores de búsqueda es posible, por supuesto, pero ya no es tan fácil.
Originalmente, los motores de búsqueda clasificaban los sitios según la frecuencia con la que aparecían las palabras clave en una página, lo que conducía a “relleno de palabras clave” - llenar páginas con palabras sin sentido.
Luego vino el concepto de la importancia del enlace: los motores de búsqueda valoraron los sitios con muchos enlaces entrantes porque interpretaron la popularidad del sitio como relevante. Pero esto condujo al enlace de spam en toda la web. Hoy en día, los motores de búsqueda ponderan los enlaces dependiendo de “autoridad” del sitio de enlace. Los motores de búsqueda valoran más los enlaces de una agencia gubernamental que los enlaces de un directorio de enlaces.
Hoy, los algoritmos de clasificación están envueltos en más misterio que nunca antes, y “posicionamiento en buscadores” Demystify SEO: 5 guías de optimización de motores de búsqueda que lo ayudan a comenzar Demystify SEO: 5 guías de optimización de motores de búsqueda que lo ayudan a comenzar El dominio de los motores de búsqueda requiere conocimiento, experiencia y mucha prueba y error. Puede comenzar a aprender los fundamentos y evitar errores comunes de SEO fácilmente con la ayuda de muchas guías de SEO disponibles en la Web. no es tan importante Las buenas clasificaciones de los motores de búsqueda ahora provienen de contenido de alta calidad y excelentes experiencias de usuario.
¿Qué sigue para los motores de búsqueda??
Ah, ahora hay una pregunta interesante. La respuesta es “semántica”: la sentido del contenido de la página. Puede obtener más información sobre nuestro marcado semántico y su impacto futuro. Qué es el marcado semántico y cómo cambiará Internet para siempre [Explicación de la tecnología] Qué es el marcado semántico y cómo cambiará Internet para siempre [Explicación de la tecnología] .
Pero aquí está la esencia de esto.
En este momento, puedes buscar “galletas sin gluten” pero los resultados pueden devolver recetas de galletas sin gluten. En cambio, puede encontrar recetas regulares de galletas que dicen “Esta receta no es sin gluten..” Tiene las palabras clave correctas, pero el significado incorrecto..
Con la semántica, puede buscar recetas de galletas y luego eliminar ciertos ingredientes: harina, nueces, etc. También puede reducir los resultados a solo recetas con tiempos de preparación de menos de 30 minutos y revisar puntajes de 4/5 o más. Ese sería genial, ¿verdad? Ahí es a donde nos dirigimos!
¿Todavía confundido sobre cómo funcionan los motores de búsqueda? Vea cómo Google explica el proceso:
Si te pareció interesante, también te gustaría aprender cómo imagen los motores de búsqueda funcionan.
Haber de imagen: prykhodov / Depositphotos