
William Charles
0
2970
491
¿Crees en la idea de que una vez que algo se publica en Internet, se publica para siempre? Bueno, hoy vamos a disipar ese mito..
La verdad es que en muchos casos es muy posible erradicar la información de Internet. Claro, hay un registro de páginas web que se han eliminado si busca en Wayback Machine, ¿verdad? Sí, absolutamente En Wayback Machine hay registros de páginas web que se remontan a muchos años, páginas que no encontrará con una búsqueda en Google porque la página web ya no existe. Alguien lo eliminó o el sitio web se cerró.
Entonces, no hay forma de evitarlo, ¿verdad? La información quedará grabada para siempre en la piedra de Internet, ¿allí para que la vean generaciones? Bueno no exactamente.
La verdad es que si bien puede ser difícil o imposible borrar las principales noticias que han proliferado de un sitio web o blog de noticias a otro como un virus, en realidad es bastante fácil erradicar por completo una página web o varias páginas web de todos los registros de existencia: para eliminar esa página tanto para los motores de búsqueda como para la máquina Wayback La nueva máquina Wayback le permite viajar visualmente en el tiempo de Internet La nueva máquina Wayback le permite viajar visualmente en el tiempo de Internet Parece que desde el lanzamiento de la máquina Wayback en 2001, los propietarios del sitio han decidido deshacerse del back-end basado en Alexa y rediseñarlo con su propio código fuente abierto. Después de realizar pruebas con el ... Hay una trampa, por supuesto, pero llegaremos a eso.
3 formas de eliminar páginas de blog de la red
El primer método es el que usa la mayoría de los propietarios de sitios web, porque no conocen mejor, simplemente borrando páginas web. Esto puede suceder porque te has dado cuenta de que tienes contenido duplicado en tu sitio o porque tienes una página que no quieres que aparezca en los resultados de búsqueda.
Simplemente elimine la página
El problema de eliminar por completo las páginas de su sitio web es que, dado que ya ha establecido la página en la red, es probable que haya enlaces desde su propio sitio, así como enlaces externos desde otros sitios a esa página en particular. Cuando lo elimina, Google reconoce de inmediato esa página suya como una página faltante.
Entonces, al eliminar su página, no solo ha creado un problema con “Extraviado” rastrea errores por ti mismo, pero también has creado un problema para cualquiera que alguna vez haya vinculado a la página. Por lo general, los usuarios que acceden a su sitio desde uno de esos enlaces externos verán su página 404, lo cual no es un problema importante, si usa algo como el código 404 personalizado de Google para dar a los usuarios sugerencias o alternativas útiles. Pero, pensaría que podría haber formas más elegantes de eliminar páginas de los resultados de búsqueda sin iniciar todos esos 404 para enlaces entrantes existentes, correcto?
Bueno, hay.
Eliminar una página de los resultados de búsqueda de Google
En primer lugar, debe comprender que si la página web que desea eliminar de los resultados de búsqueda de Google no es una página de su propio sitio, no tendrá suerte a menos que haya razones legales o si el sitio ha publicado su información en línea sin su permiso. Si ese es el caso, utilice el solucionador de problemas de eliminación de Google para enviar una solicitud de eliminación de la página de los resultados de búsqueda. Si tiene un caso válido, es posible que tenga éxito al eliminar la página; por supuesto, podría tener un éxito aún mayor simplemente contactando al propietario del sitio web Cómo eliminar información personal falsa en Internet Cómo eliminar información personal falsa en Internet como yo describió cómo hacerlo en 2009.
Ahora, si la página que desea eliminar de los resultados de búsqueda está en su propio sitio, tiene suerte. Todo lo que necesitas hacer es crear un robots.txt archivo y asegúrese de que no ha permitido la página específica que no desea en los resultados de búsqueda o el directorio completo con el contenido que no desea indexar. Así es como se ve el bloqueo de una sola página.
Agente de usuario: * No permitir: /my-deleted-article-that-i-want-removed.html
Puede impedir que los bots rastreen directorios completos de su sitio de la siguiente manera.
Usuario-agente: * No permitir: / content-about-personal-stuff /
Google tiene una excelente página de soporte que puede ayudarlo a crear un archivo robots.txt si nunca antes ha creado uno. Esto funciona extremadamente bien, como expliqué recientemente en un artículo sobre la estructuración de acuerdos de sindicación Cómo negociar acuerdos de sindicación y proteger sus rankings de búsqueda Cómo negociar acuerdos de sindicación y proteger sus rankings de búsqueda La sindicación está de moda en estos días. ¡Pero de repente podrías encontrar que el socio de sindicación aparece más alto que tú en los resultados de búsqueda de una historia que escribiste originalmente! Protege tus rankings de búsqueda. para que no te hagan daño (pidiendo a los socios de distribución que no permitan la indexación de sus páginas donde estás sindicado). Una vez que mi propio socio de distribución acordó hacer esto, las páginas que contenían contenido duplicado de mi blog desaparecieron por completo de las listas de búsqueda..
Solo el sitio web principal aparece en el tercer lugar de la página donde enumeran nuestro título, pero mi blog ahora aparece en el primer y segundo lugar; algo que habría sido casi imposible si un sitio web de mayor autoridad dejara la página duplicada indexada.
Lo que muchas personas no se dan cuenta es que esto también es posible lograr con Internet Archive (la Wayback Machine). Estas son las líneas que debe agregar a su archivo robots.txt para que esto suceda.
Usuario-agente: ia_archiver No permitir: / sample-category /
En este ejemplo, le digo a Internet Archive que elimine cualquier cosa del subdirectorio de la categoría de muestra en mi sitio de la Máquina Wayback. El archivo de Internet explica cómo hacerlo en su página de ayuda de Exclusion. Aquí también es donde explican que “El Archivo de Internet no está interesado en ofrecer acceso a sitios web u otros documentos de Internet cuyos autores no desean que sus materiales estén en la colección..”
Esto es contrario a la creencia común de que todo lo publicado en Internet se acumula en el archivo por toda la eternidad. No: los webmasters que poseen el contenido pueden eliminar específicamente el contenido del archivo mediante el enfoque de robots.txt.
Eliminar una página individual con metaetiquetas
Si solo tiene unas pocas páginas individuales que desea eliminar de los resultados de la Búsqueda de Google, en realidad no tiene que usar el enfoque de robots.txt, simplemente puede agregar el correcto “robots” metaetiqueta a las páginas individuales y diga a los robots que no indexen o sigan enlaces en toda la página.
Podrías usar el “robots” meta arriba para evitar que los robots indexen la página, o podría decirle específicamente al robot de Google que no indexe para que la página solo se elimine de los resultados de búsqueda de Google, y otros robots de búsqueda aún puedan acceder al contenido de la página.
Depende completamente de usted cómo le gustaría administrar lo que hacen los robots con la página y si la página aparece o no en la lista. Para unas pocas páginas individuales, este puede ser el mejor enfoque. Para eliminar un directorio completo de contenido, vaya con el método robots.txt.
La idea de “Quitando” Contenido
Este tipo de vueltas toda la noción de “eliminar contenido de Internet” En su cabeza. Técnicamente, si elimina todos sus propios enlaces a una página de su sitio, y lo elimina de la Búsqueda de Google y del Archivo de Internet utilizando la técnica robots.txt, la página es para todos los efectos. “eliminado” desde Internet. Sin embargo, lo bueno es que si hay enlaces existentes a la página, esos enlaces seguirán funcionando y no activará errores 404 para esos visitantes.
Es un mas “amable” enfoque para eliminar contenido de Internet sin alterar por completo la popularidad de enlaces existente de su sitio en Internet. Al final, depende de usted cómo gestiona el contenido que los motores de búsqueda recopilan e Internet Archive, pero siempre recuerde que a pesar de lo que la gente diga sobre la vida útil de las cosas que se publican en línea, realmente está bajo su control.