GScraper: scrapear, proxys y footprints

Mi intención con este artículo es dejar clara cualquier duda acerca de los programas de scrapeo, qué son los proxys o footprints y para qué se usa la combinación de los tres juntos, viendo un ejemplo práctico con GScraper.

Puede que para algunos sea un artículo básico, pero a mí me costó mucho entender la mecánica sobre la que iba todo este tema, así que espero poder ayudar a todas esas personas que se encuentran como yo hace un tiempo.

¿Qué es scrapear?

En primer lugar, una palabra fea.

Scrapear significa obtener una lista de un montón de páginas web para conseguir información sobre ellas.

Por ello, muchas veces se realizan búsquedas personalizadas en las que el administrador dice: “bueno, yo quiero que solo me aparezcan webs que incluyan la keyword SEO”, y gracias a un programa consigue una lista de muchas páginas web con esa keyword y, además, con información sobre cada sitio. Interesante, ¿verdad?

Por ejemplo, nos pueden informar sobre el enlace en el que se encuentra la keyword en esa web, el PR, el DA y PA, los backlinks… Todo depende del programa que usemos, que nos dará una información u otra.

Por ejemplo, esto es un scrapeo mediante un programa llamado GScrapper, que lo veremos a continuación:

Web Scrapeada

¿Qué son los proxys?

Se trata de un punto intermedio entre el servidor y el cliente. Si no tienes conocimientos sobre estos temas (como yo) te lo explicaré en palabras vulgares: nos permiten hacen scrapeos sin que Google nos pille. Si no usamos proxys durante el proceso de scrapeo, corremos el riesgo de que Google vea que estamos haciendo una técnica “ilegal” y nos puede penalizar, como ponernos un captcha cada vez que vayamos a realizar una búsqueda en Google (yo lo he sufrido. Luego, si dejas un tiempo de hacer eso, el catpcha se va solo y vuelves a estar como antes).

Por lo tanto, siempre hay que usar proxys mientras scrapeamos.

Hay dos tipos: los públicos y los privados.

Los públicos los encuentras en Internet fácilmente con buscar “public proxys updated” (lista de proxys actualizados) y puedes usar unos cuantos para realizar el scrapeo (mientras más mejor). Eso sí, van a ir regular porque los van a usar todo el mundo. Además, con el paso del tiempo (cuestión de minutos incluso) su rendimiento va empeorando por eso mismo, porque la gente los usa mucho, entonces mientras más nuevos sean, mejor.

Podéis sacarlos de webs como esta o esta, que están constantemente actualizándolos.

Si quieres más profesionalidad y que todo funcione mejor puedes contratar a personas que te den proxys privados, es decir, que solo tú usarás y, por tanto, irán más rápidos y funcionarán mejor. Puedes encontrar a gente que los venda en foros de SEO o en Fiverr.

¿Qué son los footprints?

Y aquí saltamos a algo más normal, sin tanta complicación.

Un footprint es un comando que activa solo páginas web que incluyan las variables que posee. A ver, ya estoy con palabras raras de nuevo (es inevitable, lo siento, alguien lo entenderá a la primera 😀 ). Os pongo un ejemplo. Un footprint puede ser:

inurl:tumblr.com “liked”

Lo que estamos diciéndole a Google es que muestre solo blogs de Tumblr.com (inurl:tumblr.com) y que incluyan la palabra “liked”. Si ponemos “marketing” pues solo nos mostrará blogs de Tumblr que incluyan la palabra marketing. Fácil, ¿verdad?

Para un scrapeo necesitamos especificar qué footprints queremos. Normalmente las páginas web siempre incluyen el típico “Deja tu comentario”, “Dejar comentario”, o en inglés “Leave a comment”, así que si queremos encontrar gran variedad de blogs podemos usar ese footprint.

Hay muchísimos footprints. Puedes ver algunos aquí. De todas formas, cuando veamos GScraper lo veréis más claramente.

¿Para qué se usa el scrapeo?

Normalmente para realizar backlinks masivos hacia las páginas que nos han salido en la lista. El programa hace el envío masivo de enlaces automáticamente, así que solo tienes que sentarte y esperar.

Otros prefieren sacar los mejores sitios manualmente para contactar con el administrador y llegar a acuerdos con intercambios de enlaces o compra de reseñas, realizar comentarios de calidad en noticias dejando un enlace…

En definitiva, todo lo que se te ocurra con una lista gigante de páginas web relacionadas a la tuya.

1. Tutorial GScraper: pestañas básicas

Ya hemos llegado a la parte práctica. Vamos a ver cómo conseguir esa lista de webs que a nosotros nos interesan para dejar backlinks.

1. Ir a la pestaña “Proxys

Si marcamos “Use proxy” podemos usar proxys que hayamos cogido (públicos o privados). Como ya os dije, tened siempre marcada esa opción y no hagáis el scrapeo con vuestra propia IP.

En el cuadro de abajo debemos poner todos los proxys que podamos. Mientras más, mejor. Podemos importar una lista de proxys de un archivo .txt, es decir, colocas en un bloc de notas todos los proxys que hayas encontrado o comprado y mediante la opción de importar subes todos de una vez.

Proxys

2. Pestaña de “Options

En esta pestaña vamos a ver opciones sobre cómo queremos el scrapeo. En la primera pestaña diremos cuántos resultados máximos queremos. Por defecto vienen 500, pero yo lo tengo en 200 porque a veces el programa se cierra por sobrecarga. Si os ocurre solo tenéis que bajar ese número o mejorar los proxys que tenéis.

También podéis decir si queréis encontrar blogs, vídeos, imágenes… Y la antigüedad de los sitios, que por defecto viene “Any time”, es decir, en cualquiera.

El resto lo dejamos igual.

GScraper Options

3. Pestaña “Scrape

Aquí tenemos que incluir datos sobre el scrapeo. En primer lugar los footprints. Como dije lo de los comentarios está en casi todos los sitios, así que conseguirás un número más amplio de sitios. Yo los he incluido con textos tanto en español como en inglés, para así obtener blogs de ambos idiomas. Por ejemplo, un footprint “Leave a reply” y otro “Deja tu comentario”.

Las keywords son las palabras clave que queremos que incluyan los blogs que nos muestren. Si yo quiero noticias para Campamento Web, puedo poner las keywords de SEO, marketing online, marketing, backlinks… Hay gente que incluye hasta 500 keywords, así que no te cortes y usa todas las que puedas, ya que así tendrás más resultados.

Scrape

En el botón que hay abajo le damos a “Start scrape” y empezará con su trabajo.

2. Consiguiendo páginas similares de autoridad

Veremos que los blogs mostrados no muestran apenas información. Para que nos muestren el PR (Page Rank) tenemos que ir a un menú que hay abajo de las URLs mostradas, y seleccionamos en la cuarta pestaña “Check Google page rank” y, finalmente, hacemos clic en “Do”.

Podemos ver más información, pero por el momento el PR nos será suficiente para encontrar blogs de autoridad.

Check PR

A continuación, cuando se haya mostrado el PR de las URLs tienes que ir a la pestaña de “Filter“. Allí puedes filtrar los resultados. Por ejemplo, como en la imagen, que se eliminen todos los sitios que tengan un PR menor que 3, para quedarnos solo con aquellos sitios que tienen mediana y alta autoridad.

Filter

Como podemos ver, ahora la lista está limpia con sitios que tienen 3 o más PR. Si quieres ir más allá, puedes ver ahora las webs con más backlinks, con mejor posición en Alexa, o cualquier otro dato que te parezca interesante.  Incluso podemos eliminar aquellos enlaces que provengan del mismo sitio web (con la opción “Remove duplicate domain”, para dominios duplicados, o “Remove duplicate URL”, para enlaces duplicados completamente).

Page Rank

Con esta lista de blogs relacionados al nuestro podemos hacer muchas cosas: ir uno por uno colocando un comentario con publicidad, contactar con administradores para comprar reseñas en los sitios que más te gusten, llegar a un acuerdo para un intercambio de enlaces…

O si no, también puedes hacer miles de backlinks automáticos, que te pueden servir para los Tiers. No hagas nunca backlinks masivos hacia el sitio principal, porque serás penalizado por Google.

3. Realizar backlinks masivos

Ahora vamos a aprender una técnica muy usada en el Black Hat: enviar miles de backlinks a un sitio web. Se harán mediante comentarios que incluirán un enlace a nuestro sitio (hacia un Tier, no a la página web principal) y se publicarán automáticamente en todos los sitios que hemos conseguido en nuestra lista.

Ojo, si eres nuevo, recuerda que enviar backlinks masivos hará que tu web sea penalizada al cabo de poco tiempo por Google. Esto se usa para Tiers, no para el sitio principal.

Para llevarlo a cabo vamos a la pestaña “Post“.

Post

En “Email” tenemos que poner el correo mediante el cual se realizarán los comentarios en todos los sitios web que incluirán un enlace. Podemos poner varios para que se vayan alternando de la siguiente forma {micorreo|otrocorreo|tercercorreo}@gmail.com, y se irán intercambiando aleatoriamente entre “micorreo@gmail.com”, “otrocorreo@gmail.com” y “tercercorreo@gmail.com”. Es decir, lo que está en los corchetes se va alternando al azar.

En “Site and keywords” debemos darle a “I” y añadir un bloc de notas (.txt) que incluya, en primer lugar, el enlace de la web a la que vamos a enviarle los backlinks, y en corchetes nuestro nombre, que será el nombre de usuario que se mostrará en los comentarios. Por ejemplo, yo podría hacer un .txt con este contenido:

http://campamentoweb.com{Emilio}

En “Contents” tenemos que hacer lo mismo, le damos a “I” e importamos el contenido del comentario en un bloc de notas (.txt). Como este comentario se va a publicar en cualquier sitio de nuestra lista, tenemos que intentar que parezca natural y se acomode a cualquier tipo de artículo. Si una persona habla sobre patos y comentas: “Gracias por publicar sobre esta colonia”, el administrador no aceptará tu comentario. Si hablas de forma más genérica, por ejemplo: “Muy interesante lo que comentas en el artículo, he descubierto el blog y estoy encontrando muchísimo contenido de calidad. ¡Saludos y gracias!”, conseguirás que te aprueben más veces los comentarios.

“Stop posts when auto approved” nos permite establecer un límite. Por ejemplo, cuando nos hayan publicado mil comentarios (por lo tanto, mil backlinks). Para eso solo tenemos que cambiar la cifra por “1.000”, y dejarán de enviarse comentarios cuando se supere dicho valor.

Finalmente, le damos al botón de “Start Post” y el programa comenzará a trabajar.

Descargar GScraper gratis

El programa cuesta 68$ (49€) pero en Campamento Web te lo damos completamente gratis. Eso sí, para seguir guardando cierta exclusividad (y recompensar el esfuerzo de este artículo) tan solo pido una acción social en cualquiera de las tres redes sociales más conocidas.

Un clic a cambio de un programa valorado en 68$. Un buen trato, ¿verdad?

52 comentarios
  1. 24 Junio, 2014
    • 25 Junio, 2014
  2. 26 Junio, 2014
    • 26 Junio, 2014
  3. 30 Junio, 2014
    • 30 Junio, 2014
  4. 1 Julio, 2014
    • 2 Julio, 2014
  5. 26 Julio, 2014
    • 26 Julio, 2014
  6. 5 Agosto, 2014
    • 5 Agosto, 2014
  7. 12 Agosto, 2014
    • 12 Agosto, 2014
      • 13 Agosto, 2014
        • 17 Agosto, 2014
      • 13 Agosto, 2014
        • 17 Agosto, 2014
  8. 5 Septiembre, 2014
  9. 6 Septiembre, 2014
    • 7 Septiembre, 2014
  10. 8 Septiembre, 2014
    • 9 Septiembre, 2014
  11. 27 Septiembre, 2014
    • 27 Septiembre, 2014
  12. 8 Octubre, 2014
    • 8 Octubre, 2014
  13. 27 Octubre, 2014
    • 27 Octubre, 2014
  14. 1 Diciembre, 2014
    • 1 Diciembre, 2014
  15. 2 Diciembre, 2014
    • 2 Diciembre, 2014
    • 15 Febrero, 2015
  16. 20 Diciembre, 2014
    • 20 Diciembre, 2014
  17. 2 Enero, 2015
    • 4 Enero, 2015
  18. 20 Abril, 2015
    • 20 Abril, 2015
  19. 26 Junio, 2015
    • 28 Junio, 2015
  20. 13 Julio, 2015
    • 13 Julio, 2015
  21. 24 Octubre, 2015
    • 26 Octubre, 2015
  22. 19 Noviembre, 2015
    • 20 Noviembre, 2015
  23. 18 Enero, 2016
    • 20 Enero, 2016
  24. 5 Septiembre, 2016

Responder a Galidor Cancelar respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *