Web crawling, data scraping y automatización

El poder de los datos



¿Qué es web scraping?

El web scraping es una técnica que consiste en extraer datos de cualquier página de internet de forma automatizada. Es decir, convertimos en una base de datos estructurada la información que podemos encontrar publicada en una web. La traducción literal de data scraping en español sería raspado de datos.

Imaginemos, por ejemplo, que queremos descargar todos los resultados de competiciones deportivas del último fin de semana. Hacerlo de forma manual sería un trabajo titánico. Con web scraping programamos un bot crawler que entra en la web, hace raspado de resultados, y los copia directamente a una base de datos.

Copiar datos de una página web y convertirlos a excel de forma manual se consideraría extracción de datos. Si automatizamos este trabajo recurriendo a bots o robots estaremos hablando de web scraping.

El uso del scraping, a pesar de ser una técnica desconocida para muchas empresas, es mucho más habitual de lo que se pueda pensar. Algunos autores hablan de que más del 45% del tráfico de la red está realizado por robots y no por humanos.

Data scraping vs web crawling

El scraping y el crawling no son lo mismo. Aun así solemos utilizar estos términos de forma indiscriminada porque la mayoría de los usuarios conocen la técnica por el término scraping, aunque lo que realmente necesitan es web crawling.

Un crawler, o araña, se arrastra por las diferentes páginas webs imitando el comportamiento humano. Lo vemos más fácil con un ejemplo. Pongamos que tenemos un hotel y queremos saber el precio de la competencia en booking. Para ello programaremos un crawler que:

​ 1.-Entrará en la página principal de booking

​ 2.-Realizará una búsqueda por ciudad, fechas, número de personas a alojarse, etc.

​ 3.-Obtendrá como resultado una lista de hoteles

​ 4.-Copiará la URL de cada página de hotel en la plataforma

​ 5.-Entrará en cada página y descargará los datos que necesitemos (precio, rating, disponibilidad, etc)

​ 6.-Repetirá todo el proceso con todas las búsquedas que necesitemos realizar para los diferentes escenarios

​ 7.-Nos devolverá una base de datos estructurada con los resultados

De todo el proceso que ha realizado nuestro crawler, solo la parte referida a la descarga de la información se consideraría data scraping. El resto se denomina web crawling. De todos modos, en nuestro blog, utilizamos ambos términos de forma indiscriminada como hemos comentado anteriormente.

Ventajas de utilizar web crawling y data scraping

Con web crawling y data scraping los procesos de encontrar y recabar información se automatizan, con ello conseguimos:

​ -Disminuir carga de trabajo.

​ -Abaratar costes de personal.

​ -Aumentar la velocidad de los procesos.

​ -Eliminar el error humano.

​ -Manejar grandes cantidades de datos.

​ -Conseguir los datos en formatos procesables.

Para qué se utiliza el web scraping o crawling

En muchas empresas, todavía hoy en día, se realizan extracciones de datos de forma manual a pesar de los costes de personal que esto supone, pero cada vez son más las que se están adaptando a estas tecnologías a medida que aumenta la conciencia sobre la importancia de la automatización de procesos y el gran ahorro de costes que se consiguen.

Además la popularidad del scraping está aumentando al mismo ritmo que las tendencias en business intelligence, big data y análisis e interpretación de datos en general. En el momento en que los empresarios entienden la importancia de los datos buscan la mejor forma de obtenerlos.

Internet está lleno de información muy valiosa pero totalmente desordenada. Si queremos sacar provecho de esta información necesitamos dominar las búsquedas y dedicar muchas horas a extraerla y ordenarla. Lo que conseguimos con el web scraping es extraer esta información y mostrarla de forma estructurada para poder aprovecharla.

Estas son algunas de las aplicaciones empresariales más habituales y con ejemplos de los casos de uso que más nos solicitan nuestros clientes.

Obtención de precios y análisis general de la competencia

Un ejemplo podría ser el que hemos citado anteriormente con booking. A los resultados de booking podemos añadir los de airbnb y otros portales para combinarlos todos y obtener una visión real de la competencia en cada momento.

Las grandes agencias inmobiliarias también realizan web scraping de portales de viviendas como idealista tanto para conocer la oferta como para analizar precios de venta óptimos para una zona determinada.

En este apartado de competencia también es muy habitual que nos soliciten scraping de amazon, aliexpress, ebay…

Son también muchas las empresas que scrapean directamente los precios de proveedores para realizar las compras en el momento con precios más óptimos consiguiendo así un aumento sustancial de los beneficios.

Las grandes empresas suelen monitorizar en tiempo real las webs de su competencia; precios con formularios complejos (como en el sector asegurador), nuevas vacantes de empleo, nuevos productos o servicios ofertados, etc.

Generación de leads

La generación de leads para prospectar nuevos clientes mediante web scraping es otro de los usos extendidos aunque con la RGPD para la protección de las personas físicas en relación con el tratamiento de datos personales se han tenido que modificar mucho los procesos para mantenerlos en la legalidad.

Sector de los recursos humanos

En el sector de los recursos humanos se monitorea tanto la oferta como la demanda. Las agencias de RRHH realizan scraping de perfiles de trabajo públicos y los usuarios monitorizan las ofertas de empleo.

Mercados de segunda mano

El mercado de productos de segunda mano, en pleno crecimiento, es otra de las aplicaciones que nos demandan habitualmente. En este artículo explicamos un caso de uso de un concesionario de vehículos de ocasión.. Todo el contenido es aplicable al sector de la compra venta de segunda mano en general.

Protección de marca y producto

Una aplicación más desconocida del data crawling es el seguimiento de marcas y productos como, por ejemplo, el seguimiento de nuestros productos a través de todos los canales (sobre todo de distribuidores) para comprobar que se cumplen las normativas que hemos establecido, el seguimiento de marcas y productos con copyrigth para detectar imitaciones, supervisión de cumplimiento de map, etc.

Agregadores de contenido

Todos los agregadores de contenido están basados en crawlers. Los propios medios de comunicación utilizan crawlers para ver qué publican otros medios y no perderse ninguna novedad.

Otro caso que funciona como agregador de contenido son los comparadores de precios, buscadores de vuelos, y demás plataformas de afiliación sobradamente conocidas.

Recopilación de datos para Big Data, Machine Learning (ML) y Artificial Intelligence (AI)

Todas las tecnologías basadas en datos necesitan estar constantemente abastecidas de datos frescos y fiables; la automatización de la obtención es la única forma viable de obtenerlos.

Rastreo de mercados bursátiles y financieros

El trading y las inversiones en mercados financieros requieren de un gran volumen de datos para operar con criterio de forma eficiente. Trabajamos para grandes brokers programando de herramientas que les permiten recopilar información fiable, organizarla e interpretarla. Quizá te interese nuestro artículo sobre las ventajas dels craping para el trading.

Alertas de patentes sectoriales

Monitorización y alertas de nuevas patentes relativas a cada sector de investigación y desarrollo para estar al día de los avances de la competencia y de las innovaciones que puedan sernos de utilidad.

Documentación para aplicaciones académicas y científicas

Automatización de todo el proceso de documentación y toma de datos para diferentes vertientes de estudio.

Extracciones de información en publicaciones en formato pdf

No solo las webs son scrapeables. Podemos hacer scraping de información contenida en archivos con formato pdf como por ejemplo el BOE, sentencias, y demás documentos oficiales.

Dark weeb scraping

Aunque no es un uso tan habitual, por desconocimiento, también en la dark web podemos hacer correr nuestros crawlers o arañas. Los que más utilizan esta aplicación son las fuerzas de seguridad e inteligencia para detectar infracciones de la ley y anticiparse a amenazas y ataques. Un uso empresarial del scraping en la dark web es la detección de ataques cibernéticos, el tráfico de falsificaciones, redes de piratería, amenazas de seguridad, etc.

Estas aplicaciones son solo la punta del iceberg y las más conocidas por los usuarios. Personas y empresas utilizan todo tipo de aplicaciones de rastreo web. Se puede crear un bot para casi cualquier cosa que pueda hacer de forma manual un humano frente a un navegador. Desde Datstrats diseñamos específicamente cada web scraper a medida de las necesidades de nuestros clientes y para cada página web objetivo.

CONCLUSIONES:

El web scraping y web crawling son técnicas mediante las cuales rastreamos la web y creamos bases de datos estructuradas y aprovechables.

Aunque crawling y scraping no son exactamente lo mismo se suelen utilizar de forma indiscriminada.

Existen múltiples aplicaciones empresariales para el data scraping.

Todo lo que un humano puede hacer en una página web puede programarse para que lo haga un robot.

La información es el producto más valioso del mundo, el oro del siglo XXI y, con nuestra ayuda, internet en su totalidad puede convertirse en la base de datos de tu negocio.

Related posts




Nuestra web utiliza cookies propias y de terceros para recabar información sobre la utilización del mismo y mejorar nuestros servicios.
Puedes cambiar la configuración, conocer cómo deshabilitarlas u obtener más información leyendo nuestra Política de cookies.