Web crawling, data scraping y automatización

El poder de los datos

Datos alternativos: qué son y dos cosas que debes de tener en cuenta antes de utilizarlos

Los datos alternativos o alternative data, son datos no tradicionales que los inversores utilizan cada vez más para encontrar nuevas fuentes de alfa. Por norma general no son tan accesibles y los encontramos mucho más desestructurados que los data sets tradicionales.

Las hedge funds (fondos de cobertura), bancos de inversión y las private equity firms (empresas de capital de inversión privado) están aumentando su enfoque en el uso de fuentes de datos alternativos para maximizar los retornos y detectar riesgos imprevistos. Como toda tendencia basada en el análisis de datos, y en un mercado con grandes profesionales consolidados en el análisis de lo mismos, el crecimiento está siendo exponencial.

Aun así, las firmas de tamaño más reducido, aunque disponen de científicos de datos o data science para el análisis y la predicción, ven una gran barrera de entrada en la tecnología para la consecución de estos datos; compran datos alternativos a fuentes conocidas por todo el sector pero no tienen capacidad para ejecutar por sí mismos la tarea de creación de fuentes propias que es la que proporciona una verdadera ventaja competitiva.

Fiabilidad de los datos

En este caso concreto de análisis de datos la fiabilidad del conjunto de datos sobre la que trabajan los científicos es más importante, si cabe, que en las otras aplicaciones, ya que disponer de una fuente fiable de información es crucial cuando de las decisiones extraídas dependen grandes cantidades de dinero.

Cualquier corrupción en la fuente de datos podría llevar a tomar decisiones de inversión erróneas. Es por eso que es muy importante contar con profesionales en extracción de datos que sepan identificar y sortear las trampas antiscraping más habituales. Hablamos de trampas que podemos encontrar en innumerables webs diseñadas para proteger los datos, muchas relacionadas con detectar bots i mostrar información falsa.

Resulta de gran importancia implementar un proceso de control de calidad automático que sea capaz de detectar cada problema que pueda surgir.

Los datos de baja calidad suponen un problema real; pueden conducir a toma de decisiones erróneas y pueden suponerles un coste de tiempo a los responsables de la toma de decisiones por la necesidad de verificar la precisión de los data sets.

Legalidad y uso de información privilegiada

Aunque la mayoría de los inversores ya buscan datos alternativos para nutrir sus fuentes, son muchos los que están preocupados por la legalidad en lo referente a la extracción de datos de terceros.

Otro tema referente a la legalidad que preocupa a los inversores es el posible uso de información privilegiada. Desde nuestro punto de vista, y sin que esto suponga un consejo legal de ningún modo, entendemos que la información que aparece de forma visible y accesible en cualquier sitio web puede utilizarse sin que esto suponga información privilegiada, ya que todos los agentes pueden tener acceso a ella.

Un proveedor de datos serio y con experiencia puede garantizar la legalidad en la extracción de datos, para ello desde datstrats analizamos cada caso concreto y buscamos las mejores técnicas que garanticen la legalidad.

Conclusiones

Utilizar fuentes de datos alternativas propias y exclusivas que no se han comercializado anteriormente confiere una gran ventaja informativa y competitiva a los fondos de inversión.

Hay una inmensa cantidad de datos en internet de la que pueden aprovecharse los fondos de inversión para crear sus propios datos alternativos exclusivos.

Para obtener datos alternativos con bots scrapers i crawlers es imprescidible contar con ingenieros experimentados que garanticen la calidad de los datos obtenidos y la legalidad de los procesos.

Related posts






Nuestra web utiliza cookies propias y de terceros para recabar información sobre la utilización del mismo y mejorar nuestros servicios.
Puedes cambiar la configuración, conocer cómo deshabilitarlas u obtener más información leyendo nuestra Política de cookies.