Puesta al día
Aug. 27, 2018, 4:57 p.m.Después de un pequeño parón en el desarrollo de la web (no en el scrapeo), vamos a retomar el proyecto, ahora que empieza a coger más fuerza. Por hacer un pequeño repaso a todo lo que llevamos y responder algunas preguntas que nos han ido planteando por email, vamos a ver el recorrido que llevamos:
El proyecto comenzó en julio de 2017, en el Summerlab'17, donde nos encontramos unos cuantos actores y nos dimos cuenta de la acuciante necesidad de elaborar una base común de datos de diferentes plataformas, con el fin de que otros actores, como investigadores y periodistas, pudiesen trabajar con mejor información. Aunque existían otros proyectos con esta finalidad, como el archiconocido insideairbnb, los datos para España eran muy puntuales, recogiendo solo las grandes ciudades como Barcelona, Madrid, Málaga y Mallorca, y veíamos la necesidad de ofrecer datos de forma gratuita en todo el territorio, segmentándolos además por provincias, comunidades, municipios y barrios.
El proyecto nació y sigue siendo autofinanciado, pagando nosotros de nuestro bolsillo los servidores con los que hacemos funcionar toda la maquinaria. Detrás de él estamos un pequeño grupo de personas que dedicamos el poco tiempo libre que tenemos a mejorarlo y hacerlo más útil para el resto de la sociedad. Como todos tenemos nuestros proyectos -con los que podemos comer- y que nos consumen la mayor parte de nuestro día a día, este proyecto ha ido automatizándose poco a poco desde el principio (menos el twitter, que está un pelín abandonado).
Una vez planteadas las bases de esta historia, nos pusimos a desarrollarla, y en octubre de 2017 ya empezamos a recoger datos de 4 plataformas: airbnb, homeaway, housetrip y niumba. Los siguientes meses estuvimos trabajando sin hacer mucho ruido, desarrollando tanto los scrapers como la propia web.
Para la página web no tuvimos grandes problemas más allá de elaborar un sistema que, con pocos recursos, pudiese ofrecer datos para todas las regiones, de una forma lo más desacoplada posible de la base de datos, a fin de aligerar la carga del server y protegernos de posibles ataques. Si bien es cierto que quedan muchas mejoras por hacer, hemos conseguido una estructura que "tira" más de los recursos del cliente -es decir, tú- que del propio server -nosotros. Es por esto que a veces algunas operaciones, como mostrar gráficos y tablas, pueden ir un poco lentas, pero nos sirven para funcionar con los mínimos recursos posibles.
Para los scrapers es otra historia. Aparte de las diversas dificultades que entraña la tarea en si, con el paso de los meses las plataformas nos han ido poniendo más trabas -en especial airbnb-, que requerían implementar nuevas funcionalidades a los "bichos" cada poco tiempo. Éste es el motivo por el que no compartimos el código ni las técnicas que hacemos servir en los scrapers, ya que nos dificultaría aún más la tarea si cayesen en las manos equivocadas. Aunque ninguno nos ha contactado directamente, tenemos conocimiento de que diversos técnicos y responsables de plataformas de alquiler turístico están pendientes de lo que hacemos. No obstante, hemos realizado algunos talleres de scraping para no iniciados, con el ánimo de que dicho conocimiento también se comparta.
En todo este tiempo nos han ido contactando diversos investigadores y medios de comunicación, así como particulares, a los que hemos intentado ofrecer toda la información que tenemos disponible. Todas las dudas las tenemos apuntadas y las iremos volcando en el FAQ. Vamos a hacer también un recopilatorio de menciones en prensa y otros lares, con posibles comentarios sobre el uso más o menos acertado de los datos, para así poder explicar bien los pormenores de toda esta información.
Tenemos en mente algunas mejoras más, además de terminar de desarrollar la API pública que planteábamos inicialmente, pero ya las iremos presentando cuando estén listas. Hasta entonces, gracias a todos los que nos habéis apoyado y gracias también a todos los que habéis hecho útil nuestra labor publicando datos, analizándolos o visualizándolos.
¡Feliz scraping!