FAQs

¿Exactamente qué datos se muestran?

Por el momento ofrecemos datos básicos de anuncios de apartamentos turísticos (localización, precio, capacidad, id del propietario...). Esperamos poder ofrecer datos también de ocupación en el futuro.

Recogemos y mostramos solo infromación de los anuncios que encontramos en las diferentes plataformas. Un mismo apartamento puede contener varios anuncios (uno por cada habitación, por ejemplo), o puede estar duplicado en la misma plataforma. Hay muchos casos distintos, por lo que decidimos únicamente mostrar información de anuncios encontrados en la web.

Modelo de datos usado en cada archivo.

¿Qué metodología usáis?

Para la recogida de datos se utiliza un sistema de scrapers que automatizan la consulta a las APIs de las plataformas (airbnb, homeaway, housetrip y onlyapartments) y hacen un directorio de todos los anuncios que ha encontrado disponibles (llamemosle index). Este proceso suele durar varios días, dependiendo de la dificultad de la tarea (airbnb unos 3 días, homeaway 1, las otras menos). index contiene principalmente los datos de identificador único del anuncio y url asociada.

Posteriormente index se recorre con otro proceso de scraping y guarda información más detallada en el directorio general de datos (llamemosle warehouse), que contiene todos los anuncios que se han encontrado desde que empezamos (~octubre 2017). Si en este proceso se detecta que el anuncio es nuevo, se creará un elemento nuevo en warehouse, con fecha de creación de ese momento (found). Si por el contrario se detecta que esta anuncio ya existía, actualizamos la fecha de revisión del anuncio (revised) en warehouse. Este proceso suele durar más días (airbnb unos 10 días, homeaway 3, los otros menos). Una vez terminado el proceso se vacía index.

Cada vez que se hace una nueva "batida" warehouse crece, ya que se encuentran nuevos anuncios pero no se borran los no encontrados. Esto genera una base de datos "histórica" e incremental, que es la que se vuelca después en la página web (apartments.csv). Todo el software está desarrollado principalmente con python salvo algunas tareas de más nivel que requieren bash.

Para tratar estos datos hay que tener en cuenta este proceso. Para sacar una "foto" actual, es necesario filtrar los anuncios antiguos y tener en cuenta solo los actuales, y eso se hace eliminando los que tengan una fecha revised antigua.

Para las estadísticas de cada región (geojson.json) se cruza warehouse con una base de datos geográfica elaborada a partir de https://gadm.org/index.html y contribuciones propias. Esta base de datos se puede visualizar en uno de los gráficos de la propia página web.

¿Por qué no sumar los datos de todas las plataformas?

Un apartamento está normalmente en varias plataformas, con los mismos datos o con información diferente. Si sumas los anuncios de diferentes plataformas, probablemente estarás repitiendo muchos apartamentos, y la información estará distorsionada. Por esto mismo ofrecemos los datos en archivos separados.

¿Vais a identificar apartamentos únicos en diferentes plataformas?

Identificar el mismo apartamento en todas las plataformas es un trabajo duro que por el momento no nos hemos planteado realizar.

¿Cómo puedo saber qué anuncios estan publicados actualmente?

Tienes que buscar la fecha más reciente de actualización (campo revised). Verás que corresponden a varios días (no solo uno), y es la última vez que el scraper estuvo activo. Tienes que filtrar los datos y quedarte solo con los anuncios revisados en esas fechas.

¿Cómo puedo saber qué anuncios estaban publicados en una fecha específica?

Para cada anuncio, mostramos dos fechas: La fecha del primer scraping (found) y la fecha del último scraping en el que fue encontrado (campo revised). Con estas fechas es posible determinar qué apartamentos estaban publicados en una fecha concreta. Por ejemplo, para determinar los anuncios activos el 14 de agosto, tenemos que filtrar los anuncios cuya fecha "found" es anterior al 14 de agosto y cuya fecha "revised" es posterior al 14 de agosto.

¿Puedo ver datos de cualquier municipio?

Si, es posible navegar entre regiones. Desde la página de cada país puedes acceder a sus divisiones, desde ellas a sus provincias, y desde estas a sus municipios.

Mira en la parte baja de cada página de regíon, ahí se enlazan las subdivisiones.

¿Qué obtengo si cojo todos los anuncios sin tener en cuenta la fecha?

Todos anuncios visitados desde que DataHippo empezó a funcionar, es decir, se mostrarán anuncios que hemos encontrado en cualquier momento.

¿El ID del propietario es el mismo en todas las plataformas?

El ID del propietario hace referencia al ID que cada plataforma utiliza internamente para identificarlo, por lo que no es el mismo

¿Se puede ver la variación del precio de un anuncio?

No, nosotros no almacenamos la variación de precio, únicamente el precio base del anuncio (que no es el precio final), ya que es un dato difícil de manejar.

Los precios de un mismo alojamiento y para un mismo día pueden variar mucho, ya que la plataforma permite aplicar descuentos por largas estancias, por día de llegada, etc, además de aplicar incrementos en algunos casos (servicios extra que pueda tener el alojamiento p.e.).. Si investigas un poco verás que airbnb tiene una API propia para calcular el precio en función de X parámetros (fechas, número de personas...) que es de ahí de donde deberías tirar (estableciendo los mismos parametros para todos los alojamientos, para que tenga el mismo baremo)..

¿Por qué algunas regiones tienen un nombre erróneo?

Los nombres de las regiones (distritos, municipios, etc) se han obtenido consultando a la API de Google Maps con este script: GoogleMapsAPI_get_region_name.py. Este método no es 100% exacto, y puede producir errores. Si encuentras alguno, por favor háznoslo saber.