You are on page 1of 10

Interpretare i dati sul web nel contesto

turistico: data mining e user generated


content come strumenti di business
intelligence.
Silvia Petruccelli (1544145)
14 giugno 2016
Nel 2012 il sito internet www.flickr.com registrava 3125 nuove foto caricate
al minuto; nello stesso minuto i server dellazienda Google ricevevano 2.000.000
di richieste di ricerca. Nel 2015, pochi anni dopo, il sito Twitter.com riceveva
circa 347.222 nuovi tweet ogni 60 secondi, pi`
u del triplo rispetto ai 100.000 del
2012.
Le piattaforme citate non sono casi isolati, sono esempi di enorme successo
nel campo del web 2.0, un fenomeno il cui tasso di crescita `e comunque in
straordinaria ascesa da anni.[6] [7]
Secondo unanalisi di EMC Corporation, unazienda specializzata nella creazione di strutture per linformation tecnology, limmagazzinamento di dati, la
business intelligence e la visualizzazione di grandi database e IDC (Internet
Data Corporation), un gruppo mondiale che si occupa di analisi di mercato,
consulenza e organizzazione, il web cresce raddoppiando ogni due anni.[11]
La nuova predominanza delle tecnologie della comunicazione pone nuove sfide anche nel campo del turismo. Oltre la principale possibili`a di partecipare
allespansione delluniverso digitale, si pone lalternativa meno esplorata dellanalisi dei flussi, delle caratteristiche e tendenze di questa espansione. La sfida
dei prossimi anni sembra essere lesplorazione delle tecniche di data analysis
e data mining. Tecnologie che permettono di estrarre un valore conoscitivo,
dalla comprensione del comportamento online degli utenti; vale a dire persone,
consumatori. Anche lindustria turistica pu`o trarre vantaggio da questo aggiornamento di prospettive, nellambito dellanalisi del mercato e del marketing. Lo
stesso ministero del turismo italiano ha dichiarato di stare dirigendo i suoi sforzi
ad adottare alcune soluzioni, basate sullapplicazione di big data. Portavoce di
queste idee `e stato il Prof. Euro Beinat, attuale coordiantore del dipartimento
di interoperabilit`
a al laboratorio digitale del turismo del MIBACT. [3] [2] La
popolarit`
a che ha acquisito negli ultimi anni il termine Big Data ha portato
ad una certa confusione riguardo al reale significato, che viene spesso frainteso
o utilizzato in maniera propagandistica. Passa sotto il nome di big data tutto lambito della data science. Questo scritto, tenter`a di prendere in analisi,
in maniera chiara, alcuni elementi di questo campo informatico e cercher`a di
indagare le possibili applicazioni nel mercato turistico, augurabili tanto nella
dimensione pubblica che dellimpresa privata. Ai fini della chiarezza, si dedi-

ca una prima parte della trattazione, allapprofondimento di alcuni termini e


concetti specifici.

Business Intelligence

La business intelligence `e il processo per il quale i dati, informatici, raccolti


allinterno dellazienda, tra la concorrenza o nel mercato, vengono trasformati
in conoscenza utile, la quale viene poi sfruttata per la creazione di piani che
orientano il processo decisionale e lorganizzazione aziendale.
Con il termine business intelligence si pu`o anche indicare la tecnologia utilizzata
per questi processi.
Il fulcro del concetto `e rendere i dati archiviati utili ai fini delleleborazione della
strategia aziendale. [1]

Data Mining

Con data mining si intende lestrazione di informazione utilizzabile e precedentemente sconosciuta da grandi collezioni di dati e lutilizzo di queste per la
configurazione di soluzioni di business[5].
Il fine di queste operazioni `e lidentificazione di pattern, ossia forme di regolarit`a
tra i dati, modelli ricorrenti o anche modelli eccezionali.
I pattern possono essere identificati in base a diversi criteri [9]:
Regole associative - consentono di determinare le regole di logica presenti
nella base dei dati e di individuare gruppi di affinit`a tra oggetti.
Classificatori - consentono di derivare un modello per la classificazione di
dati secondo un insieme di classi assegnate a priori.
Alberi decisionali - sono particolari classificatori che permettono di identificare, in ordine di importanza, le cause che portano al verificarsi di un
evento.
Clustering - raggruppa elementi di uno stesso insieme a seconda di caratteristiche assegnate a priori.
Serie temporali - permettono lindividuazione di pattern ricorrenti o tipici
nelle sequenze di dati complesse.
Attraverso queste modalit`a si ricavano sistemi di predizione e sistemi di
descrizione.
Lattivit`
a di data mining deriva quindi dalla confluenza di diverse discipline
quali linformatica, la statistica, la ricerca operativa, la database technology.

Big Data

Il concetto di big data `e nato da pochi anni a questa parte ed `e ancora in corso
di formazione, questo lo rende soggetto alle instabilit`a e ambiguit`a proprie delle
fasi di sviluppo.

La stessa nascita del termine, la congiunzione delle parole Big (grande) e


Data(dato) `e stata materia di dibattito.

User Generated Content - UGC

Nel primo decennio di questo secolo inizia il progressivo avanzamento dal web
1.0 al web 2.0, che consiste nella nuova possibilit`a di interazione con le pagine
web. La creazione di contenuti `e accessibile ad ogni singolo utente e pu`o essere
istantanea.
Ogni utente partecipa attivamente alla creazione e alla crescita del web;
questi contributi sono definiti user generated content [16].
La portata di questa rivoluzione `e tale da aver richiamato lattenzione dellOCSE (Organizzazione per la cooperazione e lo sviluppo economico) che dedica
un report agli UGC, riconoscendoli in questo modo come elementi di un certo
peso nello sviluppo internazionale [18].
Per essere meglio compresi nelle loro peculiarit`a e quindi nei possibili utilizzi
e scopi, gli UGC possono essere classificati[17]:
Blog- Narrazioni personali arricchite dallaggiunta di vario materiale disponibile sul web, i blog sono tra le forme di UGC pi`
u popolari in assoluto
(WordPress, Blogger, Gblog).
Forum e message-board - questo tipo `e spesso focalizzato su temi specifici o prodotti (automobili, computer o viaggi) ed `e basato sulla collaborazione e interazione di diversi autori di UGC.
Siti di recensioni - veri e propri depositi di opinioni rispetto a determinati
prodotti o servizi. Gli utenti possono inserire la propria valutazione e cercare nel sito i contenuti pubblicati da altri, sono la tipologia pi`
u influente
nella decisione allacquisto, argomento che
verr`
a approfondito in seguito (Tripadvisor, Amazon, Epinions, Yelp).
condivisione di foto e video - permettono agli utentidi condividere online
i propri contenuti e interagire con questi o con quelli caricati da altri. Da
prendere in considerazione, la possibilit`a che alcune di queste piattaforme danno di creare proprie cartelle di preferiti o playlist, utile ai fini di
mappare le preferenze per identificare target di utenti e successivamente elaborare sistemi di raccomandazione, che questo scritto prender`a in
analisi pi`
u avanti (YouTube, Flickr, DailyMotion, GoogleVideo)
Collaborative authoring - permettono di sviluppare contenuti, in genere
specificamente a fini informativi ed educativi, come risultato della collaborazione simultanea o separata di diversi utenti.(Wiki, GoogleDocs)
Social bookmarking o condivisione di segnalibri - Permettono di condividere, raggruppare in insiemi, catalogare o addirittura organizzare in mappe
concettuali siti e altre risorse gi`a presenti online. Questo `e un altro tipo di

UGC che torna utile ai fini dellanalisi delle fasce di utenti e delle relative
preferenze (CiteULike, Delicious, CiteSeerX).
Ci`
o che sembrava solo un piccolo passo avanti della tecnologia si `e rivelato il
trampolino di lancio, del ruolo centrale che internet detiene ad oggi: una nuova
dimensione del mondo reale. La maggior parte delle azioni che compiamo ogni
giorno ha un suo corrispettivo online, gli aspetti economici e sociali delle nostre
vite si sono evoluti fortemente proprio da quando il web `e progredito verso
linterattivit`
a.
Lo sviluppo negli ultimi anni delle tecnologie dellinformazione e della comunicazione ha radicalmente cambiato la maniera in cui i turisti percepiscono
il viaggio e la sua organizzazione. E ormai possibile essere informati in maniera dettagliata e istantanea delle caratteristiche delle varie mete desiderate, e
successivamente ottenere con pochi click un biglietto dandata, un alloggio, una
guida.
Gli ultimi sono proprio gli UGC di cui si `e appena parlato, che sono recepiti dallutente come pi`
u sinceri, non distorti dalla necessit`a di pubblicizzare il
prodotto o il servizio.[10]
Nuove pi`
u recenti risorse, si stanno in questi anni focalizzando sulla possibilit`
a meno nota, di utilizzare i contenuti degli utenti in maniera indiretta,
osservando dallalto i flussi di informazioni e catturandone le direzioni, il volume, le specificit`
a. Lanalisi quantitativa e qualitativa di grandi movimenti di
dati che rispecchiano gusti e inclinazioni dei consumatori, si rivela ora come una
grande opportunita nel mercato generale come in quello turistico.

Applicazioni con utilizzo del geo-tag

Le foto caricate ogni giorno nella rete, sui siti specializzati di condivisione
immagini, posso rivelarsi una risorsa per la statistica.
Attraverso la raccolta delle stesse immagini, e lestrazione dei metadati, `e
possibile rivelare strutture di distribuzione dei punti di interesse ed estrapolare
ancora altri livelli di dati, che possono portare alla formazione di un quadro
interessante per lanalisi del mercato turistico.
In uno studio australiano, condotto nella zona geografica corrispondente allo
Stato del Queensland[12] si `e cercato di identificare i POI (Poins-Of-Interest)
e i relativi schemi (patterns), passando al setaccio le foto geo-referenziate e
incrociando i tag geografici con i metadati relativi alla data e lora dello scatto.
Nel caso australiano, scelto come esempio, gli autori dellesperimento decidono di optare per un algoritmo di clustering. Nellambito della scienza dei
dati, si intende con questo termine, loperazione della suddivisione delle informazioni in gruppi omogenei sulla base della somiglianza o della condivisione di
una determinata caratteristica, o ancora sulla base di altri fattori determinati
dallutente utilizzatore.[8]
Trovare un senso a questi contenuti generati dallutente `e di grande importanza per derivare informazioni sui diversi atteggiamenti di viaggio e la
comprensione dei diversi flussi di mobilit`a che possono interessare una zona.
In questo caso, l algoritmo DBSCAN viene scelto tra gli altri grazie alla
sua efficienza nellindividuare correlazioni geospaziali anche in presenza di rumore/disturbo di fondo, tipico su basi di dati tanto eterogenee e grezze, come
pu`
o essere un sito di photo-hosting.
4

Le coordinate geografiche estratte vengono utilizzate per misurare la densit`a


dei punti, ottenendo con questa base un primo livello di informazioni; mentre
data e ora vengono utilizzate per una seconda categorizzazione.
Utilizzando entrambi i livelli sara possibile interrogare il sistema per ottenere
differenziazioni di categorie, in questo caso la scelta cade su:
Lungo termine contro breve termine
estate contro inverno
alta stagione contro bassa stagione
ore di luce contro ore di buio
giorni feriali contro weekends
Un articolo che riporta un esperimento molto simile `e stato pubblicato nel
2012 dallInternational journal of geographical information science nel 2012[15].
Realizzato da ricercatori cinesi, mette in pratica un progetto molto simile:
utilizzando lo stesso algoritmo DBSCAN e partendo ancora una volta dalle foto
provviste di localizzazione geografica caricate sul sito Flickr, mette a punto un
sistema di raccomandazione e suggerimento di siti di interesse turistico sensibile
al contesto.
In termini pi`
u semplici i luoghi che si configurano per lutente pi`
u desiderabili
dipendono tanto dallargomento, il tema dei suoi interessi, quanto da fattori di
vicinanza fisica, ora del giorno o della notte e tempo atmosferico.
Un esempio banale che permette di capire il concetto `e il sistema di suggerimento del sito Amazon.com basato sullassunto chi ha comprato questo ha
comprato anche questaltro[4].
Ragionamento che si dimostra valido anche nel contesto turistico ma pu`o
essere reso efficiente solo dallaggiunta di ulteriori pi`
u raffinati parametri, come
appunto quello relativo al tempo atmosferico.
I sistemi di raccomandazione sono usati per personalizzare le interazioni
degli utenti con il sito web e possono, generalmente, essere supportate sia configurazioni di linea generale che specifiche per un solo utente. La loro funzione
`e indirizzata a stimolare i gusti personali dellutente e suscitare desidero per
determinate offerte[20].
In un altro studio riguardo lo stesso argomento si cerca di aggirare la complessit`
a e lambiguit`
a di questa fonte incrociandola con i dati provenienti da una
piattaforma pi`
u accurata: wikipedia.[13]
Questa volta lo studio `e italiano e descrive lapplicazione di complessi sistemi
matematici proprio allo scopo di confrontare i risultati ottenuti setacciando i
geo-tag delle fotografie con quelli delle pagine di wikipedia che fornisce per
i luoghi tanto una descrizione testuale quanto precise coordinate geografiche.
Attraverso questa pratica si uniscono facilmente due banche dati gi`a pronte,
evitando quindi la necessit`
a di costruire da zero una catalogazione, operazione
che costerebbe ad un essere umano un dispendio di tempo non indifferente.
I sistemi di raccomandazione pi`
u comuni sono piuttosto semplici e supportano processi non interattivi, vengono invece definite conversational recommender
system le tipologie che riescono ad aggiungere dinamiche di dialogo tra utente e sistema, chiedendo ad esempio di selezionare in maniera diretta le proprie

preferenze o proponendo un set di scelte possibili e analizzando il feedback


dellutilizzatore per future raccomandazioni.
Questultima, basandosi su meccanismi di machine learning, ha la funzione
di suggerire allutente le informazioni appropriate al livello di navigazione in
corso.

Recommender systems

I sistemi di raccomandazione sono usati per personalizzare le interazioni degli


utenti con il sito web e possono, generalmente, essere supportare sia configurazioni di linea generale che specifiche per un solo utente.
Inoltre per la loro ricchezza come depositi di tracce digitali, possono essere
usati come strumenti di business intelligence, per analizzare il comportamento
dei consumatori sul web. La loro funzione `e indirizzata a stimolare i gusti
personali dellutente e suscitare desidero per determinate offerte[20].
Questa volta lo studio `e italiano e descrive lapplicazione di complessi sistemi
matematici, proprio allo scopo di confrontare i risultati ottenuti setacciando i
geo-tag delle fotografie con quelli delle pagine di Wikipedia, che fornisce per i
luoghi, tanto una descrizione testuale quanto precise coordinate geografiche.
Ulteriore tentativo di affinamento delle dinamiche dei sistemi di suggerimento viene sviluppato con unapplicazione dei sistemi di Reinforcement Learning in
un lavoro supportato dal portale del turismo Austriaco[14]. Sperimenta la creazione di un conversational recommender system, sono dette tali le tipologie
che riescono ad aggiungere dinamiche di dialogo tra utente e sistema, chiedendo
ad esempio di selezionare in maniera diretta le proprie preferenze o proponendo
un set di scelte possibili e analizzando il feedback dellutilizzatore per future
raccomandazioni. Questo risultato viene ottenuto utilizzando sinergicamente
un sistema base di informazioni (questa `e la parte non adattativa) e un raccommendation agent (costituente la parte adattativa).
Quest ultimo basandosi su meccanismi di machine learning, ha la funzione di
suggerire allutente le informazioni appropriate al livello di navigazione in corso.

Text Mining

Unulteriore modalit`
a di applicazione delle tecniche di data mining `e quella che
si concentra sulla parte testuale delle pagine web, per questo detta text mining.
I procedimenti di text mining per loro natura sono integrati e imprescindibili
dalla branca informatica del natural lenguage processing (NLP).
Le funzionalit`
a di base di un procedomento di analisi computazionale del
testo (nominazione italiana del NLP) comprendono:
identificazione delle propriet`a di un periodo, come lidentificazione di un
titolo, o delle abbreviazioni.
tokenizzazione, il procedimento atto a isolare ogni elemento del testo a se
stante, ogni parola, la punteggiatura, i simboli.
POS tagging, POS sta per Part Of Speach, vale a dire lassegnazione di
ogni parola alla rispettiva funzione grammaticale nel discorso.

lemmatizzazione, la riduzione di ogni parola alla sua radice eliminando il


suffisso.
parsing, la suddivisione in frasi compiute utilizzando la precedente analisi
grammaticale.
Ovviamente le macchine non sono ancora in grado di comprendere il significato di quello che diciamo e scriviamo ma le loro capacit`a, seppur limitate si
presentano utili nellevenienza di dover manipolare enormi quantit`a di testi.
Una delle modalit`
a di analisi utili al settore turistico `e la sentiment analysis, loperazione finalizzata ad identificare lopinione generale riguardo ad un
prodotto o servizio.
Due esperimenti interessanti che sono stati svolti in questambito vengono
descritti in questo capitolo, il primo attuato in Cina, Nazione che dimostra ancora una volta grande interesse per le applicazioni di tecnologie allavanguardia
nella ricerca web, e un caso di studio sulla citt`a di Barcellona per tornare in
ambito europeo.
Il primo caso di studio[19] parte dai dati di un sito cinese di viaggi che mette
a disposizione per gli utenti la possibilit`a di creare propri blog. Dopo aver notato
che la conformazione dei blog `e sempre basata su un argomento chiave e che i
paragrafi seguenti trattano i sotto argomenti relativi al contenuto centrale, si
decide di procedere identificando le gerarchie dei termini specificamente collegati
al turismo.
Anche in questo caso il meccanismo viene attuato tramite la ricerca di pattern frequenti, operazione che rappresenta il primo passo dellintero processo.
I pattern frequenti dopo essere stati ottenuti e raggruppati, vanno a formare
quello che `e il profilo della citt`a. Il tratti principali del profilo sono quindi i
luoghi pi`
u popolari e le loro correlazioni.
Si procede per questo scopo nella creazione di gerarchie tra parole,determinate
dalla struttura della pagina e dalla collocazione dei termini e delle loro ripetizioni.
Un lavoro pi`
u semplice ma pi`
u mirato `e quello applicato su Barcellona, il cui
scopo `e operare una sentiment analysis alla citt`a. Analizzando pi`
u di 100.000
blog e recensioni di viaggio, riguardanti la citt`a, scritti negli ultimi 10 anni,
in lingua inglese, cattura limmagine di Barcellona trasmessa dai social media. Il tutto considerando anche il particolare aspetto smart city associato alla
destinazione anche dalle istituzioni.
Dopo aver selezionato, scaricato e catalogato gli UGC che si ha intenzione
di utilizzare, si passa alla ricerca nei testi, secondo i passaggi classici del NLP,
che si articolano qui in tre passaggi.
Si configurano le opzioni che guideranno loperazione di parsing, lo si fa
compilando una lista nera di parole che non hanno significato ai fini dellanalisi,
quindi punteggiatura, avverbi, articoli, preposizioni, pronomi e congiunzioni.
Si stilla una lista di parole composte che il computer potr`a cos` identificare.
Ad alcune di queste viene data una priorit`a maggiore rispetto alle altre, come i
nomi dei siti UNESCO, primo fra tutti la Sagrada Familia.
Infine si impostano delle categorie qualitative in cui le parole chiave dovrano
essere inserite dal sistema.
Questo tipo di analisi `e effettuata un maniera opposta allesempio cinese
menzionato poco prima, in quanto questi termini di ricerca sono dati al program-

ma a priori, mentre nellaltro caso i termini ritenuti pi`


u interessanti emergono
dallanalisi di frequenza dal testo stesso.
Uno dei risultati pi`
u intereressanti `e un bassissimo riscontro nellimmagine
percepita dai turisti della tanto propagandata smartness della localit`a.
Diviene quindi chiara lutilit`a di questo tipo di analisi per il controllo delle
problematiche percepite, che spesso disattendono le aspettative o sono del tutto
contrarie alla direzione degli sforzi effettuati.

Riferimenti bibliografici
[1] Business Intelligence:
Strategy srl.

Origini e Definizione - Approfondimenti - B.I.

[2] Quanti turisti ci sono in citt`a? Ce lo rivelano i big data - Repubblica.it.


[3] Speech del Prof Euro Beinat Big Data e Turismo.
[4] Ant
onio Coelho and Andre Rodrigues. Personalized travel suggestions for
tourism websites. International Conference on Intelligent Systems Design
and Applications, ISDA, pages 118123, 2011.
[5] Danilo Montesi. Business Intelligence & Data Warehouse. pages 16, 2015.
[6] Domo. Data Created Every Minute Big Data Infographic Domo
Blog.
[7] Domo. Data Never Sleeps 3.0 Blog.
[8] A.G Fallis. Discovering knowledge in data, volume 53. 2013.
[9] Prof Matteo Golfarelli. Introduzione al Data Mining Modalit`a didattiche e
materiale Perche fare data mining ? 2006.
[10] Ulrike Gretzel and Kyung-Hyan Yoo. Use and impact of online travel
reviews. ResearchGate, (November 2015), 2008.
[11] EMC Digital Universe with Research & Analysis by IDC IDC. Executive
Summary: Data Growth, Business Opportunities, and the IT Imperatives
The Digital Universe of Opportunities: Rich Data and the Increasing
Value of the Internet of Things, 2014.
[12] Ickjai Lee, Guochen Cai, and Kyungmi Lee. Points-of-interest mining
from peoples photo-taking behavior. Proceedings of the Annual Hawaii
International Conference on System Sciences, pages 31293136, 2013.
[13] Claudio Lucchese, Raffaele Perego, Fabrizio Silvestri, Hossein Vahabi, and
Rossano Venturini. How random walks can help tourism. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial
Intelligence and Lecture Notes in Bioinformatics), 7224 LNCS:195206,
2012.
[14] Tariq Mahmood, Francesco Ricci, Adriano Venturini, and Wolfram Hopken.
Adaptive Recommender Systems for Travel Planning. Information and
Communication Technologies in Tourism 2008, pages 111, 2008.
[15] Abdul Majid, Ling Chen, Gencai Chen, Hamid Turab Mirza, Ibrar Hussain,
and John Woodward. A context-aware personalized travel recommendation
system based on geotagged social media data mining. International Journal
of Geographical Information Science, 27(May 2013):123, 2012.
[16] Tat-Seng Chua Marie-Francine Moens, Juanzi Li. Mining User Generated
Content. 2014.
[17] San Murugesan. Handbook of Research on Web 2.0, 3.0, and X.0. 2010.
9

[18] OECD. Participative web and user-created content: Web 2.0, wikis, and
social networking. Paris:. Organisation for Economic Co-operation and
Development., (2006):74, 2007.
[19] Hua Yuan, Hualin Xu, Yu Qian, and Yan Li. Make your travel smarter: Summarizing urban tourism information from massive blog data.
International Journal of Information Management, 2016.
[20] Markus Zanker, Matthias Fuchs, Wolfram Hopken, and Mario Tuta. Evaluating Recommender Systems in Tourism A Case Study from Austria.
Communication, pages 2434, 2008.

10

You might also like