Professional Documents
Culture Documents
Business Intelligence
Data Mining
Con data mining si intende lestrazione di informazione utilizzabile e precedentemente sconosciuta da grandi collezioni di dati e lutilizzo di queste per la
configurazione di soluzioni di business[5].
Il fine di queste operazioni `e lidentificazione di pattern, ossia forme di regolarit`a
tra i dati, modelli ricorrenti o anche modelli eccezionali.
I pattern possono essere identificati in base a diversi criteri [9]:
Regole associative - consentono di determinare le regole di logica presenti
nella base dei dati e di individuare gruppi di affinit`a tra oggetti.
Classificatori - consentono di derivare un modello per la classificazione di
dati secondo un insieme di classi assegnate a priori.
Alberi decisionali - sono particolari classificatori che permettono di identificare, in ordine di importanza, le cause che portano al verificarsi di un
evento.
Clustering - raggruppa elementi di uno stesso insieme a seconda di caratteristiche assegnate a priori.
Serie temporali - permettono lindividuazione di pattern ricorrenti o tipici
nelle sequenze di dati complesse.
Attraverso queste modalit`a si ricavano sistemi di predizione e sistemi di
descrizione.
Lattivit`
a di data mining deriva quindi dalla confluenza di diverse discipline
quali linformatica, la statistica, la ricerca operativa, la database technology.
Big Data
Il concetto di big data `e nato da pochi anni a questa parte ed `e ancora in corso
di formazione, questo lo rende soggetto alle instabilit`a e ambiguit`a proprie delle
fasi di sviluppo.
Nel primo decennio di questo secolo inizia il progressivo avanzamento dal web
1.0 al web 2.0, che consiste nella nuova possibilit`a di interazione con le pagine
web. La creazione di contenuti `e accessibile ad ogni singolo utente e pu`o essere
istantanea.
Ogni utente partecipa attivamente alla creazione e alla crescita del web;
questi contributi sono definiti user generated content [16].
La portata di questa rivoluzione `e tale da aver richiamato lattenzione dellOCSE (Organizzazione per la cooperazione e lo sviluppo economico) che dedica
un report agli UGC, riconoscendoli in questo modo come elementi di un certo
peso nello sviluppo internazionale [18].
Per essere meglio compresi nelle loro peculiarit`a e quindi nei possibili utilizzi
e scopi, gli UGC possono essere classificati[17]:
Blog- Narrazioni personali arricchite dallaggiunta di vario materiale disponibile sul web, i blog sono tra le forme di UGC pi`
u popolari in assoluto
(WordPress, Blogger, Gblog).
Forum e message-board - questo tipo `e spesso focalizzato su temi specifici o prodotti (automobili, computer o viaggi) ed `e basato sulla collaborazione e interazione di diversi autori di UGC.
Siti di recensioni - veri e propri depositi di opinioni rispetto a determinati
prodotti o servizi. Gli utenti possono inserire la propria valutazione e cercare nel sito i contenuti pubblicati da altri, sono la tipologia pi`
u influente
nella decisione allacquisto, argomento che
verr`
a approfondito in seguito (Tripadvisor, Amazon, Epinions, Yelp).
condivisione di foto e video - permettono agli utentidi condividere online
i propri contenuti e interagire con questi o con quelli caricati da altri. Da
prendere in considerazione, la possibilit`a che alcune di queste piattaforme danno di creare proprie cartelle di preferiti o playlist, utile ai fini di
mappare le preferenze per identificare target di utenti e successivamente elaborare sistemi di raccomandazione, che questo scritto prender`a in
analisi pi`
u avanti (YouTube, Flickr, DailyMotion, GoogleVideo)
Collaborative authoring - permettono di sviluppare contenuti, in genere
specificamente a fini informativi ed educativi, come risultato della collaborazione simultanea o separata di diversi utenti.(Wiki, GoogleDocs)
Social bookmarking o condivisione di segnalibri - Permettono di condividere, raggruppare in insiemi, catalogare o addirittura organizzare in mappe
concettuali siti e altre risorse gi`a presenti online. Questo `e un altro tipo di
UGC che torna utile ai fini dellanalisi delle fasce di utenti e delle relative
preferenze (CiteULike, Delicious, CiteSeerX).
Ci`
o che sembrava solo un piccolo passo avanti della tecnologia si `e rivelato il
trampolino di lancio, del ruolo centrale che internet detiene ad oggi: una nuova
dimensione del mondo reale. La maggior parte delle azioni che compiamo ogni
giorno ha un suo corrispettivo online, gli aspetti economici e sociali delle nostre
vite si sono evoluti fortemente proprio da quando il web `e progredito verso
linterattivit`
a.
Lo sviluppo negli ultimi anni delle tecnologie dellinformazione e della comunicazione ha radicalmente cambiato la maniera in cui i turisti percepiscono
il viaggio e la sua organizzazione. E ormai possibile essere informati in maniera dettagliata e istantanea delle caratteristiche delle varie mete desiderate, e
successivamente ottenere con pochi click un biglietto dandata, un alloggio, una
guida.
Gli ultimi sono proprio gli UGC di cui si `e appena parlato, che sono recepiti dallutente come pi`
u sinceri, non distorti dalla necessit`a di pubblicizzare il
prodotto o il servizio.[10]
Nuove pi`
u recenti risorse, si stanno in questi anni focalizzando sulla possibilit`
a meno nota, di utilizzare i contenuti degli utenti in maniera indiretta,
osservando dallalto i flussi di informazioni e catturandone le direzioni, il volume, le specificit`
a. Lanalisi quantitativa e qualitativa di grandi movimenti di
dati che rispecchiano gusti e inclinazioni dei consumatori, si rivela ora come una
grande opportunita nel mercato generale come in quello turistico.
Le foto caricate ogni giorno nella rete, sui siti specializzati di condivisione
immagini, posso rivelarsi una risorsa per la statistica.
Attraverso la raccolta delle stesse immagini, e lestrazione dei metadati, `e
possibile rivelare strutture di distribuzione dei punti di interesse ed estrapolare
ancora altri livelli di dati, che possono portare alla formazione di un quadro
interessante per lanalisi del mercato turistico.
In uno studio australiano, condotto nella zona geografica corrispondente allo
Stato del Queensland[12] si `e cercato di identificare i POI (Poins-Of-Interest)
e i relativi schemi (patterns), passando al setaccio le foto geo-referenziate e
incrociando i tag geografici con i metadati relativi alla data e lora dello scatto.
Nel caso australiano, scelto come esempio, gli autori dellesperimento decidono di optare per un algoritmo di clustering. Nellambito della scienza dei
dati, si intende con questo termine, loperazione della suddivisione delle informazioni in gruppi omogenei sulla base della somiglianza o della condivisione di
una determinata caratteristica, o ancora sulla base di altri fattori determinati
dallutente utilizzatore.[8]
Trovare un senso a questi contenuti generati dallutente `e di grande importanza per derivare informazioni sui diversi atteggiamenti di viaggio e la
comprensione dei diversi flussi di mobilit`a che possono interessare una zona.
In questo caso, l algoritmo DBSCAN viene scelto tra gli altri grazie alla
sua efficienza nellindividuare correlazioni geospaziali anche in presenza di rumore/disturbo di fondo, tipico su basi di dati tanto eterogenee e grezze, come
pu`
o essere un sito di photo-hosting.
4
Recommender systems
Text Mining
Unulteriore modalit`
a di applicazione delle tecniche di data mining `e quella che
si concentra sulla parte testuale delle pagine web, per questo detta text mining.
I procedimenti di text mining per loro natura sono integrati e imprescindibili
dalla branca informatica del natural lenguage processing (NLP).
Le funzionalit`
a di base di un procedomento di analisi computazionale del
testo (nominazione italiana del NLP) comprendono:
identificazione delle propriet`a di un periodo, come lidentificazione di un
titolo, o delle abbreviazioni.
tokenizzazione, il procedimento atto a isolare ogni elemento del testo a se
stante, ogni parola, la punteggiatura, i simboli.
POS tagging, POS sta per Part Of Speach, vale a dire lassegnazione di
ogni parola alla rispettiva funzione grammaticale nel discorso.
Riferimenti bibliografici
[1] Business Intelligence:
Strategy srl.
[18] OECD. Participative web and user-created content: Web 2.0, wikis, and
social networking. Paris:. Organisation for Economic Co-operation and
Development., (2006):74, 2007.
[19] Hua Yuan, Hualin Xu, Yu Qian, and Yan Li. Make your travel smarter: Summarizing urban tourism information from massive blog data.
International Journal of Information Management, 2016.
[20] Markus Zanker, Matthias Fuchs, Wolfram Hopken, and Mario Tuta. Evaluating Recommender Systems in Tourism A Case Study from Austria.
Communication, pages 2434, 2008.
10