Professional Documents
Culture Documents
Ìáñßá É. ÊïíôÜêç
ÄÉÄÁÊÔÏÑÉÊÇ ÄÉÁÔÑÉÂÇ
ÅÃÊÑÉÈÅÉÓÁ ÁÐÏ ÔÏ ÔÌÇÌÁ ÐËÇÑÏÖÏÑÉÊÇÓ
ÔÏÕ ÁÑÉÓÔÏÔÅËÅÉÏÕ ÐÁÍÅÐÉÓÔÇÌÉÏÕ ÈÅÓÓÁËÏÍÉÊÇÓ
Éïýíéïò 2009
II
Ôï Ýñãï õëïðïéåßôáé óôï ðëáßóéï ôïõ ÌÝôñïõ 8.3 ôïõ Å.Ð. Áíôáãùíéóôéêüôçôá
Ã' Êïéíïôéêü Ðëáßóéï ÓôÞñéîçò êáé óõã÷ñçìáôïäïôåßôáé êáôÜ 75% ôçò Äçìüóéáò
ÄáðÜíçò áðü ôçí ÅõñùðáúêÞ ´Åíùóç - Åõñùðáúêü Êïéíùíéêü Ôáìåßï êáé 25% ôçò
Äçìüóéáò ÄáðÜíçò áðü ôï Åëëçíéêü Äçìüóéï - Õðïõñãåßï ÁíÜðôõîçò - ÃåíéêÞ
Ãñáììáôåßá ¸ñåõíáò êáé Ôå÷íïëïãßáò
ç äéáôñéâÞ áöéåñþíåôáé
V
VI
IX
ÐÅÑÉÅ×ÏÌÅÍÁ
ËÉÓÔÁ Ó×ÇÌÁÔÙÍ . . . . . . . . . . . . . . . . . . . . . . . . . . . XV
ËÉÓÔÁ ÐÉÍÁÊÙÍ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XIX
1 ÅÉÓÁÃÙÃÇ ÓÔÇ ÄÉÁÔÑÉÂÇ 1
1.1 ÅÉÓÁÃÙÃÇ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 ÓÕÍÅÉÓÖÏÑÅÓ ÔÇÓ ÄÉÁÔÑÉÂÇÓ . . . . . . . . . . . . . . . . 2
1.3 ÂÉÂËÉÏÃÑÁÖÉÁ . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2 ÐÑÏÊÁÔÁÑÊÔÉÊÅÓ ÅÍÍÏÉÅÓ ÓÔÉÓ ÑÏÅÓ ÄÅÄÏÌÅÍÙÍ 7
2.1 ÅÉÓÁÃÙÃÇ ÓÔÉÓ ÑÏÅÓ ÄÅÄÏÌÅÍÙÍ . . . . . . . . . . . . . 7
2.1.1 ÅöáñìïãÝò ñïþí äåäïìÝíùí . . . . . . . . . . . . . . . . . 8
2.1.2 ÌïíôÝëá ñïþí äåäïìÝíùí . . . . . . . . . . . . . . . . . . 10
2.1.3 ÐáñáäïóéáêÜ ÓÄÂÄ êáé åöáñìïãÝò ñïþí äåäïìÝíùí . . . 11
2.1.4 Ðñùôüôõðá óõóôÞìáôá äéá÷åßñéóçò ñïþí äåäïìÝíùí . . . . 12
2.1.5 ÐñïâëÞìáôá óå ñïÝò äåäïìÝíùí . . . . . . . . . . . . . . . 14
2.1.6 ÌåôñéêÝò áðüäïóçò . . . . . . . . . . . . . . . . . . . . . . 16
2.2 ÊÁÔÇÃÏÑÉÏÐÏÉÇÓÇ ÊÉÍÏÕÌÅÍÙÍ ×ÑÏÍÏÓÅÉÑÙÍ . . . 17
2.2.1 Êáôçãïñéïðïßçóç âáóéóìÝíç óå óýíïëá . . . . . . . . . . . 18
2.2.2 Ðïëý ãñÞãïñá äÝíäñá áðüöáóçò . . . . . . . . . . . . . . . 19
2.2.3 Êáôçãïñéïðïßçóç êáôÜ áðáßôçóç . . . . . . . . . . . . . . . 19
2.2.4 Ðñïóáñìïæüìåíïò áëãüñéèìïò êáôçãïñéïðïßçóçò ãéá ñïÝò
äåäïìÝíùí âáóéóìÝíïò óôïí êïíôéíüôåñï ãåßôïíá . . . . . 20
2.3 ÏÌÁÄÏÐÏÉÇÓÇ ÊÉÍÏÕÌÅÍÙÍ ×ÑÏÍÏÓÅÉÑÙÍ . . . . . . 20
2.4 ÏÌÁÄÏÐÏÉÇÓÇ ÓÅ ÕÐÏ×ÙÑÏÕÓ . . . . . . . . . . . . . . . 22
2.4.1 Áëãüñéèìïé áðü åðÜíù ðñïò ôá êÜôù . . . . . . . . . . . . 24
2.4.2 Áëãüñéèìïé áðü êÜôù ðñïò ôá åðÜíù . . . . . . . . . . . . 25
2.5 ÅÕÑÅÓÇ ÐÁÑÏÌÏÉÙÍ ÊÉÍÏÕÌÅÍÙÍ ×ÑÏÍÏÓÅÉÑÙÍ . . 26
2.6 ÅÑÙÔÇÌÁÔÁ ÐÑÏÔÉÌÇÓÇÓ ÊÉÍÏÕÌÅÍÙÍ ×ÑÏÍÏÓÅÉ-
ÑÙÍ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.6.1 Åñþôçìá skyline . . . . . . . . . . . . . . . . . . . . . . . 28
2.6.2 Åñþôçìá k-dominant skyline . . . . . . . . . . . . . . . . 29
2.6.3 Åñþôçìá top-k . . . . . . . . . . . . . . . . . . . . . . . . 30
XI
XII ÐÅÑÉÅ×ÏÌÅÍÁ
XV
XVI ËÉÓÔÁ Ó×ÇÌÁÔÙÍ
6.14 Hit ratio ùò ðñïò ôï ðëÞèïò óõíôåëåóôþí DFT ãéá: (á) STOCKS,
êáé (â) TAO. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
6.15 (á) Êüóôïò CPU, êáé (â) ðñïóðåëÜóåéò äßóêïõ ùò ðñïò ôï ðëÞèïò
óõíôåëåóôþí DFT ãéá TAO. . . . . . . . . . . . . . . . . . . . . . 125
6.16 Êüóôïò CPU ùò ðñïò ôï ðïóïóôü åíçìÝñùóçò (U ) ãéá TAO. . . 126
6.17 (á) Êüóôïò CPU, êáé (â) ðñïóðåëÜóåéò äßóêïõ ùò ðñïò ôï ìÝãåèïò
ðáñáèýñïõ ãéá TAO. . . . . . . . . . . . . . . . . . . . . . . . . . 126
6.18 ÁðáéôÞóåéò ÷þñïõ ôùí IDC-Index êáé VA+ -stream ùò ðñïò ìÝãå-
èïò êéíïýìåíïõ ðáñáèýñïõ ãéá: (á) STOCKS, êáé (â) TAO. . . . 127
6.19 (á) Êüóôïò CPU, êáé (â) ðñïóðåëÜóåéò äßóêïõ ùò ðñïò k (STOCKS).128
6.20 (á) Êüóôïò CPU, êáé (â) ðñïóðåëÜóåéò äßóêïõ ùò ðñïò k (TAO). 128
6.21 (á) Êüóôïò CPU, êáé (â) ðñïóðåëÜóåéò äßóêïõ ùò ðñïò öüñôï
åñãáóéþí (TAO). . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
6.22 ÐñïóðåëÜóåéò äßóêïõ ùò ðñïò ìÝãåèïò åíäéÜìåóçò ìíÞìçò (TAO). 129
6.23 ÐëÞèïò õðïøÞöéùí ÷ñïíïóåéñþí ùò ðñïò ðëÞèïò óõíôåëåóôþí DFT
ãéá: (á) STOCKS, êáé (â) TAO. . . . . . . . . . . . . . . . . . . 130
6.24 (á) Êüóôïò CPU, êáé (â) ðñïóðåëÜóåéò äßóêïõ ùò ðñïò ìÝãåèïò
êéíïýìåíïõ ðáñáèýñïõ (STOCKS). . . . . . . . . . . . . . . . . . 130
6.25 Êüóôïò CPU ùò ðñïò ðïóïóôü ñïþí ðïõ åíçìåñþíïíôáé (TAO,
k=10). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
6.26 Êüóôïò CPU ùò ðñïò ðïóïóôü ñïþí ðïõ åíçìåñþíïíôáé (TAO,
k=1000). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
6.27 (á) Êüóôïò CPU åñùôÞìáôïò, êáé (â) óõíïëéêü êüóôïò ùò ðñïò
k (\åëáöñýò" öüñôïò åñãáóéþí). . . . . . . . . . . . . . . . . . . . 132
7.1 ÐáñÜäåéãìá skyline. . . . . . . . . . . . . . . . . . . . . . . . . . 139
7.2 ÐáñÜäåéãìá äïìÞò äåäïìÝíùí. . . . . . . . . . . . . . . . . . . . . 145
7.3 ÐáñÜäåéãìá ëéóôþí åñùôçìÜôùí êáé õðïåñùôçìÜôùí. . . . . . . . 145
7.4 ÔéìÝò äåäïìÝíùí êáé ðëåãìÜôùí. . . . . . . . . . . . . . . . . . . 146
7.5 ÐåñéãñáöÞ áëãïñßèìïõ CoSMuQ-insert. . . . . . . . . . . . . . . 150
7.6 (á) ×ñüíïò áðüêñéóçò, êáé (â) áðáéôÞóåéò ìíÞìçò ùò ðñïò ðëÞèïò
êåëéþí (Independent). . . . . . . . . . . . . . . . . . . . . . . . . 155
7.7 ×ñüíïò áðüêñéóçò ùò ðñïò ðëÞèïò åããñáöþí. . . . . . . . . . . . 156
7.8 ×ñüíïò áðüêñéóçò ùò ðñïò ðëÞèïò äéáóôÜóåùí. . . . . . . . . . . 156
7.9 ×ñüíïò áðüêñéóçò ùò ðñïò ðëÞèïò åñùôçìÜôùí. . . . . . . . . . . 157
7.10 ×ñüíïò áðüêñéóçò ùò ðñïò ðëÞèïò äéáóôÜóåùí åñùôçìÜôùí. . . . 158
7.11 ÄïìÞ äåäïìÝíùí ãéá õðïåñùôÞìáôá. . . . . . . . . . . . . . . . . . 159
8.1 Ðáñáäåßãìáôá åñùôçìÜôùí ðñïôßìçóçò. . . . . . . . . . . . . . . . 163
8.2 ÐáñÜäåéãìá êáíïíéêïý ðëÝãìáôïò. . . . . . . . . . . . . . . . . . 168
8.3 ÐáñÜäåéãìá õðïëïãéóìïý ÷ñïíéêÞò óôéãìÞò ãåãïíüôïò. . . . . . . 171
8.4 ÓåéñÜ äéÜó÷éóçò êßíçóçò öéäéïý. . . . . . . . . . . . . . . . . . . . 173
XVIII ËÉÓÔÁ Ó×ÇÌÁÔÙÍ
XIX
ÊÅÖÁËÁÉÏ 1
1.1 ÅéóáãùãÞ
Ôá ôåëåõôáßá ÷ñüíéá Ý÷åé áõîçèåß äñáìáôéêÜ ï áñéèìüò ôùí åöáñìïãþí ðïõ ÷ñç-
óéìïðïéïýí ñïÝò äåäïìÝíùí,. Ðáñáäåßãìáôá áõôþí ôùí åöáñìïãþí åßíáé ç áíß-
÷íåõóç óåéóìþí, ç áíÜëõóç äåäïìÝíùí ôïõ Ðáãêüóìéïõ Éóôïý, ç ðáñáêïëïýèçóç
ôéìþí ìåôï÷þí ê.á. Åðéðñüóèåôá, ç áíÜðôõîç ôçò ôå÷íïëïãßáò ôùí áéóèçôÞñùí
åß÷å ùò áðïôÝëåóìá ôç äõíáôüôçôá ðáñáêïëïýèçóçò óõìâÜíôùí óå ðñáãìáôéêü
÷ñüíï.
Ôï ÷áñáêôçñéóôéêü üëùí áõôþí ôùí åöáñìïãþí åßíáé üôé ôá äåäïìÝíá ôïõò
áõîÜíïíôáé óõíå÷þò êáé ìå ðïëý ìåãÜëï ñõèìü. Áõôïý ôïõ åßäïõò ôá äåäïìÝíá
ïíïìÜæïíôáé ñïÝò äåäïìÝíùí (data streams). Äõóôõ÷þò, õðÜñ÷ïíôåò áëãüñéèìïé
ãéá ãíùóôÜ ðñïâëÞìáôá, üðùò ç ïìáäïðïßçóç, ïé ïðïßïé Ý÷ïõí ðñïôáèåß óôï
ðáñåëèüí ãéá ðáñáäïóéáêÝò âÜóåéò äåäïìÝíùí, äåí åßíáé êáôÜëëçëïé ãéá ôéò ñïÝò
äåäïìÝíùí êáé åðïìÝíùò íÝïé áëãüñéèìïé ðñÝðåé íá áíáðôõ÷èïýí ðñïêåéìÝíïõ íá
êáëõöèïýí ïé áíÜãêåò ôùí óýã÷ñïíùí åöáñìïãþí.
Ôï áíôéêåßìåíï ôùí ñïþí äåäïìÝíùí åßíáé ðïëý ðñüóöáôï. Ïé ðñþôåò Ýñåõíåò
ó÷åôéêÜ ìå ôï èÝìá áõôü åìöáíéóèÞêáí äåéëÜ ðñéí ðåñßðïõ ìéá äåêáåôßá. Óôç óõ-
íÝ÷åéá Ýíáò ðïëý ìåãÜëïò üãêïò âéâëéïãñáößáò ðñïôÜèçêå ëüãù ôçò áíáãêáéü-
ôçôáò åýñåóçò ëýóåùí óå õðÜñ÷ïõóåò óýã÷ñïíåò åöáñìïãÝò. Ôï áíôéêåßìåíï
1
2 ÊÅÖÁËÁÉÏ 1. ÅÉÓÁÃÙÃÇ ÓÔÇ ÄÉÁÔÑÉÂÇ
Ýñåõíáò åßíáé áêüìá áíïéêôü äéüôé äåí Ý÷ïõí ðñïôáèåß éêáíïðïéçôéêÝò ëýóåéò óå
ðïëý ãíùóôÜ êáé ïõóéþäç ðñïâëÞìáôá Þ áêüìá äåí Ý÷ïõí êáí äéåñåõíçèåß.
Óôçí ðáñïýóá äéáôñéâÞ åîåôÜæïíôáé äéÜöïñá èÝìáôá åîüñõîçò áðü ñïÝò äåäï-
ìÝíùí êáèþò êáé ðñïçãìÝíåò ôå÷íéêÝò ãéá ôçí áîéïëüãçóç åñùôçìÜôùí. Óêïðüò
åßíáé ç ó÷åäßáóç áõîçôéêþí áëãïñßèìùí (incremental algorithms) êáôÜëëçëùí
ãéá ôéò ñïÝò äåäïìÝíùí áëëÜ êáé ðñïóáñìïóìÝíùí óôá åðéìÝñïõò ðñïâëÞìáôá,
Ýôóé þóôå íá åðéôåõ÷èïýí ôá÷ýôáôç áðüêñéóç êáé ìéêñÝò áðáéôÞóåéò óå ìíÞìç.
Óôçí åðüìåíç åíüôçôá ðåñéãñÜöïíôáé áíáëõôéêüôåñá ïé óõíåéóöïñÝò ôçò ðáñïý-
óáò äéáôñéâÞò.
1.3 Âéâëéïãñáößá
Ôï ÊåöÜëáéï 3 åìðåñéÝ÷åé ôï õëéêü áðü ôçí åñãáóßá [103]. Ôï ÊåöÜëáéï 4
åìðåñéÝ÷åé ôï õëéêü áðü ôçí åñãáóßá [108]. Ôï ÊåöÜëáéï 5 åìðåñéÝ÷åé ôï õëéêü
áðü ôéò åñãáóßåò [104, 107]. Ôï ÊåöÜëáéï 6 åìðåñéÝ÷åé ôï õëéêü áðü ôéò åñãá-
óßåò [102, 101, 105]. Ôï ÊåöÜëáéï 7 åìðåñéÝ÷åé ôï õëéêü áðü ôçí åñãáóßá [106].
Ôï ÊåöÜëáéï 8 åìðåñéÝ÷åé ôï õëéêü áðü ôçí åñãáóßá [109]. Ôï ÊåöÜëáéï 9 åìðå-
ñéÝ÷åé ôï õëéêü áðü ôéò åñãáóßåò [99, 100].
Ï ðëÞñçò êáôÜëïãïò ôùí åñåõíçôéêþí åñãáóéþí âñßóêåôáé óôï ÐáñÜñôçìá Á
ôçò ðáñïýóáò äéáôñéâÞò.
ÊÅÖÁËÁÉÏ 2
7
8 ÊÅÖÁËÁÉÏ 2. ÐÑÏÊÁÔÁÑÊÔÉÊÅÓ ÅÍÍÏÉÅÓ ÓÔÉÓ ÑÏÅÓ ÄÅÄÏÌÅÍÙÍ
êåöáëßäá ôùí ðáêÝôùí ìÝóù ôùí äñïìïëïãçôþí ôïõ äéêôýïõ. ¸ôóé, ìðï-
ñåß íá èåùñçèåß üôé ïé êåöáëßäåò ó÷çìáôßæïõí ìßá ñïÞ äåäïìÝíùí.
Éäéáßôåñï åíäéáöÝñïí ðáñïõóéÜæïõí ôá åñùôÞìáôá ðïõ ôßèåíôáé óå ñïÝò äå-
äïìÝíùí, äéüôé ùò åðß ôï ðëåßóôïí áõôÜ åßíáé ðïõ êáèéóôïýí áêáôÜëëçëá ôá
ðáñáäïóéáêÜ ÓõóôÞìáôá Äéá÷åßñéóçò ÂÜóåùí ÄåäïìÝíùí. Ç âáóéêÞ äéáöïñÜ
ôùí åñùôçìÜôùí ðïõ ôßèåíôáé óå ñïÝò äåäïìÝíùí óå ó÷Ýóç ìå ôá ðáñáäïóéáêÜ
åñùôÞìáôá åßíáé üôé áðáéôïýí óõíå÷Þ áîéïëüãçóç ãéá ìåãÜëç ÷ñïíéêÞ ðåñßïäï.
Óôç óõíÝ÷åéá äßíïõìå Ýíá ðáñÜäåéãìá ñïÞò äåäïìÝíùí êáé åñùôÞìáôá ðïõ èá
ìðïñïýóáí íá ôåèïýí.
ÐÁÑÁÄÅÉÃÌÁ (ÅöáñìïãÞ ñïÞò äåäïìÝíùí). ¸óôù ìßá åöáñìïãÞ ðáñáêïëïý-
èçóçò ôçò êßíçóçò óå äñüìïõò. ÕðïèÝóôå üôé áéóèçôÞñåò åßíáé äéåóðáñìÝíïé êáôÜ
ìÞêïò ðïëëþí ïäþí, êáé áíáöÝñïõí ôçí ôñÝ÷ïõóá êßíçóç óôï äñüìï. Ðéï óõ-
ãêåêñéìÝíá, ïé áéóèçôÞñåò ó÷çìáôßæïõí ìßá ñïÞ äåäïìÝíùí óôÝëíïíôáò ôéò åîÞò
ìåôñÞóåéò:
1. ¸íá áíáãíùñéóôéêü ôïõ ï÷Þìáôïò.
3. ¸íá áíáãíùñéóôéêü ôïõ äñüìïõ, ôïõ ôìÞìáôïò ôïõ äñüìïõ êáèþò êáé ôçò
ëùñßäáò êõêëïöïñßáò ôïõ äñüìïõ, üðïõ êéíåßôáé ôï ü÷çìá.
ÄéÜöïñá åñùôÞìáôá ìðïñïýí íá áîéïëïãçèïýí ëáìâÜíïíôáò õðüøç áõôÜ ôá
äåäïìÝíá.
➣ ¸íá åñþôçìá ðïõ èá áöïñïýóå óôç äéá÷åßñéóç ôçò êßíçóçò, èá ìðïñïýóå íá
åßíáé \Ðïéá åßíáé ç ìÝóç ôá÷ýôçôá ôùí ï÷çìÜôùí êÜèå ëùñßäáò êõêëïöï-
ñßáò êÜèå ôìÞìáôïò êÜèå äñüìïõ". Áí ç ìÝóç ôá÷ýôçôá åßíáé ÷áìçëüôåñç
áðü Ýíá êáôþöëé, ôüôå ïé ôáîéäéþôåò èá ìðïñïýóáí íá åíçìåñùèïýí ìÝóù
çëåêôñïíéêþí ðéíáêßäùí ãéá åíáëëáêôéêÞ äéáäñïìÞ.
2.1.2.2 ÐáñÜèõñá
¼ðùò Þäç áíáöÝñáìå, ïé ñïÝò äåäïìÝíùí åßíáé ìç-ðåðåñáóìÝíåò. ¼ìùò, ðïëëÝò
öïñÝò ôá åñùôÞìáôá åíäéáöÝñïíôáé ãéá Ýíá ôìÞìá ôçò ñïÞò. Ãéá ðáñÜäåéãìá,
ôá ðåñéóóüôåñá åñùôÞìáôá åíäéáöÝñïíôáé ãéá ôéò ðéï ðñüóöáôåò åããñáöÝò, äéüôé
áðïôõðþíïõí êáëýôåñá ôçí ôñÝ÷ïõóá ôÜóç ôçò ñïÞò, áãíïþíôáò Ýôóé ðáëéüôåñåò
åããñáöÝò. Áõôüò ï ðåñéïñéóìüò ìßáò ñïÞò äåäïìÝíùí åðéôõã÷Üíåôáé ìå ôç ÷ñÞóç
ôùí ðáñáèýñùí. Óôçí ïõóßá, ôá ðáñÜèõñá ôùí ñïþí åßíáé ìßá åðÝêôáóç ôùí
öõóéêþí Þ ëïãéêþí ðáñáèýñùí óå åñùôÞìáôá ôçò SQL-99. Ïé ñïÝò äåäïìÝíùí ìå
ìÝãåèïò ðïõ ðåñéïñßæåôáé, åßôå ìå ôç ÷ñÞóç ðáñáèýñùí åßôå ìå ïðïéïäÞðïôå Üëëï
ìïíôÝëï, ïíïìÜæïíôáé êéíïýìåíåò ÷ñïíïóåéñÝò (streaming time series)2 .
ÐÁÑÁÄÅÉÃÌÁ (×ñÞóç ðáñáèýñùí óå åñùôÞìáôá). Èåùñåßóôå ôçí åöáñìïãÞ
ôïõ Ðáñáäåßãìáôïò 2.1.1. ¸óôù üôé ïé áéóèçôÞñåò óôÝëíïõí ôéò ìåôñÞóåéò ôïõò,
äçìéïõñãþíôáò ôç ñïÞ äåäïìÝíùí \ÊáôáãñáöÞÏ÷Þìáôïò". ¸óôù áêüìá üôé åí-
äéáöåñüìáóôå ãéá ôç ìÝóç ôá÷ýôçôá ôùí ï÷çìÜôùí áíÜ äñüìï, ôìÞìá äñüìïõ êáé
ëùñßäá êõêëïöïñßáò äñüìïõ. Áõôü ôï åñþôçìá èá ìðïñïýóå íá äéáôõðùèåß ùò
åîÞò:
SELECT äñüìïò, ôìÞìá, ëùñßäá, AVG(ôá÷ýôçôá)
FROM ÊáôáãñáöÞÏ÷Þìáôïò [ÄÉÁÓÔÇÌÁ 5 ËÅÐÔÁ]
GROUP BY äñüìïò, ôìÞìá, ëùñßäá
2 Ïé üñïé ñïÝò äåäïìÝíùí êáé êéíïýìåíåò ÷ñïíïóåéñÝò èá ÷ñçóéìïðïéïýíôáé åíáëëáêôéêÜ óôï
õðüëïéðï ôçò äéáôñéâÞò.
2.1. ÅÉÓÁÃÙÃÇ ÓÔÉÓ ÑÏÅÓ ÄÅÄÏÌÅÍÙÍ 11
Working
Query Processor
Storage
➣ Aurora [32]: Åßíáé Ýíá ÓÄÑÄ ìå Ýíá óýíïëï áðü êëáóéêïýò ôåëåóôÝò (op-
erators) ôùí âÜóåùí äåäïìÝíùí, üðùò SELECT êáé JOIN, åîåëéãìÝíïõò
ãéá ñïÝò äåäïìÝíùí. ¸íáò ÷ñÞóôçò ìðïñåß íá ïñßóåé åñùôÞìáôá ìÝóù ôïõ
ãñáöéêïý ðåñéâÜëëïíôïò êáé íá êáèïñßóåé ôç ñïÞ ôùí äåäïìÝíùí ìåôáîý
ôùí ôåëåóôþí. Óôçí ïõóßá ï ÷ñÞóôçò äßíåé Ýíá ðëÜíï åñùôÞìáôïò. Óôç
óõíÝ÷åéá ôï óýóôçìá âåëôéóôïðïéåß ôçí åðåîåñãáóßá ôùí äåäïìÝíùí ìå-
ôáîý ôùí ôåëåóôþí óå ðñáãìáôéêü ÷ñüíï ìå óêïðü ôç ìåßùóç ôïõ ÷ñüíïõ
áðüêñéóçò.
➣ COUGAR [52]: Åßíáé Ýíá ïëïêëçñùìÝíï ÓÄÑÄ. Áíôß ãéá åããñáöÝò, ôï
óýóôçìá ìïíôåëïðïéåß ôéò ôéìÝò ôùí ñïþí ìå áöáéñåôéêïýò ôýðïõò äåäïìÝ-
íùí (abstract data types), üðïõ âáóßæåôáé ï êáèïñéóìüò êáé ç åêôÝëåóç
ôùí åñùôçìÜôùí.
➣ Gigascope [93]: Åßíáé Ýíá ÓÄÑÄ ìå óêïðü ôçí åîõðçñÝôçóç ôùí äéêôõá-
êþí åöáñìïãþí ôçò åôáéñåßáò AT&T. Ôï óýóôçìá ðáñÝ÷åé ìßá ãëþóóá
åñùôçìÜôùí ãéá ñïÝò, ç ïðïßá ïíïìÜæåôáé GSQL.
➣ Hancock [48]: Åîåëß÷èçêå åðßóçò ãéá ôçí åôáéñåßá ÁÔ&Ô. Ôï óýóôçìá
14 ÊÅÖÁËÁÉÏ 2. ÐÑÏÊÁÔÁÑÊÔÉÊÅÓ ÅÍÍÏÉÅÓ ÓÔÉÓ ÑÏÅÓ ÄÅÄÏÌÅÍÙÍ
ôç óçìáíôéêüôçôá ôïõ ôåëåõôáßïõ, ðñÝðåé íá ëÜâïõìå õðüøç ìáò üôé óôéò êéíïý-
ìåíåò ÷ñïíïóåéñÝò ôá äåäïìÝíá äéáñêþò ìåôáâÜëëïíôáé êáé êáôÜ óõíÝðåéá åßíáé
ðéèáíÞ ìéá áëëáãÞ ôçò êáôáíïìÞò ôùí äåäïìÝíùí ìå ôçí ðÜñïäï ôïõ ÷ñüíïõ.
Óôç óõíÝ÷åéá èá åîåôÜóïõìå ôïõò ãíùóôüôåñïõò áëãïñßèìïõò êáôçãïñéïðïßç-
óçò ñïþí äåäïìÝíùí, ïé ïðïßïé ìðïñïýí íá ÷ùñéóèïýí óå äýï âáóéêÝò êáôçãïñßåò
[3]: ôïõò âáóéóìÝíïõò óôá äåäïìÝíá (data-based) êáé ôïõò âáóéóìÝíïõò óôçí
åñãáóßá (task-based). Óôçí ðñþôç êáôçãïñßá, ç âáóéêÞ éäÝá åßíáé íá åîåôÜóïõìå
Ýíá ôìÞìá ôùí äåäïìÝíùí Þ íá ìåôáó÷çìáôßóïõìå ôá äåäïìÝíá óå Ýíá ÷þñï
ëéãüôåñï äéáóôÜóåùí ðñïêåéìÝíïõ íá ìåéþóïõìå ôçí ðïëõðëïêüôçôá ôùí áëãï-
ñßèìùí. Óôç äåýôåñç êáôçãïñßá, ÷ñçóéìïðïéïýìå êÜðïéåò áëãïñéèìéêÝò ôå÷íéêÝò,
üðùò ôá ðáñÜèõñá, ðñïêåéìÝíïõ íá åðéôý÷ïõìå êáëýôåñïõò ÷ñüíïõò áðüêñéóçò
êáé ìéêñüôåñåò áðáéôÞóåéò óå ìíÞìç. Ï Ðßíáêáò 2.1 ðáñïõóéÜæåé äéÜöïñåò ãåíéêÝò
ðñïóåããßóåéò êáé ôùí äýï êáôçãïñéþí.
Áëãüñéèìïé âáóéóìÝíïé Áëãüñéèìïé âáóéóìÝíïé
óôá äåäïìÝíá óôçí åñãáóßá
Äåéãìáôïëçøßá ÐñïóÝããéóç
Áðüññéøç öüñôùóçò ÐáñÜèõñï
ÓêéáãñÜöéóç ÁíÜëõóç
Óýíïøç
ÓõíÜèñïéóç
åßíáé üôé èåùñïýí ðáëéÜ êáé íÝá äåäïìÝíá ßäéáò óçìáíôéêüôçôáò êáé êáôÜ óõíÝ-
ðåéá äåí ëáìâÜíïõí õðüøç ôïõò ðéèáíÝò áëëáãÝò óôçí êáôáíïìÞ ôùí äåäïìÝíùí.
Ãéá íá áíôéìåôùðéóèåß áõôü ôï ìåéïíÝêôçìá, ðñïôÜèçêáí áëãüñéèìïé ðïõ ÷ñçóé-
ìïðïéïýí ðáñÜèõñá ðñïêåéìÝíïõ íá äéá÷ùñßóïõí ôá ðáëéÜ áðü ôá íÝá äåäïìÝíá
[19, 23].
Ìßá ôåëåßùò äéáöïñåôéêÞ ðñïóÝããéóç áêïëïõèÞèçêå óôçí åñãáóßá [4]. Ï
áëãüñéèìïò ðïõ ðñïôÜèçêå ÷ùñßæåôáé óå äýï ôìÞìáôá: óå Ýíá ðñáãìáôéêïý ÷ñü-
íïõ ôìÞìá ðïõ åðåîåñãÜæåôáé ôá íÝá äåäïìÝíá êáé õðïëïãßæåé áèñïéóôéêÜ óôáôé-
óôéêÜ, êáé óå Ýíá ìç-ðñáãìáôéêïý ÷ñüíïõ ôìÞìá ðïõ ÷ñçóéìïðïéåß ôá áèñïéóôéêÜ
óôáôéóôéêÜ êáé åíôïðßæåé ôéò ïìÜäåò. Óå áõôÞí ôçí ðñïóÝããéóç ôùí äýï ôìçìÜ-
ôùí, óôçñß÷èçêáí ìåôáãåíÝóôåñïé áëãüñéèìïé. Óôçí åñãáóßá [164], ðñïôÜèçêå ìßá
âåëôßùóç ôïõ ôìÞìáôïò ìç-ðñáãìáôéêïý ÷ñüíïõ ÷ñçóéìïðïéþíôáò ôå÷íéêÝò äéá-
ìïéñáóìïý. ¢ëëïé áëãüñéèìïé ðñïôÜèçêáí ãéá óõãêåêñéìÝíåò åöáñìïãÝò ñïþí
äåäïìÝíùí [129, 131, 150].
¼ëïé ïé ðñïáíáöåñèÝíôåò áëãüñéèìïé âáóßæïíôáé óôïí áëãüñéèìï k-means,
åßôå ùò åðÝêôáóÞ ôïõ, åßôå ùò áëãïñßèìïõ ïìáäïðïßçóçò ôïõ ôìÞìáôïò ìç-ðñáã-
ìáôéêïý ÷ñüíïõ. Ç ÷ñÞóç ôïõ k-means åéóÜãåé ðïëëïýò ðåñéïñéóìïýò, üðùò:
➣ Ï k-means åíôïðßæåé ìüíï óöáéñéêÝò ïìÜäåò êáé ü÷é ïìÜäåò ôõ÷áßïõ ó÷Þ-
ìáôïò.
➣ Ï k-means åßíáé åõáßóèçôïò óå èüñõâï êáé äåí ìðïñåß íá åíôïðßóåé outliers.
➣ Ï k-means áðáéôåß ðïëëáðëÜ ðåñÜóìáôá óôá äåäïìÝíá êáé ãé' áõôü ôï ëüãï
ïé ðåñéóóüôåñïé áëãüñéèìïé ôï ÷ñçóéìïðïéïýí óôï ôìÞìá ìç-ðñáãìáôéêïý
÷ñüíïõ.
➣ Ï k-means ðñïûðïèÝôåé üôé ï áñéèìüò ôùí ïìÜäùí åßíáé k. Óôá óôáôéêÜ
äåäïìÝíá, åöáñìüæåôáé Ýíá âÞìá ðñïåðåîåñãáóßáò ôùí äåäïìÝíùí ðñïêåé-
ìÝíïõ íá ðñïóäéïñéóèåß ï óùóôüò áñéèìüò ïìÜäùí. Óôç óõíÝ÷åéá ï áñéèìüò
áõôüò äßíåôáé óôï k-means, ðïõ õðïëïãßæåé ôçí ïìáäïðïßçóç. Óôá äõíá-
ìéêÜ äåäïìÝíá áõôü äåí åßíáé äõíáôü, áöïý ôá äåäïìÝíá óõíå÷þò áëëÜæïõí
êáé êáôÜ óõíÝðåéá ðéèáíüí íá áëëÜæåé êáé ï áñéèìüò ôùí ïìÜäùí.
èåùñïýí ùò åßóïäï üëåò ôéò äéáóôÜóåéò (dimensions) ôïõ óõíüëïõ äåäïìÝíùí êáé
ðñïóðáèïýí íá áíé÷íåýóïõí ïìÜäåò óå üëåò ìáæß ôéò äéáóôÜóåéò.
Óå ðïëõäéÜóôáôá äåäïìÝíá ðáñïõóéÜæïíôáé äéÜöïñá ðñïâëÞìáôá ìå ôçí ðá-
ñáäïóéáêÞ ðñïóÝããéóç. Ðñþôïí, åßíáé ðïëý óõ÷íü ôï öáéíüìåíï êÜðïéåò áðü ôéò
äéáóôÜóåéò íá ìç ó÷åôßæïíôáé ìå ôéò õðüëïéðåò ìå áðïôÝëåóìá íá ëåéôïõñãïýí ùò
èüñõâïò êáôÜ ôçí ïìáäïðïßçóç. Äåýôåñïí, åìöáíßæåôáé ôï öáéíüìåíï ãíùóôü ùò
\êáôÜñá ôçò äéáóôáóéìüôçôáò" (curse of dimensionality), üðïõ üóï áõîÜíïíôáé ïé
äéáóôÜóåéò ôùí äåäïìÝíùí, ôüóï ôá ìÝôñá ïìïéüôçôáò ôåßíïõí íá ìç ëåéôïõñãïýí.
Ãéá ôçí áêñßâåéá, óå ðïëý ìåãÜëï áñéèìü äéáóôÜóåùí, ôá äåäïìÝíá ôåßíïõí íá
áðÝ÷ïõí ðåñßðïõ ôï ßäéï ìåôáîý ôïõò. Ôñßôïí, ïìÜäåò äåäïìÝíùí ðïëý ìåãÜëïõ
áñéèìïý äéáóôÜóåùí äåí åßíáé åýêïëï íá åñìçíåõèïýí êáé êáô' åðÝêôáóç íá ÷ñç-
óéìïðïéçèïýí áðü åéäéêïýò. Ùò ëýóç óå üëá ôá ðáñáðÜíù ðñïâëÞìáôá ðñïôÜèçêå
ç ïìáäïðïßçóç óå õðï÷þñïõò (subspace clustering), ç ïðïßá åßíáé åðÝêôáóç ôçò
ðáñáäïóéáêÞò ïìáäïðïßçóçò.
ÏÑÉÓÌÏÓ 2.4 (Ïìáäïðïßçóç óå õðï÷þñïõò). ÄåäïìÝíïõ åíüò óõíüëïõ ðïëõ-
äéÜóôáôùí äåäïìÝíùí, ç ïìáäïðïßçóç óå õðï÷þñïõò åíôïðßæåé ïìÜäåò äåäïìÝíùí
óå ïðïéáäÞðïôå õðïóýíïëá äéáóôÜóåùí.
Ç ïìáäïðïßçóç óå õðï÷þñïõò äéáöÝñåé óå áñêåôÜ óçìåßá áðü ôçí ðáñáäï-
óéáêÞ ïìáäïðïßçóç. Ðñþôïí, ïé åíôïðéæüìåíåò ïìÜäåò äåí åßíáé áðáñáßôçôá óôïí
ßäéï õðï÷þñï. Äåýôåñïí, äåí ïìáäïðïéïýíôáé üëá ôá äåäïìÝíá üðùò óõìâáßíåé
óôçí áðëÞ ïìáäïðïßçóç. Ôñßôïí, åßíáé äõíáôü íá õðÜñ÷åé åðéêÜëõøç ìåôáîý ôùí
ïìÜäùí, êÜôé ðïõ äå óõíçèßæåôáé óôçí áðëÞ ïìáäïðïßçóç. Åðéðñüóèåôá, ïé ðñï-
óåããßóåéò ðïõ áêïëïõèïýíôáé åßíáé ðïëý äéáöïñåôéêÝò, üðùò èá äïýìå êáé óôç
óõíÝ÷åéá. ¼óïí áöïñÜ óôç óõíå÷Þ ïìáäïðïßçóç óå õðï÷þñïõò ñïþí äåäïìÝ-
íùí, äõóôõ÷þò äåí õðÜñ÷ïõí ðñïôåéíüìåíïé áëãüñéèìïé óôç âéâëéïãñáößá. Ôï
óõãêåêñéìÝíï æÞôçìá èá ôï ìåëåôÞóïõìå äéåîïäéêÜ óôï ÊåöÜëáéï 5.
Óôï ðáñåëèüí ðñïôÜèçêáí äéÜöïñåò ôå÷íéêÝò ãéá ôçí ïìáäïðïßçóç ðïëõäéÜ-
óôáôùí äåäïìÝíùí. Ïé äýï âáóéêüôåñåò åßíáé: ï ìåôáó÷çìáôéóìüò ÷áñáêôçñéóôé-
êþí (feature transformation) êáé ç åðéëïãÞ ÷áñáêôçñéóôéêþí feature selection.
Ç ðñïóÝããéóç ôïõ ìåôáó÷çìáôéóìïý ÷áñáêôçñéóôéêþí ðñïóðáèåß íá áíáðáñá-
óôÞóåé ôï óýíïëï äåäïìÝíùí óå Ýíá ÷þñï ëéãüôåñùí äéáóôÜóåùí, óõíäõÜæïíôáò
äýï Þ ðåñéóóüôåñá ÷áñáêôçñéóôéêÜ 3 . ÁõôÝò ïé ôå÷íéêÝò, áí êáé åßíáé ðïëý ÷ñÞ-
óéìåò óå ðïëëÝò åöáñìïãÝò, äéáôçñïýí ôéò ó÷åôéêÝò áðïóôÜóåéò ôùí äåäïìÝíùí
êáé åðïìÝíùò äåí åßíáé êáôÜëëçëåò ãéá ïìáäïðïßçóç ðïëõäéÜóôáôùí äåäïìÝíùí,
åéäéêÜ üôáí õðÜñ÷åé ìåãÜëïò áñéèìüò ÷áñáêôçñéóôéêþí ðïõ äåí ó÷åôßæïíôáé ìå-
ôáîý ôïõò. Ç ðñïóÝããéóç ôçò åðéëïãÞò ÷áñáêôçñéóôéêþí, åðéëÝãåé Ýíá õðïóýíïëï
ó÷åôéæüìåíùí ÷áñáêôçñéóôéêþí ðñïêåéìÝíïõ íá åíôïðéóèïýí ïìÜäåò óå áõôü ôï
õðïóýíïëï. Åßíáé ðñïöáíÝò, üôé ïé ôå÷íéêÝò áõôÝò äåí ëåéôïõñãïýí üôáí ïé ïìÜäåò
âñßóêïíôáé óå äéáöïñåôéêÜ õðïóýíïëá äéáóôÜóåùí. Ãéá áõôüí áêñéâþò ôïí ôýðï
3 Ïé üñïé äéÜóôáóç êáé ÷áñáêôçñéóôéêü ÷ñçóéìïðïéïýíôáé åíáëëáêôéêÜ.
24 ÊÅÖÁËÁÉÏ 2. ÐÑÏÊÁÔÁÑÊÔÉÊÅÓ ÅÍÍÏÉÅÓ ÓÔÉÓ ÑÏÅÓ ÄÅÄÏÌÅÍÙÍ
Subspace
Clustering
Algorithms
Óôç óõíÝ÷åéá èá äïýìå ôñüðïõò ðñïóÝããéóçò êáé áëãüñéèìïõò ãéá ôçí ïìá-
äïðïßçóç óå õðï÷þñïõò. Ç Åéêüíá 2.3 ðáñïõóéÜæåé ìéá êáôçãïñéïðïßçóç ôùí
ðñïôåéíüìåíùí áëãïñßèìùí óå ó÷Ýóç ìå ôçí ôå÷íéêÞ åýñåóçò ó÷åôéæüìåíùí äéá-
óôÜóåùí êáé ôï ìÝôñï ôïðéêüôçôáò ðïõ ÷ñçóéìïðïéÞèçêå ãéá ôïí êáèïñéóìü ìéáò
ïìÜäáò. Áñ÷éêÜ ïé áëãüñéèìïé ÷ùñßæïíôáé óå äýï âáóéêÝò êáôçãïñßåò óå ó÷Ýóç
ìå ôïí ôñüðï åýñåóçò ó÷åôéæüìåíùí äéáóôÜóåùí. Ç ðñþôç êáôçãïñßá ðåñéëáì-
âÜíåé ôïõò áëãüñéèìïõò \áðü ðÜíù ðñïò ôá êÜôù" (top-down algorithms), ïé
ïðïßïé âñßóêïõí ìéá áñ÷éêÞ ïìáäïðïßçóç óå üëï ôï óýíïëï ôùí äéáóôÜóåùí êáé
óôç óõíÝ÷åéá âåëôéþíïõí ôï áðïôÝëåóìá åíôïðßæïíôáò ïëïÝíá êáé ìéêñüôåñåò
õðü-ïìÜäåò ôùí áñ÷éêþí ïìÜäùí. Ç äåýôåñç êáôçãïñßá ðåñéëáìâÜíåé ôïõò áëãü-
ñéèìïõò \áðü êÜôù ðñïò ôá ðÜíù" (bottom-up algorithms), ïé ïðïßïé åíôïðßæïõí
ðõêíÝò ðåñéï÷Ýò äåäïìÝíùí óå ìéêñü áñéèìü äéáóôÜóåùí êáé óôç óõíÝ÷åéá ôéò
óõíäõÜæïõí äçìéïõñãþíôáò ïëïÝíá êáé ìåãáëýôåñåò ïìÜäåò. Óôï äåýôåñï åðß-
ðåäï, ïé áëãüñéèìïé êáôçãïñéïðïéïýíôáé ìå âÜóç ôá êñéôÞñéá ðïõ ÷ñçóéìïðïéïýí
ðñïêåéìÝíïõ íá ó÷çìáôßóïõí ìéá ïìÜäá.
åßíáé ç Lp norm [8, 57, 101], üðïõ ãéá p=1 åßíáé ãíùóôÞ ùò city-block Þ Manhat-
tan, ãéá p=2 åßíáé ç Åõêëåßäåéá áðüóôáóç êáé ãéá p=∞ åßíáé ç ìÝãéóôç íüñìá.
ÅíáëëáêôéêÝò óõíáñôÞóåéò ðñïôÜèçêáí ãéá ôçí áíôéìåôþðéóç öáéíïìÝíùí, üðùò ç
ðåñéóôñïöÞ êáé ç êëéìÜêùóç [11, 174, 175]. Ôï âáóéêü ìåéïíÝêôçìá üëùí áõôþí
ôùí óõíáñôÞóåùí áðüóôáóçò åßíáé üôé áðáéôïýí ïé óõãêñéíüìåíåò ÷ñïíïóåéñÝò íá
Ý÷ïõí ôï ßäéï áêñéâþò ìÞêïò. Ãéá íá îåðåñáóèåß áõôü ôï ðñüâëçìá, ðñïôÜèçêáí
óõíáñôÞóåéò áðüóôáóçò, üðùò ç Time Warping (TW) [175, 137], ç Edit Distance
[30] êáé ç Longest Common Subsequence (LCSS) [160].
Ôï äåýôåñï ôìÞìá ôùí áëãïñßèìùí áöïñÜ óôç ìÝèïäï áíáðáñÜóôáóçò. Ç
êëáóéêüôåñç ìÝèïäïò ãéá ôï ìåôáó÷çìáôéóìü ôùí ÷ñïíïóåéñþí êáé ôçí áíáðáñÜ-
óôáóÞ ôïõò óå ìéêñüôåñï áñéèìü äéáóôÜóåùí åßíáé ï Äéáêñéôüò Ìåôáó÷çìáôéóìüò
Fourier (DFT) [8, 101, 174]. Ï DFT åßíáé éäéáßôåñá ÷ñïíïâüñïò êáé ðïëýðëï-
êïò. Ãéá ìéá ôá÷ýôåñç êáé áðëïýóôåñç áíáðáñÜóôáóç ÷ñïíïóåéñþí ðñïôÜèçêáí
äéÜöïñåò ìÝèïäïé ðïõ âáóßæïíôáé óôç ãñáììéêÞ áíáðáñÜóôáóç, üðùò ç Piecewise
Linear Approximation (PLA) [167, 174] êáé ç Adaptive Piecewise Constant Ap-
proximation (APCA) [96]. ¢ëëåò ìÝèïäïé áíáðáñÜóôáóçò åßíáé ç Singular Value
Decomposition (SVD), ç Discrete Wavelet Transform (DWT) êáé ç Piecewise
Aggregate Approximation (PAA).
ÐñÝðåé íá åðéóçìÜíïõìå, üôé ÷Üíåôáé ìÝñïò ôçò ðëçñïöïñßáò ôùí ÷ñïíïóåéñþí
ëüãù ôçò ÷ñÞóçò ôùí ìåèüäùí áíáðáñÜóôáóçò. ¸ôóé ïé áëãüñéèìïé Ý÷ïõí äýï
âáóéêÜ ôìÞìáôá. Ðñþôá ìåôáó÷çìáôßæåôáé ôï åñþôçìá êáé áðü ôï ó÷Þìá äåéêôï-
äüôçóçò áíáêôþíôáé êÜðïéåò ÷ñïíïóåéñÝò, ðïõ ïíïìÜæïíôáé õðïøÞöéåò (candi-
dates), êáé óôç óõíÝ÷åéá ÷ñçóéìïðïéïýíôáé ïé ðñáãìáôéêÝò ÷ñïíïóåéñÝò ðñïêåé-
ìÝíïõ íá áðïìáêñõíèïýí ïé ëáíèáóìÝíåò õðïøÞöéåò ÷ñïíïóåéñÝò (false alarms).
Åßíáé ðñïöáíÝò üôé ôï ðñþôï âÞìá ðáßæåé êáèïñéóôéêü ñüëï óôçí áðüäïóç ôïõ
áëãïñßèìïõ êáé êáôÜ óõíÝðåéá ç ÷ñÞóç êáôÜëëçëïõ ó÷Þìáôïò äåéêôïäüôçóçò
âåëôéþíåé äñáóôéêÜ ôïí áëãüñéèìï, áöïý ìðïñåß íá åëáôôþóåé óå ìåãÜëï âáèìü
ôéò õðïøÞöéåò ÷ñïíïóåéñÝò. ÌåñéêÜ áðü ôá óçìáíôéêüôåñá ó÷Þìáôá äåéêôïäüôç-
óçò ðïõ ÷ñçóéìïðïéÞèçêáí åßíáé ôï R∗ -äÝíäñï [24], ôï X -äÝíäñï [26], ôï SASH
[80] êáé ôï LSH [126]. ÔÝëïò, áîßæåé íá áíáöÝñïõìå üôé Ýãéíáí éäéáßôåñåò ðñï-
óðÜèåéåò ãéá ôá åñùôÞìáôá ìåñéêÞò áíôéóôïß÷çóçò [8, 57, 137, 159, 174] áëëÜ êáé
ãéá ðïëõäéÜóôáôåò ÷ñïíïóåéñÝò [42, 159, 160].
Ðáñüôé ç ó÷åôéêÞ âéâëéïãñáößá ãéá åýñåóç ïìïéüôçôáò óå óôáôéêÝò ÷ñïíïóåé-
ñÝò åßíáé ðëïýóéá, ôï ðñüâëçìá óå êéíïýìåíåò ÷ñïíïóåéñÝò åßíáé áêüìá áíïéêôü.
Ïé ðñïôåéíüìåíïé áëãüñéèìïé ãéá óôáôéêÜ äåäïìÝíá åßíáé áêáôÜëëçëïé ãéá êéíïý-
ìåíåò ÷ñïíïóåéñÝò. Ç ðñþôç ðñïóðÜèåéá ãéá ôçí åðßëõóç ôïõ óõãêåêñéìÝíïõ
ðñïâëÞìáôïò Ýãéíå óôçí åñãáóßá [64]. Ï ðñïôåéíüìåíïò áëãüñéèìïò âáóßæåôáé
óå ìßá ðñïóÝããéóç ðñüâëåøçò. Ç áðüóôáóç ôïõ åñùôÞìáôïò êáé ôùí ÷ñïíïóåé-
ñþí õðïëïãßæåôáé ìå âÜóç ôéò ðñïâëåöèåßóåò ôéìÝò. ¼ôáí åßíáé äéáèÝóéìåò ïé
ðñáãìáôéêÝò ôéìÝò ôïõ åñùôÞìáôïò, õðïëïãßæåôáé Ýíá Üíù êáé êÜôù üñéï ôïõ ëÜ-
èïõò ðñüâëåøçò êáé êáôÜ áõôüí ôïí ôñüðï ó÷çìáôßæåôáé ôï óýíïëï õðïøçößùí
28 ÊÅÖÁËÁÉÏ 2. ÐÑÏÊÁÔÁÑÊÔÉÊÅÓ ÅÍÍÏÉÅÓ ÓÔÉÓ ÑÏÅÓ ÄÅÄÏÌÅÍÙÍ
õðïëïãßæåôáé ôï skyline ÷ñçóéìïðïéþíôáò ìéá ìÝèïäï êýñéáò ìíÞìçò êáé óôç óõ-
íÝ÷åéá åíþíïíôáé þóôå íá õðïëïãéóèåß ôï ôåëéêü skyline. Ï äåýôåñïò áëãüñéèìïò
ðñáêôéêÜ óõãêñßíåé Ýíá äåäïìÝíï ìå üëá ôá Üëëá äåäïìÝíá êáé ôï åéóÜãåé óôï
skyline, åöüóïí áõôü äåí êõñéáñ÷åßôáé áðü êáíÝíá Üëëï. Ï áëãüñéèìïò SFS [46],
ôáîéíïìåß ôá äåäïìÝíá êáé óôç óõíÝ÷åéá õðïëïãßæåé ôï skyline ìå Ýíá ðÝñáóìá.
Óôéò åñãáóßåò [110, 134] ðñïôÜèçêáí áëãüñéèìïé ãéá ÷ùñéêÜ äåäïìÝíá, ïé ïðïßïé
âáóßæïíôáé óôçí áðïôßìçóç ôïõ åñùôÞìáôïò êïíôéíüôåñïõ ãåßôïíá. Óôçí åñãá-
óßá [22] ìåëåôÞèçêå ôï åñþôçìá skyline óôá ðëáßóéá ôïõ Ðáãêüóìéïõ Éóôïý êáé
ðñïôÜèçêå ìßá ëýóç ðïõ âáóßæåôáé óôïí áëãüñéèìï Threshold [56].
¼ëåò ïé ðñïçãïýìåíåò ìÝèïäïé áöïñïýí óôáôéêÜ äåäïìÝíá êáé äõóôõ÷þò äåí
ìðïñïýí íá åöáñìïóèïýí óôçí ðåñßðôùóç ôùí ñïþí äåäïìÝíùí äéüôé: (á) õðïèÝ-
ôïõí üôé ôá äåäïìÝíá åßíáé áðïèçêåõìÝíá óôï äßóêï êáé äåí ìðïñïýí íá ÷åéñé-
óèïýí ðåñéðôþóåéò åéóáãùãþí êáé äéáãñáöþí, (â) áó÷ïëïýíôáé ìå ôçí áðïôßìçóç
ôïõ åñùôÞìáôïò ìßá öïñÜ Ýíáíôé ôçò óõíå÷ïýò áðïôßìçóçò ðïõ åßíáé áðáñáßôçôç
óôéò ñïÝò äåäïìÝíùí, êáé (ã) âáóéêüò óôü÷ïò ôïõò åßíáé íá åëáôôþóïõí ôéò ðñï-
óðåëÜóåéò óôï äßóêï óå áíôßèåóç ìå ôïõò áëãüñéèìïõò ãéá ñïÝò äåäïìÝíùí ðïõ
Ý÷ïõí ùò âáóéêïýò óôü÷ïõò ôçí åëá÷éóôïðïßçóç ôïõ ÷ñüíïõ áðüêñéóçò êáé ôçí
êáôáíÜëùóç ìíÞìçò. Ôï ðñüâëçìá äéåñåõíÞèçêå óôá ðëáßóéá ôùí êéíïýìåíùí
÷ñïíïóåéñþí óôçí åñãáóßá [154], üðïõ ðñïôÜèçêáí áõîçôéêïß áëãüñéèìïé ðïõ
êÜíïõí ÷ñÞóç ôùí éäéïôÞôùí ôùí ñïþí äåäïìÝíùí (ð.÷. ï ÷ñüíïò ëÞîçò åíüò
äåäïìÝíïõ) êáé ÷ñçóéìïðïéïýí ÷ùñéêÝò äïìÝò, üðùò ôï R∗ -äÝíäñï. Óôçí åñãá-
óßá [82] ìåëåôÞèçêå ôï ðñüâëçìá óôá ðëáßóéá ôùí êéíïýìåíùí áíôéêåéìÝíùí. Ôï
ìïíôÝëï ðïõ èåùñÞèçêå ðåñéëáìâÜíåé ôüóï óôáôéêÝò äéáóôÜóåéò üóï êáé äõíá-
ìéêÝò (ð.÷. ïé óõíôåôáãìÝíåò ôùí áíôéêåéìÝíùí). Ëüãù ôçò ýðáñîçò óôáôéêþí
äéáóôÜóåùí, êÜðïéá äåäïìÝíá-áíôéêåßìåíá âñßóêïíôáé ðÜíôá óôï skyline. Ç ðñï-
ôåéíüìåíç ìÝèïäïò îå÷ùñßæåé ðñþôá ôá áíôéêåßìåíá ðïõ åßíáé ðÜíôá óôï skyline
êáé óôç óõíÝ÷åéá ôá ÷ñçóéìïðïéåß ãéá íá ðåñéïñßóåé ðåñáéôÝñù ôï ÷þñï áíáæÞ-
ôçóçò. ÌåôÜ, ÷ñçóéìïðïéåß ôéò ãåùãñáöéêÝò èÝóåéò ôùí áíôéêåéìÝíùí êáèþò êáé
ëåðôïìÝñåéåò ôçò êßíçóÞò ôïõò (äçëáäÞ, ôá÷ýôçôá, äéåýèõíóç) ãéá íá âñåé óõó÷å-
ôßóåéò ìåôáîý ôùí áíôéêåéìÝíùí ðñïêåéìÝíïõ íá áðïññßøåé êáé Üëëá áíôéêåßìåíá
Þ íá ðñïóäéïñßóåé ôç ÷ñïíéêÞ óôéãìÞ óôï ìÝëëïí, óôçí ïðïßá åßíáé ðéèáíüí íá
õðÜñ÷ïõí áëëáãÝò óôï skyline.
íùíßáò ëáìâÜíïíôáò õðüøç ôéò ðéèáíÝò åðéêáëýøåéò ìåôáîý ôùí áðáíôÞóåùí ôùí
åñùôçìÜôùí. Ôï ÓÄÑÄ Telegraph õëïðïéåß ôï óýóôçìá Continuously Adaptive
Continuous Query (CACQ) [127], ôï ïðïßï ðñïóðáèåß íá åëá÷éóôïðïéÞóåé ôçí
êáôáíÜëùóç åíÝñãåéáò ìå ôçí ôáõôü÷ñïíç åêôÝëåóç ðïëëþí óõíå÷þí åñùôçìÜ-
ôùí.
ÊÅÖÁËÁÉÏ 3
Êáôçãïñéïðïßçóç Êéíïýìåíùí
×ñïíïóåéñþí∗
Ðåñéå÷üìåíá
3.1 ÅÉÓÁÃÙÃÇ . . . . . . . . . . . . . . . . . . . . . . . 35
3.2 Ó×ÅÔÉÊÇ ÂÉÂËÉÏÃÑÁÖÉÁ ÊÁÉ ÓÕÍÅÉÓÖÏÑÁ 37
3.3 ÁÍÁÐÁÑÁÓÔÁÓÇ ÔÁÓÅÙÍ ÊÁÉ ÊÁÔÇÃÏÑÉÏ-
ÐÏÉÇÓÇ . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.4 ÐÅÉÑÁÌÁÔÉÊÇ ÌÅËÅÔÇ . . . . . . . . . . . . . 46
3.5 ÓÕÌÐÅÑÁÓÌÁÔÁ . . . . . . . . . . . . . . . . . . 51
3.1 ÅéóáãùãÞ
Ç ìåëÝôç ôçò åðåîåñãáóßáò åñùôçìÜôùí êáé ôùí ôå÷íéêþí åîüñõîçò äåäïìÝíùí óå
äõíáìéêÜ ðåñéâÜëëïíôá Ý÷åé ðñüóöáôá ðñïóåëêýóåé ôï åíäéáöÝñïí ôçò åðéóôçìï-
íéêÞò êïéíüôçôáò [16], ëüãù ôïõ ãåãïíüôïò üôé Ý÷ïõí ðñïêýøåé ðïëëÝò åöáñìïãÝò
ðïõ áó÷ïëïýíôáé ìå äéáñêþò ìåôáâáëëüìåíá äåäïìÝíá. Ðáñáäåßãìáôá ôÝôïéùí
åöáñìïãþí áðïôåëïýí ç ðáñáêïëïýèçóç äéêôýïõ, ç ïéêïíïìéêÞ ðáñáêïëïýèçóç
êáé áíÜëõóç, ôá äßêôõá áéóèçôÞñùí, ãéá íá ïíïìÜóïõìå ìåñéêÜ áðü áõôÜ. Ç
óçìáíôéêüôåñç éäéüôçôá ôùí ñïþí äåäïìÝíùí åßíáé üôé íÝåò ôéìÝò äéáñêþò ðá-
ñÜãïíôáé êáé ðñïóôßèåíôáé óôá äåäïìÝíá ðñïò åðåîåñãáóßá, êáé óõíåðþò åßíáé
áðáñáßôçôç ç ÷ñÞóç áðïôåëåóìáôéêþí ôå÷íéêþí áðïèÞêåõóçò êáé åðåîåñãáóßáò
ðñïêåéìÝíïõ ïé ìÝèïäïé íá áíôáðåîÝëèïõí óôïõò õøçëïýò ñõèìïýò Üöéîçò.
∗ Ôï êåöÜëáéï áíôëåß ôá ðåñéå÷üìåíÜ ôïõ áðü ôçí åñãáóßá [103].
35
36 ÊÅÖÁËÁÉÏ 3. ÊÁÔÇÃÏÑÉÏÐÏÉÇÓÇ ÊÉÍÏÕÌÅÍÙÍ ×ÑÏÍÏÓÅÉÑÙÍ
ìðïñåß íá äßíåé ìåãÜëåò ôéìÝò ãéá Ýíá æåýãïò ñïþí, áõôÝò ïé äýï ñïÝò ìðïñïýí
íá èåùñçèïýí ðáñüìïéåò, áí åîåôÜóïõìå ðñïóåêôéêüôåñá ôá ãñáöÞìáôÜ ôïõò. Ãé'
áõôü ôï ëüãï, ïé óõíáñôÞóåéò áðüóôáóçò äåí åßíáé ðÜíôá êáëÝò ìåôñéêÝò ãéá ôçí
ïìáäïðïßçóç Þ ôçí êáôÜôáîç áíôéêåéìÝíùí.
Óå áõôü ôï êåöÜëáéï, åóôéÜæïõìå ôçí ðñïóï÷Þ ìáò óôï ðñüâëçìá ôçò óõíå-
÷ïýò êáôçãïñéïðïßçóçò êéíïýìåíùí ÷ñïíïóåéñþí âáóéæüìåíïé óôéò ôÜóåéò ôïõò
êáôÜ ôçí ðÜñïäï ôïõ ÷ñüíïõ. Ðñïöáíþò, áíáìÝíïõìå üôé ç ßäéá ÷ñïíïóåéñÜ
èá Ý÷åé äéáöïñåôéêÝò ôÜóåéò óå äéáöïñåôéêÜ ÷ñïíéêÜ äéáóôÞìáôá. Ç êáôçãïñéï-
ðïßçóç ðñáãìáôïðïéåßôáé ëáìâÜíïíôáò õðüøç ìüíï ôéò ôåëåõôáßåò W ôéìÝò ôçò
êÜèå ñïÞò (÷ñçóéìïðïéþíôáò êéíïýìåíï ðáñÜèõñï ìÞêïõò W ). Óçìåéþóôå, üôé
äýï êéíïýìåíåò ÷ñïíïóåéñÝò ìå ðáñüìïéåò ôÜóåéò ãéá Ýíá óõãêåêñéìÝíï ÷ñïíéêü
äéÜóôçìá, ìðïñåß íá Ý÷ïõí ôåëåßùò äéáöïñåôéêÝò ôÜóåéò óå êÜðïéï Üëëï ÷ñïíéêü
äéÜóôçìá. Áõôü ôï öáéíüìåíï ðáñïõóéÜæåôáé óôçí Åéêüíá 3.1, üðïõ ïé ôÜóåéò ôùí
÷ñïíïóåéñþí áíáðáñßóôáíôáé áðü ôéò äéáêïðôüìåíåò ãñáììÝò. Óçìåéþóôå åðßóçò,
üôé äýï ÷ñïíïóåéñÝò ìå ðáñüìïéåò ôÜóåéò ìðïñåß íá åßíáé ôåëåßùò äéáöïñåôéêÝò
üóïí áöïñÜ óôéò ôéìÝò ôïõò óôï óõãêåêñéìÝíï ÷ñïíéêü äéÜóôçìá.
Óýìâïëï ÐåñéãñáöÞ
S êéíïýìåíç ÷ñïíïóåéñÜ
S (t) ôéìÞ ôçò ñïÞò S ôç ÷ñïíéêÞ óôéãìÞ t
N ðëÞèïò ôùí êéíïýìåíùí ÷ñïíïóåéñþí
n ìÞêïò ôùí êéíïýìåíùí ÷ñïíïóåéñþí
W ìÞêïò ôïõ êéíïýìåíïõ ðáñáèýñïõ
p ðåñßïäïò ôïõ êéíïýìåíïõ ìÝóïõ (p ≤ W )
EMAip (t) i-ïóôü åêèåôéêü êéíïýìåíï ìÝóï ðåñéüäïõ p (t ≥ p)
T RIX (t) ðïóïóôü äéáöïñþí ôïõ EMA3p (t) óÞìáôïò
P LA ôìçìáôéêÞ ãñáììéêÞ ðñïóÝããéóç
P LA(i) i-ïóôü ôìÞìá ôçò P LA
k ðëÞèïò ôùí ôìçìÜôùí ôçò P LA
tlmin åëÜ÷éóôç ÷ñïíéêÞ ìïíÜäá ìßáò ëßóôáò êÜäùí
tlmax ìÝãéóôç ÷ñïíéêÞ ìïíÜäá ìßáò ëßóôáò êÜäùí
tbmin åëÜ÷éóôç ÷ñïíéêÞ ìïíÜäá åíüò êÜäïõ
tbmax ìÝãéóôç ÷ñïíéêÞ ìïíÜäá åíüò êÜäïõ
ΠINAKAΣ 3.1. ÂáóéêÜ óýìâïëá Êåöáëáßïõ 3.
Ôï óÞìá T RIX (t) ôáëáíôåýåôáé ãýñù áðü ôï ìçäÝí. ¼ðïôå ôï óÞìá T RIX (t)
äéáóôáõñþíåôáé ìå ôç ãñáììÞ ôïõ ìçäåíüò, õðÜñ÷åé ìßá Ýíäåéîç áëëáãÞ ôÜóçò.
Áõôü åßíáé áêñéâþò ðïõ ÷ñåéáæüìáóôå ðñïêåéìÝíïõ íá õðïëïãßóïõìå ôçí áíáðá-
ñÜóôáóç ôÜóåùí ìßáò ÷ñïíïóåéñÜò. Ç Åéêüíá 3.2 äåß÷íåé Ýíá ðáñÜäåéãìá, üðïõ
ôï óÞìá T RIX (t) äéáóôáõñþíåôáé ìå ôï ìçäÝí, üðïôå õðÜñ÷åé ìßá áëëáãÞ ôÜóçò
óôç ÷ñïíïóåéñÜ. Ç Åéêüíá 3.2 äåß÷íåé åðßóçò ôçí ïìáëïðïßçóç ðïõ åðéôõã÷Üíåôáé
áðü ôçí åöáñìïãÞ ôïõ åêèåôéêïý êéíïýìåíïõ ìÝóïõ.
8
real
ema
trix
zero
6
4
value
-2
DOWN, ôï ðëÞèïò ôùí ðéèáíþí êáôçãïñéþí ôÜóåùí ãéá Ýíá êéíïýìåíï ðáñÜèõñï
ìÞêïõò W åßíáé CW =2·(W {1), üðùò äéåõêñéíßæåé ç åðüìåíç ðñüôáóç.
ìåôáîý ôùí ÷ñïíéêþí óôéãìþí 10 êáé 15. Ãéá ôïí ðñùôåýïíôá êÜäï ôçò ðñþôçò
ëßóôáò, ç tbmin åßíáé 12 êáé ç tbmax åßíáé 17 êáé ðåñéÝ÷åé ôéò ñïÝò 2, 5 êáé
8. Óõíåðþò ïé ñïÝò 2, 5 êáé 8 åéóÞ÷èçóáí óå áõôÞ ôçí êáôçãïñßá ìåôáîý ôùí
÷ñïíéêþí óôéãìþí 12 êáé 17. Ãéá ôïí êÜäï õðåñ÷åßëéóçò ôçò ðñþôçò ëßóôáò, ç
tbmin åßíáé 18 êáé ç tbmax åßíáé 18 êáé ðåñéÝ÷åé ôç ñïÞ 1. Ç ñïÞ 1 åéóÞ÷èç ôç
÷ñïíéêÞ óôéãìÞ 18. Áíôßóôïé÷ç åßíáé ç ðåñéãñáöÞ ãéá ôç äåýôåñç ëßóôá.
EIKONA 3.4. ÐáñÜäåéãìá áíáæÞôçóçò ñïÞò óôç äïìÞ (ìÝãåèïò êÜäïõ 3).
Algorithm Insert
Algorithm Search
1. Determine the bucket list by checking for the values of tlmin and tlmax that
enclose the time instance tn−1 of the stream.
2. If the list contains only a primary bucket, then the stream identier is found
into it.
3. If the list contains a number of over
ow buckets, then by using the time
instance that the stream has been inserted (Fig. 3.7), the corresponding
over
ow bucket which contains the stream is easily detected.
1. Compute the time that the last expiration has occurred. The time is given by
lastEXP =W + P LA(0)-point - 1.
2. Compute the time that the last ADD operation has occurred. The time is
given by lastADD=P LA(k − 1)-point + 1.
3. The time that the stream has been inserted is given by max(lastEXP ,lastADD).
Algorithm Delete
700
CL_p1 3000 CL_p9
CL_p5 CL_p15
CL_p9 CL_p21
CL_p13 CL_p27
600 CL_p17 CL_p33
CL_p21 2500 CL_p39
CL_raw CL_raw
500
2000
Number of Clusters
Number of Clusters
400
1500
300
1000
200
500
100
0 0
0 50 100 150 200 250 0 500 1000 1500 2000
Window Size Window Size
(á) (â)
EIKONA 3.10: ÐëÞèïò ïìÜäùí ùò ðñïò ôï ìÞêïò ðáñáèýñïõ ãéá ôá óýíïëá äåäïìÝíùí: (á) TAO, êáé (â)
STOCKS.
3.4. ÐÅÉÑÁÌÁÔÉÊÇ ÌÅËÅÔÇ 49
25 25
CPU_p1 CPU_p1
CPU_p5 CPU_p5
CPU_p9 CPU_p9
CPU_p13 CPU_p13
CPU_p17 CPU_p17
CPU_p21 20 CPU_p21
20
15 15
Total CPU
PLA CPU
10 10
5 5
0 0
0 50 100 150 200 250 0 50 100 150 200 250
Window Size Window Size
(á) (â)
EIKONA 3.11. (á) Óõíïëéêü êüóôïò CPU, êáé (â)êüóôïò CPU ãéá ôéò PLA ùò ðñïò ìÞêïò ðáñáèýñïõ.
Óôç óõíÝ÷åéá åîåôÜæïõìå ôçí áðüäïóç ôçò ìåèüäïõ óå ó÷Ýóç ìå ôïí áñéèìü
ôùí ñïþí. Ç Åéêüíá 3.12(á) äåß÷íåé ôï êüóôïò ôçò CPU ãéá üëåò ôéò ñïÝò
(12145) êáé ãéá üëåò ôéò åíçìåñþóåéò (ðåñßðïõ 700) ãéá ôï óýíïëï äåäïìÝíùí
TAO. Ï üñïò TOTAL CPU ÷ñçóéìïðïéåßôáé ãéá ôï óõíïëéêü êüóôïò (Üèñïéóìá
ôïõ êüóôïõò åíçìÝñùóçò ôùí PLA êáé ôïõ êüóôïõò êáôçãïñéïðïßçóçò). Ôï
õðïëïãéóôéêü êüóôïò áõîÜíåé ãñáììéêÜ óå ó÷Ýóç ìå ôï ðëÞèïò ôùí ñïþí.
5 100
CPU_TOTAL MEM_pla
CPU_CLAS MEM_raw
CPU_PLA
4
10
0.1
1
0 0.01
0 2000 4000 6000 8000 10000 12000 0 2000 4000 6000 8000 10000 12000
Number of Streams Number of Streams
(á) (â)
EIKONA 3.12: (á) Êüóôïò CPU, êáé (b) áðáéôÞóåéò ìíÞìçò ãéá ôéò PLA ùò ðñïò ôï ðëÞèïò ôùí ñïþí (TAO).
Ïé áðáéôÞóåéò ìíÞìçò ãéá ôçí áíáðáñÜóôáóç PLA üëùí ôùí ñïþí ãéá ôï
óýíïëï äåäïìÝíùí TAO ðáñïõóéÜæïíôáé óôçí Åéêüíá 3.12(â). Ïé áðáéôÞóåéò
ìíÞìçò äßíïíôáé êáôÜ ìÝóï üñï ãéá êÜèå åíçìÝñùóç. Ï üñïò MEM raw ÷ñçóé-
ìïðïéåßôáé ãéá ìÝãåèïò ôùí ðñáãìáôéêþí äåäïìÝíùí. Óçìåéþóôå üôé ï Üîïíáò
y êëéìáêþíåôáé ëïãáñéèìéêÜ. Ïé áðáéôÞóåéò ìíÞìçò ôçò PLA áõîÜíïõí óôáèåñÜ
óå ó÷Ýóç ìå ôï ðëÞèïò ôùí ñïþí áëëÜ ðáñáìÝíïõí ëéãüôåñåò áðü ôï 10% ôùí
ðñáãìáôéêþí äåäïìÝíùí.
Ãéá íá êáôáíïÞóïõìå êáëýôåñá ôçí åðßäñáóç ôïõ ìåãÝèïõò ôïõ êÜäïõ óôç
3.5 ÓõìðåñÜóìáôá
Ç áíÜëõóç ôÜóåùí ôùí äéáñêþò ìåôáâáëëüìåíùí ñïþí äåäïìÝíùí åßíáé Ýíá ðñü-
âëçìá äýóêïëï ëüãù ôïõ ãåãïíüôïò üôé ç ôÜóç ìßáò ÷ñïíïóåéñÜò ìåôáâÜëëåôáé
÷ñïíéêÜ. Óå áõôü ôï êåöÜëáéï, ìåëåôÞóáìå ôï ðñüâëçìá ôçò óõíå÷ïýò êáôçãï-
ñéïðïßçóçò âáóéóìÝíçò óå ôÜóåéò ôùí êéíïýìåíùí ÷ñïíïóåéñþí, ÷ñçóéìïðïéþíôáò
óõìðéåóìÝíç áíáðáñÜóôáóç ãéá êÜèå ñïÞ êáé ìßá ìÝèïäï ðñïóðÝëáóçò êýñéáò
ìíÞìçò ãéá íá äéåõêïëýíåé ôéò ëåéôïõñãßåò ôçò ãñÞãïñçò áíáæÞôçóçò, åéóáãù-
ãÞò êáé äéáãñáöÞò. Ç ôìçìáôéêÞ ãñáììéêÞ ðñïóÝããéóç (PLA) ÷ñçóéìïðïéÞèçêå
ðñïêåéìÝíïõ íá ðñïóäéïñßóïõìå ôéò ôÜóåéò êÜèå ñïÞò. Ç áíáðáñÜóôáóç PLA
åöáñìüóèçêå óå ìßá ïìáëüôåñç Ýêäïóç êÜèå ñïÞò. Ãéá ôçí ïìáëïðïßçóç, ÷ñçóé-
ìïðïéÞóáìå ôï äåßêôç TRIX. ÅðéðëÝïí, ðñïôÜèçêå ìßá ìÝèïäïò óõíå÷ïýò êáôçãï-
ñéïðïßçóçò, ç ïðïßá áíáèÝôåé áõôüìáôá êÜèå ñïÞ óôçí ßäéá Þ óå íÝá êáôçãïñßá, áí
÷ñåéÜæåôáé. Ôá áðïôåëÝóìáôá ôçò ðåéñáìáôéêÞò ìåëÝôçò óå ðñáãìáôéêÜ óýíïëá
äåäïìÝíùí Ýäåéîáí ôçí ðñáêôéêüôçôá êáé ôçí áðïäïôéêüôçôá ôçò ðñïôåéíüìåíçò
ðñïóÝããéóçò.
ÊÅÖÁËÁÉÏ 4
Ïìáäïðïßçóç Êéíïýìåíùí
×ñïíïóåéñþí∗
Ðåñéå÷üìåíá
4.1 ÅÉÓÁÃÙÃÇ . . . . . . . . . . . . . . . . . . . . . . . 53
4.2 ÕÐÏÂÁÈÑÏ . . . . . . . . . . . . . . . . . . . . . . 56
4.3 ÓÕÍÅ×ÇÓ ÏÌÁÄÏÐÏÉÇÓÇ . . . . . . . . . . . . 57
4.4 ÐÅÉÑÁÌÁÔÉÊÇ ÌÅËÅÔÇ . . . . . . . . . . . . . 62
4.5 ÓÕÌÐÅÑÁÓÌÁÔÁ . . . . . . . . . . . . . . . . . . 66
4.1 ÅéóáãùãÞ
Ôá ôåëåõôáßá ÷ñüíéá, ïé ñïÝò äåäïìÝíùí êáé ïé åöáñìïãÝò ôïõò áíáðôýóóïíôáé
ñáãäáßá ëüãù ôçò åîÜðëùóçò ôïõ ðáãêüóìéïõ éóôïý áëëÜ êáé ôùí äéêôýùí áé-
óèçôÞñùí, üðùò áíáöÝñèçêå óôï ÊåöÜëáéï 2. ÐïëëÜ åñåõíçôéêÜ æçôÞìáôá ðïõ
ìåëåôÞèçêáí äéåîïäéêÜ óôï ðëáßóéï ôùí óôáôéêþí ÷ñïíïóåéñþí, üðùò ç åîüñõîç
äåäïìÝíùí [53, 83] êáé ç åðåîåñãáóßá åñùôçìÜôùí [111], åðáíåîåôÜæïíôáé óÞìåñá
õðü ôï ðñßóìá ôùí äõíáìéêþí äåäïìÝíùí. Åðéðñüóèåôá, ç åñåõíçôéêÞ êïéíüôçôá
ìåëåôÜ ïëïÝíá êáé ðåñéóóüôåñï ôï óåíÜñéï ôçò óõíå÷ïýò áðïôßìçóçò áõôþí ôùí
ðñïâëçìÜôùí [21], áöïý áõôÞ ç ðñïóÝããéóç åßíáé êáôáëëçëüôåñç ãéá ôéò ñïÝò
äåäïìÝíùí.
¸íá áðü ôá ãíùóôüôåñá ðñïâëÞìáôá óôçí åîüñõîç äåäïìÝíùí åßíáé ç ïìá-
äïðïßçóç. ÄéÜöïñåò ðñïóåããßóåéò Ý÷ïõí ðñïôáèåß ìå âáóéêüôåñåò áðü áõôÝò ôïí
k-means, åðáíáëçðôéêÞ äéáäéêáóßá ðïõ ðñïáðáéôåß ôïí áñéèìü ôùí ïìÜäùí êáé
∗ Ôï êåöÜëáéï áíôëåß ôá ðåñéå÷üìåíÜ ôïõ áðü ôçí åñãáóßá [108].
53
54 ÊÅÖÁËÁÉÏ 4. ÏÌÁÄÏÐÏÉÇÓÇ ÊÉÍÏÕÌÅÍÙÍ ×ÑÏÍÏÓÅÉÑÙÍ
ôçí éåñáñ÷éêÞ ïìáäïðïßçóç, áíáäñïìéêÞ äéáäéêáóßá ðïõ îåêéíÜ áðü ìßá ïìÜäá
ãéá êÜèå áíôéêåßìåíï êáé óôç óõíÝ÷åéá óõíèÝôåé ïëïÝíá êáé ìåãáëýôåñåò ïìÜäåò
óõíåíþíïíôáò õðÜñ÷ïõóåò ïìÜäåò. Áñãüôåñá èá ìåëåôÞóïõìå ôïõò ëüãïõò ãéá
ôïõò ïðïßïõò áõôÝò ïé ðñïóåããßóåéò äåí åßíáé êáôÜëëçëåò ãéá ñïÝò äåäïìÝíùí.
Ç ïìáäïðïßçóç ìåëåôÞèçêå éäéáßôåñá áðü ôçí åñåõíçôéêÞ êïéíüôçôá êáé ï ëü-
ãïò åßíáé ãéáôß âñßóêåé ðÜñá ðïëëÝò åöáñìïãÝò óå õðÜñ÷ïíôá ðñïâëÞìáôá. Ãéá
ðáñÜäåéãìá, èåùñåßóôå ôçí ðåñßðôùóç ðáñáêïëïýèçóçò ìåôï÷þí óå ðñáãìáôéêü
÷ñüíï. ÊÜèå ìåôï÷Þ ó÷çìáôßæåé ìßá ñïÞ äåäïìÝíùí ìå ôéò ôñÝ÷ïõóåò åìðïñé-
êÝò ôéìÝò ôçò. Ç ïìáäïðïßçóç ôùí ìåôï÷þí, èá Ýäéíå ôç äõíáôüôçôá óå Ýíá
÷ñçìáôéóôÞ íá åìðïñåõèåß ìßá ìåôï÷Þ âÜóç ìßáò Üëëçò ðéï ðñïâëÝøéìçò åöüóïí
áíÞêáí óôçí ßäéá ïìÜäá. Ç åðßëõóç ôïõ ðñïâëÞìáôïò áðïôåëåß ðñüêëçóç ãéá
ôïõò åñåõíçôÝò, äéüôé ïé ïìÜäåò åßíáé ðéèáíüí íá ìåôáâÜëëïíôáé ëüãù ôçò äõíá-
ìéêÞò öýóçò ôùí äåäïìÝíùí ôüóï ðïéïôéêÜ üóï êáé áñéèìçôéêÜ. Åðéðñüóèåôá,
ëüãù ôçò öýóçò ôçò åöáñìïãÞò õðÜñ÷åé ï ðåñéïñéóôéêüò ðáñÜãïíôáò ôçò ôá÷ý-
ôáôçò áðüêñéóçò, ãåãïíüò ðïõ äõó÷åñáßíåé áêüìá ðåñéóóüôåñï ôçí åðßëõóç ôïõ
ðñïâëÞìáôïò.
Óå áõôü ôï êåöÜëáéï èá ìåëåôÞóïõìå ôçí ïìáäïðïßçóç óôéò ñïÝò äåäïìÝíùí,
ç ïðïßá âáóßæåôáé óôéò ôÜóåéò ôùí ñïþí êáé ü÷é áðåõèåßáò óôéò ôéìÝò ôïõò. Èá
åîçãÞóïõìå áìÝóùò ôç óçìáíôéêüôçôá ôùí ôÜóåùí êáé ôçí ðñáêôéêüôçôÜ ôïõò
óôï óõãêåêñéìÝíï ðñüâëçìá, áí êáé Þäç Ý÷ïõìå áíáöÝñåé ôá ðëåïíåêôÞìáôÜ ôïõò
óôï ÊåöÜëáéï 3. Ç ïìáäïðïßçóç âÜóåé ôùí ôéìþí áí êáé åßíáé ðïëý ÷ñÞóéìç óå
ìåñéêïýò ôïìåßò, óôéò ÷ñïíïóåéñÝò äåí ëåéôïõñãåß ðÜíôá óùóôÜ. Áõôü óõìâáßíåé
äéüôé ïé ÷ñïíïóåéñÝò ðåñéÝ÷ïõí ðïëý èüñõâï óôéò ôéìÝò ôïõò. Óõíå÷ßæïíôáò ôï
ðñïçãïýìåíï ðáñÜäåéãìá, ç ÷ñçóéìüôçôá ôçò ïìáäïðïßçóçò ðñáêôéêÜ ãéá ôï ÷ñç-
ìáôéóôÞ, åßíáé íá ðñïóäéïñßóåé ìåôï÷Ýò ðïõ Ý÷ïõí ôçí ßäéá óõìðåñéöïñÜ. ¼ìùò,
êÜèå ÷ñïíïóåéñÜ Ý÷åé ìéêñÝò áõîïìåéþóåéò óôçí ôéìÞ ôçò áíåîÜñôçôá áðü ôç óõ-
íïëéêÞ óõìðåñéöïñÜ ôçò. ÄçëáäÞ, ìßá ìåôï÷Þ ìðïñåß ãåíéêÜ íá Ý÷åé áõîçôéêÞ
ôÜóç áëëÜ áõôü äåí óçìáßíåé üôé èá áõîÜíåôáé äéáñêþò. Èá åìöáíßæïíôáé ìéêñÝò
ìåéþóåéò ðïõ, üìùò, èá áêïëïõèïýíôáé áðü ìåãáëýôåñåò áõîÞóåéò. ¸ôóé, áíôß íá
ïìáäïðïéïýìå ôéò ÷ñïíïóåéñÝò ÷ñçóéìïðïéþíôáò ôéò ôéìÝò ôïõò, åöáñìüæïõìå Ýíá
ðéï áöáéñåôéêü ó÷Þìá, ôéò ôÜóåéò, ãéá íá åîáëåßøïõìå ôï èüñõâï áëëÜ êáé ãéá íá
êáôáóôÞóïõìå ÷ñÞóéìï ôï áðïôÝëåóìá ôçò ïìáäïðïßçóçò.
¸íá Üëëï æÞôçìá óôéò ñïÝò äåäïìÝíùí, åßíáé ôï ðëÞèïò ôùí ôéìþí ðïõ èåù-
ñïýíôáé Ýãêõñåò. ÊÜèå ñïÞ äåäïìÝíùí Ý÷åé ìç-ðåðåñáóìÝíï ðëÞèïò äåäïìÝíùí.
Áí ÷ñçóéìïðïéïýíôáé üëá ôá äåäïìÝíá, ôüôå áöåíüò ç åðßëõóç ôïõ ðñïâëÞìáôïò
äõóêïëåýåé áöåôÝñïõ ôï áðïôÝëåóìá ôçò ïìáäïðïßçóçò ÷Üíåé ôçí ðñáêôéêüôçôÜ
ôïõ. Ãéá íá áðïóáöçíßóïõìå ôï ôåëåõôáßï, èåùñåßóôå ðÜëé ôçí ðåñßðôùóç ôïõ
÷ñçìáôéóôÞ ðïõ åíäéáöÝñåôáé ãéá Ýíá óýíïëï ìåôï÷þí, ðñïêåéìÝíïõ íá êéíçèåß
áíÜëïãá ãéá ôçí áãïñÜ êáé ðþëçóç ìåôï÷þí. Áí ÷ñçóéìïðïéïýíôáé üëåò ïé ôéìÝò,
õðÜñ÷åé ï êßíäõíïò äýï ìåôï÷Ýò íá áíÞêïõí óôçí ßäéá ïìÜäá êáé áõôü íá ïöåß-
ëåôáé óôï ãåãïíüò üôé ðáëéüôåñá ç óõìðåñéöïñÜ ôïõò Þôáí ðáñüìïéá, åíþ ôþñá
4.1. ÅÉÓÁÃÙÃÇ 55
4.2 Õðüâáèñï
Óå áõôÞí ôçí åíüôçôá, ìåëåôïýìå ôïí áõîçôéêü ðñïóäéïñéóìü ôùí ôÜóåùí êáé ôçò
áíáðáñÜóôáóçò ìßáò ñïÞò äåäïìÝíùí. Óôïí Ðßíáêá 4.1 óõíïøßæïíôáé ôá âáóéêÜ
óýìâïëá ðïõ ÷ñçóéìïðïéÞèçêáí óå áõôü ôï êåöÜëáéï.
Óýìâïëï ÐåñéãñáöÞ
S; Si êéíïýìåíç ÷ñïíïóåéñÜ
P LAx PLA ôçò ÷ñïíïóåéñÜò Sx
P LA(i); P LAx (i) i-ïóôï ôìÞìá ôçò PLA
P LA(i):tstart ; P LA(i):tend áñ÷éêÞ êáé ôåëéêÞ ÷ñïíéêÞ óôéãìÞ ôïõ ôìÞìáôïò
P LA(i)
P LA(i):vstart ; P LA(i):vend ôéìÝò áñ÷éêÞò êáé ôåëéêÞò ÷ñïíéêÞò óôéãìÞò
ôïõ P LA(i)
P LA(i):slope êëßóç ôïõ ôìÞìáôïò P LA(i)
cs; csi êïéíü ôìÞìá ìåôáîý äýï PLAs
C; Ci ïìÜäá
C:n; Ci :n ðëÞèïò êéíïýìåíùí ÷ñïíïóåéñþí ôçò ïìÜäáò
centroidi êÝíôñï ïìÜäáò Ci
C:avg; Ci :avg ìÝóç DPLA áðüóôáóç êéíïýìåíùí ÷ñïíïóåéñþí
ïìÜäáò áðü ôï êÝíôñï ôçò
nCi êïíôéíüôåñç ïìÜäá ôçò ïìÜäáò Ci
W ìÞêïò êéíïýìåíïõ ðáñáèýñïõ
ΠINAKAΣ 4.1. ÂáóéêÜ óýìâïëá Êåöáëáßïõ 4.
¼ðùò Þäç áíáöÝñáìå, ïé ÷ñïíïóåéñÝò ðåñéÝ÷ïõí ðïëý èüñõâï óôéò ôéìÝò ôïõò.
Ãé' áõôü ôï ëüãï, ï ðñïóäéïñéóìüò ôçò ôÜóçò ìßáò ÷ñïíïóåéñÜò åöáñìüæåôáé ìåôÜ
ôç äéáäéêáóßá ïìáëïðïßçóçò. ¸÷ïõí ðñïôáèåß ðëåßóôåò ðñïóåããßóåéò ãé' áõôü
ôï óêïðü. Ãéá ôçí ïìáäïðïßçóç ôùí êéíïýìåíùí ÷ñïíïóåéñþí, åðéëÝîáìå íá
÷ñçóéìïðïéÞóïõìå ôï äåßêôç TRIX [84], ï ïðïßïò âáóßæåôáé óôçí åöáñìïãÞ åíüò
ôñéðëïý åêèåôéêïý êéíïýìåíïõ ìÝóïõ. Ï TRIX Ý÷åé ôñßá âáóéêÜ ðëåïíåêôÞìáôá:
(á) ïìáëïðïéåß ôç ÷ñïíïóåéñÜ ðáñÜëëçëá ìå ôï ðñïóäéïñéóìü ôçò ôÜóçò, (â)
õðïëïãßæåôáé áõîçôéêÜ, êáé (ã) áíáãíùñßæåé áðëÜ êáé áðïôåëåóìáôéêÜ ôçí áëëáãÞ
ôÜóçò. ¼ôáí ç ôéìÞ ôïõ äåßêôç TRIX äéáóôáõñþíåôáé ìå ôï ìçäÝí, ôüôå õðÜñ÷åé
áëëáãÞ ôÜóçò óôç ÷ñïíïóåéñÜ.
Ç PLA êÜèå ñïÞò áðïôåëåßôáé áðü æåýãç ôéìþí ôçò ìïñöÞò (t; trend), üðïõ
ôï t êáèïñßæåé ôç ÷ñïíéêÞ óôéãìÞ ôïõ áñéóôåñïý Üêñïõ ôïõ ôìÞìáôïò, åíþ ôï
trend óõìâïëßæåé ôçí ôÜóç ôçò ñïÞò (ðÜíù/UP Þ êÜôù/DOWN) óôï óõãêå-
êñéìÝíï ôìÞìá. ¼ðïôå ï äåßêôçò TRIX äßíåé áëëáãÞ ôÜóçò, ôüôå ðñïóôßèåôáé
Ýíá êáéíïýñãéï PLA óçìåßï (æåýãïò ôéìþí) ôç óõãêåêñéìÝíç ÷ñïíéêÞ óôéãìÞ.
ÁõôÞ ç ëåéôïõñãßá ïíïìÜæåôáé ADD. Áí ç ÷ñïíïóåéñÜ åíçìåñùèåß êáé ï äåßêôçò
TRIX äåí äþóåé áëëáãÞ ôÜóçò, ôüôå ðñáãìáôïðïéåßôáé ç ëåéôïõñãßá UPDATE,
4.3. ÓÕÍÅ×ÇÓ ÏÌÁÄÏÐÏÉÇÓÇ 57
ðïõ åíçìåñþíåé ôç ÷ñïíéêÞ óôéãìÞ t ôïõ ôåëåõôáßïõ óçìåßïõ ôçò PLA. ÔÝëïò,
õðïóôçñßæåôáé êáé ç ëåéôïõñãßá EXPIRE, ðïõ åöáñìüæåôáé üôáí ëÞîåé ÷ñïíéêÜ
ôï ðñþôï ôìÞìá ôçò PLA. Ðåñéóóüôåñåò ëåðôïìÝñåéåò, ó÷åôéêÜ ìå ôïí ðñïóäéï-
ñéóìü ôÜóçò êáé ôïí áõîçôéêü õðïëïãéóìü ôçò PLA äßíïíôáé óôï ÊåöÜëáéï 3.
ÏÑÉÓÌÏÓ 4.1 (Êëßóç). Ç êëßóç slope åíüò ôìÞìáôïò P LA(i) åßíáé ôï êëÜóìá
ôçò äéáöïñÜò ôùí ôéìþí ôïõ ôìÞìáôïò ðñïò ôï ìÞêïò ôïõ ôìÞìáôïò:
P LA(i):vend − P LA(i):vstart
P LA(i):slope = (4.1)
P LA(i):tend − P LA(i):tstart
ÃåíéêÜ, ïé PLAs Ý÷ïõí äéáöïñåôéêü ðëÞèïò ôìçìÜôùí, äéáöïñåôéêïý ìÞêïõò
ôï êáèÝíá. Ãé' áõôü, ðñïêåéìÝíïõ íá óõãêñßíïõìå äýï PLAs, ÷ñçóéìïðïéïýìå
ôçí Ýííïéá ôïõ êïéíïý ôìÞìáôïò. ¸íá êïéíü ôìÞìá ôçò P LAx êáé ôçò P LAy
ïñßæåôáé ìåôáîý ôùí ÷ñïíéêþí óôéãìþí max(P LAx (i): tstart ; P LAy (j ):tstart )
êáé min(P LAx (i):tend ; P LAy (j ):tend ), üðïõ ïé äåßêôåò i êáé j áñ÷éêïðïéïýíôáé
óôï Ýíá êáé áõîÜíïíôáé ìÝ÷ñé ôï ðëÞèïò ôùí ôìçìÜôùí ôçò P LAx êáé ôçò P LAy
áíôßóôïé÷á.
Ãéá ðáñÜäåéãìá, õðïèÝóôå ôéò äýï PLAs ôçò Åéêüíáò 4.1. Îåêéíïýìå ìå i =
j = 1. Ôï ðñþôï êïéíü ôìÞìá ïñßæåôáé áðü ôï ìÝãéóôï áñ÷éêü timestamp (t1 ) êáé
ôï åëÜ÷éóôï ôåëéêü timestamp (t2 ). Åöüóïí Ý÷ïõìå öôÜóåé óôï ôåëéêü óçìåßï
ôïõ ôìÞìáôïò ôçò P LA2 , áõîÜíïõìå ôï j êáôÜ Ýíá. Ôþñá åîåôÜæïõìå ôï ðñþôï
ôìÞìá ôçò P LA1 (i = 1) êáé ôï äåýôåñï ôìÞìá ôçò P LA2 (j = 2). Ðáñáôçñþíôáò
ôçí Åéêüíá 4.1, áíôéëáìâáíüìáóôå üôé ôï åðüìåíï êïéíü ôìÞìá ôùí P LA1 êáé
P LA2 ïñßæåôáé ìåôáîý ôùí timestamps t2 êáé t3 . ÁõôÞ ç äéáäéêáóßá óõíå÷ßæåôáé
ìÝ÷ñé íá öôÜóïõìå ôï ôÝëïò ôùí PLAs.
Ç áðüóôáóç óå Ýíá êïéíü ôìÞìá cs ðïõ êáèïñßæåôáé áðü ôï i-ïóôü ôìÞìá ôçò
ðñþôçò PLA êáé ôï j -ïóôü ôìÞìá ôçò äåýôåñçò PLA äßíåôáé áðü ôïí ôýðï:
Dcs = |P LAx (i):slope − P LAy (j ):slope| · (cs:tend − cs:tstart ) (4.2)
4.3. ÓÕÍÅ×ÇÓ ÏÌÁÄÏÐÏÉÇÓÇ 59
ÏÑÉÓÌÏÓ 4.2 (DPLA). Ç áðüóôáóç äýï PLAs, ôùí P LAx êáé P LAy ìå n
êïéíÜ ôìÞìáôá äßíåôáé áðü ôï Üèñïéóìá ôùí áðïóôÜóåùí ôùí êïéíþí ôìçìÜôùí:
n
X
DP LA(P LAx ; P LAy ) = Dcsi (4.3)
i=0
ÐñïóÝîôå üôé ç óõíÜñôçóç áðüóôáóçò DP LA ëáìâÜíåé õðüøç êáé ôçí ôÜóç
êáé ôï ìÞêïò ôïõ ôìÞìáôïò êáé åðéðëÝïí ìðïñåß íá õðïëïãéóèåß áõîçôéêÜ.
óõìâïëßæåôáé ùò P LAx :close, åíþ ç ìÝóç áðüóôáóç ôçò P LAx êáé ôùí PLAs
ðïõ áíÞêïõí óôï õðïóýíïëï B óõìâïëßæåôáé ùò P LAx :distant.
Algorithm CTCS
Input
new values of streaming time series
Output
set of clusters
ôç ñïÞ S , åíþ Cnew åßíáé ç ïìÜäá ðïõ ðåñéÝ÷åé ôþñá ôç ñïÞ S . ÐñïóÝîôå üôé,
ïé äéáäéêáóßåò äéá÷ùñéóìïý êáé óõíÝíùóçò Ý÷ïõí ôåôñáãùíéêÞ ðïëõðëïêüôçôá
ùò ðñïò ôïí áñéèìü ôùí ñïþí áíÜ ïìÜäá êáé åðïìÝíùò åßíáé õðïëïãéóôéêÜ ïé
ðéï ÷ñïíïâüñåò ëåéôïõñãßåò. Ùóôüóï, áõôÝò ïé äýï ëåéôïõñãßåò åêôåëïýíôáé ðïëý
óðáíéüôåñá áðü ôéò õðüëïéðåò, äéüôé ï áñéèìüò ôùí ïìÜäùí äåí áëëÜæåé óõ÷íÜ,
êáé åðïìÝíùò äåí åðçñåÜæïõí éäéáßôåñá ôï ÷ñüíï áðüêñéóçò.
2
CTCS 1.4 CTCS vs. ground truth
Silhouette Coefficient
k-medoid k-medoid vs. ground truth
Jaccard Coefficient
1.2
1.5
1
1 0.8
0.6
0.5 0.4
0.2
0 0
0 50 100 150 200 250 300 0 50 100 150 200 250 300
Update Update
(á) (â)
1.4 CTCS vs. ground truth
k-medoid vs. ground truth
1.2
Rand Coefficient
1
0.8
0.6
0.4
0.2
0
0 50 100 150 200 250 300
Update
(ã)
EIKONA 4.3. ÐïéïôéêÞ óýãêñéóç óõíôåëåóôþí: (á) Silhouette, (â) Jaccard, êáé (ã) Rand óôï SYNTH.
ÅíçìÝñùóç
0 30 60 90 120 150 180 210 240 270 300
ÐëÞèïò ïìÜäùí 6 7 5 6 5 4 6 7 8 7 6
CTCS 3 6 6 4 5 4 6 7 8 4 6
k-medoid åßíáé åîßóïõ êáëÜ ìå áõôÜ ôçò CTCS, áëëÜ óçìåéþóôå üôé ç ìÝèïäïò
CTCS áíé÷íåýåé áõôüìáôá ôïí áñéèìü ôùí ïìÜäùí.
Óôï åðüìåíï ðåßñáìá, åîåôÜóáìå ôçí ðïéüôçôá ôùí áðïôåëåóìÜôùí óôï ðñáã-
ìáôéêü óýíïëï äåäïìÝíùí STOCK. Ç Åéêüíá 4.4 ðáñïõóéÜæåé ôá áðïôåëÝóìáôá
óå ó÷Ýóç ìå ôï ðëÞèïò ôùí ñïþí. ÊÜèå ôéìÞ åßíáé ï ìÝóïò üñïò ôùí áðïôå-
ëåóìÜôùí ðïõ ðñïÝêõøáí áðü ôçí åöáñìïãÞ ðïëëáðëþí åíçìåñþóåùí. Óå êÜèå
åíçìÝñùóç, èÝóáìå ôçí ðáñÜìåôñï k ôçò k-medoid ßóç ìå ôïí áñéèìü ôùí ïìÜäùí
ôçò CTCS. Êáèþò ï áñéèìüò ôùí ñïþí áõîÜíåôáé, ç óõó÷Ýôéóç ôùí äýï ïìáäï-
ðïéÞóåùí åëáôôþíåôáé (Åéêüíá 4.4(â)). Ùóôüóï, ï óõíôåëåóôÞò silhouette ôçò
CTCS åßíáé ìåãáëýôåñïò áðü áõôüí ôçò k-medoid êáé åßíáé ðåñéóóüôåñï áðü 0.6
óå üëåò ôéò ðåñéðôþóåéò, ãåãïíüò ðïõ õðïäåéêíýåé ìßá êáëÞ ïìáäïðïßçóç.
1 1
CTCS Jaccard: CTCS vs. k-medoid
Clustering Comparison
Silhouette Coefficient
0.6 0.6
0.4 0.4
0.2 0.2
0 0
100 200 300 400 500 100 200 300 400 500
Number Of Streams Number Of Streams
(á) (â)
EIKONA 4.4: ÐïéïôéêÞ óýãêñéóç: (á) óõíôåëåóôÞò Silhouette, êáé (â) Óýãêñéóç ïìáäïðïßçóçò ùò ðñïò ôï
ðëÞèïò ôùí ñïþí (STOCK).
2
100 CTCS CTCS
k-medoid k-medoid
CPU time (sec) 10 1.5
0.001 0
100 200 300 400 500 30 60 90 120 150
Number Of Streams Window Size
(á) (â)
EIKONA 4.5. Êüóôïò CPU ùò ðñïò (á) ôï ðëÞèïò ôùí ñïþí, êáé (â) ôï ìÝãåèïò ðáñáèýñïõ (STOCK).
10000 10000
CTCS streams_update
k-medoid 1000 clusters_update
1000
CPU time (sec)
100
CPU time (sec)
100 10
10 1
0.1
1
0.01
0.1 0.001
0.0001
1000 5000 10000 1000 5000 10000
Number Of Streams Number Of Streams
(á) (â)
óýíïëï äåäïìÝíùí SYNTH. Ôï ðëÞèïò ôùí ñïþí ìåôáâÜëëåôáé áðü 100 ìÝ÷ñé
10000. Ç ìÝèïäïò CTCS åßíáé ðïëý êáëýôåñç ôçò k-medoid óå üëåò ôéò ðåñéðôþ-
óåéò. Ç ìÝèïäïò CTCS Ý÷åé äýï âáóéêÜ âÞìáôá: (á) ôïí áõîçôéêü õðïëïãéóìü
ôçò PLA ìßáò ñïÞò êáé ôçí åíçìÝñùóç ôùí ðëçñïöïñéþí ôçò ïìÜäáò ðïõ Üíçêå
ç ñïÞ ðñéí êáé ìåôÜ ôçí åíçìÝñùóç (streams update), êáé (â) ôç óõíå÷Þ åíç-
ìÝñùóç ôçò ïìáäïðïßçóçò (clusters update). Ç Åéêüíá 4.6(â) ðáñïõóéÜæåé ôï
êüóôïò CPU ãéá ôá äýï âÞìáôá ÷ùñéóôÜ. Åßíáé ðñïöáíÝò, üôé ôï êõñéüôåñï
êüóôïò ôçò ìåèüäïõ åßíáé ôï ðñþôï âÞìá, áöïý ç åíçìÝñùóç ôçò ïìáäïðïßçóçò
áðáéôåß 2.5 äåõôåñüëåðôá ôï ðïëý. Óçìåéþóôå üôé üëåò ïé êéíïýìåíåò ÷ñïíïóåéñÝò
åíçìåñþíïíôáé óå êÜèå ÷ñïíéêÞ óôéãìÞ. ÁõôÞ åßíáé ç ÷åéñüôåñç åêäï÷Þ, êáé ãé'
áõôü ï ÷ñüíïò ôïõ ðñþôïõ âÞìáôïò áíáìÝíåôáé ìéêñüôåñïò óå Ýíá ñåáëéóôéêü
óåíÜñéï.
66 ÊÅÖÁËÁÉÏ 4. ÏÌÁÄÏÐÏÉÇÓÇ ÊÉÍÏÕÌÅÍÙÍ ×ÑÏÍÏÓÅÉÑÙÍ
4.5 ÓõìðåñÜóìáôá
Óå áõôü ôï êåöÜëáéï, ðñïôÜèçêå ìßá ðñùôüôõðç ìÝèïäïò ãéá ôçí åðßëõóç ôïõ
ðñïâëÞìáôïò ôçò óõíå÷ïýò ïìáäïðïßçóçò êéíïýìåíùí ÷ñïíïóåéñþí. Ï ðñïôåé-
íüìåíïò áëãüñéèìïò CTCS ÷ñçóéìïðïéåß ôéò PLAs ôùí êéíïýìåíùí ÷ñïíïóåéñþí
ðñïêåéìÝíïõ íá åðéôý÷åé ïìáäïðïßçóç âáóéóìÝíç óå ôÜóåéò. Ïé ôÜóåéò ðñïóäéï-
ñßæïíôáé áõôüìáôá êáé ïé PLAs åíçìåñþíïíôáé áõîçôéêÜ. ÅðéðëÝïí, ðñïôÜèçêå
ìßá íÝá óõíÜñôçóç áðüóôáóçò, ç DPLA. Åðéðñüóèåôá, ï áëãüñéèìïò CTCS äåí
áðáéôåß åê ôùí ðñïôÝñùí ôï ðëÞèïò ôùí ïìÜäùí, áöïý êñéôÞñéá äéá÷ùñéóìïý êáé
óõíÝíùóçò ÷ñçóéìïðïéïýíôáé ãéá ôçí áõôüìáôç ðñïóáñìïãÞ ôïõ ðëÞèïõò ôùí
ïìÜäùí. Ôá áðïôåëÝóìáôá ôçò ðåéñáìáôéêÞò áðïôßìçóçò êáôÝäåéîáí ôçí áíùôå-
ñüôçôá ôçò ðñïôåéíüìåíçò ìåèüäïõ Ýíáíôé ôçò ìåèüäïõ k-medoid ó÷åôéêÜ ôüóï
ìå ôï õðïëïãéóôéêü êüóôïò üóï êáé ìå ôçí ðïéüôçôá ôçò ðáñáãüìåíçò ïìáäï-
ðïßçóçò. ÅðéðëÝïí, åðéâåâáßùóáí ôçí éêáíüôçôá ôçò ðñïôåéíüìåíçò ìåèüäïõ íá
áíé÷íåýåé áõôüìáôá ôï ðëÞèïò ôùí ïìÜäùí.
ÊÅÖÁËÁÉÏ 5
Óõíå÷Þò Ïìáäïðïßçóç óå
Õðï÷þñïõò∗
Ðåñéå÷üìåíá
5.1 ÅÉÓÁÃÙÃÇ . . . . . . . . . . . . . . . . . . . . . . . 67
5.2 Ó×ÅÔÉÊÇ ÂÉÂËÉÏÃÑÁÖÉÁ . . . . . . . . . . . . . 71
5.3 ÁÕÎÇÔÉÊÇ ÏÌÁÄÏÐÏÉÇÓÇ . . . . . . . . . . . 72
5.4 ÁÕÎÇÔÉÊÏÓ ÕÐÏËÏÃÉÓÌÏÓ ÔÙÍ PCLUSTERS 87
5.5 ÐÅÉÑÁÌÁÔÉÊÇ ÁÐÏÔÉÌÇÓÇ . . . . . . . . . . . 88
5.6 ÓÕÌÐÅÑÁÓÌÁÔÁ . . . . . . . . . . . . . . . . . . 96
5.1 ÅéóáãùãÞ
¼ðùò áíáöÝñèçêå óôá ðñïçãïýìåíá êåöÜëáéá, ïé ñïÝò äåäïìÝíùí ðñïêÜëåóáí
ðñüóöáôá ôï åíäéáöÝñïí ôçò åñåõíçôéêÞò êïéíüôçôáò [16, 21, 35], ëüãù ôïõ ãåãï-
íüôïò üôé ðïëëÝò åöáñìïãÝò ÷åéñßæïíôáé äåäïìÝíá ðïõ ðïëý óõ÷íÜ ìåôáâÜëëïíôáé
÷ñïíéêÜ. ÁíáöÝñáìå Þäç óôï ÊåöÜëáéï 3 üôé ôï âáóéêüôåñï ÷áñáêôçñéóôéêü ôùí
ñïþí åßíáé üôé ðñüêåéôáé ãéá ìç-ðåðåñáóìÝíïõ ìÞêïõò ÷ñïíïóåéñÝò, äçëáäÞ äåäï-
ìÝíá ðñïóôßèåíôáé äéáñêþò óôï ôÝëïò ôçò ñïÞò êáé åðïìÝíùò áðáéôïýíôáé åéäéêÜ
ó÷åäéáóìÝíïé áëãüñéèìïé ãéá íá ÷åéñéóèïýí ôüóï ôç äõíáìéêÞ öýóç üóï êáé ôïí
ôåñÜóôéï üãêï äåäïìÝíùí.
Ëüãù ôçò ðïëý äõíáìéêÞò öýóçò ôùí ñïþí äåäïìÝíùí, ç ôõ÷áßá ðñïóðÝëáóç
åßíáé áðáãïñåõôéêÞ ëüãù êüóôïõò. ÅðïìÝíùò, êÜèå ñïÞ äåäïìÝíùí ìðïñåß íá äéá-
âáóèåß ìüíï ìßá öïñÜ (Þ ðåñéïñéóìÝíïõ áñéèìïý öïñÝò). Áõôü ôï ÷áñáêôçñéóôéêü
∗ Ôï êåöÜëáéï áíôëåß ôá ðåñéå÷üìåíÜ ôïõ áðü ôéò åñãáóßåò [104, 107].
67
68 ÊÅÖÁËÁÉÏ 5. ÓÕÍÅ×ÇÓ ÏÌÁÄÏÐÏÉÇÓÇ ÓÅ ÕÐÏ×ÙÑÏÕÓ
Þ ßóç áðü 2. ÅîåôÜæïíôáò ôçí Åéêüíá 5.1, åßíáé Ýêäçëï üôé áõôÝò ïé ñïÝò äåí
ìðïñïýí íá áíÞêïõí óôçí ßäéá ïìÜäá, áöïý ç äéáöïñÜ ôùí ôéìþí ôïõò óå áñêåôÝò
äéáóôÜóåéò åßíáé ðåñéóóüôåñï áðü 2. Ãéá ðáñÜäåéãìá, ç äéáöïñÜ ôéìÞò ôùí A êáé
B óôç äåýôåñç äéÜóôáóç åßíáé 7{4=3. Ùóôüóï, èåùñþíôáò õðïóýíïëá äéáóôÜ-
óåùí, ïé ñïÝò A êáé B áíÞêïõí óôçí ßäéá ïìÜäá ãéá ôá äéáóôÞìáôá äéáóôÜóåùí
[d3 ; d6 ], ôï ïðïßï ðåñéÝ÷åé ôéò äéáóôÜóåéò d3 ; d4 ; d5 ; d6 êáé [d9 ; d17 ], ôï ïðïßï ðå-
ñéÝ÷åé d9 ; d10 ; d11 ; d12 ; d13 ; d14 ; d15 ; d16 ; d17 . Åßíáé Ýêäçëï, üôé ç äéáöïñÜ ôéìÞò
ôùí ñïþí A êáé B óå êÜèå ìßá áðü áõôÝò ôéò äéáóôÜóåéò åßíáé ìéêñüôåñç áðü Þ
ßóç ìå 2.
5.1.2 ÓõíåéóöïñÜ
Ðáñüôé ç âéâëéïãñáößá åßíáé ðëïýóéá óå ìåèüäïõò êáé ôå÷íéêÝò ïìáäïðïßçóçò
óå õðï÷þñïõò êáé óå óõíå÷Þ åðåîåñãáóßá åñùôçìÜôùí, äåí õðÜñ÷åé åñãáóßá óå
óõíå÷Þ ïìáäïðïßçóç óå õðï÷þñïõò óå äõíáìéêÜ äåäïìÝíá. ÅðïìÝíùò, ðáñïõóéÜ-
æïõìå ìßá ìåèïäïëïãßá ãéá ôçí åðßëõóç ôïõ ðñïâëÞìáôïò êáé ìåëåôïýìå áðïôåëå-
óìáôéêïýò áëãïñßèìïõò ãéá ôçí áðïäïôéêÞ áíß÷íåõóç -ïìÜäùí ãéá Ýíá óýíïëï
êéíïýìåíùí ÷ñïíïóåéñþí. Ðñïò áõôÞí ôçí êáôåýèõíóç, ðñïôåßíïõìå ìßá ìÝèïäï
ãéá ôçí åíçìÝñùóç ôùí ïìÜäùí üôáí íÝåò ôéìÝò ñïþí ãßíïíôáé äéáèÝóéìåò, áðï-
öåýãïíôáò ôç äéáäéêáóßá ïìáäïðïßçóçò áðü ôçí áñ÷Þ. Ïé ðáñáãüìåíåò -ïìÜäåò
ïñßæïíôáé óå óõíå÷üìåíåò ìüíï äéáóôÜóåéò.
ÅðéðëÝïí, ìåëåôïýìå ôïí áõîçôéêü õðïëïãéóìü ôùí pClusters óå óõíå÷üìåíåò
äéáóôÜóåéò, ï ïðïßïò âáóßæïíôáé óôç ÷ñÞóç ôçò ìåôñéêÞò pScore ðïõ ðñïôÜèçêå
óôéò åñãáóßåò [139, 163]. Áðïäåéêíýåôáé üôé ç ìÝèïäïò ãéá ôçí áíß÷íåõóç -
ïìÜäùí óå õðï÷þñïõò ìðïñåß åýêïëá íá ðñïóáñìïóèåß åðßóçò ãéá ôçí áíß÷íåõóç
pClusters. Ï áðïäïôéêüôåñïò áëãüñéèìïò ãéá ôçí áíß÷íåõóç pClusters óå ïðïéï-
äÞðïôå õðïóýíïëï áðü ôéò äéáèÝóéìåò äéáóôÜóåéò åßíáé ï MaPle [139]. Ùóôüóï,
ï MaPle áíé÷íåýåé pClusters ìüíï óå óôáôéêÝò ÷ñïíïóåéñÝò. Ç ðñïôåéíüìåíç
ìÝèïäïò ìðïñåß íá ÷ñçóéìïðïéçèåß ãéá ôçí áõîçôéêÞ pClusters. Åðéðñüóèåôá, ç
ðñïôåéíüìåíç ìÝèïäïò ìðïñåß åðßóçò íá ÷ñçóéìïðïéçèåß áðïôåëåóìáôéêÜ ãéá ôçí
áíß÷íåõóç pClusters óå óôáôéêÝò ÷ñïíïóåéñÝò îåðåñíþíôáò óçìáíôéêÜ ôïí áëãü-
ñéèìï MaPle áðü ôçí Üðïøç ôçò áðüäïóçò. Ùóôüóï, ç ðñïôåéíüìåíç ìÝèïäïò
áíé÷íåýåé pClusters ìüíï óå óõíå÷üìåíåò äéáóôÜóåéò óå áíôßèåóç ìå ôï MaPle
ðïõ áíé÷íåýåé pClusters óå ïðïéïäÞðïôå õðïóýíïëï äéáóôÜóåùí.
Óõíïøßæïíôáò, ç óõíåéóöïñÜ ôïõ êåöáëáßïõ åßíáé ç åîÞò:
(á) ç ìåëÝôç ôïõ ðñïâëÞìáôïò ôçò ïìáäïðïßçóçò óå õðï÷þñïõò óå êéíïýìåíåò
÷ñïíïóåéñÝò
(â) ç ìåëÝôç ôçò óõíå÷Þò ïìáäïðïßçóçò óå õðï÷þñïõò ëáìâÜíïíôáò õðüøç ôç
ìåôáâïëÞ ôùí ÷ñïíïóåéñþí,
(ã) ï áõîçôéêüò õðïëïãéóìüò ôùí pClusters óå óõíå÷üìåíåò äéáóôÜóåéò,
5.2. Ó×ÅÔÉÊÇ ÂÉÂËÉÏÃÑÁÖÉÁ 71
prex-tree ãéá íá áíé÷íåýóåé ïìÜäåò óå ÷þñïõò ðïëëþí äéáóôÜóåùí. Ç ßäéá ìå-
ôñéêÞ ÷ñçóéìïðïéÞèçêå óôçí åñãáóßá [139] ãéá ôçí åýñåóç ïìÜäùí âáóéóìÝíùí
óå æåýãç, ìáæß ìå Ýíáí áëãüñéèìï áíáæÞôçóçò êáôÜ âÜèïò (depth-rst-search)
ãéá íá áðïññßøåé ðåñéôôÝò ïìÜäåò. Óôçí åñãáóßá [161], ïé óõããñáöåßò Ýäåéîáí üôé
ïé ìÝèïäïé áõôÝò äåí êëéìáêþíïíôáé êáëÜ óå ìåãÜëá óýíïëá äåäïìÝíùí êáé ðñü-
ôåéíáí ìßá êáôÜëëçëç ìÝèïäï, ôç SeqClus, ðïõ âáóßæåôáé óå ìßá äïìÞ äåäïìÝíùí
Counting Tree êáé ðáñÝ÷åé ìßá óõìðéåóìÝíç óýíïøç ôùí ðõêíþí ðñïôýðùí óôï
óýíïëï äåäïìÝíùí. ×ñçóéìïðïéþíôáò ôéò åìöáíßóåéò åíüò ðõêíïý ðñïôýðïõ, ç
SeqClus ðáñÜãåé ïìÜäåò óå õðï÷þñïõò. Ïé ìÝèïäïé áõôÝò ëåéôïõñãïýí óå óôá-
ôéêÜ óýíïëá äåäïìÝíùí. Äåí åßíáé åýêïëç ç ðñïóáñìïãÞ áõôþí ôùí ìåèüäùí
óå äõíáìéêÜ ðåñéâÜëëïíôá, äéüôé åßôå âáóßæïíôáé: (á) óå ìåèüäïõò ðñïóðÝëáóçò,
ïé ïðïßåò ðñÝðåé íá åíçìåñþíïíôáé äéáñêþò ãéá íá ÷åéñßæïíôáé ôç óõíå÷Þ Üöéîç
ôéìþí, Þ (â) óå áëãüñéèìïõò ôùí ïðïßùí ç ðñïóáñìïãÞ ôïõò óå áõîçôéêïýò äåí
åßíáé äõíáôÞ.
Ðñüóöáôá, ôï ðñüâëçìá ôçò ïìáäïðïßçóçò óå ñïÝò äåäïìÝíùí Ý÷åé ðñïóåëêý-
óåé ôï åíäéáöÝñïí ôçò åñåõíçôéêÞò êïéíüôçôáò [4, 19, 38, 73, 75]. Ç ðëåéïøçößá
áõôþí ôùí óõíåéóöïñþí åöáñìüæïõí ðáñáëëáãÝò ôçò ôå÷íéêÞò ïìáäïðïßçóçò k-
median. ÁõôÝò ïé ìÝèïäïé áó÷ïëïýíôáé ìå ôçí ïìáäïðïßçóç ôùí ôéìþí ìßáò ìüíï
ñïÞò äåäïìÝíùí. Ùóôüóï, áí ëÜâïõìå õðüøç ôéò áðáéôÞóåéò ôùí óõã÷ñüíùí åöáñ-
ìïãþí, ïé ìÝèïäïé áõôÝò åßíáé áñêåôÜ ðåñéïñéóìÝíçò ðñáêôéêüôçôáò, áöïý ïëïÝíá
êáé ðåñéóóüôåñåò åöáñìïãÝò áðáéôïýí ôç äéá÷åßñéóç ðïëëþí ñïþí äåäïìÝíùí.
Ëüãù ôçò äõíáìéêÞò öýóçò ôùí ñïþí äåäïìÝíùí, ïé óõíå÷åßò êáé áõîçôé-
êïß áëãüñéèìïé åßíáé áðáñáßôçôïé ãéá ôçí åðåîåñãáóßá êéíïýìåíùí ÷ñïíïóåéñþí.
Ðñüóöáôåò åñåõíçôéêÝò åñãáóßåò óôç óõíå÷Þ åðåîåñãáóßá åñùôçìÜôùí åßíáé ïé
[4, 19, 73, 75]. ÁõôÝò ïé åñåõíçôéêÝò óõíåéóöïñÝò ìåëåôïýí äéÜöïñá æçôÞìáôá
ôçò óõíå÷ïýò åðåîåñãáóßáò åñùôçìÜôùí, ëáìâÜíïíôáò õðüøç ôïõò õøçëïýò ñõè-
ìïýò Üöéîçò íÝùí äåäïìÝíùí.
Åî üóùí åßíáé ãíùóôÜ, áõôÞ åßíáé ç ðñþôç ðñïóðÜèåéá åðßëõóçò ôïõ ðñïâëÞ-
ìáôïò ôçò óõíå÷ïýò êáé áõîçôéêÞò ïìáäïðïßçóçò óå õðï÷þñïõò óå êéíïýìåíåò
÷ñïíïóåéñÝò.
Óýìâïëï ÐåñéãñáöÞ
s; si êéíïýìåíç ÷ñïíïóåéñÜ
s[i] ôéìÝò ôçò s óôçí i-ïóôÞ äéÜóôáóç
N ðëÞèïò ôùí ñïþí
W ìÝãåèïò êéíïýìåíïõ ðáñáèýñïõ
Ci ìÝãéóôç -ïìÜäá õðï÷þñïõ
ci;j j -ïóôÞ áðëÞ -ïìÜäá ôçò i-ïóôÞò äéÜóôáóçò
c; c0 áðëÞ -ïìÜäá
m ðëÞèïò ñïþí óå ìßá ïìÜäá
G; Gi óýíïëï õðïøÞöéùí -ïìÜäùí
minRows åëÜ÷éóôï åðéôñåðüìåíï ðëÞèïò ñïþí ðïõ ðåñéÝ÷ïíôáé óå ìßá
-ïìÜäá õðï÷þñïõ
minCols åëÜ÷éóôï åðéôñåðüìåíï ðëÞèïò óõíå÷üìåíùí äéáóôÜóåùí
ðïõ ðåñéÝ÷ïíôáé óå ìßá -ïìÜäá õðï÷þñïõ
ìÝãéóôç åðéôñåðüìåíç áðüóôáóç ìåôáîý ñïþí óå ìßá äéÜóôáóç
äéÜóôáóç. Äåí õðÜñ÷åé ðåñéïñéóìüò ó÷åôéêÜ ìå ôïí áñéèìü ôùí ñïþí ðïõ ðåñéÝ÷åé
êÜèå ïìÜäá.
Ç j -ïóôÞ áðëÞ -ïìÜäá ôçò i-ïóôÞò äéÜóôáóçò óõìâïëßæåôáé ùò ci;j . Ï ïñé-
óìüò áõôüò äåí ëáìâÜíåé õðüøç ðéèáíïýò ðåñéïñéóìïýò ãéá ôï ðëÞèïò ôùí ñïþí
ìßáò ïìÜäáò êáé ôïí áñéèìü ôùí óõíå÷üìåíùí äéáóôÜóåùí. ÅîáíáãêÜæïíôáò
êÜèå ïìÜäá íá ðåñéÝ÷åé ôïõëÜ÷éóôïí minRows ñïÝò óå ôïõëÜ÷éóôïí minCols
äéáóôÜóåéò Ý÷ïõìå:
ÏÑÉÓÌÏÓ 5.2 (-ïìÜäá õðï÷þñïõ). Ìßá -ïìÜäá õðï÷þñïõ ðåñéÝ÷åé ôïõëÜ÷é-
óôïí minRows ñïÝò, ôùí ïðïßùí ç ìÝãéóôç äéáöïñÜ ôéìÞò åßíáé ôï ðïëý óå
ôïõëÜ÷éóôïí minCols óõíå÷üìåíåò äéáóôÜóåéò.
Óôï ðáñÜäåéãìá ôçò Åéêüíáò 5.1, õðïèÝôïíôáò üôé minRows=2, minCols=3
êáé =2, Ý÷ïõìå äýï ðáñáãüìåíåò -ïìÜäåò õðï÷þñïõ, ðïõ ðåñéÝ÷ïõí ôéò ñïÝò
A êáé B , óôïõò õðï÷þñïõò [d3 ; d6 ] êáé [d9 ; d17 ]. Ùóôüóï, õðïèÝôïíôáò üôé
minCols=5, Ý÷ïõìå ìüíï ìßá -ïìÜäá õðï÷þñïõ ðïõ ïñßæåôáé óôéò äéáóôÜóåéò
[d9 ; d17 ]. ÅðéðëÝïí, õðïèÝôïíôáò üôé minRows=3, äåí õðÜñ÷åé êáìßá -ïìÜäá
õðï÷þñïõ, áöïý äåí ìðïñïýìå íá ðñïóäéïñßóïõìå ìßá -ïìÜäá õðï÷þñïõ ðïõ íá
ðåñéÝ÷åé ôïõëÜ÷éóôïí ôñåéò ñïÝò.
Ìßá -ïìÜäá õðï÷þñïõ C óõìâïëßæåôáé ùò Ýíá æåýãïò ôçò ìïñöÞò (S ; [di ; dj ]),
üðïõ S åßíáé Ýíá óýíïëï ñïþí êáé [di ; dj ] åßíáé Ýíá äßáóôçìá óõíïëéêÜ j − i + 1
óõíå÷üìåíùí äéáóôÜóåùí (÷ñïíéêþí óôéãìþí), üðïõ i ≤ j . Ðñïöáíþò, ôï ðëÞèïò
ôïõ S ðñÝðåé íá åßíáé ôïõëÜ÷éóôïí minRows, åíþ ôï ðëÞèïò ôùí óõíå÷üìåíùí
äéáóôÜóåùí ðñÝðåé íá åßíáé ôïõëÜ÷éóôïí minCols. ÕðïèÝôïõìå üôé ïé ñïÝò ðïõ
74 ÊÅÖÁËÁÉÏ 5. ÓÕÍÅ×ÇÓ ÏÌÁÄÏÐÏÉÇÓÇ ÓÅ ÕÐÏ×ÙÑÏÕÓ
õðïèÝóôå üôé ç C 0 äåí åßíáé ìßá -ïìÜäá õðï÷þñïõ. Áõôü óçìáßíåé üôé õðÜñ÷ïõí
äýï ñïÝò s1 ∈ S ; s2 ∈ S êáé ìßá äéÜóôáóç dx ; k ≤ x ≤ l ôÝôïéá þóôå ç äéáöïñÜ ôùí
ôéìþí ôïõò íá åßíáé ðåñéóóüôåñï áðü . ¼ìùò, áöïý ç äéÜóôáóç dx ðåñéÝ÷åôáé
óôçí ïìÜäá C êáôáëÞãïõìå êáé ðÜëé üôé ç C äåí åßíáé -ïìÜäá õðï÷þñïõ. a
Ç äýíáìç ôçò closure property âñßóêåôáé óôï ãåãïíüò üôé äåí åßíáé áðá-
ñáßôçôï íá áíé÷íåýóïõìå üëåò ôéò ðéèáíÝò -ïìÜäåò õðï÷þñïõ, áëëÜ ìüíï Ýíá
õðïóýíïëï áðü áõôÝò. ÁõôÞ ç éäéüôçôá ìïéÜæåé ìå ôçí áñ÷Þ Apriori [12], ç ïðïßá
÷ñçóéìïðïéÞèçêå ãéá ôçí áíáêÜëõøç êáíüíùí óõó÷Ýôéóçò (association rule).
Ôþñá ìðïñïýìå íá ðñï÷ùñÞóïõìå ìå ôçí áíáëõôéêÞ ðåñéãñáöÞ ôçò ðñïôåéíü-
ìåíçò ìåèïäïëïãßáò, ðïõ åðéëýåé ôï åîÞò ðñüâëçìá:
ÄïäïìÝíïõ åíüò óõíüëïõ êéíïýìåíùí ÷ñïíïóåéñþí, ìßá ìÝãéóôç åðéôñåðôÞ
äéáöïñÜ , Ýíá ìÝãåèïò êéíïýìåíïõ ðáñáèýñïõ W êáé ïé äýï áêÝñáéåò ôéìÝò
minRows êáé minCols, åíôüðéóå óõíå÷þò üëåò ôéò ìÝãéóôåò -ïìÜäåò õðï÷þ-
ñïõ, üðïõ êÜèå ïìÜäá ðåñéÝ÷åé ôïõëÜ÷éóôïí minRows ñïÝò, êáé ç äéáöïñÜ ôùí
ôéìþí ôïõò åßíáé ìéêñüôåñç áðü Þ ßóç ìå , óå ôïõëÜ÷éóôïí minCols óõíå÷üìåíåò
äéáóôÜóåéò.
5.3. ÁÕÎÇÔÉÊÇ ÏÌÁÄÏÐÏÉÇÓÇ 75
! #$
" "
" "
" "
" "
! #$
#
"
$
%
&
ïìÜäåò ôïõ G, ôüôå ó÷çìáôßæåôáé Ýíá Üëëï óýíïëï ìå x{2 (m+1)-åðéðÝäïõ ïìÜ-
äåò. ÅðïìÝíùò, óôï (m+1)-ïóôü åðßðåäï, ï ìÝãéóôïò áñéèìüò (m+1)-åðéðÝäïõ
ïìÜäùí ðïõ ðåñéÝ÷ïíôáé óå Ýíá óýíïëï èá åßíáé ôï ðïëý x{1. Óôï minRows-
åðßðåäï, Ýíá óýíïëï èá Ý÷åé ôï ðïëý x − minRows + m ïìÜäåò, êáé åðïìÝíùò
x < minRows − m + 1 ⇒ x − minRows + m < 1. Áõôü óçìáßíåé üôé äåí åßíáé
äõíáôü íá Ý÷ïõìå ìßá -ïìÜäá õðï÷þñïõ êáé Ýôóé ôï G ìðïñåß íá äéáãñáöåß. a
Åßíáé ðñïöáíÝò, üôé üëåò ïé õðïøÞöéåò ïìÜäåò ôïõ ðñþôïõ óõíüëïõ åðéâéþ-
íïõí ôïõ êñéôçñßïõ áðüññéøçò ïìÜäùí. Ìå ìéá ðñþôç ìáôéÜ, öáßíåôáé üôé êáé ïé
ôÝóóåñéò ïìÜäåò ìðïñïýí íá ÷ñçóéìïðïéçèïýí óôï åðüìåíï âÞìá, áöïý êÜèå ìßá
áðü áõôÝò ðåñéÝ÷åé ôïõëÜ÷éóôïí ôñåéò äéáóôÜóåéò. Ùóôüóï, ìå ìßá ðñïóåêôéêü-
ôåñç ìáôéÜ ðáñáôçñïýìå üôé ç äéÜóôáóç d4 ìðïñåß íá áðïññéöèåß. Ç áêüëïõèç
ðñüôáóç åîçãåß:
ÐÑÏÔÁÓÇ 5.6 (ÊñéôÞñéï áðüññéøçò äéÜóôáóçò). Áí êÜèå õðïøÞöéá -ïìÜäá
óå Ýíá óýíïëï G ðåñéÝ÷åé áêñéâþò m ñïÝò êáé ôï ðëÞèïò ôùí åìöáíßóåùí ìßáò
äéÜóôáóçò óôï G åßíáé ëéãüôåñï áðü minRows{m+1, ôüôå áõôÞ ç äéÜóôáóç äåí
ìðïñåß íá óõíåéóöÝñåé óôç äçìéïõñãßá -ïìÜäùí õðï÷þñïõ.
ÁÐÏÄÅÉÎÇ. Èåùñåßóôå Ýíá óýíïëï G ìå m-ïìÜäåò. ÕðïèÝóôå üôé ïé åìöáíßóåéò
ìßáò äéÜóôáóçò di óôï G åßíáé om < minRows − m + 1. Ôüôå, óôï åðüìåíï
åðßðåäï, ïé (m+1)-åðéðÝäïõ ïìÜäåò ïðïéïõäÞðïôå óõíüëïõ èá åßíáé ôï ðïëý x{1
78 ÊÅÖÁËÁÉÏ 5. ÓÕÍÅ×ÇÓ ÏÌÁÄÏÐÏÉÇÓÇ ÓÅ ÕÐÏ×ÙÑÏÕÓ
(äåßôå ôçí áðüäåéîç ôçò Ðñüôáóçò 5.5) êáé ï áñéèìüò åìöáíßóåùí ôçò äéÜóôáóçò
di óôï G èá åßíáé ôï ðïëý om+1 =om {1. Ç áðüäåéîç åßíáé ðáñüìïéá ìå áõôÞí ôçò
Ðñüôáóçò 5.5 êáé ðáñáëåßðåôáé.
Óôï minRows-åðßðåäï, ôï ðëÞèïò ôùí åìöáíßóåùí ôçò di èá åßíáé ôï ðïëý
ominRows = om − minRows + m. ÅðïìÝíùò, ominRows < minRows − m + 1 −
minRows + m ⇒ ominRows < 1, êáé áõôü óçìáßíåé üôé ç äéÜóôáóç di äåí ìðïñåß
íá óõììåôÝ÷åé óå ìßá -ïìÜäá õðï÷þñïõ. a
Óôï åðüìåíï âÞìá, ç ìÝèïäïò ðñïóðáèåß íá åíþóåé ïìÜäåò ðïõ åðéâßùóáí áðü
ôï ðñïçãïýìåíï âÞìá, ìå óêïðü ôç äçìéïõñãßá ïìÜäùí ðïõ ðåñéÝ÷ïõí m +1 ñïÝò.
ÅðïìÝíùò, ðñïóðáèïýìå íá åíþóïõìå ôéò ïìÜäåò 1 ìå 2, 1 ìå 4 êáé 2 ìå 4 (ç
ïìÜäá 3 Ý÷åé áðïññéöèåß). Áõôïß ïé óõíäõáóìïß åìöáíßæïíôáé óå ìïñöÞ ðßíáêá
óôçí Åéêüíá 5.4(a). Ïé ïìÜäåò ÷ùñßæïíôáé óå äéáöïñåôéêÜ óýíïëá. ÊÜèå óýíïëï
ðñÝðåé íá ðåñéÝ÷åé ôéò ïìÜäåò ðïõ Ý÷ïõí êïéíÜ üëá ôá IDs ñïþí, åêôüò áðü ôï
ôåëåõôáßï. Ãéá ðáñÜäåéãìá, ïé õðïøÞöéåò ïìÜäåò 1 êáé 2 ðåñéÝ÷ïíôáé óôï ðñþôï
óýíïëï áöïý äéáöÝñïõí ìüíï óôçí ôåëåõôáßá ñïÞ êáé Ý÷ïõí äýï êïéíÝò ñïÝò s1 êáé
s2 . Êáé ðÜëé, ìå ìéá ðñþôç ìáôéÜ öáßíåôáé üôé êáé ïé ôñåéò õðïøÞöéåò ïìÜäåò ôçò
Åéêüíáò 5.4(a) ìðïñïýí íá ÷ñçóéìïðïéçèïýí óôç óõíÝ÷åéá. Ùóôüóï, ç ïìÜäá 3
ìðïñåß íá áðïññéöèåß, óýìöùíá ìå ôï êñéôÞñéï áðüññéøçò ïìÜäáò (Ðñüôáóç 5.5).
Áõôü áðåéêïíßæåôáé ìå ôç óêéáãìÝíç ãñáììÞ óôçí Åéêüíá 5.4(a).
ÅîåôÜæïíôáò ôéò ïìÜäåò 1 êáé 2 ôïõ ðñþôïõ óõíüëïõ, åßíáé öáíåñü üôé êáé
ïé äýï ïìÜäåò åðéâéþíïõí áðü ôá êñéôÞñéá áðüññéøçò. ÅðïìÝíùò, áõôÝò ïé äýï
ïìÜäåò óõíäõÜæïíôáé ó÷çìáôßæïíôáò ìßá 4-åðéðÝäïõ ïìÜäá, üðùò öáßíåôáé óôçí
5.3. ÁÕÎÇÔÉÊÇ ÏÌÁÄÏÐÏÉÇÓÇ 79
¸óôù C3 = (S3 ; [di ; dj ]) åßíáé ìßá -ïìÜäá, ðïõ ìðïñåß íá ðáñá÷èåß áðü ôï
óõíäõáóìü ôùí C1 êáé C2 , üðïõ S3 = {s1 ; : : : ; sj ; sk ; sl ; sj +1 ; : : : ; sj +i }. Ôüôå,
ëüãù ôçò closure property, õðÜñ÷ïõí åðßóçò ïé åîÞò ïìÜäåò: C4 = (S4 ; [di ; dj ])
êáé C5 = (S5 ; [di ; dj ]), üðïõ S4 = s1 ; : : : ; sj ; sk ; sl ; sj +1 ; : : : ; sj +i−2 ; sj +i−1 êáé
S5 = s1 ; : : : ; sj ; sk ; sl ; sj +1 ; : : : ; sj +i−2 ; sj +i . Óçìåéþóôå üôé ïé ïìÜäåò C4 êáé
C5 áíÞêïõí óôï ßäéï óýíïëï, áöïý äéáöÝñïõí ìüíï óôç ôåëåõôáßá ñïÞ. Áõôü
1. for i=1 to W
2. compute all simple -clusters for dimension di ;
3. end for
4. for i=1 to N − minRows + 1
5. set m = 2;
6. generate m-level candidate -clusters for stream i;
7. apply cluster pruning;
8. apply dimension pruning;
9. while there exist m-level candidates do
10. generate m + 1-level candidate -clusters that
contain minCols or more dimensions;
11. increase m;
12. if m ≥ minRows and
13. C is maximal subspace -cluster then
14. update A;
15. end if
16. apply cluster pruning;
17. apply dimension pruning;
18. end while
19. end for
20. report A;
!"
Áñ÷éêÜ, êÜèå ïìÜäá ðïõ ðåñéÝ÷åé ôç äéÜóôáóç d4 åëÝã÷åôáé ãéá ðéèáíÞ åðÝ-
êôáóç óôç äéÜóôáóç d5 . Áí ç ïìÜäá ìðïñåß íá åðåêôáèåß, ôüôå ðåñéëáìâÜíåôáé
óôçí áðÜíôçóç. Óôç óõíÝ÷åéá, ç äéÜóôáóç d1 äéáãñÜöåôáé áðü üëåò ôéò ïìÜäåò
ðïõ ôçí ðåñéÝ÷ïõí. Áí ìå ôç äéáãñáöÞ êÜðïéá ïìÜäá ìåßíåé ìå ëéãüôåñåò áðü
minCols äéáóôÜóåéò, ôüôå äéáãñÜöåôáé. ÔÝëïò, üëåò ïé Üëëåò ïìÜäåò ðïõ äåí
åðçñåÜæïíôáé áðü ôç äéáãñáöÞ ôçò d1 êáé ôçí ðñïóèÞêç ôçò d5 èåùñïýíôáé ìÝñïò
ôçò áðÜíôçóçò.
ÐñïêåéìÝíïõ íá åíôïðßóïõìå íÝåò ïìÜäåò ðïõ Ý÷ïõí ó÷çìáôéóèåß áðü ôçí
ðñïóèÞêç ôçò äéÜóôáóçò d5 , ï áëãüñéèìïò åîåôÜæåé ìüíï ôéò ôåëåõôáßåò minCols
äéáóôÜóåéò. Ï ëüãïò ãé' áõôü åîçãåßôáé áðü ôçí åîÞò ðñüôáóç.
Ëüãù ôçò Ðñüôáóçò 5.9, ç ìÝèïäïò åîåôÜæåé ìüíï ôéò ôåëåõôáßåò minCols
äéáóôÜóåéò. ÅðïìÝíùò, áí ìßá äéÜóôáóç äåí óõììåôÝ÷åé óå ìßá ïìÜäá, ôüôå ç
ïìÜäá áðïññßðôåôáé ëüãù ôçò ðáñáâßáóçò ôïõ ðåñéïñéóìïý ôïõ åëÜ÷éóôïõ ðëÞ-
èïõò äéáóôÜóåùí. Áõôü óçìáßíåé üôé ôï êñéôÞñéï áðüññéøçò äéÜóôáóçò äåí åßíáé
áíáãêáßï êáé åöáñìüæåôáé ìüíï ôï êñéôÞñéï áðüññéøçò ïìÜäáò.
5.3. ÁÕÎÇÔÉÊÇ ÏÌÁÄÏÐÏÉÇÓÇ 83
1. for i=1 to W
2. update all simple -clusters for dimension di ;
3. end for
4. delete existing maximal subspace -clusters which contain si ;
5. set m = 2;
6. generate m-level candidate -clusters for stream si ;
7. apply cluster pruning;
8. apply dimension pruning;
9. while there exist m-level candidates do
10. generate m + 1-level candidate -clusters that
contain minCols or more dimensions;
11. increase m;
12. if m ≥ minRows and
13. C is maximal subspace -cluster then
14. update A;
15. end if
16. apply cluster pruning;
17. apply dimension pruning;
18. end while
19. report A;
áðëÝò -ïìÜäåò c00 ìåôáîý ôùí c êáé c0 åöüóïí éó÷ýåé maxc − ≤ v ≤ minc +
00 00
600000 250000
total total
cluster pruning cluster pruning
dimension pruning dimension pruning
500000 dimensionality shrinkage dimensionality shrinkage
200000
400000
number of clusters
number of clusters
150000
300000
100000
200000
50000
100000
0 0
0 5 10 15 20 25 2 4 6 8 10 12 14 16 18
streams per cluster streams per cluster
óôïò ãéá ôç äçìéïõñãßá ôùí ïìÜäùí óå êÜèå åðßðåäï. Èõìçèåßôå üôé ãéá ôçí
ðáñáãùãÞ ôùí m-åðéðÝäïõ -ïìÜäùí, áðáéôïýíôáé ïé (m{1)-åðéðÝäïõ ïìÜäåò.
Ìðïñåß íá áðïäåé÷èåß üôé ï óõíïëéêüò áñéèìüò ôùí ðéèáíüí ïìÜäùí ðïõ ìðïñïýí
íá ðáñá÷èïýí åßíáé 2N {1, üðïõ N åßíáé ôï ðëÞèïò ôùí êéíïýìåíùí ÷ñïíïóåéñþí.
Ùóôüóï, ç åöáñìïãÞ ôùí êñéôçñßùí áðüññéøçò êáôïñèþíåé íá åëáôôþóåé äñáóôéêÜ
ôïí áñéèìü ôùí ðáñáãüìåíùí ïìÜäùí. Ç åðßäñáóç ôïõò öáßíåôáé óôçí Åéêüíá
5.9 ðïõ áðåéêïíßæåé: (1) ôï óõíïëéêü áñéèìü ôùí ïìÜäùí óå êÜèå åðßðåäï, (2)
ôïí áñéèìü ôùí ïìÜäùí ðïõ áðïññßöèçêáí ëüãù ôïõ êñéôçñßïõ áðüññéøçò ïìÜäáò,
(3) ôïí áñéèìü ôùí ïìÜäùí ðïõ áðïññßöèçêáí ëüãù ôïõ êñéôçñßïõ áðüññéøçò äéÜ-
óôáóçò, êáé (4) ôïí áñéèìü ôùí ïìÜäùí ðïõ óõññéêíþèçêáí ëüãù ôïõ êñéôçñßïõ
áðüññéøçò äéÜóôáóçò. Åßíáé Ýêäçëï, üôé áðïññßðôåôáé ç ðëåéïíüôçôá ôùí õðïøç-
ößùí -ïìÜäùí. Ç áðüññéøç ïìÜäáò åßíáé ðïëý ðéï óçìáíôéêÞ üôáí óõìâáßíåé óôá
ΠINAKAΣ 5.2: Óôïé÷åéþäåéò ëåéôïõñãßåò áðáéôïýìåíåò áðü ôïõò áëãïñßèìïõò CI, CM-UPALL êáé CM-
UPONE.
5.4. ÁÕÎÇÔÉÊÏÓ ÕÐÏËÏÃÉÓÌÏÓ ÔÙÍ PCLUSTERS 87
time (sec)
1 10
0.1
0.1
0.01
0.01
30 60 90 120 150 0 5000 10000 15000 20000
sliding window number of streams
(á) (â)
EIKONA 5.10: ×ñüíïò áðüêñéóçò ùò ðñïò: (á) ôï ìÝãåèïò êéíïýìåíïõ ðáñáèýñïõ êáé (â) ôï ðëÞèïò ôùí
ñïþí.
ðïõ ðåñéÝ÷ïõí ôçí åíçìåñùìÝíç ñïÞ üëùí ôùí äéáóôÜóåùí, åíþ ç CM-UPALL
åíçìåñþíåé ìüíï ôéò áðëÝò -ïìÜäåò ìüíï ôçò íÝáò äéÜóôáóçò. Ç Åéêüíá 5.10(â)
äåß÷íåé ôçí êëéìÜêùóç ôùí ìåèüäùí óå ó÷Ýóç ìå ôï ðëÞèïò ôùí ñïþí. Ðñï-
êåéìÝíïõ íá Ý÷ïõìå ðáñüìïéá ðáñáìåôñïðïßçóç, ÷ñçóéìïðïéÞóáìå äéáöïñåôéêÜ
óõíèåôéêÜ óýíïëá äåäïìÝíùí ðïõ áðïôåëïýíôáé áðü 1000 Ýùò 20000 ñïÝò. Óå
êÜèå óýíïëï äåäïìÝíùí, åìöõôåýóáìå 100 ìÝãéóôåò -ïìÜäåò õðï÷þñïõ, áëëÜ
ìåôáâÜëëáìå ôçí ðáñÜìåôñï minRows Ýôóé þóôå ï áñéèìüò ôùí ôéìþí ðïõ ÷ñçóé-
ìïðïéïýíôáé óôéò ïìÜäåò íá åßíáé áíÜëïãïò ìå ôï óõíïëéêü áñéèìü ôéìþí. ¼ôáí
ôï ðëÞèïò ôùí ñïþí áõîÜíåôáé óçìáíôéêÜ, ôï êüóôïò ôçò CM-UPALL îåðåñíÜ
áõôü ôçò CM-UPONE. Áõôü óõìâáßíåé ãéáôß: (á) ôï êüóôïò õðïëïãéóìïý ôùí
áðëþí -ïìÜäùí ôçò ôåëåõôáßáò äéÜóôáóçò áõîÜíåôáé ìå ôï ðëÞèïò ôùí ñïþí,
êáé (â) ç CM-UPALL ðñïóðáèåß íá âñåé íÝåò -ïìÜäåò õðï÷þñïõ ãéá üëåò ôéò
ñïÝò, åíþ ç CM-UPONE ðñïóðáèåß íá âñåé íÝåò -ïìÜäåò õðï÷þñïõ ìüíï ãéá
ôçí åíçìåñùìÝíç ñïÞ. Êáé ðÜëé, ôï êüóôïò óõíôÞñçóçò ôùí ïìÜäùí åßíáé ðïëý
ìéêñüôåñï ôïõ êüóôïõò áñ÷éêïðïßçóçò ôùí ïìÜäùí. Áõôü ìáñôõñÜ üôé ç ïìáäï-
ðïßçóç áðü ôçí áñ÷Þ ðñÝðåé íá áðïöåýãåôáé, áöïý ôï áíôßóôïé÷ï õðïëïãéóôéêü
êüóôïò åßíáé áðáãïñåõôéêÜ õøçëü. Óôá áêüëïõèá áðïôåëÝóìáôá, ôï êüóôïò ôçò
áñ÷éêïðïßçóçò ôùí ïìÜäùí ðáñáëåßðåôáé ãéá ëüãïõò óáöÞíåéáò.
Óôï äåýôåñï ðåßñáìá, ìåëåôïýìå ôçí áðüäïóç ôùí ìåèüäùí óå ó÷Ýóç ìå ôéò
ðáñáìÝôñïõò minRows êáé minCols. Èõìçèåßôå, üôé áí åíçìåñþíïíôáé üëåò ïé
ñïÝò, ôüôå ç ìÝèïäïò åîåôÜæåé ìüíï ôéò ôåëåõôáßåò minCols äéáóôÜóåéò, åíþ áí
åíçìåñþíåôáé ìüíï ìßá ñïÞ, ôüôå ç ìÝèïäïò øÜ÷íåé ãéá íÝåò ìÝãéóôåò -ïìÜäåò
õðï÷þñïõ ìüíï ãéá ôçí åíçìåñùìÝíç ñïÞ. Ç Åéêüíá 5.11 ðáñïõóéÜæåé ôçí åðß-
äñáóç ôùí ðáñáìÝôñùí óôïõò áëãüñéèìïõò óõíôÞñçóçò. ¼ðùò áíáìåíüôáí, ôï
êüóôïò ôïõ CM-UPALL åëáôôþíåôáé üóï áõîÜíïíôáé ïé minRows êáé minCols,
åíþ áõôü äåí óõìâáßíåé ãéá ôïí áëãüñéèìï CM-UPONE. Ï ëüãïò åßíáé üôé ôï êü-
óôïò ôçò åíçìÝñùóçò ôùí áðëþí -ïìÜäùí åßíáé õøçëüôåñï áðü ôçí åýñåóç íÝùí
2 2
CM-UPALL CM-UPALL
CM-UPONE CM-UPONE
1.5 1.5
time (sec)
time (sec)
1 1
0.5 0.5
0 0
10 20 30 40 50 2 4 6 8 10
minRows minCols
(á) (â)
EIKONA 5.11. ×ñüíïò áðüêñéóçò ùò ðñïò: (á) minRows, êáé (â) minCols.
92 ÊÅÖÁËÁÉÏ 5. ÓÕÍÅ×ÇÓ ÏÌÁÄÏÐÏÉÇÓÇ ÓÅ ÕÐÏ×ÙÑÏÕÓ
time (sec)
0.8
1
0.6
0.4 0.5
0.2
0 0
11 13 15 17 19 3 4 5 6 7
minRows minCols
(á) (â)
EIKONA 5.12. ×ñüíïò áðüêñéóçò ùò ðñïò: (á) minRows, êáé (â) minCols (STOCKS).
1 10
minCols=4 a=0.0
minCols=5 a=0.1
minCols=6 a=0.2
0.8 minCols=7
1
0.6
time (sec)
time (sec)
0.4
0.1
0.2
0 0.01
11 13 15 17 19 11 13 15 17 19
minRows minRows
(á) (â)
EIKONA 5.13: ×ñüíïò áðüêñéóçò ùò ðñïò: (á) minRows; minCols ìå =0.2, êáé (â) minRows; ìå
minCols=5 (STOCKS).
5.5. ÐÅÉÑÁÌÁÔÉÊÇ ÁÐÏÔÉÌÇÓÇ 93
954 954
952 952
data values
data values
950 950
948 948
946 946
20 22 24 26 28 30 19 20 21 22 23 24 25 26 27 28
dimensions dimensions
960 970
958 968
data values
data values
956 966
954 964
952 962
950 960
57 58 59 60 61 62 63 64 65 66 61 62 63 64 65 66 67 68 69 70
dimensions dimensions
100 100
time (sec)
time (sec)
10 10
1 1
0.1 0.1
14 16 18 20 22 24 14 16 18 20 22 24
minRows minRows
800
CI-pScore CM-UPALL-pScore
MAPLE MAPLE
700 1000
600
100
500
time (sec)
time (sec)
400 10
300 1
200
0.1
100
0 0.01
30 60 90 120 150 30 60 90 120 150
sliding window sliding window
EIKONA 5.16: ×ñüíïò áðüêñéóçò ùò ðñïò ìÝãåèïò êéíïýìåíïõ ðáñáèýñïõ ìå minRows = 25; minCols =
5 (STOCKS).
450
CI-pScore 1000 CM-UPALL-pScore
400 MAPLE MAPLE
350 100
300
time (sec)
time (sec)
10
250
200
1
150
100 0.1
50
0.01
0
0 5000 10000 15000 20000 0 5000 10000 15000 20000
number of streams number of streams
EIKONA 5.17. ×ñüíïò áðüêñéóçò ùò ðñïò ôï ðëÞèïò ôùí ñïþí ìå W =30, minCols=5 (SYNTHETIC).
CI-pScore
MAPLE
100
time (sec)
10
0.1
0 1 2 3 4
parameter delta
5.6 ÓõìðåñÜóìáôá
Óå áõôü ôï êåöÜëáéï, ìåëåôÞóáìå ôï ðñüâëçìá ôçò óõíå÷ïýò ïìáäïðïßçóçò óå
õðï÷þñïõò óå êéíïýìåíåò ÷ñïíïóåéñÝò. Ðéï óõãêåêñéìÝíá, ðñïôÜèçêå ìéá ðñù-
ôüôõðç ìÝèïäïò ðñïò ôçí êáôåýèõíóç ôçò áðïäïôéêÞò ðáñáãùãÞò êáé åíçìÝñù-
óçò ïìÜäùí. ÊÜèå ïìÜäá áðïôåëåßôáé áðü Ýíá ðëÞèïò êéíïýìåíùí ÷ñïíïóåéñþí,
5.6. ÓÕÌÐÅÑÁÓÌÁÔÁ 97
30 30
25 25
data values
data values
20 20
15 15
10 10
2 4 6 8 10 5 7 9 11 13
dimensions dimensions
22 30
25
20
20
data values
data values
18
15
16
10
14
5
12 0
10 12 14 16 18 5 7 9 11 13
dimensions dimensions
üðïõ ïé ìåôáîý ôùí ôéìþí ôïõò äéáöïñÝò ìÝóá óå ìßá ïìÜäá åßíáé ôï ðïëý , åíþ
õðüêåéôáé óôïõò ðåñéïñéóìïýò ôïõ åëÜ÷éóôïõ ðëÞèïõò ñïþí (minRows) êáé ôïõ
åëÜ÷éóôïõ ðëÞèïõò äéáóôÜóåùí (minCols).
Ç ìÝèïäïò óõíå÷Þò ïìáäïðïßçóçò áðïôåëåßôáé áðü Ýíá ðëÞèïò äéáöïñåôéêþí
öÜóåùí: (á) ìßá öÜóç áñ÷éêïðïßçóçò, ç ïðïßá åßíáé õðåýèõíç ãéá ôçí áñ÷éêÞ
ðáñáãùãÞ ôùí ïìÜäùí, êáé (â) ìßá áêïëïõèßá áðü öÜóåéò óõíôÞñçóçò, ïé ïðïßåò
÷ñçóéìïðïéïýíôáé ãéá ôçí åíçìÝñùóç ôçò ðëçñïöïñßáò ïìáäïðïßçóçò óôï ðÝñá-
óìá ôïõ ÷ñüíïõ. ÊÜèå öÜóç óõíôÞñçóçò åêôåëåßôáé üôáí åßôå åßíáé äéáèÝóéìåò
íÝåò ôéìÝò ãéá üëåò ôéò ñïÝò, Þ üôáí åßíáé äéáèÝóéìç ìüíï ìßá ôéìÞ ãéá ìßá ñïÞ äå-
äïìÝíùí. Óôï êåöÜëáéï áõôü êáôáäåß÷èçêå üôé ôá ðñïôåéíüìåíá êñéôÞñéá áðüññé-
øçò (ïìÜäáò, äéÜóôáóçò êáé ñïÞò), åðéôõã÷Üíïõí óçìáíôéêÞ åëÜôôùóç ôïõ ÷þñïõ
áíáæÞôçóçò.
ÅðéðëÝïí, äåßîáìå üôé ïé ðñïôåéíüìåíåò ìÝèïäïé ìðïñïýí åýêïëá íá ðñïóáñ-
ìïóèïýí ãéá íá åíôïðßæïõí pClusters óå óõíå÷üìåíåò äéáóôÜóåéò. Ç ðåéñáìáôéêÞ
óýãêñéóç ìå ôïí áëãüñéèìï MaPle, ôïí êáëýôåñï áëãüñéèìï ãéá ôçí ðáñáãùãÞ
pCluster óå óôáôéêÜ äåäïìÝíá, Ýäåéîå üôé ïé ðñïôåéíüìåíåò ìÝèïäïé åßíáé áðïäïôé-
êüôåñåò ôüóï óôçí ðåñßðôùóç ôùí äõíáìéêþí üóï êáé ôùí óôáôéêþí äåäïìÝíùí.
ÊÅÖÁËÁÉÏ 6
Åýñåóç Ïìïéüôçôáò óå
Êéíïýìåíåò ×ñïíïóåéñÝò∗
Ðåñéå÷üìåíá
6.1 ÅÉÓÁÃÙÃÇ . . . . . . . . . . . . . . . . . . . . . . . 99
6.2 Ó×ÅÔÉÊÇ ÂÉÂËÉÏÃÑÁÖÉÁ . . . . . . . . . . . . . 101
6.3 IDC-INDEX . . . . . . . . . . . . . . . . . . . . . . 103
6.4 ÐÅÉÑÁÌÁÔÉÊÇ ÌÅËÅÔÇ . . . . . . . . . . . . . 118
6.5 ÓÕÌÐÅÑÁÓÌÁÔÁ . . . . . . . . . . . . . . . . . . 133
6.6 ÐÁÑÁÑÔÇÌÁ . . . . . . . . . . . . . . . . . . . . . 133
6.1 ÅéóáãùãÞ
Ôç óçìåñéíÞ åðï÷Þ Ýíá óçìáíôéêü ðëÞèïò åöáñìïãþí áðáéôåß ôç äéá÷åßñéóç ñïþí
äåäïìÝíùí [21, 16, 35, 123, 47, 73]. Ðáñáäåßãìáôá ôÝôïéùí åöáñìïãþí åßíáé ç
áíÜëõóç ìåôï÷þí óå ðñáãìáôéêü ÷ñüíï, ç ðáñáêïëïýèçóç äéêôýïõ õðïëïãéóôþí,
ç äéá÷åßñéóç êßíçóçò äéêôýïõ, ç ðñüâëåøç óåéóìþí. Ôï âáóéêü êïéíü ÷áñáêôçñé-
óôéêü üëùí ôùí ðñïçãïýìåíùí åöáñìïãþí åßíáé üôé üëåò åßíáé ÷ñïíéêÜ êñßóéìåò
(time-critical). ÅðïìÝíùò, Ýíá ÓÄÂÄ ðñÝðåé íá åíéó÷õèåß ìå áðïôåëåóìáôéêÜ êáé
áðïäïôéêÜ åñãáëåßá ãéá ôçí åðåîåñãáóßá ñïþí äåäïìÝíùí, Ýôóé þóôå íá äéá÷åéñß-
æåôáé åðáñêþò ëåéôïõñãßåò üðùò ç åéóáãùãÞ, ç åíçìÝñùóç êáé óõíå÷Þ åñùôÞìáôá.
Ëüãù ôçò ðïëý äõíáìéêÞò öýóçò ôùí ñïþí äåäïìÝíùí, ç ôõ÷áßá ðñïóðÝëáóç åß-
íáé áðáãïñåõôéêÞ. ÊáôÜ óõíÝðåéá, êÜèå ñïÞ äåäïìÝíùí åßíáé äõíáôü íá äéáâáóèåß
∗ Ôï êåöÜëáéï áíôëåß ôá ðåñéå÷üìåíÜ ôïõ áðü ôéò åñãáóßåò [102, 101, 105].
99
100 ÊÅÖÁËÁÉÏ 6. ÅÕÑÅÓÇ ÏÌÏÉÏÔÇÔÁÓ ÓÅ ÊÉÍÏÕÌÅÍÅÓ ×ÑÏÍÏÓÅÉÑÅÓ
Stream 1
Stream 2
W t
6.3 IDC-Index
Ìßá ñïÞ óõìâïëßæåôáé ùò Sx êáé ìßá ðåðåñáóìÝíç ÷ñïíïóåéñÜ óõìâïëßæåôáé ùò
Sx [i : j ], üðïõ i åßíáé ç áñ÷éêÞ ÷ñïíéêÞ óôéãìÞ ôçò ÷ñïíïóåéñÜò êáé j åßíáé ç
ôåëåõôáßá. Ôï ðëÞèïò ôùí ôéìþí ìßáò ÷ñïíïóåéñÜò åßíáé åðïìÝíùò j {i+1 êáé
áíôéóôïé÷ïýí óå Ýíá ðáñÜèõñï ìÞêïõò W . Ôï óýìâïëï Sx (i) áíôéóôïé÷åß óôçí i-
ïóôÞ ôéìÞ ôçò ÷ñïíïóåéñÜò. Ï Ðßíáêáò 6.1 óõíïøßæåé ôïõò ïñéóìïýò ôùí âáóéêþí
óõìâüëùí ðïõ ÷ñçóéìïðïéïýíôáé óå áõôü ôï êåöÜëáéï.
Óýìâïëï ÐåñéãñáöÞ
S; T; Sx ; Sy êéíïýìåíåò ÷ñïíïóåéñÝò
Sq êéíïýìåíç ÷ñïíïóåéñÜ åñþôçìá
S [i : j ] ðåðåñáóìÝíç ÷ñïíïóåéñÜ ìåôáîý ÷ñïíéêþí óôéãìþí i êáé j
S (i) i-ïóôÞ ôéìÞ êéíïýìåíçò ÷ñïíïóåéñÜò
DF T (S ); DF T (Sx ) DFT êéíïýìåíùí ÷ñïíïóåéñþí S; Sx
DF Ti (S ) i-ïóôüò DFT óõíôåëåóôÞò ôçò S
DE (Sx ; Sy ) Åõêëåßäåéá áðüóôáóç ìåôáîý ôùí êéíïýìåíùí
÷ñïíïóåéñþí Sx êáé Sy
∆u ôéìÞ êáôùöëßïõ åíçìÝñùóçò
∆q ôéìÞ åðÝêôáóçò åñùôÞìáôïò
k áðáéôïýìåíï ðëÞèïò êïíôéíüôåñùí ãåéôüíùí
dk k-ïóôÞ êáëýôåñç áðüóôáóç
e áêôßíá êõêëéêïý åñùôÞìáôïò äéáóôÞìáôïò
W ìÞêïõò êéíïýìåíïõ ðáñáèýñïõ
U åðéèõìçôÞ óõ÷íüôçôá åíçìÝñùóçò
! "
!"
ñïÞ. Åðéðñüóèåôá êÜèå ñïÞ äéáôçñåß Ýíá äåßêôç ðïõ äåß÷íåé óôï öýëëï ðïõ åß-
íáé áðïèçêåõìÝíïé ïé áíôßóôïé÷ïé óõíôåëåóôÝò ôïõ DFT. ¼ôáí Ýñ÷åôáé ìßá ôéìÞ,
ìåôáêéíåßôáé ôï ðáñÜèõñï ôçò ñïÞò, åîÜãïíôáé áõîçôéêÜ ôá íÝá ÷áñáêôçñéóôéêÜ
êáé ïé íÝïé óõíôåëåóôÝò ôïõ DFT áíôéêáèéóôïýí ôïõò ðáëéïýò ÷ñçóéìïðïéþíôáò
ôï äåßêôç \ñïÞ óå öýëëï" (\stream to leaf" link). ÌåôÜ ç áíáâëçôéêÞ ðïëéôéêÞ
åíçìÝñùóçò áðïöáóßæåé áí ç äïìÞ èá åíçìåñùèåß Þ ü÷é. Áí íáé, åöáñìüæåôáé
ìßá ðñïóáñìïãÞ áðü êÜôù ðñïò ôá åðÜíù (áðü ôï öýëëï ðñïò ôç ñßæá) ìÝ÷ñé
ôï áðáéôïýìåíï åðßðåäï. Ôï åñþôçìá åöáñìüæåôáé óôç äïìÞ äåéêôïäüôçóçò ãéá
íá áíáêôÞóïõìå õðïøÞöéåò ÷ñïíïóåéñÝò ÷ñçóéìïðïéþíôáò ôï äåßêôç \öýëëï óå
ñïÞ" (\leaf to stream" link). Óôç óõíÝ÷åéá, ïé ðñáãìáôéêÝò áðïóôÜóåéò õðï-
ëïãßæïíôáé ìåôáîý ôçò ÷ñïíïóåéñÜò åñþôçóçò êáé ôùí õðïøÞöéùí ÷ñïíïóåéñþí,
÷ñçóéìïðïéþíôáò ôéò ðñáãìáôéêÝò ôïõò ôéìÝò, ãéá íá áðïññéöèïýí ïé ëáíèáóìÝíá
õðïøÞöéåò ÷ñïíïóåéñÝò. Ç áñ÷éôåêôïíéêÞ ôïõ óõóôÞìáôïò ìðïñåß íá ÷ùñéóèåß
óå ôñßá ôìÞìáôá: ôçí áõîçôéêÞ åîáãùãÞ ÷áñáêôçñéóôéêþí, ôçí áíáâëçôéêÞ ðï-
ëéôéêÞ åíçìÝñùóçò êáé ôç äïìÞ äåéêôïäüôçóçò. Ïé åðüìåíåò åíüôçôåò ðáñÝ÷ïõí
ëåðôïìÝñåéåò ãéá êÜèå Ýíá áðü áõôÜ ôá ôìÞìáôá.
106 ÊÅÖÁËÁÉÏ 6. ÅÕÑÅÓÇ ÏÌÏÉÏÔÇÔÁÓ ÓÅ ÊÉÍÏÕÌÅÍÅÓ ×ÑÏÍÏÓÅÉÑÅÓ
DF Tn (T )real =
1 √ 2n 2n
√ · ( W · DF Tn (S )real − S (0) + T (W )) · cos( ) − DF Tn (S )imag · sin( )
W W W
(6.2)
êáé
DF Tn (T )imag =
1 √ 2n 2n
√ · ( W · DF Tn (S )real − S (0) + T (W )) · sin( ) + DF Tn (S )imag · cos( )
W W W
(6.3)
üðïõ (0 ≤ n ≤ W − 1)
ÁÐÏÄÅÉÎÇ. Äåßôå ôçí Åíüôçôá 6.6. a
ôùí êéíïýìåíùí ÷ñïíïóåéñþí. Óôçí ðåñßðôùóÞ ìáò ôï ðñüâëçìá åßíáé üôé ïé óõ-
íôåëåóôÝò DFT ìßáò êéíïýìåíçò ÷ñïíïóåéñÜò ðñÝðåé íá åíçìåñþíïíôáé êÜèå öïñÜ
ðïõ Ýñ÷åôáé ìßá íÝá ôéìÞ ãé' áõôÞ ôç ÷ñïíïóåéñÜ. Áí åíçìåñþíïõìå ôç äïìÞ êÜèå
öïñÜ ðïõ ãßíåôáé äéáèÝóéìç ìßá ôéìÞ, ôï êüóôïò èá åßíáé áðáãïñåõôéêü. Ãéá íá
áðïöýãïõìå óõíå÷åßò äéáãñáöÝò êáé åéóáãùãÝò óôï R∗ -äÝíäñï, ÷ñçóéìïðïéïýìå
ìßá áíáâëçôéêÞ ðïëéôéêÞ åíçìÝñùóçò. Ìßá ðáñÜìåôñïò ∆u ÷ñçóéìïðïéåßôáé ãéá
íá åëÝãîåé ôéò åíçìåñþóåéò. Áí ç áðüóôáóç ìåôáîý ôùí íÝùí êáé ôùí ðáëéþí
óõíôåëåóôþí ôïõ DFT åßíáé ìåãáëýôåñç ôçò ôéìÞò ôçò ðáñáìÝôñïõ ∆u , ôüôå åíç-
ìåñþíåôáé ôï R∗ -äÝíäñï. Áëëéþò, äåí ðñáãìáôïðïéåßôáé ç åíçìÝñùóç. ÁõôÞ ç
ôå÷íéêÞ ïäçãåß óå óçìáíôéêÞ ìåßùóç ôïõ êüóôïõò. Ïé ôåëåõôáßïé êáôáãåãñáì-
ìÝíïé óõíôåëåóôÝò ôïõ DFT áðïèçêåýïíôáé óôï ôÝëïò ôçò óåëßäáò äßóêïõ êÜèå
êéíïýìåíçò ÷ñïíïóåéñÜò, Ýôóé þóôå íá åßíáé äéáèÝóéìïé üôáí èá Ýñèïõí íÝåò ôéìÝò.
Ôï áíôßóôïé÷ï ôßìçìá ãéá ôç ìåßùóç ôïõ êüóôïõò åßíáé üôé ç äïìÞ äåéêôïäüôçóçò
ìðïñåß íá ìçí åßíáé ðëÞñùò åíçìåñùìÝíç êáé êáôÜ óõíÝðåéá íá ìçí Ý÷åé áðïèç-
êåõìÝíåò ôéò ðñáãìáôéêÝò ôñÝ÷ïõóåò ôéìÝò. Ç ÷ñÞóç ôçò ðáñáìÝôñïõ ∆u åãåßñåé
äýï åñùôÞìáôá: (á) áí ïäçãåß óôçí åìöÜíéóç false dismissals, êáé (â) áí åðé-
äñÜ óôçí áðüäïóç ôçò åðåîåñãáóßáò ôïõ åñùôÞìáôïò. ¼ðùò èá äïýìå áñãüôåñá,
ìå ôéò êáôÜëëçëåò ôñïðïðïéÞóåéò óôçí åðåîåñãáóßá ôïõ åñùôÞìáôïò, ïýôå false
dismissals ìðïñïýí íá óõìâïýí áëëÜ ïýôå êáé ç áðüäïóç ôçò åðåîåñãáóßáò ôïõ
åñùôÞìáôïò åðçñåÜæåôáé óçìáíôéêÜ.
¸óôù S åßíáé ìßá êéíïýìåíç ÷ñïíïóåéñÜ. Ïé ôåëåõôáßåò W ôéìÝò ó÷çìáôßæïõí
ìßá áêïëïõèßá ðïõ óõìâïëßæåôáé ìå S1 [N −W +1 : N ], üðïõ N åßíáé ç èÝóç ôçò ôå-
ëåõôáßáò ôéìÞò ôçò ÷ñïíïóåéñÜò. ¼ôáí Ýñèåé ìßá íÝá ôéìÞ ãéá ôç S , ó÷çìáôßæåôáé
ìßá íÝá áêïëïõèßá S2 [N − W + 2 : N + 1]. ÕðïèÝóôå åðéðëÝïí üôé DF T (S1 ) åßíáé
ç ôåëåõôáßá êáôáãåãñáììÝíç áêïëïõèßá óõíôåëåóôþí DFT ðïõ áíôéóôïé÷åß óôç
S1 [N − W + 1 : N ], åíþ DF T (S2 ) åßíáé ç áêïëïõèßá ôùí óõíôåëåóôþí DFT ðïõ
áíôéóôïé÷åß óôç S2 [N − W + 2 : N + 1], êáé ç ïðïßá õðïëïãßæåôáé áõîçôéêÜ ÷ñçóé-
ìïðïéþíôáò ôç DF T (S1 ). Áí DE (DF T (S1 ); DF T (S2 )) ≤ ∆u , ôüôå ç áêïëïõèßá
DF T (S2 ) áðïèçêåýåôáé ùò ç ðéï ðñüóöáôç áêïëïõèßá óõíôåëåóôþí DFT (áíôé-
êáèéóôþíôáò ôç DF T (S1 )) áëëÜ äåí åéóÜãåôáé óôç äïìÞ ôïõ R∗ -äÝíäñïõ. ÕðïèÝ-
óôå ôþñá üôé ìßá íÝá ôéìÞ öèÜíåé ãéá ôç ÷ñïíïóåéñÜ. ¸óôù S3 [N − W +3 : N +2]
åßíáé ç íÝá ÷ñïíïóåéñÜ êáé DF T (S3 ) åßíáé ïé DFT óõíôåëåóôÝò ôçò, ïé ïðïßïé õðï-
ëïãßæïíôáé áõîçôéêÜ ÷ñçóéìïðïéþíôáò ôïõò DF T (S2 ). Ç áêïëïõèßá DF T (S3 )
áíôéêáèéóôÜ ôç DF T (S2 ) ùò ç ðéï ðñüóöáôç áêïëïõèßá óõíôåëåóôþí DFT. Áí
DE (DF T (S3 ); DF T (S1 )) ≤ ∆u , ôüôå äåí ðñáãìáôïðïéåßôáé åíçìÝñùóç óôï R∗ -
äÝíäñï. Áðü ôçí Üëëç ìåñéÜ, áí DE (DF T (S3 ); DF T (S1 )) > ∆u , ôüôå ç áêïëïõ-
èßá DF T (S3 ) áíôéêáèéóôÜ ôçí áêïëïõèßá DF T (S1 ) óôï äÝíäñï, êáé åðïìÝíùò
ðñáãìáôïðïéåßôáé åíçìÝñùóç ôçò äïìÞò.
Óõíïøßæïíôáò, ÷ñåéáæüìáóôå ôüóï ôïõò ôåëåõôáßïõò êáôáãåãñáììÝíïõò óõ-
íôåëåóôÝò DFT, üóï êáé ôïõò ðñïçãïýìåíá õðïëïãéóìÝíïõò óõíôåëåóôÝò DFT.
Ïé ðñþôïé ÷ñçóéìïðïéïýíôáé ãéá íá áðïöáóßóïõìå áí èá åíçìåñþóïõìå ôç äïìÞ
6.3. IDC-INDEX 109
Þ ü÷é, åíþ ïé äåýôåñïé ÷ñçóéìïðïéïýíôáé ãéá ôïí áõîçôéêü õðïëïãéóìü ôùí íÝùí
DFT óõíôåëåóôþí. Ç Åéêüíá 6.3 ðåñéãñÜöåé ôá âÞìáôá ôçò áíáâëçôéêÞò ðïëéôé-
êÞò åíçìÝñùóçò. Ôï âÞìá 1 åßíáé ç áõîçôéêÞ åîáãùãÞ ÷áñáêôçñéóôéêþí (incre-
mental feature extraction) ôçò Åéêüíá 6.2. Ôï âÞìá 3 ÷ñçóéìïðïéåß ôï äåßêôç
\stream to leaf" ãéá íá õðïëïãßóåé ôçí áðüóôáóç ìåôáîý ôùí óõíôåëåóôþí DFT.
Ôï âÞìá 4 åíçìåñþíåé ôïõò åóùôåñéêïýò êüìâïõò ôçò äïìÞò.
ïé íÝåò ôéìÝò Ýñ÷ïíôáé ìå ðïëý áñãü ñõèìü, ôüôå ôï óýóôçìá ìðïñåß íá áíôá-
ðåîÝëèåé óå ðïëý ìåãÜëï ðëÞèïò åíçìåñþóåùí ôçò äïìÞò. Áðü ôçí Üëëç, üôáí
ïé íÝåò ôéìÝò Ýñ÷ïíôáé ìå ðïëý õøçëïýò ñõèìïýò, ç óõ÷íüôçôá åíçìÝñùóçò ôçò
äïìÞò ðñÝðåé íá åëáôôùèåß ãéá íá áðïôñÝøåé åíäå÷üìåíç õðïâÜèìéóç ôçò áðüäï-
óçò ôïõ óõóôÞìáôïò. Óôç óõíÝ÷åéá, åîçãïýìå ìå ëåðôïìÝñåéåò ðùò ìðïñïýìå íá
õðïëïãßóïõìå äõíáìéêÜ ôçí ôéìÞ ôçò ∆u Ýôóé þóôå íá ðñïóåããßóïõìå ôç U .
Ï óêïðüò åßíáé íá äéáôçñÞóïõìå ôçí ôéìÞ ôçò U üóï ôï äõíáôü êáëýôåñá,
âáóéæüìåíïé óôéò ðñüóöáôåò ôéìÝò ôùí êéíïýìåíùí ÷ñïíïóåéñþí. Ìå áõôü ôïí
ôñüðï, ìðïñïýìå íá ðñïóäéïñßóïõìå ìßá âïëéêÞ ôéìÞ ãéá ôçí ðáñÜìåôñï ∆u ãéá
ôï Üìåóï ìÝëëïí. ÐñïêåéìÝíïõ íá ôï åðéôý÷ïõìå áõôü, åöáñìüæåôáé Ýíáò ðñï-
óáñìïóôéêüò õðïëïãéóìüò ôçò ∆u . Ïé ôåëåõôáßåò u ôéìÝò ÷ñçóéìïðïéïýíôáé ãéá
íá êáèïñßóïõìå ôç ∆u . Ãéá ðáñÜäåéãìá, Ýóôù üôé ç U åßíáé 20%, ðïõ óçìáßíåé
üôé êÜèå 100 íÝåò ôéìÝò êáé óõíåðþò áéôÞóåéò ãéá åíçìÝñùóç ôçò äïìÞò ìüíï
20 åíçìåñþóåéò ôçò äïìÞò èá ðñáãìáôïðïéïýíôáé. Ãéá ôéò åðüìåíåò u=10 ôéìÝò
ðáñáôçñïýìå ôçí Åõêëåßäåéá áðüóôáóç ìåôáîý ôùí ðñïçãïýìåíùí êáé ôùí íÝùí
óõíôåëåóôþí DFT ôùí åðçñåáæüìåíùí êéíïýìåíùí ÷ñïíïóåéñþí. ÐñïêåéìÝíïõ
íá åðéôý÷ïõìå ôï 20% óôéò åíçìåñþóåéò ôçò äïìÞò, ç ôéìÞ ôçò ∆u ðñÝðåé íá ôåèåß
ßóç ìå 3, üðùò ðáñïõóéÜæåôáé óôçí Åéêüíá 6.4. Ìå áõôü ôïí ôñüðï, ìüíï 2 óôéò
10 åíçìåñþóåéò åðçñåÜæïõí ôç äïìÞ êáé åðéôõã÷Üíåôáé ôï 20%. ×ñçóéìïðïéïýìå
áõôÞ ôçí ôéìÞ ôçò ∆u ãéá ôéò åðüìåíåò u=10 ôéìÝò. ÅðéðëÝïí, óõíå÷ßæïõìå íá
ðáñáêïëïõèïýìå ôéò áðïóôÜóåéò ôùí óõíôåëåóôþí DFT ãé' áõôÝò ôéò u ôéìÝò.
ÎáíÜ, åðéëÝãïõìå ôç äåýôåñç ìéêñüôåñç ôéìÞ ãéá ôç ∆u Ýôóé þóôå íá åðéôý÷ïõìå
ôçò åðéèõìçôÞ óõ÷íüôçôá åíçìÝñùóçò ãéá ôçí åðüìåíç ðåñßïäï. ÁõôÞ ç äéáäéêá-
óßá åðáíáëáìâÜíåôáé óõíå÷þò. ¸íá óçìáíôéêü æÞôçìá ðïõ ðñÝðåé íá óçìåéùèåß,
åßíáé üôé ï áñéèìüò u ðñÝðåé íá åðéëåãåß Ýôóé þóôå íá õðÜñ÷åé Ýíáò óçìáíôéêüò
áñéèìüò ôéìþí ôùí ñïþí ãéá ôïí ðñïóäéïñéóìü ôçò ∆u . ¸ôóé, óôá ðåéñÜìáôÜ ìáò
÷ñçóéìïðïéÞóáìå ðëÞèïò ôéìþí u ìåôáîý 500 êáé 1000 ãéá íá õðïëïãßóïõìå ôçí
ôéìÞ ôçò ∆u .
ôáé ìßá ðñïóáñìïãÞ áðü êÜôù ðñïò ôá åðÜíù ôùí ïñèïãùíßùí åëÜ÷éóôïõ ïñßïõ
(minimum bounding rectangles - MBRs), õðïëïãßæïíôáò åê íÝïõ ôá MBRs áðü
ôá öýëëá ìÝ÷ñé ôç ñßæá, áí ÷ñåéÜæåôáé. Ãéá ôç äéÜó÷éóç áðü êÜôù ðñïò ôá åðÜíù
(áðü Ýíá êüìâï ðáéäß óôïí ðáôÝñá ôïõ), áðáéôïýíôáé äåßêôåò ðñïò ôïí ðáôÝñá.
Åöáñìüæïíôáò áõôÞ ôçí ôå÷íéêÞ, ç ÷ñÞóç ôçò ðáñáìÝôñïõ ∆u äåí åðçñåÜæåé ôçí
áðüäïóç ôçò åðåîåñãáóßáò ôïõ åñùôÞìáôïò, äéüôé ôá öýëëá ðÜíôá ðåñéÝ÷ïõí ôïõò
ðéï ðñüóöáôïõò óõíôåëåóôÝò ôïõ DFT êáé Ýôóé ôï óýíïëï ôùí õðïøÞöéùí ÷ñï-
íïóåéñþí åßíáé ðÜíôá ôï ßäéï, åßôå ÷ñçóéìïðïéåßôáé ç ∆u åßôå ü÷é.
Ãéá ðáñÜäåéãìá, õðïèÝóôå üôé ìßá íÝá ôéìÞ Ýñ÷åôáé ãéá ôç ñïÞ 1 ôçò Åéêüíáò
6.2. Ïé íÝïé óõíôåëåóôÝò DFT õðïëïãßæïíôáé ôçí áõîçôéêÞ åîáãùãÞ ÷áñáêôçñé-
óôéêþí, êáé ï äåßêôçò \stream to leaf" ÷ñçóéìïðïéåßôáé ãéá íá åíçìåñþóåé ôïõò
DFT óõíôåëåóôÝò ôïõ öýëëïõ ôçò äïìÞò. ÌåôÜ ç áíáâëçôéêÞ ðïëéôéêÞ åíçìÝñù-
óçò áðïöáóßæåé áí ç äïìÞ ðñÝðåé íá åíçìåñùèåß. Áí íáé, ôüôå ðñáãìáôïðïéåßôáé
ìßá ðñïóáñìïãÞ MBRs áðü êÜôù ðñïò ôá åðÜíù, Ýôóé þóôå üëá ôá MBRs ôïõ ìï-
íïðáôéïý áðü ôï öýëëï óôç ñßæá íá ðåñéÝ÷ïõí ôïõò íÝïõò óõíôåëåóôÝò ôïõ DFT.
Óçìåéþóôå, üôé ç áíôéêáôÜóôáóç ôùí óõíôåëåóôþí DFT ôïõ öýëëïõ åöáñìüæåôáé
ðÜíôá áíåîÜñôçôá áðü ôçí áðüöáóç ôçò áíáâëçôéêÞò ðïëéôéêÞò åíçìÝñùóçò ãéá
ôçí åíçìÝñùóç ôçò äïìÞò Þ ü÷é.
ÁÐÏÄÅÉÎÇ. ¸óôù üôé Ý÷ïõìå ôïõò óõíôåëåóôÝò DFT ôçò ñïÞò åñùôÞìáôïò
DF T (Sq ), ôï MBRLR ðïõ ó÷çìáôßóôçêå áðü ôïõò ôåëåõôáßá êáôáãåãñáììÝíïõò
óõíôåëåóôÝò DFT êáé ìßá ñïÞ Sx ðïõ áíÞêåé óôï MBRLR . ÅðéðëÝïí õðïèÝóôå
üôé Ý÷ïõìå ôïõò ôåëåõôáßá êáôáãåãñáììÝíïõò DFT óõíôåëåóôÝò DF T (Sx )LR
ôçò ñïÞò Sx êáé ôïõò ôñÝ÷ïíôåò DFT óõíôåëåóôÝò DF T (Sx ) ôçò ñïÞò Sx .
Áíôß ôçò ÷ñÞóçò ìßáò ãåíéêÞò ∆q ãéá üëåò ôéò ñïÝò, ìðïñïýìå íá äéáôçñÞ-
óïõìå ìßá ôïðéêÞ ∆q ãéá êÜèå åããñáöÞ ôïõ R∗ -äÝíäñïõ. Ìßá åããñáöÞ ðáôÝñá
Ý÷åé ôç äéêÞ ôçò ôïðéêÞ ∆q , ç ïðïßá åßíáé ßóç ìå ôç ìÝãéóôç ∆q üëùí ôùí åããñá-
öþí óôï õðïäÝíäñï ôïõ. ×ñçóéìïðïéþíôáò ôçí ôïðéêÞ ∆q , Ýíá åñþôçìá êáëýðôåé
ôçí åëÜ÷éóôç ðåñéï÷Þ, äéüôé ç åðÝêôáóç ôïõ åñùôÞìáôïò åßíáé ç ìéêñüôåñç äõ-
íáôÞ. Áõôü õðïäçëþíåé üôé ëéãüôåñá MBRs èá åðéêáëýðôïíôáé ìå ôçí ðåñéï÷Þ
ôïõ åñùôÞìáôïò, ïäçãþíôáò óå Ýíá áðïäïôéêüôåñï ó÷Þìá åðåîåñãáóßáò.
Áðü ôçí Üëëç, ç äéáôÞñçóç ìßáò ôïðéêÞò ∆q ãéá êÜèå åããñáöÞ áðáéôåß êÜðïéï
åðéðñüóèåôï êüóôïò. ¼ðùò êáôáäåéêíýåôáé óôá ðåéñáìáôéêÜ áðïôåëÝóìáôá, ç
÷ñÞóç ôçò ôïðéêÞò ∆q ðñïôåßíåôáé ìüíï üôáí ôï ðëÞèïò ôùí åñùôçìÜôùí åßíáé
óçìáíôéêÜ ìåãáëýôåñï áðü ôï ðëÞèïò ôùí åíçìåñþóåùí óôï öüñôï åñãáóßáò.
ãéá ôïõò êüìâïõò êáé ü÷é ãéá ôéò åðéìÝñïõò åããñáöÝò. Åßíáé öáíåñü, üôé ç ôï-
ðéêÞ ∆q åíüò êüìâïõ åßíáé ßóç ìå ôç ìåãáëýôåñç ôïðéêÞ ∆q ôùí åããñáöþí ôïõ.
Ðñþôá åîåôÜæïõìå ôçí ðåñßðôùóç üðïõ ç íÝá ôïðéêÞ ∆q åßíáé ìéêñüôåñç áðü ôçí
ðáëéüôåñç ôïðéêÞ ∆q ôïõ êüìâïõ. Áí ç íÝá ôïðéêÞ ∆q ôïõ êüìâïõ 5 åßíáé 4, ôüôå
ç ôïðéêÞ ∆q ôïõ ðáôÝñá (êüìâïò 2) ðñÝðåé íá åëáôôùèåß (åðåéäÞ ç íÝá ôïðéêÞ ∆q
åßíáé ßóç ìå ôçí ôïðéêÞ ∆q ôïõ ðáôÝñá). Ïé ôñïðïðïéÞóåéò ðñï÷ùñïýí ìÝ÷ñé ôç
ñßæá (êüìâïò 1). Áí ç íÝá ôïðéêÞ ∆q ôïõ êüìâïõ 4 åßíáé 2, ôüôå äåí ÷ñåéÜæïíôáé
ôñïðïðïéÞóåéò óôïí ðáôÝñá áöïý ç ôïðéêÞ ∆q ôïõ ðáôÝñá åßíáé ìåãáëýôåñç áðü ôç
íÝá ôïðéêÞ ∆q êáé åðïìÝíùò ç ôéìÞ ôçò åîáñôÜôáé áðü ôçí ôïðéêÞ ∆q ôïõ êüìâïõ
5. Ôþñá åîåôÜæïõìå ôçí ðåñßðôùóç üðïõ ç íÝá ôïðéêÞ ∆q åßíáé ìåãáëýôåñç áðü
ôçí ðáëéÜ ôïðéêÞ ∆q ôïõ êüìâïõ. Áí ç íÝá ôïðéêÞ ∆q ôïõ êüìâïõ 5 åßíáé 6, ôüôå
ç ôïðéêÞ ∆q ôïõ ðáôÝñá ðñÝðåé íá áõîçèåß. Áí ç íÝá ôïðéêÞ ∆q ôïõ êüìâïõ 4
åßíáé 4, ôüôå äåí ÷ñåéÜæïíôáé ôñïðïðïéÞóåéò óôïí ðáôÝñá áöïý ç ôïðéêÞ ôïõ ∆q
åßíáé ìåãáëýôåñç áðü ôç íÝá ôïðéêÞ ∆q êáé åðïìÝíùò ç ôéìÞ ôçò åîáñôÜôáé áðü
ôçí ôïðéêÞ ∆q ôïõ êüìâïõ 5.
ôï Üèñïéóìá ôçò áðüóôáóçò ôïõ k-ïóôïý êïíôéíüôåñïõ ãåßôïíá êáé ôçò ôïðéêÞò
∆q ôçò åããñáöÞò. Ïé ÐñïôÜóåéò 6.3 êáé 6.4 ìðïñïýí íá ôñïðïðïéçèïýí áíôéêáèé-
óôþíôáò ôç ∆q ìå ôçí ôïðéêÞ ∆q . ÊáôÜ óõíÝðåéá áðïäåéêíýåôáé ç ïñèüôçôá ôùí
áëãïñßèìùí åðåîåñãáóßáò åñùôçìÜôùí.
1 4
0
0 00 4 01 9 10 12 11 15
Ïé åíåñãÝò ôéìÝò ôùí ñïþí äåäïìÝíùí êáèïñßæïíôáé áðü Ýíá êéíïýìåíï ðá-
ñÜèõñï ðïõ ðÜíôá ðåñéÝ÷åé ôéò ôåëåõôáßåò W ôéìÝò. ÐñïêåéìÝíïõ ç äïìÞ íá
ðñïóáñìïóèåß óå íÝåò ôéìÝò, åöáñìüæåôáé ìßá ìÝèïäïò áíáêáôáíïìÞò ôùí bits.
ÊÜèå äéÜóôáóç êâáíôéêïðïéåßôáé áíåîÜñôçôá ìå ôá bits ðïõ ôçò Ý÷ïõí áíáôåèåß,
ìå óêïðü íá åðéôåõ÷èåß åëÜ÷éóôï ëÜèïò áíáðáñáãùãÞò. ¸íá ìåéïíÝêôçìá áõôÞò
ôçò ìåèüäïõ åßíáé üôé áðáéôåß üëåò ïé ñïÝò íá Ý÷ïõí íÝåò ôéìÝò ðñïêåéìÝíïõ íá
ðñïóáñìïóèåß ç äïìÞ, óå áíôßèåóç ìå ôç äïìÞ IDC-Index ðïõ ìðïñåß íá ÷åéñéóèåß
ñïÝò ìå äéáöïñåôéêïýò ñõèìïýò Üöéîçò äåäïìÝíùí. Ç ìÝèïäïò VA+ -stream ìðï-
ñåß íá áðáíôÞóåé ôüóï åñùôÞìáôá äéáóôÞìáôïò üóï êáé åñùôÞìáôá êïíôéíüôåñïõ
ãåßôïíá.
Ç áðüäïóç áõôÞò ôçò ðñïóÝããéóçò åîáñôÜôáé éäéáßôåñá áðü ôïí áñéèìü ôùí
bits ðïõ áíáôßèåôáé óå êÜèå äéÜóôáóç. Ç äïìÞ VA+ -stream ÷ùñßæåé ôï ÷þñï óå
2b êåëéÜ, üðïõ b åßíáé ï óõíïëéêüò áñéèìüò ôùí bits. Åöüóïí ðïëëÜ áðü áõôÜ ôá
êåëéÜ äåí ÷ñçóéìïðïéïýíôáé, ïé óõããñáöåßò ðñüôåéíáí ôç ÷ñÞóç ìßáò äïìÞò ðïõ
ïíüìáóáí CSET êáé ç ïðïßá áðïèçêåýåé ôá êåëéÜ üðïõ âñßóêïíôáé ïé ñïÝò. Ôï
ìåéïíÝêôçìá áõôÞò ôçò äïìÞò åßíáé ôï ìÝãåèüò ôçò. Ãéá ôïí ðñïóäéïñéóìü åíüò
êåëéïý, áí ÷ñçóéìïðïéïýíôáé d äéáóôÜóåéò (äçëáäÞ, ôï ìÝãåèïò ôïõ ðáñáèýñïõ
åßíáé d), áðáéôïýíôáé d áêÝñáéïé áñéèìïß. ÅðïìÝíùò, ôï ìÝãåèïò ôçò äïìÞò CSET
åßíáé n · d áêÝñáéïé, üðïõ n åßíáé ôï ðëÞèïò ôùí ñïþí. ×ñçóéìïðïéÞóáìå ôç äïìÞ
CSET ðïõ ðåñéãñÜöèçêå óôçí åñãáóßá [123].
Öüñôïò åñãáóéþí / 100 åñùôÞìáôá - 400 åíçìåñþóåéò 400 åñùôÞìáôá - 100 åíçìåñþóåéò
Ðïóïóôü åíçìåñþóåùí Åêôéìïýìåíï Ðñáãìáôéêü Åêôéìïýìåíï Ðñáãìáôéêü
0.05 12079 12078 4519 4514
0.1 21159 21160 6039 6038
1 201695 201708 50498 50526
5 1007999 1007991 252014 252009
10 2015969 2015949 503999 503993
20 4031924 4031888 1007984 1007914
50 10079801 10079624 2519951 2519790
100 20159600 20159600 5039900 5039900
Öüñôïò åñãáóéþí / 100 åñùôÞìáôá - 400 åíçìåñþóåéò 400 åñùôÞìáôá - 100 åíçìåñþóåéò
Ðïóïóôü åíçìåñþóåùí Åêôéìïýìåíï Ðñáãìáôéêü Åêôéìïýìåíï Ðñáãìáôéêü
0.05 4442 4445 2610 2680
0.1 5885 5889 2221 2233
1 48963 48958 12315 12317
5 244339 244328 61099 61099
10 488649 488654 122169 122172
20 977284 977284 244324 244325
50 2443201 2443205 610801 610802
100 4886400 4886400 1221600 1221600
IDC-INDEX IDC-INDEX
VA+-STREAM VA+-STREAM
SS SS
1e+007
1000
1e+006
100
Total Disk Accesses
Total CPU
100000
10
10000
1
1000
0.1 100
30 40 50 60 70 80 90 100 30 40 50 60 70 80 90 100
e e
(á) (â)
EIKONA 6.9: (á) Êüóôïò CPU, êáé (â) ðñïóðåëÜóåéò äßóêïõ ùò ðñïò e ãéá STOCKS (\åëáöñýò" öüñôïò
åñãáóéþí).
Ç äïìÞ IDC-Index õðåñôåñåß ôùí Üëëùí äýï ìåèüäùí. Óçìåéþóôå üôé ôï êü-
óôïò CPU ôçò SS åßíáé ëéãüôåñï áðü áõôü ôçò IDC-Index, üôáí ï áñéèìüò ôùí
åñùôçìÜôùí åßíáé ÷áìçëüò. Áõôü åßíáé áíáìåíüìåíï äéüôé ç SS äåí áðáéôåß åíç-
ìåñþóåéò ôçò äïìÞò. Ôïíßæïõìå üôé ôï ðñüâëçìá êõñéáñ÷åßôáé áðü ôï äßóêï êáé
åðïìÝíùò ôï ðëÞèïò ôùí ðñïóðåëÜóåùí äßóêïõ êáèïñßæåé ôçí ôåëéêÞ áðüäïóç ôçò
ìåèüäïõ. Êáèþò áõîÜíåé ç e, ç äéáöïñÜ ìåôáîý ôùí ôñéþí ìåèüäùí åëáôôþíåôáé
åðåéäÞ áõîÜíåôáé ñáãäáßá ï áñéèìüò ôùí ñïþí ðïõ ðåñéÝ÷ïíôáé óôçí áðÜíôçóç.
ÅðéðëÝïí óôïí \åëáöñý" öüñôï åñãáóéþí, ç äéáöïñÜ ìåôáîý ôçò IDC-Index êáé
ôçò VA+ -stream åßíáé ìåãáëýôåñç, åðåéäÞ ç ìÝèïäïò IDC-Index åðåîåñãÜæåôáé ôá
åñùôÞìáôá ãñçãïñüôåñá áðü ôç ìÝèïäï VA+ -stream, äéüôé ç IDC-Index åìöá-
6.4. ÐÅÉÑÁÌÁÔÉÊÇ ÌÅËÅÔÇ 123
Total CPU vs. e of e-range query Total Disk Accesses vs. e of e-range query
1000 1e+007
IDC-INDEX IDC-INDEX
VA+-STREAM VA+-STREAM
SS SS
100
1e+006
10
100000
0.1 10000
14 16 18 20 22 24 26 28 14 16 18 20 22 24 26 28
e e
(á) (â)
EIKONA 6.10: (á) Êüóôïò CPU. êáé (â) ðñïóðåëÜóåéò äßóêïõ ùò ðñïò e ãéá TAO (\åëáöñýò" öüñôïò
åñãáóéþí).
IDC-INDEX IDC-INDEX
VA+-STREAM VA+-STREAM
SS SS
1000 1e+006
100 100000
Total Disk Accesses
Total CPU
10 10000
1 1000
0.1 100
30 40 50 60 70 80 90 100 30 40 50 60 70 80 90 100
e e
(á) (â)
EIKONA 6.11: (á) Êüóôïò CPU, êáé (â) ðñïóðåëÜóåéò äßóêïõ ùò ðñïò e ãéá STOCKS (\âáñýò" öüñôïò
åñãáóéþí).
Ç Åéêüíá 6.13 ðáñïõóéÜæåé ôçí áðüäïóç ôùí ìåèüäùí óå ó÷Ýóç ìå Ýíá ìå-
ôáâëçôü öüñôï åñãáóéþí. Ç ìÝèïäïò IDC-Index åßíáé óôáèåñÜ áðïäïôéêüôåñç
áðü ôéò ìåèüäïõò VA+ -stream êáé SS. Êáé ðÜëé ôï êüóôïò CPU ôçò SS åßíáé
ëéãüôåñï áðü áõôü ôçò IDC-Index ãéá ÷áìçëü áñéèìüò åñùôçìÜôùí. ¼ðùò áíá-
öÝñáìå ðñïçãïõìÝíùò, áõôü åßíáé áíáìåíüìåíï äéüôé ç SS äåí ÷ñçóéìïðïéåß äïìÞ
äåéêôïäüôçóçò. Ôï êÝñäïò áðü ôéò ðñïóðåëÜóåéò äßóêïõ îåðåñíÜ ôï õðïëïãéóôéêü
êüóôïò. Ç ìÝèïäïò IDC-Index õðåñíéêÜ ôç VA+ -stream åéäéêÜ üôáí ï áñéèìüò
ôùí åñùôçìÜôùí åßíáé õøçëüò. Áõôü óõìâáßíåé ãéáôß, üðùò Þäç áíáöÝñèçêå óôï
ðñïçãïýìåíï ðåßñáìá, ç IDC-Index åðéôõã÷Üíåé êáëýôåñï ðïóïóôü ðñáãìáôéêþí
áðáíôÞóåùí ðñïò ôï ðëÞèïò ôùí õðïøçößùí ÷ñïíïóåéñþí (hit ratio) áðü áõôü ôçò
124 ÊÅÖÁËÁÉÏ 6. ÅÕÑÅÓÇ ÏÌÏÉÏÔÇÔÁÓ ÓÅ ÊÉÍÏÕÌÅÍÅÓ ×ÑÏÍÏÓÅÉÑÅÓ
Total CPU vs. e of e-range query Total Disk Accesses vs. e of e-range query
1000 1e+006
IDC-INDEX IDC-INDEX
VA+-STREAM VA+-STREAM
SS SS
100
100000
10
10000
0.1 1000
14 16 18 20 22 24 26 28 14 16 18 20 22 24 26 28
e e
(á) (â)
EIKONA 6.12: (á) Êüóôïò CPU, êáé (â) ðñïóðåëÜóåéò äßóêïõ ùò ðñïò e ãéá TAO (\âáñýò" öüñôïò åñãáóéþí).
100 1e+006
Total Disk Accesses
Total CPU
10 100000
1 10000
0.1 1000
10 20 30 40 50 60 70 80 90 10 20 30 40 50 60 70 80 90
Percentage of Queries Percentage of Queries
(á) (â)
EIKONA 6.13. (á) Êüóôïò CPU, êáé (â) ðñïóðåëÜóåéò äßóêïõ ùò ðñïò ôï öüñôï åñãáóéþí ãéá TAO.
Answers / Candidates ratio vs. Number of Coefficients Answers / Candidates ratio vs. Number of Coefficients
10 10
IDC-INDEX IDC-INDEX
VA+-STREAM VA+-STREAM
1
Answers / Candidates ratio
0.1
0.1
0.01
0.001 0.01
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Number of Coefficients Number of Coefficients
(á) (â)
EIKONA 6.14. Hit ratio ùò ðñïò ôï ðëÞèïò óõíôåëåóôþí DFT ãéá: (á) STOCKS, êáé (â) TAO.
6.4. ÐÅÉÑÁÌÁÔÉÊÇ ÌÅËÅÔÇ 125
Total CPU vs. Number of Coefficients Total Disk Accesses vs. Number of Coefficients
1000 1e+006
IDC-INDEX IDC-INDEX
VA+-STREAM VA+-STREAM
SS SS
100
100000
10
10000
0.1 1000
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Number of Coefficients Number of Coefficients
(á) (â)
EIKONA 6.15: (á) Êüóôïò CPU, êáé (â) ðñïóðåëÜóåéò äßóêïõ ùò ðñïò ôï ðëÞèïò óõíôåëåóôþí DFT ãéá
TAO.
VA+ -stream. Áõôü åðçñåÜæåé ôï ðëÞèïò ôùí ðñïóðåëÜóåùí äßóêïõ êáé ãé' áõôü
áõîÜíåé ç äéáöïñÜ ìåôáîý ôçò IDC-Index êáé ôùí Üëëùí äýï ìåèüäùí. Èõìçèåßôå
üôé ï Üîïíáò y êëéìáêþíåôáé ëïãáñéèìéêÜ.
Ôï ðëÞèïò ôùí óõíôåëåóôþí DFT Ý÷åé óçìáíôéêÞ åðßäñáóç óôçí áðüäïóç
ôçò ìåèüäïõ. Êáèþò áõîÜíåôáé ôï ðëÞèïò ôùí óõíôåëåóôþí DFT ðïõ ÷ñçóé-
ìïðïéïýíôáé, ôüóï êáëýôåñç åßíáé ç ðñïóÝããéóç ôçò áðüóôáóçò êáé åðïìÝíùò
ðáñïõóéÜæïíôáé ëéãüôåñåò ëáíèáóìÝíá õðïøÞöéåò ÷ñïíïóåéñÝò. Ç Åéêüíá 6.14
äåß÷íåé ôï hit ratio óå ó÷Ýóç ìå ðëÞèïò ôùí óõíôåëåóôþí DFT êáé ãéá ôá äýï
óýíïëá äåäïìÝíùí STOCKS êáé TAO. Ãéá ôï óýíïëï äåäïìÝíùí STOCKS, ôï
hit ratio ôçò IDC-Index åßíáé ðïëý êáëýôåñï áðü áõôü ôçò VA+ -stream åðåéäÞ ïé
ôéìÝò ìåôï÷þí ôáéñéÜæïõí ìå ôéò éäéüôçôåò ôïõ DFT. Áíôßèåôá, ãéá íá åðéôý÷ïõìå
Ýíá êáëü hit ratio ãéá ôï óýíïëï äåäïìÝíùí TAO, áðáéôïýíôáé ðåñéóóüôåñïé
óõíôåëåóôÝò DFT. ¸íá åýëïãï åñþôçìá åßíáé ðùò ï áñéèìüò ôùí óõíôåëåóôþí
åðçñåÜæåé ôï êüóôïò CPU. Ç Åéêüíá 6.15 äåß÷íåé ôï êüóôïò CPU êáé ôéò ðñï-
óðåëÜóåéò äßóêïõ ãéá ôï óýíïëï äåäïìÝíùí TAO. Ôï êÝñäïò áðü ôç ìåßùóç ôïõ
áñéèìïý ôùí ðñïóðåëÜóåùí äßóêïõ åßíáé ðåñéóóüôåñï áðü ôçí åðéâÜñõíóç ðïõ
ôßèåôáé áðü ôï êüóôïò CPU. Ãéá ðáñÜäåéãìá, óôçí Åéêüíá 6.15 ç äéáöïñÜ ìåôáîý
ôçò ÷ñÞóçò äýï êáé ï÷ôþ óõíôåëåóôþí, åßíáé ðåñßðïõ 8 äåõôåñüëåðôá ãéá ôç CPU
êáé 100000 ãéá ôï ðëÞèïò ôùí ðñïóðåëÜóåùí äßóêïõ. Ãé' áõôü åßíáé ðñïôéìü-
ôåñï íá ÷ñçóéìïðïéÞóïõìå Ýíáí åðáñêÞ áñéèìü óõíôåëåóôþí DFT èõóéÜæïíôáò
ëßãï êüóôïò CPU. Åðéôõã÷Üíïíôáò Ýíá êáëü hit ratio âåëôéþíïõìå éäéáßôåñá
ôç óõíïëéêÞ áðüäïóç ôçò ìåèüäïõ, äéüôé ôï hit ratio åðéäñÜ óôçí áðüäïóç ôïõ
åñùôÞìáôïò.
ÌåëåôÞóáìå åðßóçò ôç óõìðåñéöïñÜ ôçò ìåèüäïõ óå ó÷Ýóç ìå ôï êáèïñéóìÝíï
ðïóïóôü åíçìåñþóåùí. Êáèþò ôï ðïóïóôü åíçìåñþóåùí áõîÜíåé, ôï êüóôïò
åíçìÝñùóçò áõîÜíåé êáé ôï êüóôïò åñùôÞìáôïò åëáôôþíåôáé. Áõôü óõìâáßíåé
åðåéäÞ ïé ðáñÜìåôñïé ∆u êáé ∆q Ý÷ïõí ìéêñÞ ôéìÞ êáé åðïìÝíùò ôï R∗ -äÝíäñï
126 ÊÅÖÁËÁÉÏ 6. ÅÕÑÅÓÇ ÏÌÏÉÏÔÇÔÁÓ ÓÅ ÊÉÍÏÕÌÅÍÅÓ ×ÑÏÍÏÓÅÉÑÅÓ
100
Query CPU
10
0.1
0 20 40 60 80 100
specified Update Ratio
¸íá ðëåïíÝêôçìá ôçò ìåèüäïõ IDC-Index åßíáé üôé ìðïñåß íá ÷åéñéóèåß äéá-
öïñåôéêÜ ìåãÝèç ðáñáèýñïõ. Ç Åéêüíá 6.17 äåß÷íåé ôï êüóôïò CPU êáé ôï ðëÞ-
èïò ôùí ðñïóðåëÜóåùí äßóêïõ óå ó÷Ýóç ìå ôï ìÝãåèïò ðáñáèýñïõ. Ç ìÝèïäïò
IDC-Index åßíáé ðÜëé áðïäïôéêüôåñç áðü ôéò Üëëåò äýï ìåèüäïõò. Ôï êüóôïò
CPU åßíáé ó÷åäüí áíåðçñÝáóôï áðü ôï ìÝãåèïò ðáñáèýñïõ ãéá ôç IDC-Index,
áöïý ï áñéèìüò ôùí óõíôåëåóôþí DFT åßíáé óôáèåñüò. ÁíáìÝíåôáé ôï ðëÞèïò
ôùí ðñïóðåëÜóåùí äßóêïõ íá áõîçèåß êáèþò áõîÜíåôáé ôï ìÝãåèïò ðáñáèýñïõ,
áöïý åëáôôþíåôáé ç éêáíüôçôá áðüññéøçò ÷ñïíïóåéñþí ôïõ R∗ -äÝíäñïõ. Ïé Üë-
Total CPU vs. Window Size Total Disk Accesses vs. Window Size
1e+007
IDC-INDEX IDC-INDEX
VA+-STREAM VA+-STREAM
SS SS
1000
1e+006
100
Total Disk Accesses
Total CPU
10
100000
0.1 10000
50 100 150 200 250 300 350 400 450 500 50 100 150 200 250 300 350 400 450 500
Window Size Window Size
(á) (â)
EIKONA 6.17. (á) Êüóôïò CPU, êáé (â) ðñïóðåëÜóåéò äßóêïõ ùò ðñïò ôï ìÝãåèïò ðáñáèýñïõ ãéá TAO.
6.4. ÐÅÉÑÁÌÁÔÉÊÇ ÌÅËÅÔÇ 127
25
200
20
Space Requisites(MB)
Space Requisites(MB)
150
15
100
10
50
5
0 0
0 200 400 600 800 1000 0 100 200 300 400 500
Window Size Window Size
(á) (â)
EIKONA 6.18: ÁðáéôÞóåéò ÷þñïõ ôùí IDC-Index êáé VA+ -stream ùò ðñïò ìÝãåèïò êéíïýìåíïõ ðáñáèýñïõ
ãéá: (á) STOCKS, êáé (â) TAO.
Ç Åéêüíá 6.18 ðáñïõóéÜæåé ôéò áðáéôÞóåéò ÷þñïõ ãéá ôéò äýï ìåèüäïõò ãéá ôá
óýíïëá äåäïìÝíùí STOCKS êáé TAO, óå ó÷Ýóç ìå ôï ìÝãåèïò ôïõ êéíïýìåíïõ
ðáñáèýñïõ. Ïé áðáéôÞóåéò ÷þñïõ ôçò ìåèüäïõ IDC-Index ðáñáìÝíïõí ó÷åäüí
óôáèåñÝò. Áðü ôçí Üëëç, ôï ìÝãåèïò ôçò äïìÞò CSET ôçò ìåèüäïõ VA+ -stream
áõîÜíåé ãñáììéêÜ óå ó÷Ýóç ìå ôï ìÝãåèïò êéíïýìåíïõ ðáñáèýñïõ. Èõìçèåßôå
üôé ç äïìÞ CSET ÷ñçóéìïðïéåß Ýíáí áêÝñáéï ãéá êÜèå äéÜóôáóç ðñïêåéìÝíïõ íá
êáèïñßóåé ôï êåëß êÜèå ñïÞò.
Total CPU vs. k of kNN query Total Disk Accesses vs. k of kNN query
1e+007
IDC-INDEX IDC-INDEX
VA+-STREAM VA+-STREAM
SS SS
1000
1e+006
100
10
10000
1 1000
0.1 100
10 20 30 40 50 60 70 80 90 100 10 20 30 40 50 60 70 80 90 100
k k
(á) (â)
EIKONA 6.19. (á) Êüóôïò CPU, êáé (â) ðñïóðåëÜóåéò äßóêïõ ùò ðñïò k (STOCKS).
Total CPU vs. k of kNN query Total Disk Accesses vs. k of kNN query
1e+007
IDC-INDEX IDC-INDEX
VA+-STREAM VA+-STREAM
SS SS
100 1e+006
Total Disk Accesses
100000
Total CPU
10
10000
1000
0.1 100
10 20 30 40 50 60 70 80 90 100 10 20 30 40 50 60 70 80 90 100
k k
(á) (â)
EIKONA 6.20. (á) Êüóôïò CPU, êáé (â) ðñïóðåëÜóåéò äßóêïõ ùò ðñïò k (TAO).
100
1e+006
Total Disk Accesses
Total CPU
10
100000
1
10000
0.1 1000
10 20 30 40 50 60 70 80 90 10 20 30 40 50 60 70 80 90
Percentage of Queries Percentage of Queries
(á) (â)
EIKONA 6.21. (á) Êüóôïò CPU, êáé (â) ðñïóðåëÜóåéò äßóêïõ ùò ðñïò öüñôï åñãáóéþí (TAO).
6.4. ÐÅÉÑÁÌÁÔÉÊÇ ÌÅËÅÔÇ 129
VA+ -stream. Ç óõíïëéêÞ áðüäïóç ôçò IDC-Index åßíáé êáëýôåñç áðü áõôÞ êáé
ôùí äýï Üëëùí ðñïóåããßóåùí.
¼ðùò Þäç áíáöÝñáìå, ÷ñçóéìïðïéÞóáìå åíäéÜìåóç ìíÞìç ôüóï ãéá ôç ìÝèïäï
IDC-Index üóï êáé ãéá ôç ìÝèïäï VA+ -stream. Ãéá ôç ìÝèïäï SS, ç ÷ñÞóç ôçò
åíäéÜìåóçò ìíÞìçò åßíáé Üóêïðç, äéüôé êÜèå åñþôçìá ðñïóðåëáýíåé üëåò ôéò ñïÝò
óåéñéáêÜ. Ç åíäéÜìåóç ìíÞìç Ý÷åé óçìáíôéêü ñüëï óôçí áðüäïóç. ÌåëåôÞóáìå
ôçí áðüäïóç óå ó÷Ýóç ìå ôï ìÝãåèïò ôçò åíäéÜìåóçò ìíÞìçò ,üðùò öáßíåôáé
óôçí Åéêüíá 6.22. Ôï ìÝãåèïò ôçò åíäéÜìåóçò ìíÞìçò åêöñÜæåôáé ùò ðïóïóôü
ôùí óõíïëéêþí óåëßäùí äßóêïõ ðïõ êáôáëáìâÜíïõí ôá äåäïìÝíá. Ç Åéêüíá 6.22
äåß÷íåé üôé êáé ïé äýï ìÝèïäïé åðçñåÜæïíôáé ó÷åäüí ôï ßäéï áðü ôï ìÝãåèïò ôçò
åíäéÜìåóçò ìíÞìçò.
Total Disk Accesses vs. Buffer Size
1e+007
IDC-INDEX
VA+-STREAM
SS
1e+006
Total Disk Accesses
100000
10000
1000
0 5 10 15 20
Buffer Size
Ôï åðüìåíï ðåßñáìá ìåëåôÜ ôçí åðßäñáóç ôïõ áñéèìïý ôùí óõíôåëåóôþí DFT
ðïõ ÷ñçóéìïðïéïýíôáé. Ç Åéêüíá 6.23 ðáñïõóéÜæåé ôï ðëÞèïò ôùí õðïøÞöéùí
÷ñïíïóåéñþí óå ó÷Ýóç ìå ôï áñéèìü ôùí óõíôåëåóôþí ãéá ôá óýíïëá äåäïìÝ-
íùí STOCKS êáé TAO. Ôï ðëÞèïò ôùí õðïøçößùí ÷ñïíïóåéñþí ÷ñçóéìïðïéåß-
ôáé ãéá íá êáôáäåßîåé ôçí åðßäñáóç ôïõ áñéèìïý ôùí õðïøçößùí ÷ñïíïóåéñþí.
ÄéáöïñåôéêÜ óýíïëá äåäïìÝíùí åíäå÷ïìÝíùò íá áðáéôïýí äéáöïñåôéêü ðëÞèïò
óõíôåëåóôþí ãéá íá åðéôåõ÷èåß ç êáëýôåñç äõíáôÞ áðüäïóç. Ç åðéëïãÞ ôïõ áñéè-
ìïý ôùí óõíôåëåóôþí ìå âÜóç ôéò éäéüôçôåò ôïõ óõíüëïõ äåäïìÝíùí áðïôåëåß Ýíá
åíäéáöÝñïí ðñüâëçìá. ¼ðùò êáé óôá åñùôÞìáôá äéáóôÞìáôïò, ï áñéèìüò ôùí óõ-
íôåëåóôþí DFT ðïõ áðáéôïýíôáé ãéá ôï TAO åßíáé ìåãáëýôåñïò áðü áõôüí ðïõ
áðáéôïýíôáé ãéá ôï STOCKS. Ôï êÝñäïò ôçò ÷ñÞóçò ðåñéóóüôåñùí óõíôåëåóôþí
DFT îåðåñíÜ ôï åðéðëÝïí õðïëïãéóôéêü êüóôïò, üðùò åßäáìå óå ðñïçãïýìåíï
ðåßñáìá, êáé Ýôóé åðéëÝãïíôáò åðáñêÝò ðëÞèïò óõíôåëåóôþí DFT, ç óõíïëéêÞ
áðüäïóç ôçò IDC-Index åßíáé êáëýôåñç áðü áõôÞ ôùí Üëëùí äýï ìåèüäùí.
ÔÝëïò, åîåôÜóáìå ôçí åðßäñáóç ôïõ ìåãÝèïõò ôïõ êéíïýìåíïõ ðáñáèýñïõ óôçí
áðüäïóç ôùí ìåèüäùí. ¼ðùò áíáìåíüôáí, ôï õðïëïãéóôéêü êüóôïò ôçò IDC-
Index äåí åðçñåÜæåôáé óçìáíôéêÜ, äéüôé ï áñéèìüò ôùí óõíôåëåóôþí ðáñáìÝíåé
óôáèåñüò. Ôï ðëÞèïò ôùí ðñïóðåëÜóåùí äßóêïõ ôçò áõîÜíåé ëüãù ôçò áðþ-
130 ÊÅÖÁËÁÉÏ 6. ÅÕÑÅÓÇ ÏÌÏÉÏÔÇÔÁÓ ÓÅ ÊÉÍÏÕÌÅÍÅÓ ×ÑÏÍÏÓÅÉÑÅÓ
Number of Candidates vs. Number of Coefficients Number of Candidates vs. Number of Coefficients
1e+006
IDC-INDEX IDC-INDEX
VA+-STREAM VA+-STREAM
1e+007
Number of Candidates
Number of Candidates
1e+006
100000
100000
10000 10000
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Number of Coefficients Number of Coefficients
(á) (â)
EIKONA 6.23: ÐëÞèïò õðïøÞöéùí ÷ñïíïóåéñþí ùò ðñïò ðëÞèïò óõíôåëåóôþí DFT ãéá: (á) STOCKS, êáé
(â) TAO.
Total CPU vs. Window Size Total Disk Accesses vs. Window Size
IDC-INDEX IDC-INDEX
VA+-STREAM VA+-STREAM
SS SS
1e+007
1000
1e+006
100
Total Disk Accesses
Total CPU
100000
10
10000
1
1000
0.1 100
100 200 300 400 500 600 700 800 900 1000 100 200 300 400 500 600 700 800 900 1000
Window Size Window Size
(á) (â)
EIKONA 6.24: (á) Êüóôïò CPU, êáé (â) ðñïóðåëÜóåéò äßóêïõ ùò ðñïò ìÝãåèïò êéíïýìåíïõ ðáñáèýñïõ
(STOCKS).
Ôï ðñþôï ðåßñáìá äåß÷íåé ôï êüóôïò CPU ôùí ìåèüäùí üóïí áöïñÜ ôçí
åðåîåñãáóßá k-NN åñùôçìÜôùí óå ó÷Ýóç ìå ôï ðïóïóôü ôùí ñïþí ðïõ åíçìå-
ñþíïíôáé êÜèå ÷ñïíéêÞ óôéãìÞ. Ôï ðïóïóôü ìåôáâÜëëåôáé áðü 0.1% óå 10%.
×ñçóéìïðïéÞóáìå äýï äéáöïñåôéêïýò öüñôïõò åñãáóéþí: (á) 20% åñùôÞìáôá êáé
80% åíçìåñþóåéò, êáé (â) 80% åñùôÞìáôá êáé 20% åíçìåñþóåéò. Ç Åéêüíá 6.25
äåß÷íåé ôá áðïôåëÝóìáôá ãéá k=10 ãéá ôï óýíïëï äåäïìÝíùí TAO. Ðáñáôçñïýìå
üôé ç ôïðéêÞ IDC-Index Ý÷åé êáëýôåñç áðüäïóç, åéäéêÜ üôáí ï öüñôïò åñãá-
óéþí ðåñéÝ÷åé ðåñéóóüôåñá åñùôÞìáôá áðü åíçìåñþóåéò êáé ôï ðïóïóôü ñïþí ðïõ
åíçìåñþíåôáé åßíáé ÷áìçëü. Èõìçèåßôå üôé ç ìÝèïäïò IDC-Index ìå ôïðéêÞ ∆q
åíçìåñþíåé ôéò ôïðéêÝò ∆q ôùí öýëëùí êÜèå öïñÜ ðïõ Ýñ÷åôáé ìßá íÝá ôéìÞ. Áõôü
ìðïñåß íá ðñïêáëÝóåé ìßá åíçìÝñùóç ôùí åóùôåñéêþí ôïðéêþí ∆q áðü êÜôù ðñïò
ôá åðÜíù. Áí ôï ðëÞèïò ôùí åíçìåñþóåùí åßíáé ðïëý ðåñéóóüôåñï áðü ôï ðëÞèïò
ôùí åñùôçìÜôùí Þ ôï ðïóïóôü ôùí ñïþí ðïõ åíçìåñþíåôáé êÜèå ÷ñïíéêÞ óôéãìÞ
åßíáé õøçëü, ôüôå ç ìÝèïäïò IDC-Index ìå ôïðéêÞ ∆q äåí ðáñïõóéÜæåé êáëÞ áðü-
äïóç. Ç Åéêüíá 6.26 äåß÷íåé ôá ßäéá áðïôåëÝóìáôá ãéá k=1000 ãéá ôï óýíïëï
äåäïìÝíùí TAO. Ôá óõìðåñÜóìáôá åßíáé ðáñüìïéá ìå ôï ðñïçãïýìåíï ðåßñáìá.
Total CPU vs. Percentage of the Updated Streams Total CPU vs. Percentage of the Updated Streams
3.5 6
IDC-INDEX IDC-INDEX
IDC-LOCAL IDC-LOCAL
3
5.5
2.5
5
2
Total CPU
Total CPU
4.5
1.5
4
1
3.5
0.5
0 3
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
Percentage of the Updated Streams Percentage of the Updated Streams
(á) 20% åñùôÞìáôá, 80% åíçìåñþóåéò (â) 80% åñùôÞìáôá, 20% åíçìåñþóåéò
EIKONA 6.25. Êüóôïò CPU ùò ðñïò ðïóïóôü ñïþí ðïõ åíçìåñþíïíôáé (TAO, k=10).
Total CPU vs. Percentage of the Updated Streams Total CPU vs. Percentage of the Updated Streams
5 12.5
IDC-INDEX IDC-INDEX
IDC-LOCAL IDC-LOCAL
12
4.5
11.5
4
Total CPU
Total CPU
11
3.5
10.5
3
10
2.5 9.5
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
Percentage of the Updated Streams Percentage of the Updated Streams
(á) 20% åñùôÞìáôá, 80% åíçìåñþóåéò (â) 80% åñùôÞìáôá, 20% åíçìåñþóåéò
EIKONA 6.26. Êüóôïò CPU ùò ðñïò ðïóïóôü ñïþí ðïõ åíçìåñþíïíôáé (TAO, k=1000).
Query CPU vs. k of kNN query Total CPU vs. k of kNN query
8
IDC-LOCAL IDC-LOCAL
IDC-INDEX IDC-INDEX
REC REC
7
1000
5 100
Query CPU
Total CPU
10
3
2
1
0 0.1
10 20 30 40 50 60 70 80 90 100 10 20 30 40 50 60 70 80 90 100
k k
(á) (â)
EIKONA 6.27: (á) Êüóôïò CPU åñùôÞìáôïò, êáé (â) óõíïëéêü êüóôïò ùò ðñïò k (\åëáöñýò" öüñôïò åñãá-
óéþí).
¼ðùò áíáìåíüôáí, ç äçìéïõñãßá ôïõ R∗ -äÝíäñïõ áðü ôçí áñ÷Þ Ý÷åé åëáöñþò
êáëýôåñç áðüäïóç üóïí áöïñÜ óôï êüóôïò CPU ôïõ åñùôÞìáôïò, äéüôé ç ðïéü-
ôçôá ôçò äïìÞò åßíáé êáëýôåñç, áëëÜ äåí åßíáé áñêåôÞ þóôå íá õðåñíéêÞóåé ôçí
åðéâÜñõíóç óôï óõíïëéêü êüóôïò CPU. ÐñïóÝîôå üôé ç äéáöïñÜ ìåôáîý ôïõ R∗ -
äÝíäñïõ ðïõ äçìéïõñãåßôáé áðü ôçí áñ÷Þ êáé ôùí ðñïôåéíüìåíùí ôñïðïðïéÞóåùí
åßíáé ôï ðïëý 4 äåõôåñüëåðôá. Óå áíôßèåóç, ç äéáöïñÜ ãéá ôï óõíïëéêü êüóôïò
CPU öôÜíåé ôá 1500 äåõôåñüëåðôá, äéüôé ç äçìéïõñãßá ôçò äïìÞò åßíáé õðïëï-
ãéóôéêÜ ðïëý áêñéâÞ ëåéôïõñãßá. ÅðéðëÝïí, ç ìÝèïäïò IDC-Index ìå ôïðéêÞ ∆q
åßíáé êáëýôåñç áðü ôç IDC-Index ìå ãåíéêÞ ∆q . Áõôü áíáìåíüôáí, äéüôé ç ÷ñÞóç
ôçò ôïðéêÞò ∆q ðåñéïñßæåé ôçí åðÝêôáóç ôïõ åñùôÞìáôïò êáé åðïìÝíùò ðñïóðå-
ëáýíïíôáé ëéãüôåñïé êüìâïé.
6.5. ÓÕÌÐÅÑÁÓÌÁÔÁ 133
6.5 ÓõìðåñÜóìáôá
Ç åðåîåñãáóßá ñïþí äåäïìÝíùí åßíáé ìßá åíåñãÞ ðåñéï÷Þ Ýñåõíáò, ç ïðïßá óôü÷ï
Ý÷åé ôï ó÷åäéáóìü áðïäïôéêþí ìåèüäùí ãéá ôï ÷åéñéóìü äõíáìéêþí äåäïìÝíùí ìå
ðïëý óõ÷íÝò åíçìåñþóåéò. Ïé êéíïýìåíåò ÷ñïíïóåéñÝò áðïôåëïýí ìßá åéäéêÞ êá-
ôçãïñßá ñïþí äåäïìÝíùí, ïé ïðïßåò åìöáíßæïíôáé óå ðïëëÝò åöáñìïãÝò üðùò ðá-
ñáêïëïýèçóç äéêôýïõ, äßêôõá áéóèçôÞñùí, ÷ñçìáôïïéêïíïìéêÝò åöáñìïãÝò, äéá-
÷åßñéóç äåäïìÝíùí ôçëåðéêïéíùíéþí.
Ìßá óçìáíôéêÞ ëåéôïõñãßá óôéò êéíïýìåíåò ÷ñïíïóåéñÝò åßíáé íá åíôïðßóïõìå
ðáñüìïéåò ÷ñïíïóåéñÝò óå ó÷Ýóç ìå ìßá ÷ñïíïóåéñÜ åñþôçóç. Ç ïìïéüôçôá
åêöñÜæåôáé ìå ôç âïÞèåéá ôùí ôåëåõôáßùí W ôéìþí ôçò ñïÞò. Óå áõôü ôï êå-
öÜëáéï, ìåëåôÞóáìå ôïõò äýï âáóéêüôåñïõò ôýðïõò åñùôçìÜôùí ïìïéüôçôáò óå
êéíïýìåíåò ÷ñïíïóåéñÝò: ôá åñùôÞìáôá äéáóôÞìáôïò êáé ôá åñùôÞìáôá êïíôéíü-
ôåñïõ ãåßôïíá. Ðéï óõãêåêñéìÝíá, áó÷ïëçèÞêáìå ìå ôá æçôÞìáôá: (1) áõîçôéêÞ
åîáãùãÞ ÷áñáêôçñéóôéêþí, (2) áðïäïôéêÞ äåéêôïäüôçóç óôçí êýñéá ìíÞìç ìå ôç
âïÞèåéá ìåèüäùí ðñïóðÝëáóçò âáóéóìÝíåò óôï R∗ -äÝíäñï, (3) áëãüñéèìïé ãéá ôçí
åðåîåñãáóßá åñùôçìÜôùí äéáóôÞìáôïò êáé êïíôéíüôåñïõ ãåßôïíá, êáé (4) áõôü-
ìáôç ðñïóáñìïãÞ ôïõ ó÷Þìáôïò äåéêôïäüôçóçò ãéá ôçí ðñïóÝããéóç ôçò åðéèõ-
ìçôÞò óõ÷íüôçôáò åíçìÝñùóçò. Ôá áðïôåëÝóìáôá ôçò ðåéñáìáôéêÞò áðïôßìçóçò
Ýäåéîáí üôé åðéôõã÷Üíåôáé óçìáíôéêÞ âåëôßùóç óå ó÷Ýóç ìå ðñüóöáôá ðñïôåéíü-
ìåíç ìÝèïäï ðïõ âáóßæåôáé óôç äïìÞ VA-File, ôüóï óå áðáéôÞóåéò ÷þñïõ üóï óå
ôá÷ýôçôá åðåîåñãáóßáò åñùôÞìáôïò.
6.6 ÐáñÜñôçìá
ÐÑÏÔÁÓÇ 6.5 (Áõîçôéêüò õðïëïãéóìüò DFT). ¸óôù S ìßá êéíïýìåíç ÷ñï-
íïóåéñÜ ìå ôéìÝò S (0); S (1); : : : ; S (W {1) êáé ìÞêïò W . ÅðéðëÝïí, Ýóôù üôé ôá
óýìâïëá DF T0 (S ); DF T1 (S ); : : : ; DF TW −1 (S ) õðïäçëþíïõí ôïõò óõíôåëåóôÝò
ôïõ DFT ôçò S . Áí ìßá íÝá ôéìÞ Ýñèåé ãé' áõôÞ ôç ñïÞ, Ý÷ïõìå ôçí áêïëïõ-
èßá T (1); T (2); : : : ; T (W ), üðïõ S (i)=T (i) ãéá 1 ≤ i ≤ W {1 êáé T (W ) åßíáé ç
íÝá ôéìÞ. Ïé óõíôåëåóôÝò ôïõ DFT ôçò T ìðïñïýí íá õðïëïãéóèïýí áðü ôïõò
óõíôåëåóôÝò ôïõ DFT ôçò S óýìöùíá ìå ôçí åîßóùóç:
1 √
DF Tn (T ) = √ ·( W · DF Tn (S )− S (0)+ T (W ))· ej 2n=W ; (0 ≤ n ≤ W −1)
W
(6.4)
ÁÐÏÄÅÉÎÇ. Óçìåéþóôå üôé S (i)=T (i) ãéá 1 ≤ i ≤ W {1. Ï n-ïóôüò óõíôåëåóôÞò
DFT ôçò êéíïýìåíçò ÷ñïíïóåéñÜò S äßíåôáé áðü ôïí ôýðï:
W
X −1
1
DF Tn (S ) = √ S (k) · e−j 2kn=W (6.5)
W k=0
134 ÊÅÖÁËÁÉÏ 6. ÅÕÑÅÓÇ ÏÌÏÉÏÔÇÔÁÓ ÓÅ ÊÉÍÏÕÌÅÍÅÓ ×ÑÏÍÏÓÅÉÑÅÓ
DF Tn (T )real =
1 √ 2n 2n
√ · ( W · DF Tn (S )real − S (0) + T (W )) · cos( ) − DF Tn (S )imag · sin( )
W W W
(6.7)
êáé
DF Tn (T )imag =
1 √ 2n 2n
√ · ( W · DF Tn (S )real − S (0) + T (W )) · sin( ) + DF Tn (S )imag · cos( )
W W W
(6.8)
üðïõ (0 ≤ n ≤ W − 1)
6.6. ÐÁÑÁÑÔÇÌÁ 135
DF Tn (T ) = √1
W·
√ 2n 2n
( W ·(DF Tn (S )real +j ·DF Tn (S )imag )−S (0)+ T (W ))·(cos( )+j ·sin( ))
W W
ÌåôÜ áðü áëãåâñéêÝò ðñÜîåéò óôçí ðñïçãïýìåíç åîßóùóç ðáßñíïõìå ôéò Åîéóþ-
óåéò 6.7 êáé 6.8. a
ÊÅÖÁËÁÉÏ 7
Óõíå÷Þ ÅñùôÞìáôá
k -dominant Skyline ∗
Ðåñéå÷üìåíá
7.1 ÅÉÓÁÃÙÃÇ . . . . . . . . . . . . . . . . . . . . . . . 137
7.2 Ó×ÅÔÉÊÇ ÂÉÂËÉÏÃÑÁÖÉÁ . . . . . . . . . . . . . 140
7.3 ÕÐÏÂÁÈÑÏ . . . . . . . . . . . . . . . . . . . . . . 141
7.4 ÓÕÍÅ×Ç k-DOMINANT SKYLINES . . . . . . . 143
7.5 ÐÅÉÑÁÌÁÔÉÊÇ ÁÐÏÔÉÌÇÓÇ . . . . . . . . . . . 154
7.6 ÓÕÆÇÔÇÓÇ . . . . . . . . . . . . . . . . . . . . . . 158
7.7 ÓÕÌÐÅÑÁÓÌÁÔÁ . . . . . . . . . . . . . . . . . . 160
7.1 ÅéóáãùãÞ
Ðñüóöáôá, ôá åñùôÞìáôá ðñïôßìçóçò ðñïóÝëêõóáí óçìáíôéêÜ ôï åñåõíçôéêü åí-
äéáöÝñïí. Ôá åñùôÞìáôá ðñïôßìçóçò ÷ñçóéìïðïéïýíôáé óõ÷íÜ óå åöáñìïãÝò õðï-
óôÞñéîçò áðïöÜóåùí ðïëëþí êñéôçñßùí, üðïõ Ýíá ðëÞèïò (óõíÞèùò) áíôéöáôéêþí
êñéôçñßùí óõììåôÝ÷ïõí ãéá ôçí åðéëïãÞ ôçò êáôÜëëçëçò áðÜíôçóçò ôïõ ÷ñÞóôç.
ÊÜèå áíôéêåßìåíï áíáðáñßóôáôáé ùò Ýíá óçìåßï óå ðïëõäéÜóôáôï ÷þñï.
ÕðïèÝóôå üôé Ýíáò ðåëÜôçò åíäéáöÝñåôáé ãéá ôçí áãïñÜ ìßáò óõóêåõÞò ðñïóù-
ðéêïý øçöéáêïý âïçèïý (Personal Digital Assistant - PDA). Äõóôõ÷þò, õðÜñ-
÷ïõí ðïëëÜ êñéôÞñéá ðïõ ðñÝðåé íá ëçöèïýí õðüøç ðñïêåéìÝíïõ íá ëçèåß ç óùóôÞ
áðüöáóç. ÅðéðëÝïí, õðïèÝóôå üôé ï ðåëÜôçò åíäéáöÝñåôáé ãéá äýï óçìáíôéêÜ ÷á-
ñáêôçñéóôéêÜ ôùí PDA, ôï ìÝãåèïò ôçò ïèüíçò êáé ôï ÷ñüíï áõôïíïìßáò (÷ñïíéêü
∗ Ôï êåöÜëáéï áíôëåß ôá ðåñéå÷üìåíÜ ôïõ áðü ôçí åñãáóßá [106].
137
138 ÊÅÖÁËÁÉÏ 7. ÓÕÍÅ×Ç ÅÑÙÔÇÌÁÔÁ K -DOMINANT SKYLINE
7.3 Õðüâáèñï
Îåêéíïýìå ôç ìåëÝôç ìáò ìå Ýíá ðëÞèïò âáóéêþí ïñéóìþí êáé ÷ñÞóéìùí éäéï-
ôÞôùí ôùí óçìåßùí ôïõ skyline. Ï Ðßíáêáò 7.1 óõíïøßæåé ôá óýìâïëá ðïõ èá
÷ñçóéìïðïéçèïýí óå áõôü ôï êåöÜëáéï.
ÕðïèÝóôå Ýíá ÷þñï D äéáóôÜóåùí D = {d1 ; d2 ; : : : ; dD } êáé Ýíá óýíïëï åã-
ãñáöþí T = {t1 ; t2 ; : : : ; tT }. ×ñçóéìïðïéïýìå ôï óýìâïëï ti;j ãéá íá õðïäçëþ-
óïõìå ôçí ôéìÞ ôçò j -ïóôÞò äéÜóôáóçò ôçò i-ïóôÞò åããñáöÞò. ÅðéðëÝïí, õðïèÝóôå
Ýíá ðëÞèïò k-dominant skyline åñùôçìÜôùí. ÊÜèå åñþôçìá qi Ý÷åé Ýíá óýíïëï
äéáóôÜóåùí qi :ds ⊆ D üðïõ åöáñìüæåôáé ôï åñþôçìá êáé ìßá ðáñÜìåôñï qi :k ðïõ
êáèïñßæåé ôéò åðéèõìçôÝò k-dominant skyline åããñáöÝò.
ÏÑÉÓÌÏÓ 7.1 (k-êõñéáñ÷çìÝíç åããñáöÞ). Ìßá åããñáöÞ ti k-êõñéáñ÷åßôáé áðü
ìßá åããñáöÞ tj óå Ýíá åñþôçìá ql , áí êáé ìüíï áí ∃D0 ⊆ qi :ds; D0 = ql :k; ∀dx ∈
D0 ; tj;x ≥ ti;x êáé ∃dy ∈ D0 ; tj;y > ti;y . ¤
Óýìâïëï ÐåñéãñáöÞ
D; D0 ; D; D0 óýíïëá äéáóôÜóåùí êáé ðëÞèïò äéáóôÜóåùí
d; di äéÜóôáóç
T, T óýíïëá åããñáöþí êáé ðëÞèïò åããñáöþí
ti i-ïóôÞ åããñáöÞ
ti;j ôéìÞ i-ïóôÞò åããñáöÞò óôçí j -ïóôÞ äéÜóôáóç
Q; Q óýíïëï åñùôçìÜôùí êáé ðëÞèïò åñùôçìÜôùí
q; qi åñùôÞìáôá
q:ds; qi :ds óýíïëï êáé ðëÞèïò äéáóôÜóåùí åñùôÞìáôïò
q:ds; qi :ds
q:k; qi :k ðáñÜìåôñïò k åíüò åñùôÞìáôïò
sq; sqj õðïåñùôÞìáôá
sq:ds; sqj :ds óýíïëï êáé ðëÞèïò äéáóôÜóåùí õðïåñùôçìÜôùí
sq:ds; sqi :ds
gi;j ðëÝãìá äéáóôÜóåùí i êáé j
c; ci;j êåëéÜ ðëÝãìáôïò
W ìÝãåèïò êéíïýìåíïõ ðáñáèýñïõ
sq2 : {d1 ; d2 ; d4 }
sq3 : {d1 ; d3 ; d4 }
sq4 : {d2 ; d3 ; d4 }
Óôç óõíÝ÷åéá, áíáöÝñïõìå äýï éäéüôçôåò ôùí áðëþí skyline åããñáöþí, ôéò
ïðïßåò èá ÷ñçóéìïðïéÞóïõìå óå åðüìåíåò åíüôçôåò. Ç ðñþôç éäéüôçôá ìáò åðé-
ôñÝðåé íá áíáãíùñßóïõìå skyline åããñáöÝò óå õðï÷þñïõò, áëëÜ éó÷ýåé ìüíï áí
éó÷ýåé ç óõíèÞêç äéáöïñåôéêÞò ôéìÞò (distinct value condition) [138].
ÉÄÉÏÔÇÔÁ 7.6. ÄåäïìÝíïõ T åããñáöþí D äéáóôÜóåùí, áí ìßá åããñáöÞ ti åßíáé
áðëÞ skyline åããñáöÞ óôï D1 ⊆ D ôüôå åßíáé áðëÞ skyline åããñáöÞ óå êÜèå
óýíïëï äåäïìÝíùí D2 ⊇ D1 (D2 ⊆ D). ¤
Óôçí ðåñßðôùóç ðïõ äåí éó÷ýåé ç óõíèÞêç äéáöïñåôéêÞò ôéìÞò, ôï ðñüâëçìá
ìðïñåß íá îåðåñáóèåß åýêïëá áí áðïèçêåýóïõìå óå ìßá åíäéÜìåóç ìíÞìç, ôéò
åããñáöÝò ìå ßäéåò ôéìÝò óå Ýíá õðïóýíïëï äéáóôÜóåùí ðñïêåéìÝíïõ íá êáôáóôÞ-
óïõìå äõíáôÞ ôçí ðåñáéôÝñù åðåîåñãáóßá ôïõò, üôáí áõôÞ ÷ñåéÜæåôáé.
ÉÄÉÏÔÇÔÁ 7.7. ÄåäïìÝíùí T åããñáöþí D äéáóôÜóåùí, áí ìßá åããñáöÞ ti äåí
åßíáé áðëÞ skyline åããñáöÞ óôï D1 ⊆ D ôüôå äåí åßíáé áðëÞ skyline åããñáöÞ óå
êÜèå óýíïëï äåäïìÝíùí D2 ⊆ D1 . ¤
Ïé ðñïçãïýìåíåò éäéüôçôåò äåí éó÷ýïõí ãéá ôçí ðåñßðôùóç ôùí k-dominant
skylines, ãéá k < D. ÅðéðëÝïí, ç ìåôáâáôéêÞ (transitive) éäéüôçôá ôùí áðëþí sky-
lines äåí éó÷ýåé óôá k-dominant skylines. ÊáôÜ óõíÝðåéá, åßíáé äõíáôü íá õðÜñ-
÷ïõí ôñåéò åããñáöÝò t1 ; t2 êáé t3 ôÝôïéåò þóôå ç t1 íá k-êõñéáñ÷åßôáé áðü ôçí t2 ,
ç t2 íá k-êõñéáñ÷åßôáé áðü ôçí t3 êáé ç t3 íá k-êõñéáñ÷åßôáé áðü ôçí t1 (êõêëéêÞ
ó÷Ýóç êõñéáñ÷ßáò, cyclic dominant relationship). Ëüãù ôçò êõêëéêÞò ó÷Ýóçò
êõñéáñ÷ßáò, äåí ìðïñïýìå íá áðïññßøïõìå ìßá åããñáöÞ ðïõ k-êõñéáñ÷åßôáé, äéüôé
ßóùò ÷ñçóéìïðïéçèåß ãéá ôçí áðüññéøç êÜðïéáò Üëëçò åããñáöÞò. Ãé' áõôü, ïé
áëãüñéèìïé ðïõ Ý÷ïõí ðñïôáèåß ãéá ôïí õðïëïãéóìü skyline êáé óõíå÷Þ skyline
äåí åßíáé åöáñìüóéìïé óôçí ðåñßðôùóç ôùí k-dominant skylines.
Óå áõôü ôï êåöÜëáéï, ðñïôåßíïõìå ôïí áëãüñéèìï CoSMuQ (Continuous Sky-
lines for Multiple Queries), Ýíá áðïäïôéêü ó÷Þìá ãéá ôçí åðåîåñãáóßá ðïëëþí
óõíå÷þí k-dominant skylines åñùôçìÜôùí. Ôï ðñüâëçìá äéáôõðþíåôáé ùò åîÞò:
ÄåäïìÝíïõ åíüò äõíáìéêïý óõíüëïõ åããñáöþí D äéáóôÜóåùí êáé åíüò óõ-
íüëïõ áðü k-dominant skyline åñùôÞìáôá, êáèÝíá áðü ôá ïðïßá Ý÷åé Ýíá óýíïëï
äéáóôÜóåùí qi :ds ⊆ D êáé ìßá ðáñÜìåôñï qi :k ≤ qi :ds, õðïëüãéóå ôï k-dominant
skyline ãéá êÜèå åñþôçìá óõíå÷þò.
7.4.2 CoSMuQ
Ôï åðßêåíôñï ôçò ìåëÝôçò ìáò åßíáé ï óõíå÷Þò õðïëïãéóìüò ôùí k-dominant
skylines ðïëëþí åñùôçìÜôùí. Ãé' áõôü, áó÷ïëïýìáóôå ìå ôçí åéóáãùãÞ êáé
7.4. ÓÕÍÅ×Ç K -DOMINANT SKYLINES 145
! !
ôéò åããñáöÝò ðïõ âñßóêïíôáé óå áõôü. ÕðïèÝóôå üôé Ýñ÷åôáé ìßá íÝá åããñáöÞ t5 .
ÕðïåñùôÞìáôá
sq1 sq2 sq3 sq4
d1 , d2 , d3 d1 , d2 , d4 d1 , d3 , d4 d2 , d3 , d4
Ðñéí ôçí (2,d1 , d2 , d3 ) t1 , t2 , t3 t1 , t2 , t4 t1 , t3 , t4 t1 , t2 , t3 , t4
åéóáãùãÞ (3,d1 , d2 , d3 ) t4
ôçò t5 candidate t4
ÌåôÜ ôçí (2,d1 , d2 , d3 ) t1 , t2 , t3 t1 , t2 , t4 , t5 t1 , t3 , t4 , t5 t1 , t2 , t3 , t4 , t5
åéóáãùãÞ (3,d1 , d2 , d3 ) t5
ôçò t5 candidate t4 , t5
ÌåôÜ ôç (2,d1 , d2 , d3 ) t2 , t3 , t5 t2 , t4 , t5 t2 , t3 , t4 , t5 t2 , t3 , t4 , t5
äéáãñáöÞ (3,d1 , d2 , d3 )
ôçò t1 candidate
åããñáöÞ åöüóïí äåí êõñéáñ÷åßôáé áðü êáìßá Üëëç (sq:ds; sq:ds)-skyline åããñáöÞ.
Áêïëïõèåß ç åíçìÝñùóç ôùí õðïåñùôçìÜôùí. Ðñþôá, åëÝã÷åôáé áí ç íÝá åã-
ãñáöÞ t5 ðñÝðåé íá åéóá÷èåß óôï (2; sq:ds)-skyline. Èõìçèåßôå üôé ôï (2; sq:ds)-
skyline åßíáé ç Ýíùóç üëùí ôùí skylines ôùí ðëåãìÜôùí ðïõ áíÞêïõí óôï sq:ds.
Åöüóïí ç t5 åßíáé skyline åããñáöÞ óôï g1;4 , g2;4 êáé g3;4 , èá åéóá÷èåß óôá
(2; sq:ds)-skylines ôùí õðïåñùôçìÜôùí sq2 , sq3 êáé sq4 . Áí ç íÝá åããñáöÞ åßíáé
(2; sq:ds)-skyline åããñáöÞ, äéáãñÜöïíôáé ïé (sq:ds; sq:ds)-skyline êáé ïé õðïøÞ-
öéåò skyline åããñáöÝò ðïõ êõñéáñ÷ïýíôáé áðü ôç íÝá åããñáöÞ. ÌåôÜ, åîåôÜæïõìå
ôéò skyline åããñáöÝò ôùí ðëåãìÜôùí ðïõ äéáãñÜöçêáí êáé áðïèçêåýôçêáí ðñï-
óùñéíÜ êáôÜ ôç äéÜñêåéá ôïõ ðñïçãïýìåíïõ óôáäßïõ. ×ñåéÜæåôáé íá åëÝãîïõìå
áí ïé skyline åããñáöÝò ôùí ðëåãìÜôùí ðïõ äéáãñÜöçêáí ðñÝðåé íá äéáãñáöïýí
êáé áðü ôï (2; sq:ds)-skyline ôïõ õðïåñùôÞìáôïò. Áõôü ìðïñåß íá óõìâåß áí ïé
skyline åããñáöÝò ðïõ äéáãñÜöçêáí äåí õðÜñ÷ïõí ùò skyline åããñáöÝò óå êÜðïéï
Üëëï ðëÝãìá ðïõ åðçñåÜæåé ôï õðïåñþôçìá. Óå áõôÞ ôçí ðåñßðôùóç, äéáãñÜöïõìå
áõôÝò ôéò åããñáöÝò áðü ôï (2; sq:ds)-skyline êáé áí äåí êõñéáñ÷ïýíôáé áðü ôç
íÝá åããñáöÞ, åéóÜãïíôáé óôï õðïøÞöéï skyline åããñáöÝò êáé åíäå÷ïìÝíùò óôï
(sq:ds; sq:ds)-skyline, åöüóïí äåí êõñéáñ÷ïýíôáé áðü êáìßá Üëëç åããñáöÞ ôïõ.
Áí ç íÝá åããñáöÞ äåí åßíáé (2; sq:ds)-skyline åããñáöÞ, ôç óõãêñßíïõìå ìå
üëåò ôéò (2; sq:ds)-skyline åããñáöÝò. Áí ç íÝá åããñáöÞ äåí êõñéáñ÷åßôáé áðü
êáìßá áðü áõôÝò, åßíáé õðïøÞöéá skyline åããñáöÞ êáé áí äåí êõñéáñ÷åßôáé áðü
êáìßá (sq:ds; sq:ds)-skyline åããñáöÞ ôüôå åßíáé (sq:ds; sq:ds)-skyline åããñáöÞ.
Áí ç íÝá åããñáöÞ åßíáé (sq:ds; sq:ds)-skyline åããñáöÞ, åëÝã÷ïõìå áí êõñéáñ÷åß
êÜðïéåò áðü ôéò õðÜñ÷ïõóåò (sq:ds; sq:ds)-skyline åããñáöÝò êáé ôéò äéáãñÜöïõìå.
Óôï ðáñÜäåéãìá ìáò, ç t5 äåí åßíáé skyline åããñáöÞ ôùí g1;2 , g1;3 êáé g2;3 , êáôÜ
óõíÝðåéá äåí åßíáé (2; sq:ds)-skyline åããñáöÞ ôïõ sq1 . ÌåôÜ åëÝã÷ïõìå áí ç íÝá
åããñáöÞ êõñéáñ÷åßôáé áðü ôéò (2; sq:ds)-skyline åããñáöÝò ôïõ sq1 . Äåí êõñéáñ÷åß-
ôáé, åðïìÝíùò åéóÜãåôáé óôï õðïøÞöéï skyline. Óõíå÷ßæïíôáò, äåí êõñéáñ÷åßôáé
áðü êáìßá (sq:ds; sq:ds)-skyline åããñáöÞ, Üñá åéóÜãåôáé óå áõôÝò. ÔÝëïò, óõ-
ãêñßíïõìå ôçí t5 ìå ôçí t4 êáé äéáãñÜöïõìå ôçí t4 , åðåéäÞ êõñéáñ÷åßôáé áðü ôçí
t5 . ÐñïóÝîôå üôé óôç äéáäéêáóßá åíçìÝñùóçò õðïåñùôçìÜôùí, ðñáãìáôïðïéïý-
íôáé óõãêñßóåéò ìüíï áðëþí skyline åããñáöþí. ÅðéðëÝïí, áí ìßá íÝá åããñáöÞ
äåí åéóá÷èåß óôï (2; sq:ds)-skyline Þ óôï (sq:ds; sq:ds)-skyline, äåí ðñáãìáôï-
ðïéïýíôáé ðåñáéôÝñù ëåéôïõñãßåò. ÔÝëïò, ãéá íá áðïôéìÞóïõìå Ýíá õðïåñþôçìá
÷ñåéÜæïíôáé ìüíï ïé åããñáöÝò ôïõ (2; sq:ds)-skyline, ôïõ (sq:ds; sq:ds)-skyline
êáé ôïõ õðïøÞöéïõ skyline.
Áí åîåôÜóïõìå Ýíá õðïåñþôçìá óáí Ýíá áðëü skyline åñþôçìá ôüôå ôï sky-
line ôïõ õðïåñùôÞìáôïò åßíáé ç Ýíùóç ôùí (2; sq:ds)-skyline êáé (sq:ds; sq:ds)-
skyline.
ÐÑÏÔÁÓÇ 7.8 (skyline õðïåñùôÞìáôïò). Ôï áðëü skyline åíüò õðïåñùôÞìáôïò
sq óå Ýíá óýíïëï äéáóôÜóåùí sq:ds äßíåôáé áðü ôçí Ýíùóç ôùí (2; sq:ds)-skyline
êáé (sq:ds; sq:ds)-skyline ôïõ õðïåñùôÞìáôïò.
7.4. ÓÕÍÅ×Ç K -DOMINANT SKYLINES 149
ÁÐÏÄÅÉÎÇ. Ôï (2; sq:ds)-skyline ðåñéÝ÷åé üëåò ôéò åããñáöÝò ðïõ åßíáé óôï
skyline åíüò ôïõëÜ÷éóôïí æåýãïõò äéáóôÜóåùí ðïõ åðçñåÜæïõí ôï õðïåñþôçìá.
Ëüãù ôçò Éäéüôçôáò 7.6, ïé (2; sq:ds)-skyline åããñáöÝò åßíáé skyline åããñáöÝò óôï
sq:ds. ÅðéðëÝïí, ôï (sq:ds; sq:ds)-skyline ðåñéÝ÷åé üëåò ôéò åããñáöÝò ðïõ äåí êõ-
ñéáñ÷ïýíôáé áðü ôéò (2; sq:ds)-skyline åããñáöÝò. ¼ëåò ïé õðüëïéðåò åããñáöÝò
êõñéáñ÷ïýíôáé åßôå áðü ôéò (sq:ds; sq:ds)-skyline åããñáöÝò Þ ôéò (2; sq:ds)-skyline
åããñáöÝò. ÅðïìÝíùò, ç Ýíùóç ôùí (2; sq:ds)-skyline êáé (sq:ds; sq:ds)-skyline
äßíåé ôï skyline ôïõ sq. a
ÁÐÏÄÅÉÎÇ. Áðü ôïí Ïñéóìü 7.2, ïé k-dominant skyline åããñáöÝò åíüò åñù-
ôÞìáôïò q ìå q:ds êáé q:k äåí ðñÝðåé íá êõñéáñ÷ïýíôáé óå êáíÝíá õðïóýíïëï
k äéáóôÜóåùí. ÅðïìÝíùò, ìßá k-dominant skyline åããñáöÞ åíüò åñùôÞìáôïò q
åßíáé áðëÞ skyline åããñáöÞ óå êÜèå õðïóýíïëï ôùí k äéáóôÜóåùí áðü ôéò q:ds
äéáóôÜóåéò. a
¼ðùò Þäç áíáöÝñáìå, ç åéóáãùãÞ ìßáò åããñáöÞò ìðïñåß íá ðñïêáëÝóåé ôçí åé-
óáãùãÞ/äéáãñáöÞ óôá/áðü ôá (2; sq:ds)-skylines êáé (sq:ds; sq:ds)-skylines. Áõ-
ôÝò ïé áëëáãÝò áðïèçêåýïíôáé ðñïóùñéíÜ. Ãéá íá õðïëïãßóïõìå ôï k-dominant
skyline åíüò åñùôÞìáôïò q, ðñþôá ïé (2; sq:ds)-skyline êáé (sq:ds; sq:ds)-skyline
åããñáöÝò êÜèå õðïåñùôÞìáôïò ðïõ äéáãñÜöçêáí, áðïìáêñýíïíôáé áðü ôï k-
dominant skyline ôïõ åñùôÞìáôïò, áí õðÜñ÷ïõí. ÌåôÜ õðïëïãßæåôáé ç ôïìÞ ôùí
íÝùí (2; sq:ds)-skyline êáé (sq:ds; sq:ds)-skyline åããñáöþí üëùí ôùí õðïåñùôç-
ìÜôùí ôïõ åñùôÞìáôïò êáé ïé åããñáöÝò ôçò ôïìÞò åéóÜãïíôáé óôï k-dominant
skyline ôïõ åñùôÞìáôïò, áí õðÜñ÷ïõí óôá skyline üëùí ôùí õðïåñùôçìÜôùí. Ãéá
ôï åñþôçìá ôïõ ðáñáäåßãìáôïò, ôï k-dominant skyline ôïõ áðïôåëåßôáé áðü ôéò
åããñáöÝò t1 êáé t5 .
Ç ðåñéãñáöÞ ôïõ áëãïñßèìïõ CoSMuQ-insert áðåéêïíßæåôáé óôçí Åéêüíá 7.5.
Ïé ãñáììÝò 2-7 ðåñéãñÜöïõí ôï ðñþôï óôÜäéï (åíçìÝñùóç ôùí ðëåãìÜôùí êáé ôùí
skyline ôïõò) ôïõ áëãïñßèìïõ. Ôï äåýôåñï óôÜäéï (åíçìÝñùóç õðïåñùôçìÜôùí)
ðåñéãñÜöåôáé óôéò ãñáììÝò 8-24. Ïé ãñáììÝò 9-19 äåß÷íïõí ôçí åíçìÝñùóç áí
ç íÝá åããñáöÞ åßíáé (2; sq:ds)-skyline åããñáöÞ åíþ ïé ãñáììÝò 20-24 äåß÷íïõí
ôçí åíçìÝñùóç áí ç íÝá åããñáöÞ åßíáé (sq:ds; sq:ds)-skyline åããñáöÞ. ÔÝëïò, ïé
ãñáììÝò 25-28 (åíçìÝñùóç åñùôçìÜôùí) ðåñéãñÜöïõí ôï ôñßôï óôÜäéï.
150 ÊÅÖÁËÁÉÏ 7. ÓÕÍÅ×Ç ÅÑÙÔÇÌÁÔÁ K -DOMINANT SKYLINE
ìÝãåèïò ôïõ ðëÝãìáôïò ôÝèçêå ßóï ìå 30 êåëéÜ áíÜ äéÜóôáóç. Ôï ðëÞèïò ôùí åíç-
ìåñþóåùí ôùí ðåéñáìÜôùí ðïéêßëåé ìåôáîý 10000 êáé 200000. Óôá äéáãñÜììáôá
ðïõ áêïëïõèïýí, äßíåôáé ï ÷ñüíïò áðüêñéóçò áíÜ åíçìÝñùóç.
Ðñþôá, ìåëåôÞóáìå ôçí áðüäïóç ôùí áëãïñßèìùí CoSMuQ-ADHOC êáé
CoSMuQ-Streaming óå ó÷Ýóç ìå ôï ìÝãåèïò ôïõ ðëÝãìáôïò. Ãéá ôç óýãêñéóç
ôùí ìåèüäùí åöáñìüóèçêáí ìüíï åéóáãùãÝò óôï ôÝëïò êáé äéáãñáöÝò óôçí áñ÷Þ.
Ôá áðïôåëÝóìáôá ãéá ôï óýíïëï äåäïìÝíùí Independent ðáñïõóéÜæïíôáé óôçí
Åéêüíá 7.6, üðïõ äßíïíôáé ï ÷ñüíïò áðüêñéóçò êáé ïé áðáéôÞóåéò ìíÞìçò. Ôï
ìÝãåèïò ôïõ ðëÝãìáôïò ìåôáâÜëëåôáé áðü 10 Ýùò 50 êåëéÜ áíÜ äéÜóôáóç. Ï ÷ñü-
íïò áðüêñéóçò êáèþò êáé ïé áðáéôÞóåéò ìíÞìçò åðçñåÜæïíôáé ðåñéóóüôåñï áðü ôï
äåýôåñï óôÜäéï ôùí áëãïñßèìùí, ôï ïðïßï åßíáé ç åíçìÝñùóç ôùí õðïåñùôçìÜ-
ôùí. ÅðïìÝíùò, ôï ìÝãåèïò ôïõ ðëÝãìáôïò äåí åðçñåÜæåé éäéáßôåñá ôç óõíïëéêÞ
áðüäïóç. Áõôü åßíáé áêüìá ðéï Ýêäçëï óôá óýíïëá äåäïìÝíùí Correlated êáé
Anti-Correlated, ðïõ Ý÷ïõí ëéãüôåñåò k-dominant skyline åããñáöÝò, ôùí ïðïßùí
ôá áðïôåëÝóìáôá ðáñáëåßðïíôáé.
0.2 10
CoSMuQ-ADHOC CoSMuQ-ADHOC
CoSMuQ-Streaming CoSMuQ-Streaming
8
0.15
Memory (MB)
Time (sec)
6
0.1
4
0.05
2
0 0
10 15 20 25 30 35 40 45 50
Number of Cells Number of Cells
(á) (â)
EIKONA 7.6. (á) ×ñüíïò áðüêñéóçò, êáé (â) áðáéôÞóåéò ìíÞìçò ùò ðñïò ðëÞèïò êåëéþí (Independent).
ÅðéðëÝïí, ï ÷ñüíïò áðüêñéóçò åßíáé ðáñüìïéïò ãéá ôéò äýï ìåèüäïõò. Áõôü
óõìâáßíåé äéüôé ï áëãüñéèìïò CoSMuQ-Streaming áðïèçêåýåé ìåí ëéãüôåñåò õðï-
øÞöéåò åããñáöÝò êáé åðïìÝíùò ìðïñåß íá áðáíôÞóåé óõíå÷Þ k-dominant skyline
åñùôÞìáôá ôá÷ýôåñá, áëëÜ åöáñìüæåé Ýíá ðëÞèïò åðéðñüóèåôùí óõãêñßóåùí ðñï-
êåéìÝíïõ íá êñáôÞóåé ôéò åããñáöÝò ìå ôï ìåãáëýôåñï ÷ñüíï æùÞò óôï õðïøÞöéï
skyline. Ôï üöåëïò ôïõ CoSMuQ-Streaming åßíáé üôé ìåéþíåé ôéò áðáéôÞóåéò ìíÞ-
ìçò êáôÜ 25%. Óôç óõíÝ÷åéá, óõãêñßíïõìå ÷ñüíïõò áðüêñéóçò ôùí áëãïñßèìùí
CoSMuQ, TSA êáé SRA. Ãéá ëüãïõò óáöÞíåéáò, ðáñáëåßðïõìå ôá áðïôåëÝóìáôá
ôïõ CoSMuQ-Streaming äéüôé Ý÷åé ôçí ßäéá óõìðåñéöïñÜ ìå áõôü ôï ðåßñáìá êáé
ïé ÷ñüíïé áðüêñéóÞò ôïõ åßíáé ðáñüìïéïé ìå áõôïýò ôïõ CoSMuQ-ADHOC.
Óôç óõíÝ÷åéá, ìåôñïýìå ôï ÷ñüíï áðüêñéóçò óå ó÷Ýóç ìå ôï ðëÞèïò ôùí
åããñáöþí. Ç Åéêüíá 7.7 äåß÷íåé ôá áðïôåëÝóìáôá ãéá ôá óýíïëá äåäïìÝíùí In-
dependent êáé Anti-Correlated. Ç ìÝèïäïò TSA åßíáé ó÷åäüí ðÜíôá ôá÷ýôåñç
áðü ôç SRA êáé áõôü ïöåßëåôáé óå ìåãÜëï âáèìü óôï ðëÞèïò ôùí åããñáöþí
156 ÊÅÖÁËÁÉÏ 7. ÓÕÍÅ×Ç ÅÑÙÔÇÌÁÔÁ K -DOMINANT SKYLINE
1000 1000
Time (sec)
Time (sec)
100 100
10 10
1 1
0.1 0.1
0.01 0.01
10000 50000 100000 150000 200000 10000 50000 100000 150000 200000
Number of Tuples Number of Tuples
10000 1000
TSA TSA
SRA SRA
1000 CoSMuQ-ADHOC CoSMuQ-ADHOC
100
100
Time (sec)
Time (sec)
10
10
1
1
0.1
0.1
0.01 0.01
10 12 14 16 18 20 10 12 14 16 18 20
Number of Dimensions Number of Dimensions
100000 100000
TSA TSA
SRA SRA
10000 CoSMuQ-ADHOC 10000 CoSMuQ-ADHOC
1000 1000
Time (sec)
Time (sec)
100 100
10 10
1 1
0.1 0.1
0.01 0.01
100 1000 5000 10000 100 1000 5000 10000
Number of Queries Number of Queries
100000 100000
TSA TSA
SRA SRA
10000 CoSMuQ-ADHOC 10000 CoSMuQ-ADHOC
1000 1000
Time (sec)
Time (sec)
100 100
10 10
1 1
0.1 0.1
0.01 0.01
6 7 8 9 10 11 12 13 14 6 7 8 9 10 11 12 13 14
Number of Queries’ Dimensions Number of Queries’ Dimensions
7.6 ÓõæÞôçóç
Óôçí åíüôçôá áõôÞ óõæçôïýìå ðåñáéôÝñù âåëôéþóåéò ôïõ áëãïñßèìïõ CoSMuQ.
Áðü ôçí ðåñéãñáöÞ ôùí áëãïñßèìùí, åßíáé Ýêäçëï üôé ç âáóéêüôåñç åðéâÜñõíóç
óôç ìÝèïäï åßíáé ç åíçìÝñùóç ôùí õðïåñùôçìÜôùí êáé áõôü ãéá äýï ëüãïõò: (1) ç
åíçìÝñùóç ôùí õðïåñùôçìÜôùí åßíáé ôï óôÜäéï ìå ôéò ðåñéóóüôåñåò ëåéôïõñãßåò
áðü êÜèå Üëëï óôÜäéï, êáé (2) ôï ðëÞèïò ôùí õðïåñùôçìÜôùí ìðïñåß íá åßíáé
ìåãÜëï, áíÜëïãá ìå ôï ðëÞèïò ôùí åñùôçìÜôùí, ôï ðëÞèïò ôùí äéáóôÜóåùí êáé
ôçí ðáñÜìåôñï k ôïõ êÜèå åñùôÞìáôïò.
ÅðéðëÝïí, ï áëãüñéèìïò CoSMuQ áîéïðïéåß ôçí åðéêÜëõøç ôùí åñùôçìÜôùí
óôï åðßðåäï ôùí äýï äéáóôÜóåùí áëëÜ óôç óõíÝ÷åéá ðåñíÜ Üìåóá óôï åðßðåäï ôùí
k äéáóôÜóåùí (ç ôéìÞ k êáèïñßæåôáé áðü ôçí ðáñÜìåôñï q:k ôïõ åñùôÞìáôïò áðü
üðïõ ðñïêýðôåé ôï õðïåñþôçìá) áãíïþíôáò ìå áõôüí ôïí ôñüðï üëá ôá åíäéÜ-
ìåóá åðßðåäá ðïõ ôá åñùôÞìáôá åðéêáëýðôïíôáé. Äõï õðïåñùôÞìáôá áíåîÜñôçôá
áðü ôï ðëÞèïò ôùí äéáóôÜóåùí ôïõò ìðïñåß íá Ý÷ïõí áñêåôÝò êïéíÝò äéáóôÜóåéò,
äçëáäÞ ìðïñåß íá Ý÷ïõí êïéíÜ õðï-õðïåñùôÞìáôá.
ÐÁÑÁÄÅÉÃÌÁ (ÅðéêÜëõøç õðïåñùôçìÜôùí). ÕðïèÝóôå Ýíá åñþôçìá q1 üðïõ
éó÷ýåé q1 :bfds = {d1 ; d2 ; d3 ; d4 ; d5 } êáé q1 :k=4. Ôá õðïåñùôÞìáôá ôïõ q1 åßíáé:
sq1 : {d1 ; d2 ; d3 ; d4 }
sq2 : {d1 ; d2 ; d3 ; d5 }
sq3 : {d1 ; d2 ; d4 ; d5 }
sq4 : {d1 ; d3 ; d4 ; d5 }
sq5 : {d2 ; d3 ; d4 ; d5 }
Ôá õðïåñùôÞìáôá sq1 êáé sq2 Ý÷ïõí Ýíá êïéíü õðï-õðïåñþôçìá ìå äéáóôÜóåéò
{d1 ; d2 ; d3 }.
ÕðïèÝóôå Ýíá Üëëï åñþôçìá q2 ìå q2 :ds = {d1 ; d2 ; d3 ; d6 } êáé q2 :k=3. Ôá
õðïåñùôÞìáôá ôïõ q2 åßíáé:
sq6 : {d1 ; d2 ; d3 }
7.6. ÓÕÆÇÔÇÓÇ 159
sq7 : {d1 ; d2 ; d6 }
sq8 : {d1 ; d3 ; d6 }
sq9 : {d2 ; d3 ; d6 }
Ôá õðïåñùôÞìáôá sq1 êáé sq6 Ý÷ïõí Ýíá êïéíü õðï-õðïåñþôçìá ìå äéáóôÜóåéò
{d1 ; d2 ; d3 }.
7.7 ÓõìðåñÜóìáôá
Ôï áðëü skyline åßíáé Ýíá èåìåëéþäåò åñþôçìá ðñïôßìçóçò. Äõóôõ÷þò, ôá åñù-
ôÞìáôá skyline ÷Üíïõí ôçí ïîõäåñêÞ ôïõò äýíáìç óå ÷þñïõò ðïëëþí äéáóôÜ-
óåùí. Ôï k-dominant skyline åñþôçìá åßíáé ìßá ãåíßêåõóç ôïõ áðëïý skyline
åñùôÞìáôïò ìå óêïðü íá îåðåñÜóåé áõôü ôï ìåéïíÝêôçìá. Óå áõôü ôï êåöÜëáéï,
ðñïôÜèçêå ìßá ðñùôüôõðç ìÝèïäïò ãéá ôçí áðïäïôéêÞ åðåîåñãáóßá óõíå÷þí k-
dominant skyline ðïëëþí åñùôçìÜôùí. Ï ðñïôåéíüìåíïò áëãüñéèìïò CoSMuQ
åßíáé êáôÜëëçëïò ôüóï ãéá åñùôÞìáôá ìßáò åêôÝëåóçò üóï êáé ãéá óõíå÷Þ åñù-
ôÞìáôá. Ç ðåéñáìáôéêÞ áðïôßìçóç êáôÝäåéîå ôçí áíùôåñüôçôá ôçò ðñïôåéíüìåíçò
ìåèüäïõ óå ó÷Ýóç ìå ôéò ìåèüäïõò TSA êáé SRA, ïé ïðïßåò ó÷åäéÜóèçêáí ãéá
óôáôéêÜ ðåñéâÜëëïíôá. ÅðéðëÝïí, åðÝäåéîå ôçí éêáíüôçôá ôçò ðñïôåéíüìåíçò ìå-
èüäïõ ôïõ ÷åéñéóìïý ðïëëþí äéáöïñåôéêþí åñùôçìÜôùí.
ÊÅÖÁËÁÉÏ 8
8.1 ÅéóáãùãÞ
Ôá åñùôÞìáôá ðñïôßìçóçò Ý÷ïõí ëÜâåé óçìáíôéêÞ ðñïóï÷Þ óôï ðáñåëèüí [29,
46, 110, 135, 152]. Ùóôüóï, ç ìåëÝôç ôçò óõíå÷ïýò åðåîåñãáóßáò åñùôçìÜ-
ôùí ðñüóöáôá ðñïóÝëêõóå ôï åíäéáöÝñïí ôçò êïéíüôçôáò ôùí âÜóåùí äåäïìÝíùí
[128, 154], ëüãù ôïõ ãåãïíüôïò üôé ðïëëÝò åöáñìïãÝò ÷åéñßæïíôáé äåäïìÝíá ðïõ
ìåôáâÜëëïíôáé ÷ñïíéêÜ êáôÜ äñáóôéêü ôñüðï. Óå áõôïý ôïõ ôýðïõ ôéò åöáñìïãÝò,
óêïðüò åßíáé ç óõíå÷Þò áðïôßìçóç ôïõ åñùôÞìáôïò êáé ç åîáãùãÞ áðïôåëåóìÜ-
ôùí óå ðñáãìáôéêü ÷ñüíï, üðùò áíáöÝñèçêå êáé óôï ÊåöÜëáéï 7. Ðáñáäåßãìáôá
ôÝôïéùí åöáñìïãþí áíáöÝñèçêáí óå ðñïçãïýìåíá êåöÜëáéá.
∗ Ôï êåöÜëáéï áíôëåß ôá ðåñéå÷üìåíÜ ôïõ áðü ôéò åñãáóßåò [109].
161
162 ÊÅÖÁËÁÉÏ 8. ÓÕÍÅ×ÇÓ ÅÐÅÎÅÑÃÁÓÉÁ TOP-K DOMINATING ÅÑÙÔÇÌÁÔÙÍ
[29]. ¸íá top-k åñþôçìá áíáêôÜ ôéò k åããñáöÝò ôïõ óõíüëïõ äåäïìÝíùí ìå
ôéò õøçëüôåñåò âáèìïëïãßåò óýìöùíá ìå ìßá óõíÜñôçóç âáèìïëüãçóçò F . Áí
÷ñçóéìïðïéÞóïõìå ôç óõíÜñôçóç âáèìïëüãçóçò F = x + y (êáé ðÜëé ç åëá÷é-
óôïðïßçóç åßíáé ðñïôéìüôåñç), ôï óýíïëï top-3 ðåñéÝ÷åé ôéò åããñáöÝò t7 ; t8 êáé
t3 . Ôï áðëü top-k åñþôçìá ðåñéïñßæåé ôï ìÝãåèïò ôïõ áðïôåëÝóìáôïò, áëëÜ äåí
õðÜñ÷åé ðñïöáíÞò ôñüðïò íá áíáãíùñßóïõìå ôéò óçìáíôéêüôåñåò åããñáöÝò, áöïý
äéáöïñåôéêÝò óõíáñôÞóåéò âáèìïëüãçóçò äßíïõí ãåíéêÜ äéáöïñåôéêü áðïôÝëåóìá.
Ôï top-3 dominating åñþôçìá ðåñéÝ÷åé ôéò åããñáöÝò t7 ; t8 êáé t6 . Ôï top-k
dominating åñþôçìá ðåñéïñßæåé ôï ìÝãåèïò ôïõ áðïôåëÝóìáôïò êáé åðéóôñÝöåé ôéò
óçìáíôéêüôåñåò åããñáöÝò ìå Ýíá äéáéóèçôéêü ôñüðï [176].
Ðáñüôé êÜðïéá åñùôÞìáôá ðñïôßìçóçò, üðùò ôï skyline êáé ôï áðëü top-k,
Ý÷ïõí ìåëåôçèåß õðü ôï ðñßóìá ôùí ñïþí äåäïìÝíùí, ôá óõíå÷Þ top-k dominat-
ing åñùôÞìáôá äåí Ý÷ïõí ëÜâåé ôçí áðáéôïýìåíç ðñïóï÷Þ. Óå áõôü ôï êåöÜëáéï
ãßíåôáé ç ðñþôç ðñïóðÜèåéá ãéá ôçí åðßëõóç ôïõ ðñïâëÞìáôïò ôçò áðïäïôéêÞò åðå-
îåñãáóßáò ôïõ top-k dominating åñùôÞìáôïò óå ðïëõäéÜóôáôåò ñïÝò äåäïìÝíùí
÷ñçóéìïðïéþíôáò ôï ìïíôÝëï ôïõ êéíïýìåíïõ ðáñáèýñïõ. Ôï ìïíôÝëï êéíïýìå-
íïõ ðáñáèýñïõ [16] èåùñåß ìüíï ôéò ôåëåõôáßåò W åããñáöÝò, üðïõ W åßíáé ôï
ìÞêïò ôïõ ðáñáèýñïõ. Åöüóïí ç ñïÞ äÝ÷åôáé ìüíï íÝåò ôéìÝò óôï ôÝëïò, ï ÷ñü-
íïò ëÞîçò (expiry time) t:exp ìßáò åããñáöÞò, ðïõ Þñèå ôç ÷ñïíéêÞ óôéãìÞ t:arr,
åßíáé åê ôùí ðñïôÝñùí ãíùóôüò êáé åßíáé ßóïò ìå t:arr + W . Óôá skyline êáé óôá
áðëÜ top-k åñùôÞìáôá, ìðïñïýìå íá ÷ñçóéìïðïéÞóïõìå ôï ÷ñüíï ëÞîçò ãéá íá
áðïññßøïõìå Ýíá õðïóýíïëï åããñáöþí ìå áðïôÝëåóìá ôç äõíáôüôçôá ó÷åäßáóçò
áðïäïôéêüôåñùí áëãïñßèìùí óå ó÷Ýóç ìå ôéò áðáéôÞóåéò ìíÞìçò êáé ôï ÷ñüíï
áðüêñéóçò.
Ðéï óõãêåêñéìÝíá, óôá skyline åñùôÞìáôá, áí ìßá åããñáöÞ ti êõñéáñ÷åßôáé áðü
ìßá Üëëç åããñáöÞ tj êáé ç tj ëÞãåé ìåôÜ ôçí ti , ôüôå åßíáé áóöáëÝò íá áðïññßøïõìå
164 ÊÅÖÁËÁÉÏ 8. ÓÕÍÅ×ÇÓ ÅÐÅÎÅÑÃÁÓÉÁ TOP-K DOMINATING ÅÑÙÔÇÌÁÔÙÍ
ôçí ti áöïý äåí èá ãßíåé ðïôÝ ìÝñïò ôïõ skyline ëüãù ôçò ýðáñîçò ôçò tj . Ãéá
ðáñÜäåéãìá, èåùñåßóôå ôï óýíïëï äåäïìÝíùí ôçò Åéêüíáò 8.1. ÕðïèÝóôå üôé ï
äåßêôçò óôï áíáãíùñéóôéêü êÜèå åããñáöÞò óõìâïëßæåé ôï ÷ñüíï Üöéîçò ôçò, ð.÷.
t1 :arr = 1, t2 :arr = 2, ê.ï.ê. Ç åããñáöÞ t8 êõñéáñ÷åß ôéò t1 ; t2 ; t6 êáé t10 . Ïé
åããñáöÝò t1 ; t2 êáé t6 ìðïñïýí íá áðïññéöèïýí ìå áóöÜëåéá áöïý ç t8 ëÞãåé ìåôÜ
áðü áõôÝò. ÅðéðëÝïí, óôá åñùôÞìáôá skyline, éó÷ýåé ç ìåôáâáôéêÞ éäéüôçôá, äçë.
Áí ç tj êõñéáñ÷åß óôçí ti êáé ç ti êõñéáñ÷åß óôçí th , ôüôå ç tj êõñéáñ÷åß óôçí th .
ÅðïìÝíùò, áí áðïññßøïõìå ôçí ti , Ý÷ïõìå áêüìá ôç äõíáôüôçôá íá áðïññßøïõìå
ôçí th ëüãù ôçò ýðáñîçò ôçò tj , áñêåß ç tj íá ëÞãåé ìåôÜ ôéò ti êáé th .
Óôï áðëü top-k åñþôçìá, áí õðÜñ÷ïõí k åããñáöÝò ìå êáëýôåñåò âáèìïëïãßåò
áðü ôçí ti , åíþ ç ti ëÞãåé ðñéí áðü áõôÝò, ôüôå åßíáé áóöáëÝò íá áðïññßøïõìå ôçí
ti . Ãéá ðáñÜäåéãìá, ç âáèìïëïãßá ôçò t1 åßíáé 8.5 êáé õðÜñ÷ïõí ðåñéóóüôåñï áðü
3 åããñáöÝò ìå êáëýôåñåò âáèìïëïãßåò áðü 8.5, ïé ïðïßåò ëÞãïõí ìåôÜ ôçí t1 (ð.÷.,
t3 ; t4 êáé t5 ). Áõôü óçìáßíåé üôé ç t1 ìðïñåß íá äéáãñáöåß ìå áóöÜëåéá. Óôá áðëÜ
top-k åñùôÞìáôá, ç âáèìïëïãßá ìßáò åããñáöÞò äåí ìåôáâÜëëåôáé ÷ñïíéêÜ êáé
äåí åðçñåÜæåôáé áðü Üëëåò åããñáöÝò. ÅðïìÝíùò, èá ìðïñïýóáìå íá äéáãñÜøïõìå
åããñáöÝò áí éó÷ýåé ç ðñïçãïýìåíç óõíèÞêç ÷ùñßò íá åðçñåÜóïõìå ôçí áêñßâåéá
ôïõ áðïôåëÝóìáôïò.
Áðü ôçí Üëëç ìåñéÜ, ôá top-k dominating åñùôÞìáôá åßíáé ðéï ðïëýðëïêá ùò
ðñïò ôçí áðüññéøç åããñáöþí. Äåí åßíáé äõíáôü íá áðïññßøïõìå ìßá åããñáöÞ,
áêüìá êáé áí ãíùñßæïõìå üôé äåí ìðïñåß íá ãßíåé ìÝñïò ôïõ top-k êáôÜ ôç äéÜñ-
êåéá æùÞò ôïõ. Áõôü éó÷ýåé ãéáôß ìßá åããñáöÞ åðçñåÜæåé ôç äýíáìç êõñéáñ÷ßáò
Üëëùí åããñáöþí. Óõíïøßæïíôáò, ïé äýï âáóéêÝò äõóêïëßåò óôçí åðåîåñãáóßá
ôùí óõíå÷þí top-k dominating åñùôçìÜôùí åßíáé: (á) ç äýíáìç êõñéáñ÷ßáò ìßáò
åããñáöÞò åðçñåÜæåôáé áðü Üëëåò åããñáöÝò êáé (â) ç äýíáìç êõñéáñ÷ßáò áëëÜ-
æåé ÷ñïíéêÜ. Ïé áëãüñéèìïé ìáò ÷åéñßæïíôáé áðïôåëåóìáôéêÜ êáé ôá äýï áõôÜ
ðñïâëÞìáôá.
Óôç óõíÝ÷åéá, äßíïõìå ðáñáäåßãìáôá åöáñìïãþí ñïþí, ãéá íá äåßîïõìå ôç
÷ñçóéìüôçôá ôùí top-k dominating åñùôçìÜôùí.
ÁíÜëõóç êßíçóçò äéêôýïõ: ÕðïèÝóôå üôé Ýíá êÝíôñï ëåéôïõñãßáò äéêôýïõ åíüò
ðáíåðéóôçìßïõ åíäéáöÝñåôáé ãéá ôï óõíå÷Þ åíôïðéóìü õðïëïãéóôþí áðü üðïõ ìðï-
ñåß íá îåêéíïýí ðéèáíÝò åðéèÝóåéò äéêôýïõ. Äõóôõ÷þò, õðÜñ÷ïõí ðïëëÜ êñéôÞñéá
ðïõ ðñÝðåé íá åîåôáóèïýí ðñéí åðéëåãïýí ôá êáôÜëëçëá. ÕðïèÝóôå áêüìá, üôé
÷ñçóéìïðïéïýíôáé ôñßá ÷áñáêôçñéóôéêÜ êÜèå õðïëïãéóôÞ: (á) ôï åýñïò äéêôýïõ
ðïõ êáôáíáëþíåé, (â) ôïí áñéèìü ôùí óõíäÝóåùí, êáé (ã) ôïí ðëÞèïò ôùí ðñïï-
ñéóìþí ôùí óõíäÝóåþí ôïõ. Áõôü ìðïñåß íá ðñáãìáôïðïéçèåß ìå ôçí áðïôßìçóç
åíüò óõíå÷ïýò top-k dominating åñùôÞìáôïò óôéò ôñåéò äéáóôÜóåéò ãéá íá åíôï-
ðßóïõìå ôïõò k õðïëïãéóôÝò ìå ôçí õøçëüôåñç äýíáìç êõñéáñ÷ßáò.
Óôçí åñãáóßá [135] ðñïôÜèçêå Ýíá áðïäïôéêü ó÷Þìá ãéá ôçí åðåîåñãáóßá sky-
line åñùôçìÜôùí, ôï ïðïßï óôçñßæåôáé óôá R-äÝíäñá [76]. ÁõôÞ ç ìÝèïäïò äåß÷íåé
óçìáíôéêÞ âåëôßùóç óå ó÷Ýóç ìå Ýíá ðëÞèïò ðáëéüôåñùí ìåèüäùíò. Óôçí åñãá-
óßá [154], ðñïôÜèçêå Ýíáò áõîçôéêüò áëãüñéèìïò ãéá óõíå÷Þ åñùôÞìáôá skyline
óå êéíïýìåíï ðáñÜèõñï, âáóéæüìåíïò óôï ÷ñüíï ëÞîçò ìßáò åããñáöÞò êáé óôá
R-äÝíäñá. Åðéðñüóèåôá, ç óõíå÷Þ áðïôßìçóç ôùí top-k åñùôçìÜôùí ìåëåôÞèçêå
óôçí åñãáóßá [128]. Ï ðñïôåéíüìåíïò áëãüñéèìïò ìåôáôñÝðåé ôï ðñüâëçìá ôïõ
óõíå÷ïýò top-k åñùôÞìáôïò óå åñþôçìá k-skyband [135], âáóéæüìåíïò óôçí ðá-
ñáôÞñçóç üôé ïé åããñáöÝò ðïõ åìöáíßæïíôáé óå Ýíá áðïôÝëåóìá ôïõ top-k êÜðïéá
÷ñïíéêÞ óôéãìÞ åßíáé áõôÝò ðïõ áíÞêïõí óôï k-skyband óôï ÷þñï âáèìïëïãßá-
÷þñïò.
ÐñïôÜèçêáí åíáëëáêôéêÝò ëýóåéò ðñïêåéìÝíïõ íá âïçèÞóïõí ôï ÷ñÞóôç íá
åðéëÝîåé ôá ðéï õðïó÷üìåíá áíôéêåßìåíá. ÁíáöÝñáìå êáé ðñïçãïõìÝíùò üôé ôï
áðïôÝëåóìá åíüò skyline åñùôÞìáôïò ìðïñåß íá ðåñéÝ÷åé ðïëý ëßãá Þ ðÜñá ðïëëÜ
áíôéêåßìåíá, äçìéïõñãþíôáò ðñüâëçìá óôçí åðéëïãÞ ôùí êáëýôåñùí áíôéêåéìÝ-
íùí. ¼ðùò åßäáìå êáé óôï ÊåöÜëáéï 7, ôï k-dominant skyline åñþôçìá [33]
ðñïôÜèçêå ãéá ôçí áíôéìåôþðéóç áõôïý ôïõ öáéíïìÝíïõ. Óýìöùíá ìå ôçí åñãá-
óßá [33], ï ïñéóìüò ôçò êõñéáñ÷ßáò ÷áëáñþíåôáé, ðñïêåéìÝíïõ íá êáôáóôÞóïõìå
ðéèáíüôåñï êÜðïéåò åããñáöÝò íá êõñéáñ÷ïýíôáé áðü êÜðïéåò Üëëåò, åëáôôþíïíôáò
Ýôóé ôï ìÝãåèïò ôïõ áðïôåëÝóìáôïò. Ìßá Üëëç ëýóç ðïõ ðñïôÜèçêå óôçí åñãá-
óßá [121], ÷ñçóéìïðïéåß ôçí éêáíüôçôá êõñéáñ÷ßáò ãéá íá åðéëÝîåé skyline åããñá-
öÝò. Ùóôüóï, üëåò ïé ðñïáíáöåñèÝíôåò áëãüñéèìïé äåí ìðïñïýí íá åöáñìïóèïýí,
ôïõëÜ÷éóôïí ü÷é Üìåóá, ãéá ôçí áðïôßìçóç top-k dominating åñùôçìÜôùí, ðïõ
ìåëåôþíôáé óå áõôü ôï êåöÜëáéï.
Óôçí åñãáóßá [117], ïé óõããñáöåßò ìåëÝôçóáí ôéò ó÷Ýóåéò êõñéáñ÷ßáò óå äéá-
öïñåôéêÜ óýíïëá äåäïìÝíùí (ð.÷. ðñïúüíôá êáé ðåëÜôåò). Ïé óõããñáöåßò ðñüôåé-
íáí ôïí êýâï DADA (DADA cube), Ýíá ó÷Þìá ïñãÜíùóçò ãéá ôçí õðïóôÞñéîç
ðëÞèïõò óçìáíôéêþí ôýðùí åñùôçìÜôùí ìå óêïðü ôçí áíÜëõóç ôùí ó÷Ýóåùí
êõñéáñ÷ßáò. Ôï ó÷Þìá DADA cube ó÷åäéÜóèçêå áíôßóôïé÷á ìå ôïõò êýâïõò äå-
äïìÝíùí (data cubes) ðïõ áîéïðïéïýíôáé óôéò áðïèÞêåò äåäïìÝíùí (data ware-
houses).
Ç êáôÜôáîç ôùí åããñáöþí óýìöùíá ìå ôç äýíáìç êõñéáñ÷ßáò ôïõò ìåëåôÞ-
èçêåò óå äéÜöïñåò åñãáóßåò [136, 176, 118]. Óôçí åñãáóßá [176], ïé óõããñáöåßò
ðñüôåéíáí áðïäïôéêïýò áëãïñßèìïõò ãéá ôïí õðïëïãéóìü ôùí top-k dominating
åããñáöþí ìå ôç âïÞèåéá åíüò Áèñïéóôéêïý R-äÝíäñïõ (aggregate R-tree). Ôá top-
k dominating åñùôÞìáôá óôéò áâÝâáéåò âÜóåéò äåäïìÝíùí (uncertain databases)
ìåëåôÞèçêáí óôçí åñãáóßá [118]. Ïé óõããñáöåßò ðñüôåéíáí ìßá ðñïóÝããéóç áðüñ-
ñéøçò åããñáöþí ãéá íá åëáôôþóïõí ôï ÷þñï åíüò ðéèáíïêñáôéêïý top-k domi-
nating åñùôÞìáôïò êáé åðéðñüóèåôá ìåëÝôçóáí ðñïóåããéóôéêÜ åñùôÞìáôá. Óôçí
åñãáóßá [136] ðñïôÜèçêå ìßá ìÝèïäïò êáôÜôáîçò ðïëõäéÜóôáôùí åããñáöþí óå
ó÷Ýóç ìå ôç äýíáìç êõñéáñ÷ßáò ôïõò. Ôï êïéíü ÷áñáêôçñéóôéêü áõôþí ôùí ðñï-
8.3. ÐÑÏÔÅÉÍÏÌÅÍÇ ÌÅÈÏÄÏÓ 167
Ïñéóìüò ðñïâëÞìáôïò
ÄåäïìÝíïõ åíüò äõíáìéêÜ ìåôáâáëëüìåíïõ óõíüëïõ åããñáöþí ôùí D äéáóôÜ-
óåùí êáé ìßá ðáñÜìåôñï k, ðñïóäéüñéóå óõíå÷þò ôéò top-k dominating åããñáöÝò.
d2
c13 c 14 c 15 c 16
4 t 10 t11 t 12
c9 c10 c11 c12
3 t t8
7
t9
c5 c6 c7 c8
t6
2 t4 t5
c1 c2 c3 c4
1 t2 t1 t3
1 2 3 4 d1
åããñáöÝò ðïõ êõñéáñ÷ïýíôáé áðü ìßá åããñáöÞ ôïõ c6 . ÁõôÜ ôá êåëéÜ óõìâïëßæï-
íôáé ùò ìåñéêþò êõñéáñ÷ïýìåíá êåëéÜ.
Ìðïñïýìå íá ÷ñçóéìïðïéÞóïõìå ôï ðëÝãìá ãéá íá õðïëïãßóïõìå ôï ti :score
ôçò åããñáöÞò ti . Ðñþôá, âñßóêïõìå ôï êåëß cj üðïõ áíÞêåé ç ti . Ãéá íá õðï-
ëïãßóïõìå ôï ti :score, åßíáé áðáñáßôçôï íá åëÝãîïõìå ðüóåò åããñáöÝò n êõ-
ñéáñ÷ïýíôáé áðü ôçí ti ìüíï óôá ìåñéêþò êõñéáñ÷ïýìåíá êåëéÜ ôïõ cj . ÌåôÜ,
õðïëïãßæïõìå ðüóåò åããñáöÝò m õðÜñ÷ïõí óôá ðëÞñùò êõñéáñ÷ïýìåíá êåëéÜ ôïõ
cj . Ôüôå ti :score = n + m. Óôçí Åéêüíá 8.2, ç åããñáöÞ t4 êõñéáñ÷åß ôéò åããñá-
öÝò t6 êáé t11 ôùí ìåñéêþò êõñéáñ÷ïýìåíùí êåëéþí êáé ôï ðëÞèïò ôùí åããñáöþí
ôùí ðëÞñùò êõñéáñ÷ïýìåíùí êåëéþí ôïõ c6 åßíáé 3, åðïìÝíùò t4 :score=3+2=5.
Ç áðëÞ ðñïóÝããéóç ãéá ôç óõíå÷Þ áðïôßìçóç åíüò top-k dominating åñù-
ôÞìáôïò, åßíáé íá õðïëïãßóïõìå üëåò ôéò ó÷Ýóåéò êõñéáñ÷ßáò ìåôáîý üëùí ôùí
åããñáöþí. Ãéá ìßá íÝá åããñáöÞ ti , ç âáèìïëïãßá ôçò ti :score õðïëïãßæåôáé
óõãêñßíïíôáò ôçí åããñáöÞ ti ìå üëåò ôéò Üëëåò åããñáöÝò. Ï áíôßóôñïöïò õðï-
ëïãéóìüò åßíáé áðáñáßôçôïò, äçëáäÞ ç óýãêñéóç üëùí ôùí åããñáöþí ìå ôçí ti ,
ðñïêåéìÝíïõ íá åíçìåñþóïõìå ôéò âáèìïëïãßåò ôïõò. Ðáñïìïßùò, üëåò ïé åããñá-
öÝò óõãêñßíïíôáé ìå ôç ëçãìÝíç åããñáöÞ.
ÁõôÞ ç äéáäéêáóßá õëïðïéåß Ýíá ìåãÜëï áñéèìü óõãêñßóåùí, áêüìá êáé áí
÷ñçóéìïðïéåßôáé êÜðïéï ó÷Þìá äåéêôïäüôçóçò. Ï âáóéêüò óôü÷ïò ìáò åßíáé íá
åëáôôþóïõìå ôéò óõãêñßóåéò. Éó÷õñéæüìáóôå üôé åßíáé äõíáôü íá áðïöýãïõìå
êÜðïéïõò õðïëïãéóìïýò ó÷Ýóåùí êõñéáñ÷ßáò óå êÜèå åíçìÝñùóç ôïõ ðáñáèýñïõ
÷ùñßò íá èõóéÜóïõìå ôçí áêñßâåéá ôïõ áðïôåëÝóìáôïò. ÕðïèÝóôå üôé ç k-ïóôÞ
åããñáöÞ åíüò top-k dominating åñùôÞìáôïò Ý÷åé âáèìïëïãßá kscore. ÅðéðëÝïí,
õðïèÝóôå ìßá åããñáöÞ ti ìå ti :score < kscore. Óå êÜèå åíçìÝñùóç, ç âáèìïëïãßá
kscore ìðïñåß íá åëáôôþíåôáé ôï ðïëý êáôÜ ìßá ìïíÜäá, åíþ ç ti :score ìðïñåß
íá áõîÜíåôáé ôï ðïëý êáôÜ ìßá ìïíÜäá. ÅðïìÝíùò, ç åããñáöÞ ti äåí ìðïñåß
íá åßíáé óôï top-k óå ëéãüôåñåò áðü d(kscore − ti :score)=2e äéáäï÷éêÝò ÷ñïíéêÝò
ìïíÜäåò åêôüò áí êÜðïéá top-k dominating åããñáöÞ ëÞîåé êáôÜ ôç äéÜñêåéá áõôÞò
ôçò ðåñéüäïõ. ¢ñá ìðïñïýìå íá ðñïóäéïñßóïõìå ìßá áóöáëÞ ÷ñïíéêÞ ðåñßïäï
(safe time period) üðïõ ìßá åããñáöÞ äåí ìðïñåß íá åßíáé ìÝñïò ôïõ top-k, üðùò
áêïëïõèåß:
ÐÑÏÔÁÓÇ 8.1 (ÁóöáëÞò ÷ñïíéêÞ ðåñßïäïò). ÄåäïìÝíïõ ôïõ åëÜ÷éóôïõ ÷ñüíïõ
ëÞîçò ôùí top-k dominating åããñáöþí minExp êáé ôçò ôñÝ÷ïõóáò ÷ñïíéêÞò
óôéãìÞò ct, ìßá åããñáöÞ ti ìå âáèìïëïãßá ti :score äåí ìðïñåß íá åßíáé ìÝñïò
ôïõ top-k óå äéáäï÷éêÝò ÷ñïíéêÝò óôéãìÝò ëéãüôåñåò áðü:
min(d(kscore − ti :score)=2e; minExp − ct) (8.1)
äåýôåñï ìÝñïò ôçò ðñïçãïýìåíçò åîßóùóçò, áöïý minExp åßíáé ç ìéêñüôåñç ÷ñï-
íéêÞ óôéãìÞ ëÞîçò ìßáò top-k åããñáöÞò. Ãéá ôç äåýôåñç ðåñßðôùóç, õðïèÝôïõìå
ôçí ÷åéñüôåñç ðåñßðôùóç, üðïõ ç kscore åëáôôþíåôáé êáôÜ Ýíá, åíþ ç ti :score áõ-
îÜíåôáé êáôÜ Ýíá óå êÜèå åíçìÝñùóç (ç k-ïóôÞ top åããñáöÞ êõñéáñ÷åß ôç ëçãìÝíç
åããñáöÞ êáé äåí êõñéáñ÷åß ôç íÝá åããñáöÞ, åíþ ãéá ôçí ti éó÷ýåé ôï áíôßèåôï).
ÅðïìÝíùò, ç äéáöïñÜ ìåôáîý ôùí âáèìïëïãéþí ôïõò åëáôôþíåôáé ôï ðïëý êáôÜ
2 óå êÜèå åíçìÝñùóç. Ãé' áõôü, ãéá ôéò åðüìåíåò d(kscore − ti :score)=2e − 1
÷ñïíéêÝò ìïíÜäåò, ç ti :score åßíáé ìéêñüôåñç áðü ôçí k:score. Óõíïøßæïíôáò,
õðÜñ÷ïõí ìüíï äýï ðåñéðôþóåéò üðïõ ìßá åããñáöÞ ìðïñåß íá ãßíåé ìÝñïò ôïõ
top-k êáé áõôÝò ïé äýï ðåñéðôþóåéò êáëýðôïíôáé áðü ôçí Åîßóùóç 8.1. a
ÏíïìÜæïõìå áõôÞ ôç ÷ñïíéêÞ ðåñßïäï áäñáíÞ (idle period). ÊáôÜ ôçí áäñáíÞ
ðåñßïäï, ìßá åããñáöÞ ti áãíïåßôáé. Áí ç ôñÝ÷ïõóá ÷ñïíéêÞ óôéãìÞ åßíáé ct,
èá åîåôÜóïõìå îáíÜ ôçí ti ôç ÷ñïíéêÞ óôéãìÞ min(d(kscore − ti :score)=2e +
ct; minExp). Óå áõôÞ ôç ÷ñïíéêÞ óôéãìÞ, èåùñïýìå üôé Ý÷ïõìå Ýíá ãåãïíüò, ôï
ïðïßï óçìáßíåé üôé ðñÝðåé íá åîåôÜóïõìå ìßá åããñáöÞ ùò õðïøÞöéá ãéá ôï top-k
êáé íá õðïëïãßóïõìå ôç âáèìïëïãßá ôçò.
¸íá ãåãïíüò (event) êáèïñßæåé ôïí åëÜ÷éóôï ÷ñüíï ðïõ áðáéôåßôáé ãéá ìßá
åããñáöÞ ðñïêåéìÝíïõ íá åßíáé õðïøÞöéá ãéá åéóáãùãÞ óôï top-k. ÊÜèå ãåãïíüò
áðïôåëåßôáé áðü ôÝóóåñá ÷áñáêôçñéóôéêÜ:
1. ôï áíáãíùñéóôéêü ôçò åããñáöÞò ðïõ ðñïêáëåß ôï ãåãïíüò eventid ,
2. ôç ÷ñïíéêÞ óôéãìÞ ôïõ ãåãïíüôïò eventid :ept, äçëáäÞ ôïõ ÷ñüíïõ åîÝôáóçò
ôçò åããñáöÞò tid ùò õðïøÞöéá ãéá ôï top-k (eventid :ept = min(d(kscore −
tid :score)=2e + ct; minExp)),
3. ï ÷ñüíïò õðïëïãéóìïý áõôïý ôïõ ãåãïíüôïò eventid :egt êáé
4. ç âáèìïëïãßá ôçò åããñáöÞò eventid :score ôç ÷ñïíéêÞ óôéãìÞ eventid :egt.
ÃåíéêÜ, ï áêñéâÞò õðïëïãéóìüò ôçò âáèìïëïãßáò åßíáé ðïëý ÷ñïíïâüñá ëåé-
ôïõñãßá. Åßíáé öáíåñü üôé ç ðñïóÝããéóç ìå ãåãïíüôá èá åßíáé áðïäïôéêüôåñç
áðü ôçí áðëÞ ðñïóÝããéóç, áí ç áäñáíÞò ðåñßïäïò (äçëáäÞ ï ÷ñüíïò ìåôáîý ôïõ
event:egt êáé ôïõ event:ept) ãéá ìßá óõãêåêñéìÝíç åããñáöÞ, åßíáé áñêåôÜ ìåãÜëç
þóôå ï áñéèìüò ôùí óõãêñßóåùí ôçò áðëÞò ðñïóÝããéóçò óôçí áäñáíÞ ðåñßïäï íá
åßíáé ìåãáëýôåñïò áðü ôïí áêñéâÞ õðïëïãéóìü ôçò âáèìïëïãßáò. Ðéï óõãêåêñé-
ìÝíá, ç áäñáíÞò ðåñßïäïò ðñÝðåé íá åßíáé ôïõëÜ÷éóôïí W /2. Ãéá íá ôï áðïóá-
öçíßóïõìå, èá åîåôÜóïõìå Ýíá ðáñÜäåéãìá. ÕðïèÝóôå üôé ôï ìÞêïò êéíïýìåíïõ
ðáñáèýñïõ W åßíáé 1000. ¸íáò áêñéâÞò õðïëïãéóìüò ôçò âáèìïëïãßáò ìßáò
åããñáöÞò ti áðáéôåß 1000 óõãêñßóåéò. Óôçí áðëÞ ðñïóÝããéóç, ï áñéèìüò ôùí óõ-
ãêñßóåùí ãéá ôçí ti åßíáé 2 óå êÜèå åíçìÝñùóç, ìßá óýãêñéóç ãéá ôç íÝá åããñáöÞ
êáé ìßá óýãêñéóç ãéá ôç ëçãìÝíç åããñáöÞ. ÅðïìÝíùò, ôï ðëÞèïò ôùí óõãêñß-
óåùí ãéá ôç äéÜñêåéá ôçò áäñáíïýò ðåñéüäïõ åßíáé (eventi :ept − eventi :egt)·2. Ãé'
8.3. ÐÑÏÔÅÉÍÏÌÅÍÇ ÌÅÈÏÄÏÓ 171
áõôü, (eventi :epteventi :egt) · 2 ≥ W ⇒ (eventi :ept − eventi :egt) ≥ W=2. Óôç
óõíÝ÷åéá óõæçôïýìå ðùò ìðïñïýìå íá êÜíïõìå ðéï áðïäïôéêÞ ôçí ðñïóÝããéóç
ôùí ãåãïíüôùí.
¼ðùò Þäç ðåñéãñÜöçêå, ç ÷ñïíéêÞ óôéãìÞ event:ept õðïëïãßæåôáé èåùñþíôáò
ôç ÷åéñüôåñç ðåñßðôùóç. ÕðïèÝôïõìå üôé ç kscore åëáôôþíåôáé êáôÜ Ýíá óå êÜèå
åíçìÝñùóç, ðïõ óçìáßíåé üôé ç k-ïóôÞ åããñáöÞ ôïõ top-k êõñéáñ÷åß óå üëåò ôéò
ëçãìÝíåò åããñáöÝò áëëÜ óå êáìßá áðü ôéò íÝåò åããñáöÝò ðïõ Ýñ÷ïíôáé ìåôáîý
ôïõ ÷ñüíïõ event:egt êáé ôïõ ÷ñüíïõ event:ept. ¼ôáí óõìâåß Ýíá ãåãïíüò, ìðï-
ñïýìå íá õðïëïãßóïõìå êáé ðÜëé ôï ãåãïíüò áðïöåýãïíôáò ôïí õðïëïãéóìü ôçò
âáèìïëïãßáò ôçò åããñáöÞò, áñêåß íá óõíôçñïýìå åíçìåñùìÝíåò ôéò âáèìïëïãßåò
ôùí top-k dominating åããñáöþí. ÐñïóÝîôå üôé ôï êüóôïò íá åíçìåñþíïõìå
k âáèìïëïãßåò åßíáé ìéêñü áöïý ãåíéêÜ éó÷ýåé üôé k ¿ W . Ãéá íá õðïëïãß-
óïõìå îáíÜ ôï ÷ñüíï ôïõ ãåãïíüôïò, áðáéôåßôáé ç âáèìïëïãßá ôçò åããñáöÞò.
Äåí ãíùñßæïõìå ôç âáèìïëïãßá ôçò åããñáöÞò, áëëÜ ìðïñïýìå íá õðïëïãßóïõìå
Ýíá Üíù üñéï. Ç âáèìïëïãßá ôçò åããñáöÞò ti åßíáé ìéêñüôåñç áðü Þ ßóç ìå
eventi :score + eventi :ept − eventi :egt. ×ñçóéìïðïéïýìå áõôü ôï Üíù üñéï ùò ôç
âáèìïëïãßá ti :score óôçí Åîßóùóç 8.1.
Ãéá íá áðïóáöçíßóïõìå ôïí õðïëïãéóìü ôçò ÷ñïíéêÞò óôéãìÞò ôïõ ãåãïíüôïò,
äßíïõìå Ýíá ðáñÜäåéãìá. Ç Åéêüíá 8.3 äåß÷íåé Ýíá êéíïýìåíï ðáñÜèõñï ìÞêïõò
W =10 ìå åããñáöÝò ìßáò äéÜóôáóçò. Ôï ðëÞèïò ôùí åíåñãþí åããñáöþí åßíáé
ìåôáîý ôïõ 1 êáé 10. Ï ïñéæüíôéïò Üîïíáò áíáðáñéóôÜ ôï ÷ñüíï. Ç ôñÝ÷ïõóá
÷ñïíéêÞ óôéãìÞ ct åßíáé 10. Ãéá k=3, ïé top-3 dominating åããñáöÝò åßíáé t3 ; t8
êáé t10 , åíþ ïé áíôßóôïé÷åò âáèìïëïãßåò ôïõò åßíáé 8, 7 êáé 9. Ï åëÜ÷éóôïò
÷ñüíïò ëÞîçò ôùí top-k dominating åããñáöþí åßíáé minExp=3+10=13, åíþ ç
k-ïóôÞ âáèìïëïãßá åßíáé kscore=7. Áò õðïëïãßóïõìå ôá ãåãïíüôá ôùí t9 êáé t7 .
d
t9 t 12
10
t1
9
t6
8
t7
7
t2 t 11
6
t4
5
t5
4
t8
3
t3
2
t 10
1
1 2 3 4 5 6 7 8 9 10 11 12 time
d2
c13 c 14 c 15 c 16
4 t10 t t 12
11
c9 c10 c11 c12
3 t t8
7
t9
c5 c6 c7 c8
t6
2 t4 t5
c1 c2 c3 c4
1 t2 t1 t3
1 2 3 4 d1
1. update grid
2. update scores of top-k dominating tuples
3. event ev = findGoodT uple()
4. tnew :score = ev:score + ct − ev:egt
5. if tnew :score ≥ kscore then
6. compute tnew :score from scratch
7. if tnew :score ≥ kscore then insert tnew in top-k
8. if tnew ∈= top-k then computeEventT ime(new; tnew :score; ct)
9. event cevi = RemoveT opHeap()
10. while cevi :ept = ct
11. if top-k tuples ≤ k then
12. score = cevi :score + cevi :ept − cevi :egt
13. computeEventT ime(i; score; ct)
14. if cevi is not recomputed then
15. compute ti :score from scratch
16. if ti :score ≥ kscore then insert ti in top-k
17. else computeEventT ime(i; ti :score; ct)
18. event cevi = RemoveT opHeap()
æüìåíç óôçí áêñéâÞ âáèìïëïãßá êáé ü÷é óôï Üíù üñéï (ÃñáììÝò 14-17). Ç ÃñáììÞ
11 åëÝã÷åé ôç ëÞîç ìßáò top-k dominating åããñáöÞò. Áí ìßá top-k dominating
åããñáöÞ Ý÷åé ëÞîåé ôçí ôñÝ÷ïõóá ÷ñïíéêÞ óôéãìÞ ct, ç kscore äåí åíçìåñþíåôáé
êáé åðïìÝíùò äåí ðñÝðåé íá ðñïóðáèÞóïõìå íá õðïëïãßóïõìå ÷ñïíéêÝò óôéãìÝò
ãåãïíüôùí. Óôçí ðñáãìáôéêüôçôá, óå áõôÞ ôçí ðåñßðôùóç èÝôïõìå kscore ßóï
ìå -1, ðñïêåéìÝíïõ íá åîáíáãêÜóïõìå ôçí åéóáãùãÞ ïðïéáóäÞðïôå åããñáöÞò óôï
top-k. Õðïëïãßæåôáé ç áêñéâÞò âáèìïëïãßá ôçò åããñáöÞò ôïõ ðñþôïõ åîåôáæü-
ìåíïõ ãåãïíüôïò êáé ç åããñáöÞ åéóÜãåôáé óôï top-k. ÌåôÜ, ðñïóðáèïýìå íá
õðïëïãßóïõìå îáíÜ ôéò ÷ñïíéêÝò óôéãìÝò ôùí õðüëïéðùí ãåãïíüôùí.
8.4 ÂåëôéóôïðïéÞóåéò
Ç ðñïôåéíüìåíç ìÝèïäïò Ý÷åé äýï ìåéïíåêôÞìáôá. Ôï ðñþôï åßíáé üôé üëåò ïé
åããñáöÝò, ðïõ äåí åßíáé ìÝñïò ôïõ top-k, ðñÝðåé íá åîåôáóèïýí óôï ÷ñüíï ëÞîçò
ìßáò top-k dominating åããñáöÞò. ÅðéðëÝïí, ï õðïëïãéóìüò ÷ñïíéêþí óôéãìþí
ãåãïíüôùí äßíåé Ýíá ìåãÜëï áñéèìü ãåãïíüôùí êáé ìüíï Ýíá ìéêñü ðïóïóôü áõ-
ôþí èá ðñïêáëÝóåé êÜðïéá áëëáãÞ óôï top-k. Ôï äåýôåñï åßíáé üôé åßíáé ðéèáíü
êÜðïéåò åããñáöÝò íá Ý÷ïõí âáèìïëïãßá êïíôÜ óôçí kscore ïäçãþíôáò óå äéáäï-
÷éêïýò áêñéâåßò õðïëïãéóìïýò âáèìïëïãßáò. Óôéò åðüìåíåò åíüôçôåò óõæçôïýìå
äýï âåëôéóôïðïéÞóåéò ðñïêåéìÝíïõ íá îåðåñáóèïýí áõôÜ ôá äýï ìåéïíåêôÞìáôá.
ç t1 . ÁõîÜíïõìå êáôÜ Ýíá üëåò ôïõò ìåôñçôÝò ôùí êåëéþí ðïõ êõñéáñ÷ïýíôáé
ðëÞñùò áðü ôï êåëß ôçò t5 . ÁõôÜ åßíáé ôá êåëéÜ ìå ôéò äéáãþíéåò ãñáììÝò óôçí
Åéêüíá 8.6. Ôï êüóôïò áõôÞò ôçò äéáäéêáóßáò åßíáé åëÜ÷éóôï. ÅðéðëÝïí, èÝôïõìå
ôï ìåôñçôÞ ôçò íÝáò åããñáöÞò ßóï ìå ôï ìåôñçôÞ ôïõ êåëéïý ðïõ áíÞêåé áõôÞ
ç åããñáöÞ. Óå áõôü ôï ðáñÜäåéãìá t5 :counter = c6 :counter. Ãéá áõôÞ ôçí
åíçìÝñùóç, åíçìåñþèçêáí ïé ìåôñçôÝò ôùí êåëéþí êáé áñ÷éêïðïéÞèçêå ï ìåôñçôÞò
ôçò íÝáò åããñáöÞò.
d2
c13 c14 c15 c16
p 4
o
s c9 c10 c11 c12
t3
i 3 t2
t c5 c6 c7 c8
i 2 t5
o
n c1 t c2 c3 c4
4
s 1 t
1
1 2 3 4 d1
êõñéáñ÷ïýìåíá êåëéÜ, áëëÜ åðåéäÞ äåí óõìâáßíïõí óõ÷íÜ áëëáãÝò óôï top-k ôï
óõíïëéêü êüóôïò åßíáé ÷áìçëü.
¼ðùò ðåñéãñÜöçêå ðñïçãïõìÝíùò, ðñïóðáèïýìå íá åíçìåñþóïõìå ôï êÜôù
üñéï ôçò n ãéá ôçí åããñáöÞ t ÷ñçóéìïðïéþíôáò ìüíï ôéò åããñáöÝò ðïõ áíÞêïõí óå
êåëéÜ ðïõ êõñéáñ÷ïýíôáé ðëÞñùò áðü ôï êåëß ôçò t ðñïêåéìÝíïõ íá åëá÷éóôïðïéÞ-
óïõìå ôçí åðéâÜñõíóç ôçò ìåèüäïõ. Ìðïñïýìå íá õðïëïãßóïõìå Ýíá êáëýôåñï
êÜôù üñéï ôçò n áí ëÜâïõìå õðüøç êáé ôéò åããñáöÝò ðïõ êõñéáñ÷ïýíôáé ìåñéêþò
áðü ôï êåëß ôçò t. Óôçí ðåñßðôùóç üðïõ åßíáé áðáñáßôçôïò ï áêñéâÞò õðïëïãéóìüò
âáèìïëïãßáò ãéá ìßá åããñáöÞ ti , åëáôôþíïõìå êáôÜ Ýíá ôïõò ìåôñçôÝò üëùí ôùí
åããñáöþí ãéá ôéò ïðïßåò éó÷ýïõí ôá åîÞò: (á) áíÞêïõí óå êåëß ðïõ êõñéáñ÷åßôáé
ìåñéêþò áðü ôï êåëß ôçò ti , (â) ç ti ôéò êõñéáñ÷åß, êáé (ã) ç ti ëÞãåé ìåôÜ áðü
áõôÝò. Óôï ðáñÜäåéãìá ìáò, õðïèÝôïõìå üôé äåí ìðïñïýìå íá åêôéìÞóïõìå ôç
âáèìïëïãßá ôçò íÝáò åããñáöÞò t5 êáé åðïìÝíùò ðñáãìáôïðïéïýìå Ýíáí áêñéâÞ
õðïëïãéóìü ôçò âáèìïëïãßáò. Åëáôôþíïõìå ôï t3 :counter êáôÜ Ýíá, åðåéäÞ ç
t3 áíÞêåé óôï êåëß c10 ðïõ êõñéáñ÷åßôáé ìåñéêþò áðü ôï c6 ; çt5 êõñéáñ÷åß ôçí t3
êáé ç t5 ëÞãåé ìåôÜ ôçí t3 . ÅðïìÝíùò ç ôéìÞ ôçò n ãéá ôçí t3 åßíáé 1 (ëüãù ôçò
t5 ). ÐñïóÝîôå üôé áõôÞ ç äéáäéêáóßá äåí åðéâáñýíåé åðéðñüóèåôá ôç ìÝèïäï, äéüôé
åöáñìüæåôáé ðáñÜëëçëá ìå ôïõò áêñéâåßò õðïëïãéóìïýò âáèìïëïãßáò.
ÊÜèå êåëß ðñïóðåëáýíåôáé óå O(1). Ôï ðëÞèïò ôùí åããñáöþí áíÜ êåëß åßíáé
W ëüãù ôçò ïìïéüìïñöçò êáôáíïìÞò. ÅðïìÝíùò, ãéá Ýíáí
ncD ³¡ áêñéâÞ
¢
õðïëïãéóìü´
¡ −1 ¢D
W nc+1 D
âáèìïëïãßáò åããñáöÞò, åëÝã÷ïõìå êáôÜ ìÝóï üñï 2D · nc − ncnc
åããñáöÝò.
Åßíáé öáíåñü, üôé ôï êüóôïò ôïõ áêñéâÞ õðïëïãéóìïý âáèìïëïãßáò åßíáé áðá-
ãïñåõôéêü, äéüôé ç ðïëõðëïêüôçôá ôçò áðëÞò ðñïóÝããéóçò åßíáé O(W ). Ùóôüóï,
ç ðñïôåéíüìåíç ìÝèïäïò ðåñéïñßæåé êáôÜ ðïëý ôï ðëÞèïò ôùí áêñéâþí õðïëïãé-
óìþí âáèìïëïãßáò. Ãé' áõôü, åßíáé åíäéáöÝñïí íá ìåëåôÞóïõìå ôçí ðéèáíüôçôá
íá ðñïêëçèåß Ýíáò áêñéâÞò õðïëïãéóìüò âáèìïëïãßáò óå êÜèå åíçìÝñùóç.
ÕðÜñ÷ïõí äýï ðåñéðôþóåéò, üðïõ åöáñìüæåôáé áêñéâÞò õðïëïãéóìüò âáèìïëï-
ãßáò. Ç ðñþôç åßíáé êáôÜ ôçí åéóáãùãÞ ìßáò íÝáò åããñáöÞò. Ï áêñéâÞò õðïëï-
ãéóìüò âáèìïëïãßáò ðñïêáëåßôáé, áí ç íÝá åããñáöÞ äåí êõñéáñ÷åßôáé áðü êáìßá
Üëëç åããñáöÞ ðïõ Ý÷åé ãåãïíüò. ¢ñá, ï áêñéâÞò õðïëïãéóìüò âáèìïëïãßáò åöáñ-
ìüæåôáé êáôÜ ôçí åéóáãùãÞ ìßáò íÝáò åããñáöÞò, áí ç íÝá åããñáöÞ åßíáé ìÝñïò
ôïõ skyline üëùí ôùí åããñáöþí åêôüò ôùí top-k dominating åããñáöþí êáé ôùí
õðïøÞöéùí åããñáöþí. Óýìöùíá ìå ôçí åñãáóßá [125], ï áñéèìüò ôùí skyline
8.5. ÁÍÁËÕÓÇ ÁÐÏÄÏÓÇÓ 181
üðïõ dci åßíáé ôï ðëÞèïò ôéìþí (value cardinality) ôçò äéÜóôáóçò i. Ç ðéèáíüôçôá
Psky ìßá íÝá åããñáöÞ íá åßíáé skyline åããñáöÞ åßíáé:
sky
Psky = (8.6)
W − k − #candidates
Ç äåýôåñç ðåñßðôùóç, üðïõ åßíáé ðéèáíüò Ýíáò áêñéâÞò õðïëïãéóìüò âáèìï-
ëïãßáò, åßíáé êáôÜ ôç äéÜñêåéá åîÝôáóçò ôïõ ãåãïíüôïò ìßáò åããñáöÞò. Ðñïêåé-
ìÝíïõ íá åßíáé áðáñáßôçôïò Ýíáò áêñéâÞò õðïëïãéóìüò âáèìïëïãßáò, ç k-ïóôÞ
âáèìïëïãßá ôïõ top-k ðñÝðåé íá ìçí åëáôôþíåôáé óå êÜèå åíçìÝñùóç êáôÜ ôç
äéÜñêåéá ôçò áäñáíïýò ðåñéüäïõ ôçò åããñáöÞò. ÌåôÜ áðü ìáèçìáôéêÝò ðñÜîåéò,
ìðïñïýìå íá êáôáëÞîïõìå üôé ç ðéèáíüôçôá Pk ç k-ïóôÞ âáèìïëïãßá íá åëáôôùèåß
óå êÜðïéá åíçìÝñùóç êáôÜ ôç äéÜñêåéá ôçò áäñáíÞò ðåñéüäïõ åßíáé ôï ðïëý:
à µ ¶D !ev:ept−ev:egt
1
Pk = 1− 1− (8.7)
nc
Åöüóïí ç äéáöïñÜ ev:ept −¡ ev:egt¢åßíáé áñêåôÜ ìåãÜëç, ç ðéèáíüôçôá ôåßíåé
óôï 0, ðáñÜ ôï ãåãïíüò üôé 1− 1 − nc1 D ôåßíåé óôï 1 ãéá ìåãÜëï D êáé ìéêñü nc.
Ãéá ðáñÜäåéãìá, õðïèÝóôå üôé W =1000000, D=7 êáé nc=4. ÅðéðëÝïí, õðïèÝóôå
üôé ç áäñáíÞò ðåñßïäï åßíáé ev:ept − ev:egt = 20, ôï ïðïßï åßíáé ìÜëëïí áðáé-
óéüäïîç õðüèåóç, áöïý W =1000000. Èõìçèåßôå üôé ç äéáöïñÜ ev:ept − ev:egt
ìðïñåß
³
íá êõìáßíåôáé áðü 1 ìÝ÷ñé W . Ç Åîßóùóç 8.7 äßíåé ôçí ðéèáíüôçôá:
¡ ¢ ´20
1 7
1− 1− 4 = 0:86720 = 0:058.
ÅðéðëÝïí, ç ðéèáíüôçôá íá åöáñìïóèåß Ýíáò áêñéâÞò õðïëïãéóìüò âáèìïëï-
ãßáò, åëáôôþíåôáé áêüìá ðåñéóóüôåñï áí êáôÜ ôç äéÜñêåéá õðïëïãéóìïý ôïõ ãå-
ãïíüôïò ìßáò åããñáöÞò õðÜñ÷åé Ýíá ðëÞèïò åããñáöþí n ðïõ ôçí êõñéáñ÷ïýí êáé
ëÞãïõí ìåôÜ áðü áõôÞ. ¼ôáí åîåôÜóïõìå ôï ãåãïíüò áõôÞò ôçò åããñáöÞò, åöáñ-
ìüæïõìå áêñéâÞ õðïëïãéóìü âáèìïëïãßáò áí üëåò ïé n åããñáöÝò åßíáé ìÝñïò ôïõ
top-k áõôÞ ôç ÷ñïíéêÞ óôéãìÞ. Ç ðéèáíüôçôá ìßáò åããñáöÞ íá ãßíåé ìÝñïò ôïõ
top-k êáôÜ ôç äéÜñêåéá ìßáò åíçìÝñùóçò åßíáé W ·³1− 1− k
D ´ . ¢ñá ìåôÜ áðü
( nc )
1
(ev:ept
³ −ev:egt)·k´
ev:ept − ev:egt åíçìåñþóåéò, ç ðéèáíüôçôá åßíáé ôï ðïëý . Ç ðé- D
W· 1−(1− nc
1
)
èáíüôçôá Pnk üëåò ïé n åããñáöÝò íá ãßíïõí ìÝñïò ôïõ top-k êáôÜ ôç äéÜñêåéá
ôçò áäñáíÞò ðåñéüäïõ åßíáé:
n
(ev:ept − ev:egt ) · k
Pnk = ³ ¡ ¢ ´ (8.8)
1 D
W · 1 − 1 − nc
182 ÊÅÖÁËÁÉÏ 8. ÓÕÍÅ×ÇÓ ÅÐÅÎÅÑÃÁÓÉÁ TOP-K DOMINATING ÅÑÙÔÇÌÁÔÙÍ
³ ÁõôÞ ç ðéèáíüôçôá åßíáé ó÷åôéêÜ ìéêñÞ, áöïý üðùò Þäç Ý÷ïõìå áíáöÝñåé,
¡ 1 D
¢ ´
1 − 1 − nc ôåßíåé óôï 1 ãéá ìåãÜëï D êáé ìéêñü nc.
Óõíïøßæïíôáò, óýìöùíá ìå ôéò Åîéóþóåéò 8.6, 8.7 êáé 8.8, ç ðñïôåéíüìåíç
ìÝèïäïò ìå ôéò âåëôéóôïðïéÞóåéò åëáôôþíåé äñáóôéêÜ ôï ðëÞèïò ôùí áêñéâþí õðï-
ëïãéóìþí âáèìïëïãßáò êáé åðïìÝíùò åðéôõã÷Üíåé êáëýôåñïõò ÷ñüíïõò áðüêñéóçò
áðü áõôïýò ôçò áðëÞò ðñïóÝããéóçò. Óôçí Åíüôçôá 8.7, èá äïýìå êÜðïéá áíôéðñï-
óùðåõôéêÜ ðåéñÜìáôá ðïõ åðéâåâáéþíïõí ôá óõìðåñÜóìáôá áõôÞò ôçò åíüôçôáò.
d2
c13 c14 c15 c16
p 4 t12
t10 t
o 11
Ùóôüóï, äåí åßíáé áðïäïôéêü íá äéáôçñïýìå äåßãìá ãéá êÜèå êåëß ãéá äýï âá-
óéêïýò ëüãïõò: (á) Ýíá êåëß ìðïñåß íá ìçí Ý÷åé åðáñêÞ ðëÞèïò åããñáöþí, êáé (â)
ï åîåëéãìÝíïò õðïëïãéóìüò ÷ñïíéêÞò óôéãìÞò ãåãïíüôïò ìðïñåß íá åßíáé áñêåôüò
ãéá íá áðïññßøåé êÜðïéåò åããñáöÝò êáé åðïìÝíùò äåí ÷ñåéÜæåôáé êáëýôåñç åêôß-
ìçóç ãé' áõôÝò ôéò åããñáöÝò. ÓõãêåêñéìÝíá, êñáôïýìå äåßãìáôá ãéá Ýíá ìéêñü
ìüíï ðëÞèïò êåëéþí. Êáèïñßæïõìå áõôÜ ôá êåëéÜ ÷ñçóéìïðïéþíôáò ôç ìÝãéóôç
âáèìïëïãßá ìßáò åããñáöÞò ðïõ âñßóêåôáé óå Ýíá êåëß üðùò ðåñéãñÜöçêå ðñïç-
ãïõìÝíùò. ×ñçóéìïðïéïýìå îáíÜ ôçí ðáñÜìåôñï nev, ðïõ êáèïñßæåé ôï êïíôéíü
ãåãïíüò. Áí ç ìÝãéóôç âáèìïëïãßá ôïõ êåëéïý maxscore åßíáé ðåñéóóüôåñï áðü
184 ÊÅÖÁËÁÉÏ 8. ÓÕÍÅ×ÇÓ ÅÐÅÎÅÑÃÁÓÉÁ TOP-K DOMINATING ÅÑÙÔÇÌÁÔÙÍ
kscore − nev, ôüôå êñáôïýìå äåßãìá ãé' áõôü ôï êåëß. ÅëÝã÷ïõìå ðåñéïäéêÜ áõôÞ
ôç óõíèÞêç ãéá üëá ôá êåëéÜ, ðñïêåéìÝíïõ íá áðïöáóßóïõìå áí èá êñáôïýìå Þ
ü÷é äåßãìáôá ãéá ôá êåëéÜ.
¸íá Üëëï æÞôçìá ðïõ ðñÝðåé íá åîåôáóèåß åßíáé ç åðéëïãÞ ôïõ äåßãìáôïò.
¸÷ïõí ðñïôáèåß äéÜöïñåò ìÝèïäïé ôõ÷áßáò äåéãìáôïëçøßáò. Ï áëãüñéèìïò reservoir-
sampling [158] ðñïôÜèçêå ãéá ôç óõíôÞñçóç åíüò ôõ÷áßá äåßãìáôïò óå ðñáãìá-
ôéêü ÷ñüíï. Äõóôõ÷þò, áõôüò ï áëãüñéèìïò äåí åßíáé êáôÜëëçëïò ãéá ôï ìïíôÝëï
ôïõ êéíïýìåíïõ ðáñáèýñïõ, äéüôé äåí ìðïñåß íá ÷åéñéóèåß ôç äéáãñáöÞ Þ ôç ëÞîç
åããñáöþí. Óôéò åñãáóßåò [17, 181], ïé óõããñáöåßò ðñüôåéíáí áëãïñßèìïõò ãéá ôõ-
÷áßá äåéãìáôïëçøßá ìå ãñÞãïñç áõîçôéêÞ óõíôÞñçóç, êáôÜëëçëç ãéá êéíïýìåíá
ðáñÜèõñá. Óå áõôü ôï êåöÜëáéï, ÷ñçóéìïðïéÞóáìå ôïí áëãüñéèìï ðïõ ðñïôÜèçêå
óôçí åñãáóßá [181]. ÐñïóÝîôå üôé, ïðïéïóäÞðïôå êáôÜëëçëïò áëãüñéèìïò ìðïñåß
íá ÷ñçóéìïðïéçèåß óôçí ðñïôåéíüìåíç ìÝèïäï.
Ç äéáäéêáóßá ðñïóÝããéóçò ìðïñåß íá åöáñìïóèåß åßôå óôï âáóéêü Þ óôï âåëôé-
óôïðïéçìÝíï áëãüñéèìï. ÌåôÜ ôçí åêôßìçóç ôçò âáèìïëïãßáò ìßáò åããñáöÞò ðïõ
áíÞêåé óôï êåëß ci , áí õðÜñ÷åé äåßãìá ãéá ôï ci , õðïëïãßæïõìå ìßá Üëëç åêôßìçóç
ôçò âáèìïëïãßáò ÷ñçóéìïðïéþíôáò ôïí ðñïóåããéóôéêü áëãüñéèìï. Ìåôáîý áõôþí
ôùí åêôéìÞóåùí åðéëÝãïõìå ôç ìéêñüôåñç. Óôá ðåéñÜìáôá ìáò, ÷ñçóéìïðïéÞóáìå
ôç äéáäéêáóßá ðñïóÝããéóçò ìå ôï âåëôéóôïðïéçìÝíï áëãüñéèìï. ÐñïóÝîôå üôé ç
äéáäéêáóßá ðñïóÝããéóçò áöïñÜ óôçí åêôßìçóç ôçò âáèìïëïãßáò. Áí ç åêôßìçóç
ôçò âáèìïëïãßáò ìßáò åããñáöÞò åßíáé ìåãáëýôåñç áðü ôçí ðñáãìáôéêÞ âáèìïëï-
ãßá, ï áëãüñéèìïò èá õðïëïãßóåé ìåãáëýôåñç áäñáíÞ ðåñßïäï. Ùóôüóï, ï ðñïóåã-
ãéóôéêüò áëãüñéèìïò èá ÷Üóåé ìßá top-k dominating åããñáöÞ ìüíï áí ç óõãêå-
êñéìÝíç åããñáöÞ ãßíåé ìÝñïò ôïõ top-k êáôÜ ôç äéÜñêåéá ôçò áäñáíïýò ðåñéüäïõ.
Ï ðñïóåããéóôéêüò áëãüñéèìïò åëáôôþíåé ðåñáéôÝñù ôïõò áêñéâåßò õðïëïãéóìïýò
âáèìïëïãßáò. ¼ìùò, ôï ðëÞèïò ôùí áêñéâþí õðïëïãéóìþí èåñìïêñáóßáò ðñÝðåé
íá åëáôôþíåôáé áñêåôÜ ðñïêåéìÝíïõ íá õðåñêáëýðôåôáé ôï êüóôïò ãéá ôç óõíå÷Þ
åíçìÝñùóç ôçò âáèìïëïãßáò êÜèå åããñáöÞò êÜèå äåßãìáôïò.
10000
naive 10000 naive
Domination Checks (M)
event event
1000 opt opt
1000
Time (sec)
100
100
10
1 10
0.1 1
1 2 3 4 5 1 2 3 4 5
Window Size Window Size
(á) (â)
EIKONA 8.8. (á) Êüóôïò CPU, êáé (â) Ýëåã÷ïé êõñéáñ÷ßáò ùò ðñïò ìÝãåèïò ðáñáèýñïõ (IND).
1000
naive naive
10 100
1 10
1 2 3 4 5 1 2 3 4 5
Window Size Window Size
(á) (â)
EIKONA 8.9. (á) Êüóôïò CPU, êáé (â) Ýëåã÷ïé êõñéáñ÷ßáò ùò ðñïò ìÝãåèïò ðáñáèýñïõ (ANTI).
ÅðéðëÝïí, ç ìÝèïäïò Opt õðåñíéêÜ ôçí Event ôüóï óôï êüóôïò CPU üóï
êáé óôïõò åëÝã÷ïõò êõñéáñ÷ßáò, äéüôé óôçí Opt, ðñïêáëïýíôáé ìéêñüôåñï ðëÞèïò
ãåãïíüôùí êáé ìéêñüôåñï ðëÞèïò áêñéâþí õðïëïãéóìþí âáèìïëïãßáò. ¼ðùò
áíáìåíüôáí, ç äéáöïñÜ ôùí äýï ìåèüäùí åßíáé ìåãáëýôåñç óôï óýíïëï äåäïìÝíùí
ANTI, åðåéäÞ ïé âáèìïëïãßåò ôùí åããñáöþí äåí êõìáßíïíôáé óçìáíôéêÜ ëüãù
ôçò êáôáíïìÞò. Ç Opt îåðåñíÜ áõôü ôï ðñüâëçìá õðïëïãßæïíôáò ìåãáëýôåñåò
÷ñïíéêÝò óôéãìÝò ãåãïíüôùí ëüãù ôïõ åîåëéãìÝíïõ õðïëïãéóìïý ãåãïíüôùí êáé
êõñßùò ÷ñçóéìïðïéþíôáò õðïøÞöéåò åããñáöÝò.
ÌåôÜ, ìåëåôïýìå ôçí áðüäïóç ôùí ðñïôåéíüìåíùí ìåèüäùí óå ó÷Ýóç ìå ôï
ðëÞèïò ôùí äéáóôÜóåùí. Ç Åéêüíá 8.10 äåß÷íåé ôï ÷ñüíï áðüêñéóçò ãéá üëá
ôá óýíïëá äåäïìÝíùí, åíþ ç Åéêüíá 8.11 ðáñïõóéÜæåé ôï ðëÞèïò ôùí åëÝã÷ùí
êõñéáñ÷ßáò. Ãéá ôá äýï óõíèåôéêÜ óýíïëá äåäïìÝíùí, ôï ìÝãåèïò ðáñáèýñïõ
åßíáé 2 åêáôïììýñéá êáé ãéá ôï óýíïëï äåäïìÝíùí FC ôï ìÝãåèïò ðáñáèýñïõ
ôÝèçêå ßóï ìå 500,000. Ç Opt åßíáé êáëýôåñç áðü ôçí Event ãéá ôïõò ßäéïõò
ëüãïõò ðïõ áíáöÝñáìå ðñïçãïõìÝíùò. Êáèþò áõîÜíåé ôï ðëÞèïò ôùí äéáóôÜ-
óåùí, ïé âáèìïëïãßåò ôùí åããñáöþí ìåéþíïíôáé áöïý ç ðéèáíüôçôá ìßá åããñáöÞ
íá êõñéáñ÷åß óå ìßá Üëëç åëáôôþíåôáé óçìáíôéêÜ. ÅðïìÝíùò, ç Event õðïëï-
25 25 25
event event event
opt opt opt
20 20 20
Time (sec)
Time (sec)
Time (sec)
15 15 15
10 10 10
5 5 5
0 0 0
2 3 4 5 6 7 2 3 4 5 6 7 2 3 4 5 6 7
Number of Dimensions Number of Dimensions Number of Dimensions
ãßæåé ìéêñüôåñåò ÷ñïíéêÝò óôéãìÝò ãåãïíüôùí, ðïõ óçìáßíåé üôé ôï ðëÞèïò ôùí
ãåãïíüôùí áõîÜíåôáé, êáé ðñïêáëïýíôáé ðåñéóóüôåñïé áêñéâåßò õðïëïãéóìïß âáè-
ìïëïãßáò. ÅðéðëÝïí, ç äéáöïñÜ ìåôáîý ôùí äýï ìåèüäùí åßíáé ìåãáëýôåñç óôï
óýíïëï äåäïìÝíùí FC. Áõôü óõìâáßíåé ãéáôß õðÜñ÷ïõí óõ÷íüôåñåò áëëáãÝò óôéò
top-k dominating åããñáöÝò. Èõìçèåßôå üôé óôçí ðåñßðôùóç ëÞîçò ìßáò top-k
åããñáöÞò óôçí ðñïóÝããéóç Event, üëåò ïé åããñáöÝò Ý÷ïõí Ýíá óõó÷åôéæüìåíï
ãåãïíüò áõôÞ ôç ÷ñïíéêÞ óôéãìÞ. Ôï ðëÞèïò ôùí åëÝã÷ùí êõñéáñ÷ßáò, ðïõ ðñïêá-
ëïýíôáé (Åéêüíá 8.11), åðéâåâáéþíïõí áõôÞ ôçí ðáñáôÞñçóç. Éó÷õñéæüìáóôå üôé
åßíáé Üóêïðç ç åöáñìïãÞ åíüò top-k dominating åñùôÞìáôïò óå ðïëý õøçëü ðëÞ-
èïò äéáóôÜóåùí êáé ìåãÜëï k, äéüôé ç äýíáìç êõñéáñ÷ßáò åëáôôþíåôáé äñáóôéêÜ
êáé ç ðëåéïíüôçôá ôùí åããñáöþí Ý÷ïõí ðïëý ìéêñÞ âáèìïëïãßá. Ãéá ðáñÜäåéãìá,
óå Ýíá óýíïëï äåäïìÝíùí 2 åêáôïììýñéá åããñáöþí áíôé-óõó÷åôéæüìåíçò êáôá-
íïìÞò ìå 8 äéáóôÜóåéò, ôï 99% ôùí åããñáöþí Ý÷ïõí âáèìïëïãßåò ìåôáîý 0 êáé
1000.
120 120 200
event event event
Domination Checks (M)
60 60 100
40 40
50
20 20
0 0 0
2 3 4 5 6 7 2 3 4 5 6 7 2 3 4 5 6 7
Number of Dimensions Number of Dimensions Number of Dimensions
äåßãìáôïò. Óôï óýíïëï äåäïìÝíùí FC, ç Appr åßíáé åëáöñþò êáëýôåñç áðü ôçí
Opt. Ìßá ðïéïôéêÞ óýãêñéóç ìåôáîý ôùí äýï ìåèüäùí äåß÷íåé üôé ç Appr åëáôôþ-
íåé áñêåôÜ ôï ðëÞèïò ôùí áêñéâþí õðïëïãéóìþí âáèìïëïãßáò. Ãéá ðáñÜäåéãìá,
ãéá k=256, ç ìÝèïäïò Opt ðáñÜãåé 14.4 áêñéâåßò õðïëïãéóìïýò âáèìïëïãßáò áíÜ
1000 åíçìåñþóåéò êáé ç Appr ðáñÜãåé 5.0. Ç äéáöïñÜ åßíáé áêüìá ìåãáëýôåñç
ãéá õøçëüôåñåò ôéìÝò ôçò ðáñáìÝôñïõ k. Èõìçèåßôå üôé ôï FC Ý÷åé ìÝãåèïò ðáñá-
èýñïõ ßóï ìå 500,000 åããñáöÝò. ¢ñá, ï áêñéâÞò õðïëïãéóìüò âáèìïëïãßáò äåí
åßíáé áñêåôÜ ÷ñïíïâüñïò êáé ãé' áõôü ôï êüóôïò ôçò óõíôÞñçóçò äåéãìÜôùí îå-
ðåñíÜ ôï êÝñäïò áðü ôïí ðñïóåããéóôéêü áëãüñéèìï. Óõíïøßæïíôáò, ç Appr åßíáé
êáëýôåñç ôçò Opt ãéá ìåãÜëåò ôéìÝò ôçò ðáñáìÝôñïõ k êáé ãéá ìåãÜëá ìåãÝèç
ðáñáèýñïõ.
100 1000
event event event
opt opt opt
appr appr 100 appr
10 100
Time (sec)
Time (sec)
Time (sec)
10
1 10
1
0.1 1 0.1
64 256 512 768 64 256 512 768 64 256 512 768
k k k
áõôü ïé Ýëåã÷ïé êõñéáñ÷ßáò óôçí Appr åßíáé õøçëüôåñç áðü áõôïýò ôçò Opt ãéá
k = 16.
Åðßóçò ìåôñÞóáìå ôï ðëÞèïò ôùí åããñáöþí ðïõ åíçìåñþíïíôáé óõíå÷þò ðÝñá
áðü ôéò top-k åããñáöÝò ãéá ôéò ìåèüäïõò Opt êáé Appr. Èõìçèåßôå üôé, ç Event
åíçìåñþíåé óõíå÷þò ìüíï ôéò top-k åããñáöÝò, åíþ ç Opt ÷ñçóéìïðïéåß õðïøÞöéåò
åããñáöÝò êáé ç Appr ÷ñçóéìïðïéåß êáé õðïøÞöéåò åããñáöÝò êáé äåßãìáôá. Ï Ðß-
íáêáò 8.3 äåß÷íåé ôá áðïôåëÝóìáôá ìüíï ãéá ôï óýíïëï äåäïìÝíùí ANTI, äéüôé
ç áíôß-óõó÷åôéæüìåíç êáôáíïìÞ äßíåé ðåñéóóüôåñåò õðïøÞöéåò åããñáöÝò êáé åã-
Opt Appr
ìÝãéóôï # ìÝãéóôï # ìÝãéóôï #
k õðïøÞöéùí õðïøÞöéùí äåßãìáôïò
16 5 2 575
64 45 23 575
256 65 33 575
512 265 40 1035
768 314 59 1265
ãñáöÝò äåéãìÜôùí áðü üôé ïé Üëëåò êáôáíïìÝò. ÐñïóÝîôå üôé, äßíåôáé ôï ìÝãéóôï
ðëÞèïò åããñáöþí ìåôáîý üëùí ôùí åíçìåñþóåùí. Óôá ðåéñÜìáôÜ ìáò, èÝóáìå
ôï ìÝãéóôï åðéôñåðüìåíï ðëÞèïò ôùí õðïøÞöéùí åããñáöþí ßóï ìå W /100, áëëÜ
üðùò ìðïñïýìå íá äïýìå, ôï ðëÞèïò ôùí õðïøÞöéùí äåí ðëçóéÜæåé êïíôÜ óå áõôü
ôï êáôþöëé. Ôï ìÝãåèïò ðáñáèýñïõ åßíáé 2 åêáôïììýñéá êáé Üñá ôï êüóôïò
ôçò óõíå÷Þò åíçìÝñùóçò åíüò ìéêñïý ðëÞèïõò åããñáöþí åßíáé áóÞìáíôï. ¼ðùò
áíáìåíüôáí, ç Appr Ý÷åé ìéêñüôåñï ðëÞèïò õðïøçößùí, åðåéäÞ ìðïñåß íá åðéôý÷åé
êáëýôåñç åêôßìçóç ÷ñïíéêÞò óôéãìÞò ãåãïíüôïò ëüãù ôçò äåéãìáôïëçøßáò.
Ãéá ôï ßäéï ðåßñáìá, ìåôñÞóáìå åðßóçò ôçí áêñßâåéá (precision) ôçò ðñïóåããé-
óôéêÞò ìåèüäïõ. Ôá áðïôåëÝóìáôá ðáñïõóéÜæïíôáé óôïí Ðßíáêá 8.4. ÌåôñÞóáìå
ôï ðëÞèïò ôùí top-k dominating åããñáöþí ôçò ðñïóåããéóôéêÞò ìåèüäïõ, ôá ïðïßá
åßíáé ìÝñïò ôïõ ðñáãìáôéêïý top-k. Ç áêñßâåéá õðïëïãßæåôáé ùò ôï êëÜóìá ôïõ
áñéèìïý áõôïý ðñïò ôïí áñéèìü ôùí ðñáãìáôéêþí top-k åããñáöþí. Ç áêñßâåéá
ãéá ôï óýíïëï äåäïìÝíùí FC åßíáé ìéêñüôåñç, åðåéäÞ åßíáé ðéï óõ÷íÝò ïé áëëáãÝò
óôï top-k áðü üôé óôá Üëëá óýíïëá äåäïìÝíùí. ÐñïóÝîôå üôé ç ðñïóåããéóôéêÞ
ìÝèïäïò ìðïñåß íá åíôïðßóåé ìßá áëëáãÞ óôï top-k ìåôÜ áðü êÜðïéåò åíçìåñþóåéò,
üôáí ôï åîåôáóèåß ôï ãåãïíüò ôçò åããñáöÞò, ðïõ åßíáé ìÝñïò ôïõ ðñáãìáôéêïý
top-k. ÅðéðëÝïí, ç Appr ÷Üíåé ôç ÷áìçëüôåñç óôç óåéñÜ top-k åããñáöÞ ðñþôá
(ð.÷., ïé åããñáöÝò ìå ôéò ÷áìçëüôåñåò âáèìïëïãßåò).
k IND ANTI FC
16 100 100 81.7
64 100 100 86.9
256 99.9 99.9 92.8
512 99.8 99.8 94.2
768 99.8 99.7 95.6
30 0.75
event event
25 opt opt
appr appr
#events (M)
20 0.5
Time (sec)
15
10 0.25
0
10 25 50 100 10 25 50 100
% of events % of events
(á) (â)
EIKONA 8.13: (á) Êüóôïò CPU, êáé (â) ðëÞèïò ãåãïíüôùí ùò ðñïò ðïóïóôü ëçãìÝíùí ãåãïíüôùí ðïõ
÷ñçóéìïðïéïýíôáé (FC).
ôï ðëÞèïò ôùí ëçãìÝíùí ãåãïíüôùí åðçñåÜæåôáé áðü ôçí éêáíüôçôá ôçò ìåèüäïõ
íá õðïëïãßæåé ìåãÜëåò áäñáíåßò ðåñéüäïõò. Ç Åéêüíá 8.13(á) äåß÷íåé ôï ÷ñüíï
áðüêñéóçò óå ó÷Ýóç ìå ôï ðïóïóôü ôùí ëçãìÝíùí ãåãïíüôùí ðïõ êÜèå ìÝèïäïò
áðïèçêåýåé. ¼ðùò ìðïñïýìå íá äïýìå, ï ÷ñüíïò áðüêñéóçò üëùí ôùí ìåèüäùí
åßíáé ó÷åäüí áíåðçñÝáóôïò êñáôþíôáò ìüíï Ýíá 10% ôùí ëçãìÝíùí ãåãïíüôùí.
Ç Åéêüíá 8.13(â) äåß÷íåé ôï ðëÞèïò ôùí ãåãïíüôùí óôï óùñü. Óôçí ðåñßðôùóç
ôïõ 100%, üëá ôá ëçãìÝíá ãåãïíüôá áðïèçêåýïíôáé, ãé' áõôü ôï ðëÞèïò ôùí ãå-
ãïíüôùí åßíáé ó÷åäüí ßóïò ìå ôï ìÝãåèïò ôïõ ðáñáèýñïõ. Ïé ìÝèïäïé Opt êáé
Appr åëáôôþíïõí ôï ðëÞèïò ôùí ãåãïíüôùí ðåñéóóüôåñï áðü 50% ÷ùñßò íá èõ-
óéÜæïõí ôï ÷ñüíï áðüêñéóçò, áí êñáôÞóïõìå ôï 10% ôùí ëçãìÝíùí ãåãïíüôùí.
ÅðéðëÝïí, ïé äýï ìÝèïäïé Ý÷ïõí ðáñüìïéï ðëÞèïò ãåãïíüôùí óôï óùñü, áöïý êáé
ïé äýï ÷ñçóéìïðïéïýí ôïí åîåëéãìÝíï õðïëïãéóìü ãåãïíüôïò, êáé ãé' áõôü Ý÷ïõí
ðáñüìïéï ðëÞèïò ëçãìÝíùí ãåãïíüôùí. ÔÝëïò, ç Event äåí ìðïñåß íá åëáôôþóåé
ôï ðëÞèïò ôùí ãåãïíüôùí. Áõôü óõìâáßíåé äéüôé ç ìÝèïäïò Event äåí ìðïñåß íá
ðáñÜãåé ëçãìÝíá ãåãïíüôá.
8.8 ÓõìðåñÜóìáôá
Ôá åñùôÞìáôá top-k ðñïôÜèçêáí ðñüóöáôá ùò åíáëëáêôéêÞ ëýóç Ýíáíôé ôùí åñù-
ôçìÜôùí skyline êáé ôùí áðëþí top-k åñùôçìÜôùí. Áõôü ôï åñþôçìá Ý÷åé Ýíá
ðëÞèïò åëêõóôéêþí éäéïôÞôùí üðùò: (á) äåí áðáéôåßôáé óõíÜñôçóç âáèìïëüãçóçò,
(â) ôï áðïôÝëåóìá åßíáé áíåðçñÝáóôï áðü êëéìáêþóåéò äåäïìÝíùí óôéò äéáóôÜ-
óåéò, êáé (ã) ôï ðëÞèïò ôïõ áðïôåëÝóìáôïò ðåñéïñßæåôáé óå k áðáíôÞóåéò. ÁõôÞ
ç ìåëÝôç åßíáé ç ðñþôç ðñïóðÜèåéá áëãïñßèìùí åðåîåñãáóßáò top-k dominat-
ing åñùôçìÜôùí óôéò ñïÝò äåäïìÝíùí. ÐáñïõóéÜóáìå ôñåéò áëãïñßèìïõò, ìå ôïí
ðñþôï íá ÷ñçóéìïðïéåßôáé ùò âáóéêüò ëüãù ôçò áðëüôçôÜò ôïõ. Ïé äýï ðñïôåé-
íüìåíïé ìÝèïäïé Event êáé Opt óôáèåñÜ õðåñíéêïýí ôï âáóéêü áëãüñéèìï, åíþ ç
192 ÊÅÖÁËÁÉÏ 8. ÓÕÍÅ×ÇÓ ÅÐÅÎÅÑÃÁÓÉÁ TOP-K DOMINATING ÅÑÙÔÇÌÁÔÙÍ
Opt äåß÷íåé óçìáíôéêÝò âåëôéþóåéò óôçí áðüäïóç óå ó÷Ýóç ìå ôçí Event. Ðñáã-
ìáôïðïéÞèçêå ìßá áíÜëõóç ðñïôåéíüìåíùí ìåèüäùí ãéá ôçí åêôßìçóç ôïõ ðëÞèïõò
ôùí áêñéâþí õðïëïãéóìþí âáèìïëïãßáò ðïõ ìðïñåß íá óõìâïýí. Åðéðñüóèåôá,
ìåëåôÞóáìå Ýíáí ðñïóåããéóôéêü áëãüñéèìï, Appr, ðïõ èõóéÜæåé ôçí áêñßâåéá ãéá
ôá÷ýôåñç åðåîåñãáóßá.
ÊÅÖÁËÁÉÏ 9
9.1 ÅéóáãùãÞ
Ïé óôáèåñÝò âåëôéþóåéò óôçí ôå÷íïëïãßá ôùí åðåîåñãáóôþí êáé ôùí áðïèçêåõôé-
êþí ìÝóùí, üðùò ôéò ïñáìáôßóèçêå ï íüìïò ôïõ Moore, ìáæß ìå ôçí åîÝëéîç ôçò
ôå÷íïëïãßáò ôùí åíåñãåéáêþí ìÝóùí (ìðáôáñßåò) êáé ôùí ìéêñü-çëåêôñïìç÷áíé-
êþí óõóôçìÜôùí, åðÝöåñáí ôå÷íïëïãéêÞ åðáíÜóôáóç óå íÝá êáôáíåìçìÝíá êáé
åíóùìáôùìÝíá õðïëïãéóôéêÜ óõóôÞìáôá, üðïõ ìéêñïóêïðéêÝò óõóêåõÝò ÷áìçëÞò
åíÝñãåéáò, äçëáäÞ áéóèçôÞñåò, åîïðëéóìÝíåò ìå åðåîåñãáóôÞ, ìíÞìç, ìïíÜäåò áíß-
÷íåõóçò êáé åðéêïéíùíßáò äéêôõþíïíôáé ðñïêåéìÝíïõ íá õðïóôçñßîïõí äéÜöïñåò
∗ Ôï êåöÜëáéï áíôëåß ôá ðåñéå÷üìåíÜ ôïõ áðü ôéò åñãáóßåò [99, 100].
193
194 ÊÅÖÁËÁÉÏ 9. ÅÑÙÔÇÌÁ ÃÅÉÔÏÍÉÁÓ ÊÁÉ ÊÁËÕØÇÓ ÄÉÊÔÕÙÍ ÁÉÓÈÇÔÇÑÙÍ
ôïõ äéêôýïõ èá ìðïñïýóå íá õðïäåßîåé ôçí ôïðïèåóßá ìüíï ìßáò ðõñêáãéÜò, åíþ
ðñáêôéêÜ åíäéáöåñüìáóôå íá åíôïðßóïõìå ðåñéï÷Ýò ìå õøçëÝò èåñìïêñáóßåò óå
ó÷Ýóç ìå ôéò ãýñù ôïõò ðåñéï÷Ýò ùò ðéèáíÝò åóôßåò ðõñêáãéþí.
Ðùò ìðïñåß íá áðïêñßíåôáé Ýíá äßêôõï áéóèçôÞñùí óå Ýíá ôÝôïéï åñþôçìá ðïõ
äåí èÝôåé ãåíéêïýò (ð.÷. üëï ôï äßêôõï) ðåñéïñéóìïýò (ð.÷. ìÝãéóôï/åëÜ÷éóôï)
êáé äåí êáèïñßæåé ôá üñéá ðåñéï÷þí; Èá ðáñïõóéÜóïõìå óôçí åðüìåíç åíüôçôá,
ðùò Ýíá ôÝôïéï åñþôçìá áëëÜ êáé áëëÜ ãåíéêüôåñá åñùôÞìáôá, ìðïñïýí íá äéá-
ôõðùèïýí ìå Ýíá ôýðï åñùôçìÜôùí, ðïõ ïíïìÜæåôáé d-ãåéôïíéÜò k-êÜëõøçò äå-
äïìÝíùí åñþôçìá (d-hop k-data coverage query) êáé ðáñïõóéÜæåôáé ãéá ðñþôç
öïñÜ óôç âéâëéïãñáößá áðü áõôÞí ôç ìåëÝôç. Ç óõíåéóöïñÜ ôïõ êåöáëáßïõ ðåñé-
ëáìâÜíåé ôá åîÞò:
➣ Äéáôõðþíåé Ýíá ðñùôüôõðï ðñüâëçìá, äçëáäÞ ôï d-ãåéôïíéÜò k-êÜëõøçò
äåäïìÝíùí (åñþôçìá) ðñüâëçìá, ðïõ ôßèåôáé óå óôáôéêÜ áóýñìáôá äßêôõá
áéóèçôÞñùí.
➣ Áõôü ôï ðñüâëçìá ãåíéêåýåé êÜðïéá ðïëý ãíùóôÜ ðñïâëÞìáôá:
{ ôï åñþôçìá top-k, üôáí ïé áéóèçôÞñåò ðáñÜãïõí äåäïìÝíá ìßáò äéÜóôá-
óçò êáé ôï êñéôÞñéï êÜëõøçò ó÷åôßæåôáé ìå ðïëý áðëÝò óõíáñôÞóåéò
ïìïéüôçôáò (ð.÷. ìÝãéóôï/åëÜ÷éóôï),
{ ôï åñþôçìá skyband, üôáí ïé áéóèçôÞñåò ðñÝðåé íá åîÜãïõí ôá äåäï-
ìÝíá ôïõò óå Ýíáí åîùôåñéêü åîõðçñåôçôÞ êáé ôï êñéôÞñéï êÜëõøçò
áöïñÜ ïëüêëçñï ôï äßêôõï,
{ ôï ðñüâëçìá ó÷çìáôéóìïý êõñßáñ÷ïõ óõíüëïõ d-ãåéôïíéÜò (d-hop dom-
inating set formation problem), ôï ïðïßï ÷ñçóéìïðïéåßôáé óå ðñïâëÞ-
ìáôá ïìáäïðïßçóçò áóýñìáôùí äéêôýùí.
➣ ÐáñÝ÷åé ìßá êáôáíåìçìÝíç, áðïäïôéêÜ åíåñãåéáêÞ ëýóç ãéá ôçí áðïôßìçóç
ôÝôïéùí åñùôçìÜôùí ÷ùñßò ôç ÷ñÞóç ðñï-åãêáôåóôçìÝíùí \äïìþí êÜëõ-
øçò Ýêôáóçò" äéêôýïõ (spanners), üðùò äÝíäñá áíáìåôÜäïóçò, áèñïéóôéêÜ
äÝíäñá, ôá ïðïßá Ý÷ïõí ùò áðïôÝëåóìá ôçí ôá÷ýôáôç ìåßùóç ôçò åíÝñãåéáò
ôùí áéóèçôÞñùí ðïõ âñßóêïíôáé øçëÜ óôçí éåñáñ÷ßá.
➣ ÁðïôéìÜ ôçí áðïôåëåóìáôéêüôçôá êáé ôçí áðïäïôéêüôçôá ôçò ðñïôåéíüìåíçò
ëýóçò óå äéÜöïñåò ôïðïëïãßåò äéêôýùí áéóèçôÞñùí êáé äéÜöïñåò êáôáíïìÝò
äåäïìÝíùí.
D [5, 4]
A
L [14, 13]
[10, 9]
E [4, 1]
F [3, 2]
I [12, 7]
C [6, 3]
J [17, 9]
H
[12, 8]
K [15, 10]
[12, 11]
ðåñßðôùóç åããñáöþí áéóèçôÞñùí ðïëëþí äéáóôÜóåùí, ïýôå éó÷ýåé êÜôù áðü ðï-
ëõðëïêüôåñá êñéôÞñéá êÜëõøçò. Ãé' áõôü ôï åñþôçìá k-êÜëõøçò äåäïìÝíùí äåí
åßíáé ôáõôüóçìï ôùí åñùôçìÜôùí top-k óôá ÁÄÁ.
Ôá âáóéêüôåñá ìåéïíåêôÞìáôá üëùí ôùí ðñïáíáöåñèÝíôùí ôýðùí åñùôçìÜ-
ôùí åßíáé ôá åîÞò: (á) åßíáé åõáßóèçôá óå áóôï÷ßåò áéóèçôÞñùí, ð.÷. áéóèçôÞñåò
ðïõ áíáöÝñïõí ìåãÜëåò ôéìÝò ëüãù êÜðïéáò äõóëåéôïõñãßáò, êáé (â) áíáöÝñïíôáé
óå üëï ôï äßêôõï (network-wide), äçëáäÞ åßíáé ãåíéêÜ ìå ôçí Ýííïéá üôé äåí ìðï-
ñïýí íá áíôáðåîÝëèïõí óå áíÜãêåò üðùò \ÁíÜöåñå ôá óçìåßá (áéóèçôÞñåò) ìå ôéò
ìåãáëýôåñåò õãñáóßåò óå ó÷Ýóç ìå ôéò ôéìÝò ôùí ãåéôïíéêþí ôïõò áéóèçôÞñùí".
ÔÝôïéá åñùôÞìáôá åßíáé ÷ñÞóéìá ãéá ôçí êáôáóêåõÞ ÷áñôþí êáôáíïìÞò ÷áñáêôç-
ñéóôéêþí ôïõ ðáñáêïëïõèïýìåíçò ðåñéï÷Þò. ÅðïìÝíùò, ÷ñåéáæüìáóôå Ýíá åñþ-
ôçìá k-êÜëõøçò äåäïìÝíùí ðïõ áíáöÝñåôáé óå ãåéôïíéÝò (neighborhood-wide),
äçëáäÞ åßíáé ôïðéêü (localized) åñþôçìá. Áí ðñïóðáèÞóïõìå íá êáëýøïõìå ìßá
ôÝôïéá áíÜãêç ðñïêáèïñßæïíôáò ôç ãåéôïíéÜ (äçëáäÞ, íá êáèïñßóïõìå ôéò ãåùãñá-
öéêÝò óõíôåôáãìÝíåò ôçò ðåñéï÷Þò) êáé áíáêôÞóïõìå ôéò áðáíôÞóåéò äéá÷Ýïíôáò
ãåùãñáöéêÜ ôï åñþôçìá (geocasting), ôüôå èá êáôáóôÞóïõìå ôá áðïôåëÝóìáôá
ôïõ åñùôÞìáôïò éäéáßôåñá åõáßóèçôá áêüìá êáé ìéêñÝò ìåôáâïëÝò Þ êëéìáêþóåéò
ôçò êáèïñéóìÝíçò ðåñéï÷Þò, ãåãïíüò ðïõ ìðïñåß íá ïäçãÞóåé óôçí áðþëåéá ôçò
áíáæçôïýìåíçò ðëçñïöïñßáò.
Áíôßèåôá, ðñÝðåé íá êáèïñßóïõìå ôéò ãåéôïíéÝò ìå áöáéñåôéêïýò üñïõò, ÷ñçóé-
ìïðïéþíôáò ôçí éäÝá ôçò d-âçìÜôùí ãåéôïíéÜò êáé íá ó÷åäéÜóïõìå ìßá ëýóç ðïõ
äåí ðåñéëáìâÜíåé ãåùãñáöéêÞ äéÜ÷õóç ãåíéêÞ Þ ôïðéêÞ ôïõ åñùôÞìáôïò. ÁõôÞ ç
äéáôýðùóç Ý÷åé ìåñéêÜ ÷ñÞóéìá ÷áñáêôçñéóôéêÜ: áí êáèïñßóïõìå ôçí ðáñÜìåôñï
d ßóç ìå ôç äéÜìåôñï ôïõ äéêôýïõ, ôüôå ðáßñíïõìå ôï åñþôçìá êÜëõøçò äåäïìÝ-
íùí óå üëï ôï äßêôõï (network-wide data coverage query). Ãéá äéÜöïñåò ôéìÝò
ôçò ðáñáìÝôñïõ d, Ý÷ïõìå äéáöïñåôéêÜ ìåãÝèç ãåéôïíéþí. Ãéá ðáñÜäåéãìá, åîå-
ôÜæïíôáò ôéìÝò õãñáóßáò, ãéá d=3 êáé k=2, ôï 3-ãåéôïíéÜò 2-êÜëõøçò äåäïìÝíùí
åñþôçìá, èá áíáãíùñßóåé ôïõò áéóèçôÞñåò A; B óå ìßá ãåéôïíéÜ ôùí ïðïßùí ïé ôé-
ìÝò äåí êáëýðôïíôáé áðü ðåñéóóüôåñï áðü äýï Üëëåò ôéìÝò óôç ãåéôïíéÜ ôïõò, êáé
åðßóçò èá áíáãíùñßóåé ôïõò áéóèçôÞñåò J; K êáé L óå ìßá Üëëç áðïìáêñõóìÝíç
ãåéôïíéÜ, ôùí ïðïßùí ïé ôéìÝò êáëýðôïíôáé ôï ðïëý áðü Üëëåò äýï ôéìÝò óôç ãåé-
ôïíéÜ ôïõò. ÐñïóÝîôå åäþ, üôé ïé ôéìÝò ôùí áéóèçôÞñùí A; B äåí åßíáé ìåôáîý
ôùí áðïôåëåóìÜôùí ðïõ åðéóôñÝöïíôáé áðü ôï åñþôçìá 2-êÜëõøçò äåäïìÝíùí óå
üëï ôï äßêôõï.
Óôç óõíÝ÷åéá, ðñïôåßíïõìå ôï ðñùôüêïëëï êÜëõøçò äåäïìÝíùí óå ãåéôïíéÝò
DaCoN (Data Coverage in Neighborhoods), Ýíá áðïäïôéêü ó÷Þìá ãéá ôçí åðå-
îåñãáóßá åñùôçìÜôùí d-ãåéôïíéÜò k-êÜëõøçò äåäïìÝíùí. Ôï ðñüâëçìá äéáôõðþ-
íåôáé ùò åîÞò:
ÄåäïìÝíïõ åíüò äéêôýïõ áéóèçôÞñùí êáé ôïõ åðéèõìçôïý ìåãÝèïõò ôçò ãåé-
ôïíéÜò d (óå ó÷Ýóç ìå ôï ðëÞèïò ôùí âçìÜôùí) ðñïóäéüñéóå ôá äåäïìÝíá ôùí
áéóèçôÞñùí, ôá ïðïßá êáëýðôïíôáé ôï ðïëý áðü Üëëá k äåäïìÝíá áéóèçôÞñùí óôç
198 ÊÅÖÁËÁÉÏ 9. ÅÑÙÔÇÌÁ ÃÅÉÔÏÍÉÁÓ ÊÁÉ ÊÁËÕØÇÓ ÄÉÊÔÕÙÍ ÁÉÓÈÇÔÇÑÙÍ
ãåéôïíéÜ ôïõò.
Èá åîçãÞóïõìå áñãüôåñá (Åíüôçôåò 9.3 êáé 9.5) ðùò ôï ðñüâëçìá ôçò d-
ãåéôïíéÜò k-êÜëõøçò äåäïìÝíùí, ãéá óõãêåêñéìÝíåò ôéìÝò ôùí ðáñáìÝôñùí d
êáé/Þ k, ãåíéêåýåé ôï ðñüâëçìá ôïõ ó÷çìáôéóìïý êõñßáñ÷ùí óõíüëùí óôçí ïìá-
äïðïßçóç óå äßêôõá áéóèçôÞñùí ðïõ ðáñïõóéÜóèçêå óôçí åñãáóßá [14], óõãêåêñé-
ìÝíåò ðåñéðôþóåéò ôïõ åñùôÞìáôïò top-k [180], êáé ôïõ åñùôÞìáôïò skyband ðïõ
ðáñïõóéÜóèçêå óôçí åñãáóßá [135].
i-ïóôÞ ôéìÞ áõôþí ôùí ìçíõìÜôùí. ÁõôÝò ïé ôéìÝò ó÷çìáôßæïõí Ýíá ìÞíõìá ðïõ
áðïèçêåýåôáé óôï srb.
ÖÁÓÇ 3. ÁðÜíôçóç ôïõ åñùôÞìáôïò: ÓõíïëéêÜ, ôï ðñùôüêïëëï DaCoN
åêôåëåßôáé óå 2 · d ãýñïõò. ÌåôÜ ôïõò ãýñïõò áõôïýò, êÜèå áéóèçôÞñáò ìðïñåß
íá áðïöáóßóåé ôçí áðÜíôçóç ôïõ d-ãåéôïíéÜò k-êÜëõøçò äåäïìÝíùí åñùôÞìáôïò.
ÊÜèå ôéìÞ vi (üðïõ 1 ≤ i ≤ k) ôçò áðÜíôçóçò åðéëÝãåôáé ùò åîÞò: ï áéóèçôÞñáò
óõãêñßíåé ôá ìçíýìáôá ôùí frb êáé srb êáé ðñïóðáèåß íá âñåé æåýãç ôéìþí óôéò
ðñþôåò i ôéìÝò êÜèå ìçíýìáôïò. ÌåôÜ ôïí åíôïðéóìü üëùí ôùí æåõãþí ôéìþí, ï
áéóèçôÞñáò åðéëÝãåé ôï ìéêñüôåñï æåýãïò ùò ôçí i-ïóôÞ ôéìÞ ôçò áðÜíôçóÞò ôïõ.
Áí äåí õðÜñ÷åé æåýãïò ôéìþí, ôüôå ï áéóèçôÞñáò åðéëÝãåé ôç ìåãáëýôåñç áðü ôéò
ðñþôåò i ôéìÝò ôùí ìçíõìÜôùí frb.
ÊáôÜ ôç äéÜñêåéá ôùí ãýñùí áíôáëëáãÞò ìçíõìÜôùí, ìðïñïýìå íá áðïöý-
ãïõìå ôéò óõãêñïýóåéò ìçíõìÜôùí êáé ôç äéáìÜ÷ç ãéá ôç ÷ñÞóç ôïõ áóýñìáôïõ
êáíáëéïý, äçìéïõñãþíôáò Ýíá TDMA (time division multiple accesses) ÷ñïíïäéÜ-
ãñáììá áêïëïõèþíôáò ôïí áëãüñéèìï ðïõ ðñïôÜèçêå óôçí åñãáóßá [62]. ¸ôóé,
åßíáé áóöáëÝò íá õðïèÝóïõìå üôé äåí õðÜñ÷ïõí áðþëåéåò ìçíõìÜôùí.
ÐáñÜäåéãìá åêôÝëåóçò ôïõ DaCoN: Ï Ðßíáêáò 9.2 äåß÷íåé ôçí åêôÝëåóç
ôïõ ðñùôïêüëëïõ DaCoN ãéá ôï äßêôõï ôçò Åéêüíáò 9.1 ìå d=3 êáé k=2. Áñ÷éêÜ,
êÜèå êüìâïò óôÝëíåé ôéò äýï ìåãáëýôåñåò ôéìÝò ôïõ. Ïé ãñáììÝò 1, 2 êáé 3
äåß÷íïõí ôá ìçíýìáôá ðïõ áðïèçêåýïíôáé óôï frb óôï ôÝëïò ôïõ ãýñïõ 1, 2
êáé 3, áíôßóôïé÷á ôçò ðñþôçò öÜóçò, åíþ ïé ãñáììÝò 4, 5 êáé 6 ôá áíôßóôïé÷á
ìçíýìáôá ôçò äåýôåñçò öÜóçò. Ãéá ðáñÜäåéãìá, ï êüìâïò áéóèçôÞñáò C óôÝëíåé
ôéò ôéìÝò 6 êáé 3. Óôï ôÝëïò ôïõ ãýñïõ 1, Ý÷åé ëÜâåé ôéò ôéìÝò 10 êáé 9 áðü ôïí
áéóèçôÞñá A êáé ôéò ôéìÝò 3 êáé 2 áðü ôïí F . Ï áéóèçôÞñáò C âñßóêåé üôé ïé
ôéìÝò 10 êáé 9 åßíáé ïé ìåãáëýôåñåò. Óôïí Ðßíáêá 9.2, äßíïõìå ìüíï ôéò ôéìÝò êáé
ðáñáëåßðïõìå ôéò õðüëïéðåò ðëçñïöïñßåò ôùí ìçíõìÜôùí ãéá ëüãïõò óáöÞíåéáò.
Ìå ôïí ßäéï ôñüðï, óôïí ðñþôï ãýñï ôçò äåýôåñçò öÜóçò ï áéóèçôÞñáò C óôÝëíåé
ôéò ôéìÝò 17 êáé 15. Óôï ôÝëïò ôïõ ãýñïõ 4, Ý÷åé ëÜâåé ôéò ôéìÝò 14 êáé 13 áðü
ôïí áéóèçôÞñá A êáé ôéò ôéìÝò 17 êáé 15 áðü ôïí F . Ï áéóèçôÞñáò C âñßóêåé üôé
ïé ôéìÝò 14 êáé 13 åßíáé ïé ìéêñüôåñåò.
ÌåôÜ áðü 2·d ãýñïõò, ï áéóèçôÞñáò C èá õðïëïãßóåé ôçí áðÜíôçóÞ ôïõ.
Ðñþôá, ðñïóðáèåß íá âñåé ôç ìåãáëýôåñç ôéìÞ. Ãé' áõôü øÜ÷íåé ìüíï óôçí ðñþôç
ôéìÞ êÜèå ìçíýìáôïò êáé ðñïóðáèåß íá âñåé æåýãç ìåôáîý ôùí ìçíõìÜôùí ôïõ
frb êáé ôïõ srb. Ìüíï ç ôéìÞ 14 Ý÷åé æåýãïò, äçëáäÞ âñßóêåôáé óå ìÞíõìá êáé
ôùí äýï óõíüëùí. Ôüôå, ï áéóèçôÞñáò C ðñïóðáèåß íá âñåé ôç äåýôåñç ôéìÞ.
Ôþñá, øÜ÷íåé óôéò ðñþôåò äýï ôéìÝò êÜèå ìçíýìáôïò êáé áãíïåß ôéò ôéìÝò ðïõ
åßíáé ßóåò Þ ìåãáëýôåñåò áðü ôçí áðÜíôçóç ôïõ ðñïçãïýìåíïõ âÞìáôïò (äçëáäÞ,
14). ÕðÜñ÷ïõí äýï æåýãç (ôéìÝò 10 êáé 13). Óå áõôÞ ôçí ðåñßðôùóç, ï áéóèçôÞñáò
C åðéëÝãåé ôï ìéêñüôåñï æåýãïò. a
Ôï DaCoN ðñùôüêïëëï ìðïñåß åðßóçò íá ÷åéñéóèåß ðåñéðôþóåéò üðïõ áðáé-
ôåßôáé ç åëá÷éóôïðïßçóç ôùí ÷áñáêôçñéóôéêþí åðéëÝãïíôáò ôéò ìéêñüôåñåò ôéìÝò
9.3. ÔÏ ÐÑÙÔÏÊÏËËÏ DACON 201
Êüìâïé áéóèçôÞñùí
A B C D E F
10 9 12 5 6 3 5 4 4 1 3 2
1. 12 10 12 10 10 9 12 10 5 4 14 13
2. 12 10 12 10 14 13 12 10 14 13 17 15
3. 14 13 12 10 17 15 14 13 17 15 17 15
4. 12 10 12 10 14 13 12 10 14 13 17 15
5. 12 10 12 10 12 10 12 10 12 10 14 13
6. 12 10 12 10 12 10 12 10 12 10 12 10
12 10 12 10 14 10 12 10 14 13 14 13
ΠINAKAΣ 9.2. ÐáñÜäåéãìá åêôÝëåóçò ðñùôïêüëëïõ DaCoN ãéá d=3 êáé k=2.
óôïõò ðñþôïõò d ãýñïõò êáé ôéò ìåãáëýôåñåò ôéìÝò óôïõò åðüìåíïõò d. Åðé-
ðëÝïí, ôï ðñùôüêïëëï DaCoN ìðïñåß íá ÷åéñéóèåß ðïëõäéÜóôáôá äåäïìÝíá ìå
ìéêñÝò ôñïðïðïéÞóåéò.
Ôï åñþôçìá d-ãåéôïíéÜò k-êÜëõøçò äåäïìÝíùí ùò ãåíßêåõóç Üëëùí
ãíùóôþí åñùôçìÜôùí. Ôï åñþôçìá áõôü åßíáé ãåíßêåõóç ôñéþí åñùôçìÜôùí.
Óôçí ðåñßðôùóç ðïõ k=1, åßíáé ðáñüìïéï ìå ôçí åýñåóç åíüò êõñßáñ÷ïõ óõíü-
ëïõ d-ãåéôïíéÜò óå ÁÄÁ [14]. Ùóôüóï, õðÜñ÷ïõí óçìáíôéêÝò äéáöïñÝò ìåôáîý
ôùí äýï ðñïâëçìÜôùí. Óôçí åñãáóßá [14] ðñïôÜèçêå ìßá åõñéóôéêÞ ìÝèïäïò ðïõ
ìðïñåß íá ÷åéñéóèåß ìüíï ôç ìåãéóôïðïßçóç ìßáò äéÜóôáóçò, äçëáäÞ ôï ID ôùí
áéóèçôÞñùí. Áíôßèåôá, ôï DaCoN ÷åéñßæåôáé äåäïìÝíá ôùí áéóèçôÞñùí êáé åðï-
ìÝíùò åßíáé éêáíü íá ÷åéñßæåôáé ðïëõäéÜóôáôåò ôéìÝò äéáöïñåôéêÞò óçìáóéïëïãßáò
(ìåãéóôïðïßçóç, åëá÷éóôïðïßçóç êáé óõíäõáóìüò áõôþí). ÅðéðëÝïí, ôï DaCoN
ìðïñåß íá áðáíôÞóåé óå 2·d ãýñïõò k ôéìÝò Ýíáíôé ôçò ìßáò ôéìÞò ôïõ áëãïñßèìïõ
ôçò åñãáóßáò [14].
Áí éó÷ýåé d=netDiam, ôï åñþôçìá ìåôáó÷çìáôßæåôáé óôï k-skyband åñþôçìá
[135]. Ï áëãüñéèìïò ðïõ ðñïôÜèçêå óôçí åñãáóßá [135] äåí ëáìâÜíåé õðüøç ôçí
202 ÊÅÖÁËÁÉÏ 9. ÅÑÙÔÇÌÁ ÃÅÉÔÏÍÉÁÓ ÊÁÉ ÊÁËÕØÇÓ ÄÉÊÔÕÙÍ ÁÉÓÈÇÔÇÑÙÍ
Ýííïéá ôçò ãåéôïíéÜò êáé äåí åßíáé êáôáíåìçìÝíïò, åðïìÝíùò äåí åßíáé êáôÜëëçëïò
ãéá ÁÄÁ, ðïõ áðáéôïýí ôïðéêÞò åêôÝëåóçò áëãïñßèìïõò.
ÔÝëïò, ôï ðñüâëçìá ôçò d-ãåéôïíéÜò k-êÜëõøçò äåäïìÝíùí ìðïñåß íá èåùñçèåß
ùò ãåíßêåõóç ôïõ åñùôÞìáôïò top-k [180]. Óôçí ðåñßðôùóç ìïíïäéÜóôáôïõ ÷þñïõ
êáé üôáí d=netDiam, áí ç óõíÜñôçóç âáèìïëïãßáò ôçò äéÜóôáóçò åßíáé MAX Þ
MIN, ôï åñþôçìá d-ãåéôïíéÜò k-êÜëõøçò äåäïìÝíùí ìåôáó÷çìáôßæåôáé óå top-k
åñþôçìá. ¼ìùò, üðùò Þäç áíáöÝñèçêå, ïé áëãüñéèìïé ðïõ ðñïôÜèçêáí ãéá top-k
åñùôÞìáôá, ìðïñïýí íá åöáñìïóèïýí ìüíï áí d=netDiam. ¸ôóé, ïé áëãüñéèìïé
áõôïß äåí ìðïñïýí íá ÷ñçóéìïðïéçèïýí ãéá ôï ðñüâëçìá ðïõ åîåôÜæïõìå óå áõôü
ôï êåöÜëáéï.
d=2 d=2
1e+006 d=3 1000 d=3
d=5 d=5
d=netDiam d=netDiam
100000 100
10000 10
1000 1
100 250 500 750 1000 100 250 500 750 1000
Number of Sensors Number of Sensors
(á) (â)
EIKONA 9.2: Åðßäñáóç ìåãÝèïõò äéêôýïõ (ðëÞèïò ïìÜäùí óôáèåñü) óå: (á) ðëÞèïò ìçíõìÜôùí, êáé (â)
ðëÞèïò åíåñãþí áéóèçôÞñùí.
d=2 d=2
1e+006 d=3 d=3
d=5 1000 d=5
d=netDiam d=netDiam
100000 100
10000 10
1000 1
100 250 500 750 1000 100 250 500 750 1000
Number of Sensors Number of Sensors
(á) (â)
EIKONA 9.3: Åðßäñáóç ìåãÝèïõò äéêôýïõ (áõîáíüìåíï ðëÞèïò ïìÜäùí ìå ìÝãåèïò äéêôýïõ) óå: (á) ðëÞèïò
ìçíõìÜôùí, êáé (â) ðëÞèïò åíåñãþí áéóèçôÞñùí.
1e+007
d=2
d=3
d=5 100
1e+006
d=netDiam
d=2
100000 d=3
10 d=5
d=netDiam
10000
1000 1
0.75 0.8 0.85 0.9 0.95 0.75 0.8 0.85 0.9 0.95
Assortativity Assortativity
(á) (â)
EIKONA 9.4: Åðßäñáóç óõíäåóéìüôçôáò äéêôýïõ óå: (á) ðëÞèïò ìçíõìÜôùí, êáé (â) ðëÞèïò åíåñãþí áéóèç-
ôÞñùí.
9.4. ÁÐÏÔÉÌÇÓÇ ÁÐÏÄÏÓÇÓ 207
10000 10000
d=2 d=2
d=3 d=3
1000 d=5 1000 d=5
d=netDiam d=netDiam
100 100
10 10
1 1
1 3 5 7 10 1 3 5 7 10
Parameter k Parameter k
(á) (â)
EIKONA 9.5: Åðßäñáóç k óôï ðëÞèïò åíåñãþí áéóèçôÞñùí óå: (á) ìéêñÜ äßêôõá gn=500, êáé (â) ìåãáëýôåñá
äßêôõá gn=1000.
12000 6000
Average Energy (µJ)
10000
2000 1000
0 0
1 3 5 7 10 100 250 500 750 1000
k Net Size
(á) (â)
EIKONA 9.6: Åðßäñáóç óôçí êáôáíÜëùóç åíÝñãåéáò ôïõ: (á) k, êáé (â) ðëÞèïõò áéóèçôÞñùí äéêôýïõ (d=3).
4000
3500 Centr-without Index
Average Energy (µJ)
Basic
3000 MR
2500
2000
1500
1000
500
0
100 250 500 750 1000
Net Size
EIKONA 9.7. Åðßäñáóç ðëÞèïõò áéóèçôÞñùí äéêôýïõ óôçí êáôáíÜëùóç åíÝñãåéáò (d=3).
210 ÊÅÖÁËÁÉÏ 9. ÅÑÙÔÇÌÁ ÃÅÉÔÏÍÉÁÓ ÊÁÉ ÊÁËÕØÇÓ ÄÉÊÔÕÙÍ ÁÉÓÈÇÔÇÑÙÍ
1200 1200
Basic
Average Energy (µJ)
(á) (â)
EIKONA 9.8: Åðßäñáóç óôçí êáôáíÜëùóç åíÝñãåéáò ôïõ: (á) ðëÞèïõò áéóèçôÞñùí äéêôýïõ, êáé (â) ìåãÝèïõò
ðáñáèýñïõ óôç óõíå÷Þ áðïôßìçóç (d=3).
9.6 ÓõìðåñÜóìáôá
ÐåñéãñÜøáìå Ýíá ðñùôüôõðï åñþôçìá, ôï åñþôçìá d-ãåéôïíéÜò k-êÜëõøçò äåäï-
ìÝíùí óå ÁÄÁ. Ïé áðáíôÞóåéò áõôïý ôïõ åñùôÞìáôïò ìðïñïýí íá âïçèÞóïõí
óôç äçìéïõñãßá ÷áñôþí êáôáíïìÞò ÷áñáêôçñéóôéêþí óå ÁÄÁ. Ãé' áõôü ôï ðñü-
âëçìá, ðáñïõóéÜóáìå ìßá ðëÞñùò êáôáíåìçìÝíç ëýóç, ôï ðñùôüêïëëï DaCoN,
ðïõ áðïöåýãåé ôç äçìéïõñãßá äïìþí êÜëõøçò Ýêôáóçò, üðùò åßíáé ôá áèñïéóôéêÜ
äÝíäñá, äéüôé áõôÝò ïé äïìÝò áðáéôïýí ìßá áêñéâÞ óå ÷ñüíï êáé åíÝñãåéá öÜóç áñ-
÷éêïðïßçóçò êáé åðßóçò äçìéïõñãïýí óçìåßá óõìöüñçóçò óôçí åðéêïéíùíßá. Ôï
ðåñéãñáöüìåíï êáôáíåìçìÝíï ðñùôüêïëëï Ý÷åé ÷áìçëÝò áðáéôÞóåéò óå áðïèçêåõ-
ôéêü ÷þñï, åðåîåñãáóßá êáé åðéêïéíùíßá. Ãéá íá ìåëåôÞóïõìå ôç óõìðåñéöïñÜ ôïõ
ðñùôïêüëëïõ, ðñáãìáôïðïéÞóáìå ìßá áðïôßìçóç ôçò áðüäïóçò ðñïóïìïßùóçò ìå
ìßá óåéñÜ áðü äéÜöïñåò êáôáíïìÝò äéêôýùí êáé äåäïìÝíùí.
ÊÅÖÁËÁÉÏ 10
Åðßëïãïò
Ðåñéå÷üìåíá
10.1 ÓÕÌÐÅÑÁÓÌÁÔÁ . . . . . . . . . . . . . . . . . . 213
10.2 ÄÑÏÌÏÉ ÌÅËËÏÍÔÉÊÇÓ ÅÑÅÕÍÁÓ . . . . . . 216
10.1 ÓõìðåñÜóìáôá
Ôá ôåëåõôáßá ÷ñüíéá, ç ñáãäáßá ôå÷íïëïãéêÞ áíÜðôõîç äçìéïýñãçóå Ýíá ðëÞ-
èïò íÝùí åöáñìïãþí ðïõ äéá÷åéñßæïíôáé ôåñÜóôéïõò üãêïõò äõíáìéêþí äåäïìÝ-
íùí. Ðáñáäåßãìáôá ôÝôïéùí åöáñìïãþí åßíáé ç áíÜëõóç ÷ñçìáôïïéêïíïìéêþí
äåäïìÝíùí, ç ðáñáêïëïýèçóç ôéìþí äéêôýùí áéóèçôÞñùí, ç áíÜëõóç óåéóìïëï-
ãéêþí äåäïìÝíùí ê.á. Ôï âáóéêü ÷áñáêôçñéóôéêü áõôþí ôùí åöáñìïãþí åßíáé
üôé áðáéôïýí áëãïñßèìïõò éêáíïýò ãéá ôç äéá÷åßñéóç êáé áíÜëõóç äåäïìÝíùí óå
ðñáãìáôéêü ÷ñüíï.
Óôçí ðáñïýóá äéáôñéâÞ, ìåëåôÞóáìå ôï ó÷åäéáóìü êáé ôçí õëïðïßçóç áëãï-
ñßèìùí ãéá ôçí áíôéìåôþðéóç äéÜöïñùí óçìáíôéêþí æçôçìÜôùí óå áõôïý ôïõ
åßäïõò ôéò åöáñìïãÝò. Ôï ðñþôï ìÝñïò ôçò äéáôñéâÞò áó÷ïëåßôáé ìå ðñïâëÞìáôá
åîüñõîçò äåäïìÝíùí óå ñïÝò äåäïìÝíùí, åíþ ôï äåýôåñï ìÝñïò áó÷ïëåßôáé ìå
ðñïâëÞìáôá óõíå÷ïýò åðåîåñãáóßáò äéáöüñùí åñùôçìÜôùí óå ñïÝò äåäïìÝíùí.
Ðéï óõãêåêñéìÝíá, áó÷ïëçèÞêáìå ìå ôá ðñïâëÞìáôá ôçò êáôçãïñéïðïßçóçò, ôçò
ïìáäïðïßçóçò êáé ôçò ïìáäïðïßçóçò óå õðï÷þñïõò. ¼óïí áöïñÜ óôç óõíå÷Þ
åðåîåñãáóßá, áó÷ïëçèÞêáìå ìå ôá åñùôÞìáôá ïìïéüôçôáò, åñùôÞìáôá ðñïôßìçóçò
êáé ðáñïõóéÜóáìå Ýíá íÝï åßäïò åñùôÞìáôïò áîéïðïéÞóéìï óå äßêôõá áéóèçôÞñùí.
Ðáñüôé ôá ðñïáíáöåñèÝíôá ðñïâëÞìáôá Ý÷ïõí ìåëåôçèåß, ôá ðåñéóóüôåñá äéå-
îïäéêÜ, óå óôáôéêÜ äåäïìÝíá êáé ðáñáäïóéáêÝò âÜóåéò äåäïìÝíùí, ïé ðñïôåéíüìå-
íïé áëãüñéèìïé äåí åßíáé åöáñìüóéìïé óôçí ðåñßðôùóç ôùí äõíáìéêþí äåäïìÝíùí
213
214 ÊÅÖÁËÁÉÏ 10. ÅÐÉËÏÃÏÓ
êáé áêüìá ðåñéóóüôåñï óôçí ðåñßðôùóç ôùí ñïþí äåäïìÝíùí, ãéáôß äåí êáëýðôïõí
ôéò ðñïäéáãñáöÝò êáé ôïõò ðåñéïñéóìïýò ðïõ ôßèåíôáé óå áõôÝò ôéò ðåñéðôþóåéò.
Óôï ÊåöÜëáéï 3 ìåëåôÞóáìå ôï æÞôçìá ôçò êáôçãïñéïðïßçóçò óå êéíïýìåíåò
÷ñïíïóåéñÝò. Ãéá ôçí êáôçãïñéïðïßçóç âáóéóèÞêáìå óôéò ôÜóåéò ôùí ñïþí êáé
ü÷é óôéò ôéìÝò ôïõò, ðïõ üðùò áðïäåß÷èçêå åêôüò ôïõ üôé êáèéóôÜ åõêïëüôåñç
ôçí êáôçãïñéïðïßçóç, åðßóçò ôá óõìðåñÜóìáôá åßíáé ÷ñçóéìüôåñá êáé åõêïëü-
ôåñá áîéïðïéÞóéìá áðü ôïí ôåëéêü ÷ñÞóôç. Ðñïôåßíáìå Ýíáí áëãüñéèìï ðïõ êá-
ôçãïñéïðïéåß ôéò ñïÝò áõîçôéêÜ, äçëáäÞ, ôüóï ç ïìáëïðïßçóç ìßáò ñïÞò üóï êáé
ï ðñïóäéïñéóìüò ôçò ôÜóçò ôçò ãßíïíôáé áõîçôéêÜ. ÔÝëïò ðñïôÜèçêå ìßá äïìÞ
êáôÜëëçëç ãéá ôï óõãêåêñéìÝíï ðñüâëçìá.
Óôï ÊåöÜëáéï 4 áó÷ïëçèÞêáìå ìå ôï ðñüâëçìá ôçò ïìáäïðïßçóçò óå êéíïý-
ìåíåò ÷ñïíïóåéñÝò. Ï áëãüñéèìïò ðïõ ðñïôåßíáìå óå áíôßèåóç ìå ôïõò õðÜñ÷ï-
íôåò áëãïñßèìïõò ôçò âéâëéïãñáößáò áíé÷íåýåé áõôüìáôá ôï ðëÞèïò ôùí ïìÜäùí.
Ðéï óõãêåêñéìÝíá, ç ïìáäïðïßçóç âáóßóôçêå óôéò ôÜóåéò ôùí ñïþí. ÐáñïõóéÜ-
óôçêå ìßá óõíÜñôçóç áðüóôáóçò êáôÜëëçëç ãéá ôÜóåéò, áöïý ëáìâÜíåé õðüøç
ôá ÷áñáêôçñéóôéêÜ ôçò ãñáììéêÞò áíáðáñÜóôáóçò ÷ñïíïóåéñÜò. Åðéðñüóèåôá,
ðñïôÜèçêáí êñéôÞñéá óõíÝíùóçò êáé äéá÷ùñéóìïý ãéá ôïí áõôüìáôï åíôïðéóìü
ôïõ ðëÞèïõò ôùí ïìÜäùí. ÔÝëïò, ðñïôÜèçêå ìßá ìÝèïäïò ãéá ôïí åíôïðéóìü ôùí
outliers.
Óôï ÊåöÜëáéï 5 åîåñåõíÞóáìå ôï ðñüâëçìá ôçò ïìáäïðïßçóçò óå õðï÷þñïõò
óôéò êéíïýìåíåò ÷ñïíïóåéñÝò. Ôï ðñüâëçìá áõôü èåùñåßôáé åîáéñåôéêÜ äýóêïëï
áêüìá êáé óôá óôáôéêÜ äåäïìÝíá, êáôÜ óõíÝðåéá ç åîÝôáóÞ ôïõ ãéá ôéò ñïÝò äåäï-
ìÝíùí êáèßóôáôáé áêüìá äõóêïëüôåñç. Ðñïôåßíáìå ôçí ïìáäïðïßçóç -clusters
êáé óôç óõíÝ÷åéá áíáðôýîáìå Ýíáí áõîçôéêü áëãüñéèìï ãéá ôïí åíôïðéóìü ôïõò óå
óõíå÷üìåíïõò õðï÷þñïõò ôùí êéíïýìåíùí ÷ñïíïóåéñþí. Ï ðñïôåéíüìåíïò áëãü-
ñéèìïò áíôéìåôùðßæåé äéáöïñåôéêÜ ôéò ðåñéðôþóåéò ôçò åíçìÝñùóçò üëùí ôùí ñïþí
ôáõôü÷ñïíá êáé ôçò åíçìÝñùóçò ìßáò ñïÞò. Ðñïôåßíïíôáé ôñßá êñéôÞñéá áðüññéøçò
÷ñïíïóåéñþí êáé üðùò áðïäåß÷èçêå ç äõíáôüôçôá áðüññéøÞò ôïõò åßíáé ðÜñá ðïëý
õøçëÞ ìå áðïôÝëåóìá ôï äñáóôéêü ðåñéïñéóìü ôïõ ÷þñïõ áíáæÞôçóçò. Ïé ðñïôåé-
íüìåíåò ìÝèïäïé CI, CI-UPALL êáé CI-UPONE äåß÷íïõí óçìáíôéêÞ âåëôßùóç
óõãêñéôéêÜ ìå Üëëç õðÜñ÷ïõóá ìÝèïäï.
Ìå ôï ðñïçãïýìåíï êåöÜëáéï ïëïêëçñþóáìå ôç ìåëÝôç ìáò óôçí åîüñõîç
äåäïìÝíùí ñïþí. Ôï ÊåöÜëáéï 6 îåêéíÜ ôçí åñåõíçôéêÞ ìáò ðñïóðÜèåéá óôç
óõíå÷Þ åðåîåñãáóßá åñùôçìÜôùí. Óôï êåöÜëáéï áõôü, áó÷ïëçèÞêáìå ìå ôçí åý-
ñåóç ïìïéüôçôáò ìåôáîý äéáöïñåôéêþí ñïþí äåäïìÝíùí. ÌåëåôÞèçêáí äýï åñù-
ôÞìáôá, ôá åñùôÞìáôá ðåñéï÷Þò êáé ôá åñùôÞìáôá êïíôéíüôåñïõ ãåßôïíá, üðïõ
ôüóï ç ÷ñïíïóåéñÜ-åñþôçóç üóï êáé ïé ÷ñïíïóåéñÝò-äåäïìÝíá åßíáé êéíïýìåíåò.
Ùò ìÝôñï ïìïéüôçôáò ÷ñçóéìïðïéÞèçêå ç Åõêëåßäåéá áðüóôáóç. ÐñïêåéìÝíïõ íá
ìåéþóïõìå ôç ðïëõðëïêüôçôá ôïõ ðñïâëÞìáôïò ÷ñçóéìïðïéÞóáìå ôï ìåôáó÷çìá-
ôéóìü DFT, Ýôóé þóôå íá åëáôôþóïõìå ôï ðëÞèïò ôùí äéáóôÜóåùí. Ãéá ôï ôá-
÷ýôåñï õðïëïãéóìü ôïõ DFT, ðïõ åßíáé åîáéñåôéêÜ ÷ñïíïâüñïò, ðáñïõóéÜóèçêå
10.1. ÓÕÌÐÅÑÁÓÌÁÔÁ 215
219
220 ÂÉÂËÉÏÃÑÁÖÉÁ
[21] S. Babu and J. Widom. Continuous queries over data streams. ACM
SIGMOD Record, 30(3):109−120, 2001.
[22] W. T. Balke, U. Guntzer, and J. X. Zheng. Ecient distributed skylining
for web information systems. In Proceedings International Conference on
Extending Database Technology, pages 256−273, 2004.
[23] D. Barbara. Requirements for clustering data streams. SIGKDD Explo-
rations Newsletter, 3(2):23−27, 2002.
[24] N. Beckmann, H. P. Kriegel, R. Schneider, and B. Seeger. The R∗ -tree: An
ecient and robust access method for points and rectangles. In Proceed-
ings ACM International Conference on Management of Data (SIGMOD),
pages 322−331, 1990.
[25] J. L. Bentley, K. L. Clarkson, and D. B. Levine. Fast linear expected-
time algorithms for computing maxima and convex hulls. In Proceedings
ACM-SIAM Symposium on Discrete Algorithms (SODA), pages 179−187,
1990.
[26] S. Berchtold, D. Keim, and Kriegel H. P. The x-tree: An index structure
for high-dimensional data. In Proceedings International Conference on
Very Large Databases (VLDB), pages 28−39, 1995.
[27] D. Berndt and J. Cliord. Using dynamic time warping to nd pat-
terns in time series. In Proceedings Workshop on Knowledge Discovery
in Databases, pages 359−370, 1994.
[28] K. Beyer, J. Goldstein, R. Ramakrishnan, and U. Shaft. When is near-
est neighbors meaningful. In Proceedings International Conference on
Database Theory (ICDT), pages 217−235, 1999.
[29] S. Borzsonyi, D. Kossmann, and K. Stocker. The skyline operator. In
Proceedings IEEE International Conference on Data Engineering (ICDE),
pages 421−430, 2001.
[30] T. Bozkaya, N. Yazdani, and M. Ozsoyoglu. Matching and indexing se-
quences of dierent lengths. In Proceedings ACM International Conference
on Information and Knowledge Management (CIKM), pages 128−135,
1997.
[31] N. Bruno, S. Chaudhuri, and L. Gravano. Top-k selection queries over re-
lational databases: Mapping strategies and performance evaluation. ACM
Transactions on Database Systems, 27(2):153−187, 2002.
222 ÂÉÂËÉÏÃÑÁÖÉÁ
[42] L. Chen, M. T. Ozsu, and V. Oria. Robust and fast similarity search for
moving object trajectories. In Proceedings ACM International Conference
on Management of Data (SIGMOD), pages 491−502, 2005.
[43] C. Cheng, A. W. Fu, and Y. Zhang. Entropy-based subspace clustering for
mining numerical data. In Proceedings ACM SIGKDD International Con-
ference on Knowledge Discovery and Data Mining (KDD), pages 84−93,
1999.
[44] Y. Cheng and G. M. Church. Biclustering of expression data. In Pro-
ceedings International Conference on Intelligent Systems for Molecular
Biology (ISMB), pages 93−103, 2000.
[45] Y. Chi, P. S. Yu, H. Wang, and R. R. Muntz. Loadstar: A load shedding
scheme for classifying data streams. In Proceedings SIAM International
Conference on Data Mining (SDM), 2005.
[46] J. Chomicki, P. Godfrey, J. Gryz, and D. Liang. Skyline with presorting. In
Proceedings IEEE International Conference on Data Engineering (ICDE),
pages 717−719, 2003.
[47] G. Cormode, M. Datar, P. Indyk, and S. Muthukrishnan. Comparing data
streams using Hamming norms (How to zero in). IEEE Transactions on
Knowledge and Data Engineering, 15(3):529−540, 2003.
[48] C. Cortes, K. Fisher, D. Pregibon, and A. Rogers. Hancock: A lan-
guage for extracting signatures from data streams. In Proceedings ACM
SIGKDD International Conference on Knowledge Discovery and Data
Mining (KDD), pages 9−17, 2000.
[49] T. Dasu, S. Krishnan, S. Venkatasubramaniam, and K. Yi. An
information-theoretic approach to detecting changes in multidimensional
data streams. Technical Report CS-2005-06, Computer Science Depart-
ment, Duke University, 2005.
[50] M. Datar, A. Gionis, P. Indyk, and R. Motwani. Maintaining stream
statistics over sliding windows. In Proceedings ACM-SIAM Symposium
on Discrete Algorithms (SODA), pages 635−644, 2002.
[51] A. Deligiannakis, Y. Kotidis, and N. Roussopoulos. Hierarchical in-
network data aggregation with quality guarantees. In Proceedings Inter-
national Conference on Extending Data Base Technology (EDBT), pages
658−675, 2004.
[52] A. Demers, J. Gehrke, R. Rajaraman, N. Trigoni, and Y. Yao. The Cougar
Project: A work-in-progress report. ACM SIGMOD Record, 34(4):53−59,
2003.
224 ÂÉÂËÉÏÃÑÁÖÉÁ
[134] D. Papadias, Y. Tao, G. Fu, and B. Seeger. An optimal and progressive al-
gorithm for skyline queries. In Proceedings ACM International Conference
on Management of Data (SIGMOD), pages 467−478, 2003.
[135] D. Papadias, Y. Tao, G. Fu, and B. Seeger. Progressive skyline com-
putation in database systems. ACM Transactions on Database Systems,
30(1):41−82, 2005.
[136] A. N. Papadopoulos, A. Lyritsis, A. Nanopoulos, and Y. Manolopoulos.
Domination mining and querying. In Proceedings International Confer-
ence on Data Warehousing and Knowledge Discovery (DaWaK), pages
145−156, 2007.
[137] S. Park, W. W. Chu, J. Yoon, and C. Hsu. Ecient searches for simi-
lar subsequences of dierent lengths in sequence databases. In Proceed-
ings IEEE International Conference on Data Engineering (ICDE), pages
23−32, 2000.
[138] J. Pei, W. Jin, M. Ester, and Y. Tao. Catching the best views of skyline:
A semantic approach based on decisive subspaces. In Proceedings Inter-
national Conference on Very Large Databases (VLDB), pages 253−264,
2005.
[139] J. Pei, X. Zhang, M. Cho, H. Wang, and P. S. Yu. Maple: A fast algorithm
for maximal pattern-based clustering. In Proceedings IEEE International
Conference on Data Mining (ICDM), pages 259−266, 2003.
[140] D. M. Pennock, G. W. Flake, S. Lawrence, E. J. Glover, and C. L. Giles.
Winners don't take all: Characterizing the competition for links on the
Web. Proceedings the National Academy of Sciences, 99(8):5207−5211,
2002.
[141] C. M. Procopiuc, M. Jones, P. K. Agarwal, and T. M. Murali. A monte
carlo algorithm for fast projective clustering. In Proceedings ACM Inter-
national Conference on Management of Data (SIGMOD), pages 418−427,
2002.
[142] S. Ratnasamy, B. Karp, S. Shenker, D. Estrin, R. Govindan, L. Yin, and
F. Yu. Data-centric storage in sensornets with GHT: A geographic hash
table. ACM Mobile Networks and Applications, 8(4):427−442, 2003.
[143] L. Sacchi, R. Bellazzi, C. Larizza, P. Magni, T. Curk, U. Petrovic, and
B. Zupan. Clustering and classifying gene expressions data through tem-
poral abstractions. In Proceedings Workshop on Intelligence Data Analysis
in Medicine and Pharmacology (IDAMAP), 2003.
232 ÂÉÂËÉÏÃÑÁÖÉÁ
[178] M. Younis and K. Akkaya. Strategies and techniques for node placement
in wireless sensor networks: A survey. Ad Hoc Networks, 6:621−655, 2008.
[179] Y. Yuan, X. Lin, Q. Liu, W. Wang, J. X. Yu, and Q. Zhang. Ecient
computation of the skyline cube. In Proceedings International Conference
on Very Large Databases (VLDB), pages 241−252, 2005.
[180] D. Zeinalipour-Yazti, Z. Vagena, D. Gunopulos, V. Kalogeraki, V. J. Tso-
tras, M. Vlachos, N. Koudas, and D. Srivastava. The threshold join al-
gorithm for top-k queries in distributed sensor networks. In Proceedings
ACM International Workshop on Data Management in Sensor Networks
(DMSN), pages 61−66, 2005.
[181] L. Zhang, Z. Li, M. Yu, and G. Zhao. New sampling-based summary
structures for sliding windows over data streams. In Proceedings Inter-
national Conference on Intelligent Computing (ICIC), pages 1242−1249,
2007.
[182] W. Zhang and G. Cao. Optimizing tree reconguration for mobile tar-
get tracking in sensor networks. In Proceedings IEEE International Con-
ference on Computer Communications (INFOCOM), pages 2434−2445,
2004.
[183] Y. Zhu and D. Shasha. StatStream: Statistical monitoring of thousands
of data streams in real time. In Proceedings International Conference on
Very Large Databases (VLDB), pages 358−369, 2002.
236 ÂÉÂËÉÏÃÑÁÖÉÁ
ÐÁÑÁÑÔÇÌÁ A
Ëßóôá åñåõíçôéêþí åñãáóéþí
ÐåñéïäéêÜ äéåèíÞ ìå êñéôÝò
1. M. Kontaki, A.N. Papadopoulos, and Y. Manolopoulos: \Continuous Sub-
space Clustering in Streaming Time Series", Information Systems (Else-
vier), Vol.33, No.2, pp.240-260, 2008.
2. M. Kontaki, A.N. Papadopoulos, and Y. Manolopoulos: \Adaptive Simi-
larity Search in Streaming Time Series with Sliding Window", Data and
Knowledge Engineering (Elsevier), Vol.63, No.2, pp.478-502, 2007.
237
238 ÐÁÑÁÑÔÇÌÁ A. ËÉÓÔÁ ÅÑÅÕÍÇÔÉÊÙÍ ÅÑÃÁÓÉÙÍ