You are on page 1of 260

ÌÅÈÏÄÏÉ ÅÎÏÑÕÎÇÓ ÊÁÉ ÅÐÅÎÅÑÃÁÓÉÁÓ

ÅÑÙÔÇÌÁÔÙÍ ÓÅ ÑÏÅÓ ÄÅÄÏÌÅÍÙÍ

Ìáñßá É. ÊïíôÜêç

ÄÉÄÁÊÔÏÑÉÊÇ ÄÉÁÔÑÉÂÇ
ÅÃÊÑÉÈÅÉÓÁ ÁÐÏ ÔÏ ÔÌÇÌÁ ÐËÇÑÏÖÏÑÉÊÇÓ
ÔÏÕ ÁÑÉÓÔÏÔÅËÅÉÏÕ ÐÁÍÅÐÉÓÔÇÌÉÏÕ ÈÅÓÓÁËÏÍÉÊÇÓ

Éïýíéïò 2009
II

Ôï Ýñãï õëïðïéåßôáé óôï ðëáßóéï ôïõ ÌÝôñïõ 8.3 ôïõ Å.Ð. Áíôáãùíéóôéêüôçôá
Ã' Êïéíïôéêü Ðëáßóéï ÓôÞñéîçò êáé óõã÷ñçìáôïäïôåßôáé êáôÜ 75% ôçò Äçìüóéáò
ÄáðÜíçò áðü ôçí ÅõñùðáúêÞ ´Åíùóç - Åõñùðáúêü Êïéíùíéêü Ôáìåßï êáé 25% ôçò
Äçìüóéáò ÄáðÜíçò áðü ôï Åëëçíéêü Äçìüóéï - Õðïõñãåßï ÁíÜðôõîçò - ÃåíéêÞ
Ãñáììáôåßá ¸ñåõíáò êáé Ôå÷íïëïãßáò
ç äéáôñéâÞ áöéåñþíåôáé

óôç ìçôÝñá ìïõ


Áãïñßôóá

êáé óôç ìíÞìç ôùí


ÉùÜííç ÊïíôÜêç
êáé
ÉùÜííç ×ïìÝëá
Óýíïøç êáé êõñéüôåñá
åðéôåýãìáôá ôçò äéáôñéâÞò
Ç ðáñïýóá äéáôñéâÞ ðñáãìáôåýåôáé ôç äéá÷åßñéóç ðëçñïöïñßáò óå ñïÝò äåäïìÝíùí
ìå óêïðü ôç ìåßùóç ôïõ ÷ñüíïõ áðüêñéóçò êáé êáôÜ óõíÝðåéá ôç âåëôßùóç ôçò
åîõðçñÝôçóçò ôùí ÷ñçóôþí áíôéìåôùðßæïíôáò ôáõôü÷ñïíá ôï æÞôçìá ôùí áðáé-
ôÞóåùí ìíÞìçò, ôï ïðïßï áðïôåëåß óïâáñü ðåñéïñéóìü óôéò ñïÝò äåäïìÝíùí êáé
Ý÷åé áðáó÷ïëÞóåé éäéáßôåñá ôçí åñåõíçôéêÞ êïéíüôçôá.
ÓõãêåêñéìÝíá, åóôéÜæåé ôï åíäéáöÝñïí ôçò óôçí åîüñõîç äåäïìÝíùí, üðùò
ïìáäïðïßçóç êáé êáôçãïñéïðïßçóç ñïþí, áíáðôýóóïíôáò Ýíáí áõîçôéêü áëãü-
ñéèìï ìå ÷áìçëÝò áðáéôÞóåéò ìíÞìçò. ÅîåôÜæåé ôï æÞôçìá ôçò åýñåóçò ïìïéüôçôáò
ìåôáîý äéáöïñåôéêþí ñïþí äåäïìÝíùí ðñïôåßíïíôáò ìéá íÝá äïìÞ êáôÜëëçëç ãéá
ñïÝò. ÅðéðëÝïí åðéíïåß êáéíïôüìïõò áëãïñßèìïõò ãéá ôçí áîéïëüãçóç óõíå÷þí
åñùôçìÜôùí ðñïôßìçóçò óå ñïÝò äåäïìÝíùí. Åéäéêüôåñá äéåñåõíÞèçêáí ñïÝò äå-
äïìÝíùí ðïõ ðñïêýðôïõí áðü äßêôõá áéóèçôÞñùí, ðáñïõóéÜæïíôáò íÝá åñùôÞìáôá
ãéá ôçí åîáãùãÞ ãíþóçò, êáèþò åðßóçò ðñïôÜèçêáí êáé êáôÜëëçëïé áëãüñéèìïé
ãéá ôçí áîéïëüãçóÞ ôïõò.
Ïé êõñéüôåñåò óõíåéóöïñÝò ôçò äéáôñéâÞò óõíïøßæïíôáé óôá áêüëïõèá:
➣ Ç åðéíüçóç áëãïñßèìùí ãéá ôçí ïìáäïðïßçóç êáé êáôçãïñéïðïßçóç ñïþí
äåäïìÝíùí ìå âÜóç ôçí ôÜóç ôçò ñïÞò. Ç óõãêåêñéìÝíç ðñïóÝããéóç ðá-
ñïõóßáóå éäéáßôåñá èåôéêÜ áðïôåëÝóìáôá, äéüôé ç ÷ñÞóç ôçò ôÜóçò ìåéþíåé
ôéò áðáéôÞóåéò ìíÞìçò êáé åðéðëÝïí óõíåéóöÝñåé óôçí åîáãùãÞ êáëýôåñùí
ðïéïôéêÜ áðïôåëåóìÜôùí. ÐáñÜëëçëá ðñïôÜèçêå óõãêåêñéìÝíç äïìÞ ãéá
ôçí ôá÷ýôåñç äéá÷åßñéóç ôùí äåäïìÝíùí. ÔÝëïò, ðñïôÜèçêáí ìÝôñï ïìïéü-
ôçôáò, êñéôÞñéá óõíÝíùóçò êáé äéá÷ùñéóìïý, ãåãïíüò ðïõ êáèéóôÜ ôï óõ-
ãêåêñéìÝíï áëãüñéèìï ùò ôï ìïíáäéêü áëãüñéèìï ïìáäïðïßçóçò óå ñïÝò
äåäïìÝíùí ìå ôç äõíáôüôçôá áõôüìáôçò áíáãíþñéóçò ôïõ ðëÞèïõò ôùí ïìÜ-
äùí. ÅðéðëÝïí ìåëåôÞèçêå êáé ôï æÞôçìá ôçò ïìáäïðïßçóçò óå õðï÷þñïõò.
➣ Ç ó÷åäßáóç ìéáò ôå÷íéêÞò ãéá ôçí áîéïëüãçóç åñùôçìÜôùí ïìïéüôçôáò
ñïþí êáèþò êáé ç ðñüôáóç êáôÜëëçëçò äïìÞò ãéá ñïÝò äåäïìÝíùí. ×ñçóé-
ìïðïéÞèçêå ç ôå÷íéêÞ ôçò ìåßùóçò äéáóôÜóåùí ìå ôçí åöáñìïãÞ ôïõ Äéáêñé-

V
VI

ôïý Ìåôáó÷çìáôéóìïý Fourier (DFT). Ðñüêåéôáé ãéá Ýíá ìåôáó÷çìáôéóìü


ìå ìåãÜëï êüóôïò êáé ãé' áõôü ðñïôÜèçêå Ýíáò áõîçôéêüò ôñüðïò õðïëï-
ãéóìïý ôïõ. Åðéðñüóèåôá, ðñïôÜèçêå ìéá ðáñáëëáãÞ ôçò äïìÞò R*-tree ìå
äéÜöïñåò ðïëéôéêÝò åíçìÝñùóçò ôçò äïìÞò, ðñïêåéìÝíïõ íá åßíáé äõíáôÞ êáé
áðïôåëåóìáôéêÞ ç ÷ñÞóç ôçò óå ñïÝò äåäïìÝíùí.
➣ Ç ó÷åäßáóç êáé ç õëïðïßçóç áõîçôéêþí áëãïñßèìùí ãéá ôçí áðïôåëåóìá-
ôéêÞ áîéïëüãçóç åñùôçìÜôùí ðñïôßìçóçò, üðùò ôá ëåãüìåíá k-dominant
skyline êáé ôá top-k dominating queries. ¼ëïé ïé ðñïôåéíüìåíïé áëãü-
ñéèìïé åßíáé êáéíïôüìïé óôï óõãêåêñéìÝíï ôïìÝá, äéüôé Þôáí ç ðñþôç ðñï-
óðÜèåéá áîéïëüãçóçò ôùí óõãêåêñéìÝíùí åñùôçìÜôùí óå ñïÝò äåäïìÝíùí.
ËáìâÜíïõí õðüøç ôüóï ôéò éäéüôçôåò ôùí åñùôçìÜôùí üóï êáé ôùí ñïþí
äåäïìÝíùí, áëëÜ êáé ÷ñçóéìïðïéïýí óôï ìÝãéóôï ôéò äõíáôüôçôåò ôçò äïìÞò
ìå áðïôÝëåóìá ç ðåéñáìáôéêÞ ìåëÝôç íá åðéâåâáéþíåé ôçí êáôáëëçëüôçôÜ
ôïõò óôéò ñïÝò äåäïìÝíùí.
➣ Ç åéóáãùãÞ åíüò êáéíïýñãéïõ åñùôÞìáôïò, ôïõ -ãåéôïíéÜò k-êÜëõøçò åñù-
ôÞìáôïò óå äßêôõá áéóèçôÞñùí. Ôï åñþôçìá áðïôåëåß ãåíßêåõóç ãíùóôþí
åñùôçìÜôùí, üðùò ôá ëåãüìåíá kyband êáé top-k. Ôá äßêôõá áéóèçôÞñùí
áðïôåëïýí ìßá åéäéêÞ ðåñßðôùóç ôùí ñïþí äåäïìÝíùí, äéüôé Ý÷ïõí åðéðëÝïí
ðåñéïñéóìïýò üðùò ç êáôáíÜëùóç åíÝñãåéáò êáé ç äéÜñêåéá æùÞò, ôá ïðïßá
ðñÝðåé íá ëáìâÜíïíôáé õðüøç êáôÜ ôç ó÷åäßáóç áëãïñßèìùí. Áëãüñéèìïé
êáôÜëëçëïé ãéá äßêôõá áéóèçôÞñùí ðñïôÜèçêáí ãéá ôçí áîéïëüãçóç ôïõ
åñùôÞìáôïò ôüóï óå ìïíïäéÜóôáôá üóï êáé óå ðïëõäéÜóôáôá äåäïìÝíá.
Óýíôïìï Âéïãñáöéêü

Ç Ìáñßá ÊïíôÜêç ãåííÞèçêå óôç Èåóóáëïíßêç óôéò 1 Äåêåìâñßïõ 1980.


¸ëáâå ôï Ðôõ÷ßï ÐëçñïöïñéêÞò ôïí Éïýíéï ôïõ 2002 áðü ôï ÔìÞìá Ðëçñï-
öïñéêÞò ôïõ Áñéóôïôåëåßïõ Ðáíåðéóôçìßïõ Èåóóáëïíßêçò êáé ôï Äéäáêôïñéêü
Äßðëùìá ôïí Éïýíéï ôïõ 2009 áðü ôï ßäéï ôìÞìá. Ôá åñåõíçôéêÜ ôçò åíäéá-
öÝñïíôá ðåñéëáìâÜíïõí, åðåîåñãáóßá ñïþí äåäïìÝíùí, åîüñõîç äåäïìÝíùí êáé
äéá÷åßñéóç äåäïìÝíùí áðü äßêôõá áéóèçôÞñùí.
Åõ÷áñéóôßåò
Èá Þèåëá íá åõ÷áñéóôÞóù èåñìÜ ôïí åðéâëÝðïíôá êáèçãçôÞ ìïõ, ê. ÉùÜííç
Ìáíùëüðïõëï, ãéá ôçí åðéóôçìïíéêÞ ôïõ äéïñáôéêüôçôá ðïõ ìå ïäÞãçóå óôçí
åêðüíçóç ôçò óõãêåêñéìÝíçò äéáôñéâÞò áëëÜ êáé ãéá ôçí åìðéóôïóýíç êáé ôçí
õðïóôÞñéîç ðïõ ìïõ ðáñåß÷å üëá áõôÜ ôá ÷ñüíéá. Åðßóçò èá Þèåëá íá ôïí åõ÷á-
ñéóôÞóù ãéá ôç äõíáôüôçôá ðïõ ìïõ Ýäùóå íá óõììåôÝ÷ù óå åñåõíçôéêÜ Ýñãá,
ãåãïíüò ðïõ ìïõ ðñüóöåñå ôüóï ðïëýôéìç åðáããåëìáôéêÞ åìðåéñßá üóï êáé óçìá-
íôéêÞ ïéêïíïìéêÞ âïÞèåéá. Åðßóçò èá Þèåëá íá åõ÷áñéóôÞóù èåñìÜ ôïí ëÝêôïñá
ê. Áðüóôïëï Ðáðáäüðïõëï ãéá ôçí óõìâïëÞ ôïõ óôçí åêðüíçóç ôçò äéáôñéâÞò
áëëÜ êáé ãéá ôéò åìðíåõóìÝíåò êáé åðïéêïäïìçôéêÝò óõæçôÞóåéò ìáò.
Èá Þèåëá åðßóçò íá åõ÷áñéóôÞóù ôïí ê. ÉùÜííç Âëá÷Üâá, êáèçãçôÞ ôïõ
ÔìÞìáôïò ÐëçñïöïñéêÞò ôïõ Á.Ð.È., êáé ôïí ê. Êùíóôáíôßíï ËÜæï, ïìüôéìï
êáèçãçôÞ ôïõ ÔìÞìáôïò ÐëçñïöïñéêÞò ôïõ Á.Ð.È., ðïõ äéåôÝëåóáí ìÝëç ôçò
ôñéìåëïýò åðéôñïðÞò åðßâëåøçò ôçò äéáôñéâÞò ìïõ, êáèþò êáé ôçí ê. ÁèçíÜ Âá-
êÜëç, áí. êáèçãÞôñéá ôïõ ÔìÞìáôïò ÐëçñïöïñéêÞò ôïõ Á.Ð.È., ôïí ê. Íéêüëáï
ÂáóéëåéÜäç, åð. êáèçãçôÞ ôïõ ÔìÞìáôïò ÐëçñïöïñéêÞò ôïõ Á.Ð.È. êáé ôïí ê.
Ìé÷áÞë Âáóéëáêüðïõëï, áí. êáèçãçôÞ ôïõ ÔìÞìáôïò ÐëçñïöïñéêÞò ìå åöáñìï-
ãÝò óôçí ÂéïúáôñéêÞ ôïõ Ðáíåðéóôçìßïõ ÓôåñåÜò ÅëëÜäáò, ïé ïðïßïé äéåôÝëåóáí
ìÝëç ôçò åîåôáóôéêÞò åðéôñïðÞò ôçò äéáôñéâÞò ìïõ.
Åõ÷áñéóôÞóù åðßóçò üëá ôá ìÝëç ôïõ Åñãáóôçñßïõ Ôå÷íïëïãßáò êáé Åðå-
îåñãáóßáò ÄåäïìÝíùí ôïõ ÔìÞìáôïò ÐëçñïöïñéêÞò. Éäéáßôåñá åõ÷áñéóôþ ôïõò
ößëïõò êáé óõíåñãÜôåò ðïõ áðÝêôçóá åêåß, ÉùÜííç Êáñýäç, ÄçìÞôñéï Êáôóáñü
êáé Áíôþíç Óéäçñüðïõëï.
Äå èá Þèåëá íá ðáñáëåßøù íá åêöñÜóù ôéò åõ÷áñéóôßåò ìïõ óôïõò ößëïõò
êáé óõíïäïéðüñïõò ìïõ óôç æùÞ ×áñïýëá Êåñáóßäïõ, Ìáôßíá Ìðßìðç, Ãéþñãï
ÐÜëëá, ÄÞìçôñá ÐáíôåëÜêïõ, ËåõôÝñç ÔæÞìá, Ãéþñãï ÔñéáíôáöõëëÜêï êáé
×ñÞóôï Ôóéüôñá ãéá ôçí õðïìïíÞ êáé êáôáíüçóç ðïõ Ýäåéîáí üëá áõôÜ ôá ÷ñü-
íéá. Ç øõ÷ïëïãéêÞ óõìðáñÜóôáóç ðïõ ìïõ ðáñåß÷áí Þôáí êáôáëõôéêÞ ãéá ôçí
ïëïêëÞñùóç ôçò åñåõíçôéêÞò ìïõ ðñïóðÜèåéáò.
ÔÝëïò, èá Þèåëá íá åêöñÜóù ôéò ðéï èåñìÝò åõ÷áñéóôßåò ìïõ óôçí ïéêïãÝ-
íåéÜ ìïõ ãéá ôçí áìÝñéóôç óõìðáñÜóôáóÞ ôïõò üëá áõôÜ ôá ÷ñüíéá. Ôç âáèéÜ
åõãíùìïóýíç ìïõ åêöñÜæù óôç ìçôÝñá ìïõ ãéá ôçí ðïëý÷ñïíç ðñïóðÜèåéá êáé
áöïóßùóÞ ôçò êáé ôçí åìðéóôïóýíç ðïõ ìïõ åðÝäåéîå ôüóï êáôÜ ôç äéÜñêåéá ôùí
ðñïðôõ÷éáêþí üóï êáé ôùí ìåôáðôõ÷éáêþí ìïõ óðïõäþí.

IX
ÐÅÑÉÅ×ÏÌÅÍÁ
ËÉÓÔÁ Ó×ÇÌÁÔÙÍ . . . . . . . . . . . . . . . . . . . . . . . . . . . XV
ËÉÓÔÁ ÐÉÍÁÊÙÍ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XIX
1 ÅÉÓÁÃÙÃÇ ÓÔÇ ÄÉÁÔÑÉÂÇ 1
1.1 ÅÉÓÁÃÙÃÇ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 ÓÕÍÅÉÓÖÏÑÅÓ ÔÇÓ ÄÉÁÔÑÉÂÇÓ . . . . . . . . . . . . . . . . 2
1.3 ÂÉÂËÉÏÃÑÁÖÉÁ . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2 ÐÑÏÊÁÔÁÑÊÔÉÊÅÓ ÅÍÍÏÉÅÓ ÓÔÉÓ ÑÏÅÓ ÄÅÄÏÌÅÍÙÍ 7
2.1 ÅÉÓÁÃÙÃÇ ÓÔÉÓ ÑÏÅÓ ÄÅÄÏÌÅÍÙÍ . . . . . . . . . . . . . 7
2.1.1 ÅöáñìïãÝò ñïþí äåäïìÝíùí . . . . . . . . . . . . . . . . . 8
2.1.2 ÌïíôÝëá ñïþí äåäïìÝíùí . . . . . . . . . . . . . . . . . . 10
2.1.3 ÐáñáäïóéáêÜ ÓÄÂÄ êáé åöáñìïãÝò ñïþí äåäïìÝíùí . . . 11
2.1.4 Ðñùôüôõðá óõóôÞìáôá äéá÷åßñéóçò ñïþí äåäïìÝíùí . . . . 12
2.1.5 ÐñïâëÞìáôá óå ñïÝò äåäïìÝíùí . . . . . . . . . . . . . . . 14
2.1.6 ÌåôñéêÝò áðüäïóçò . . . . . . . . . . . . . . . . . . . . . . 16
2.2 ÊÁÔÇÃÏÑÉÏÐÏÉÇÓÇ ÊÉÍÏÕÌÅÍÙÍ ×ÑÏÍÏÓÅÉÑÙÍ . . . 17
2.2.1 Êáôçãïñéïðïßçóç âáóéóìÝíç óå óýíïëá . . . . . . . . . . . 18
2.2.2 Ðïëý ãñÞãïñá äÝíäñá áðüöáóçò . . . . . . . . . . . . . . . 19
2.2.3 Êáôçãïñéïðïßçóç êáôÜ áðáßôçóç . . . . . . . . . . . . . . . 19
2.2.4 Ðñïóáñìïæüìåíïò áëãüñéèìïò êáôçãïñéïðïßçóçò ãéá ñïÝò
äåäïìÝíùí âáóéóìÝíïò óôïí êïíôéíüôåñï ãåßôïíá . . . . . 20
2.3 ÏÌÁÄÏÐÏÉÇÓÇ ÊÉÍÏÕÌÅÍÙÍ ×ÑÏÍÏÓÅÉÑÙÍ . . . . . . 20
2.4 ÏÌÁÄÏÐÏÉÇÓÇ ÓÅ ÕÐÏ×ÙÑÏÕÓ . . . . . . . . . . . . . . . 22
2.4.1 Áëãüñéèìïé áðü åðÜíù ðñïò ôá êÜôù . . . . . . . . . . . . 24
2.4.2 Áëãüñéèìïé áðü êÜôù ðñïò ôá åðÜíù . . . . . . . . . . . . 25
2.5 ÅÕÑÅÓÇ ÐÁÑÏÌÏÉÙÍ ÊÉÍÏÕÌÅÍÙÍ ×ÑÏÍÏÓÅÉÑÙÍ . . 26
2.6 ÅÑÙÔÇÌÁÔÁ ÐÑÏÔÉÌÇÓÇÓ ÊÉÍÏÕÌÅÍÙÍ ×ÑÏÍÏÓÅÉ-
ÑÙÍ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.6.1 Åñþôçìá skyline . . . . . . . . . . . . . . . . . . . . . . . 28
2.6.2 Åñþôçìá k-dominant skyline . . . . . . . . . . . . . . . . 29
2.6.3 Åñþôçìá top-k . . . . . . . . . . . . . . . . . . . . . . . . 30

XI
XII ÐÅÑÉÅ×ÏÌÅÍÁ

2.6.4 Åñþôçìá top-k dominating . . . . . . . . . . . . . . . . . 31


2.7 ÅÑÙÔÇÌÁÔÁ ÓÅ ÄÉÊÔÕÁ ÁÉÓÈÇÔÇÑÙÍ . . . . . . . . . . . 32
3 ÊÁÔÇÃÏÑÉÏÐÏÉÇÓÇ ÊÉÍÏÕÌÅÍÙÍ ×ÑÏÍÏÓÅÉÑÙÍ 35
3.1 ÅÉÓÁÃÙÃÇ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2 Ó×ÅÔÉÊÇ ÂÉÂËÉÏÃÑÁÖÉÁ ÊÁÉ ÓÕÍÅÉÓÖÏÑÁ . . . . . . . . 37
3.3 ÁÍÁÐÁÑÁÓÔÁÓÇ ÔÁÓÅÙÍ ÊÁÉ ÊÁÔÇÃÏÑÉÏÐÏÉÇÓÇ . . . 39
3.3.1 Óõíüøåéò ÷ñïíïóåéñþí . . . . . . . . . . . . . . . . . . . . 39
3.3.2 Óõíå÷Þò êáôçãïñéïðïßçóç . . . . . . . . . . . . . . . . . . 41
3.4 ÐÅÉÑÁÌÁÔÉÊÇ ÌÅËÅÔÇ . . . . . . . . . . . . . . . . . . . . . 46
3.4.1 Ðïéüôçôá ôçò PLA . . . . . . . . . . . . . . . . . . . . . . 47
3.4.2 ÐåéñáìáôéêÞ áðïôßìçóç . . . . . . . . . . . . . . . . . . . . 49
3.5 ÓÕÌÐÅÑÁÓÌÁÔÁ . . . . . . . . . . . . . . . . . . . . . . . . . 51
4 ÏÌÁÄÏÐÏÉÇÓÇ ÊÉÍÏÕÌÅÍÙÍ ×ÑÏÍÏÓÅÉÑÙÍ 53
4.1 ÅÉÓÁÃÙÃÇ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.2 ÕÐÏÂÁÈÑÏ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.3 ÓÕÍÅ×ÇÓ ÏÌÁÄÏÐÏÉÇÓÇ . . . . . . . . . . . . . . . . . . . 57
4.3.1 ÓõíÜñôçóç áðüóôáóçò . . . . . . . . . . . . . . . . . . . . 57
4.3.2 Áëãüñéèìïò ïìáäïðïßçóçò . . . . . . . . . . . . . . . . . . 59
4.4 ÐÅÉÑÁÌÁÔÉÊÇ ÌÅËÅÔÇ . . . . . . . . . . . . . . . . . . . . . 62
4.5 ÓÕÌÐÅÑÁÓÌÁÔÁ . . . . . . . . . . . . . . . . . . . . . . . . . 66
5 ÓÕÍÅ×ÇÓ ÏÌÁÄÏÐÏÉÇÓÇ ÓÅ ÕÐÏ×ÙÑÏÕÓ 67
5.1 ÅÉÓÁÃÙÃÇ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.1.1 Êßíçôñï ìåëÝôçò . . . . . . . . . . . . . . . . . . . . . . . 68
5.1.2 ÓõíåéóöïñÜ . . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.2 Ó×ÅÔÉÊÇ ÂÉÂËÉÏÃÑÁÖÉÁ . . . . . . . . . . . . . . . . . . . . 71
5.3 ÁÕÎÇÔÉÊÇ ÏÌÁÄÏÐÏÉÇÓÇ . . . . . . . . . . . . . . . . . . . 72
5.3.1 Áñ÷éêïðïßçóç ïìÜäùí . . . . . . . . . . . . . . . . . . . . 75
5.3.2 ÓõíôÞñçóç ïìÜäùí . . . . . . . . . . . . . . . . . . . . . . 81
5.3.3 ÆçôÞìáôá áðüäïóçò . . . . . . . . . . . . . . . . . . . . . . 85
5.4 ÁÕÎÇÔÉÊÏÓ ÕÐÏËÏÃÉÓÌÏÓ ÔÙÍ PCLUSTERS . . . . . . . 87
5.5 ÐÅÉÑÁÌÁÔÉÊÇ ÁÐÏÔÉÌÇÓÇ . . . . . . . . . . . . . . . . . . 88
5.5.1 Óýíïëá äåäïìÝíùí . . . . . . . . . . . . . . . . . . . . . . 89
5.5.2 ÐåéñáìáôéêÜ áðïôåëÝóìáôá . . . . . . . . . . . . . . . . . 90
5.6 ÓÕÌÐÅÑÁÓÌÁÔÁ . . . . . . . . . . . . . . . . . . . . . . . . . 96
6 ÅÕÑÅÓÇ ÏÌÏÉÏÔÇÔÁÓ ÓÅ ÊÉÍÏÕÌÅÍÅÓ ×ÑÏÍÏÓÅÉÑÅÓ 99
6.1 ÅÉÓÁÃÙÃÇ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
6.2 Ó×ÅÔÉÊÇ ÂÉÂËÉÏÃÑÁÖÉÁ . . . . . . . . . . . . . . . . . . . . 101
6.3 IDC-INDEX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
ÐÅÑÉÅ×ÏÌÅÍÁ XIII

6.3.1 Áõîçôéêüò õðïëïãéóìüò DFT . . . . . . . . . . . . . . . . 106


6.3.2 ÁíáâëçôéêÞ ðïëéôéêÞ åíçìÝñùóçò . . . . . . . . . . . . . . 107
6.3.3 Ç äïìÞ IDC-Index ìå ãåíéêÞ åðÝêôáóç åñùôÞìáôïò . . . . 109
6.3.4 Ç äïìÞ IDC-Index ìå ôïðéêÞ åðÝêôáóç åñùôÞìáôïò . . . . 114
6.4 ÐÅÉÑÁÌÁÔÉÊÇ ÌÅËÅÔÇ . . . . . . . . . . . . . . . . . . . . . 118
6.4.1 Ç ìÝèïäïò VA+ -stream . . . . . . . . . . . . . . . . . . . 118
6.4.2 ÐåéñáìáôéêÜ áðïôåëÝóìáôá . . . . . . . . . . . . . . . . . 119
6.5 ÓÕÌÐÅÑÁÓÌÁÔÁ . . . . . . . . . . . . . . . . . . . . . . . . . 133
6.6 ÐÁÑÁÑÔÇÌÁ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
7 ÓÕÍÅ×Ç ÅÑÙÔÇÌÁÔÁ k-DOMINANT SKYLINE 137
7.1 ÅÉÓÁÃÙÃÇ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
7.2 Ó×ÅÔÉÊÇ ÂÉÂËÉÏÃÑÁÖÉÁ . . . . . . . . . . . . . . . . . . . . 140
7.3 ÕÐÏÂÁÈÑÏ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
7.4 ÓÕÍÅ×Ç k-DOMINANT SKYLINES . . . . . . . . . . . . . . . 143
7.4.1 ÄïìÝò äåäïìÝíùí . . . . . . . . . . . . . . . . . . . . . . . 144
7.4.2 CoSMuQ . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
7.4.3 ÓÅÍÁÑÉÏ ÑÏÙÍ . . . . . . . . . . . . . . . . . . . . . . 153
7.5 ÐÅÉÑÁÌÁÔÉÊÇ ÁÐÏÔÉÌÇÓÇ . . . . . . . . . . . . . . . . . . 154
7.6 ÓÕÆÇÔÇÓÇ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
7.7 ÓÕÌÐÅÑÁÓÌÁÔÁ . . . . . . . . . . . . . . . . . . . . . . . . . 160
8 ÓÕÍÅ×ÇÓ ÅÐÅÎÅÑÃÁÓÉÁ TOP-k DOMINATING ÅÑÙÔÇ-
ÌÁÔÙÍ 161
8.1 ÅÉÓÁÃÙÃÇ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
8.2 Ó×ÅÔÉÊÇ ÂÉÂËÉÏÃÑÁÖÉÁ . . . . . . . . . . . . . . . . . . . . 165
8.3 ÐÑÏÔÅÉÍÏÌÅÍÇ ÌÅÈÏÄÏÓ . . . . . . . . . . . . . . . . . . 167
8.4 ÂÅËÔÉÓÔÏÐÏÉÇÓÅÉÓ . . . . . . . . . . . . . . . . . . . . . . . 176
8.4.1 ÅîåëéãìÝíïò õðïëïãéóìüò ÷ñïíéêÞò óôéãìÞò ãåãïíüôïò . . 176
8.4.2 ÕðïøÞöéåò åããñáöÝò . . . . . . . . . . . . . . . . . . . . . 179
8.5 ÁÍÁËÕÓÇ ÁÐÏÄÏÓÇÓ . . . . . . . . . . . . . . . . . . . . . . 180
8.6 ÐÑÏÓÅÃÃÉÓÔÉÊÏÓ ÁËÃÏÑÉÈÌÏÓ . . . . . . . . . . . . . . . 182
8.7 ÐÅÉÑÁÌÁÔÉÊÇ ÁÐÏÔÉÌÇÓÇ . . . . . . . . . . . . . . . . . . 184
8.8 ÓÕÌÐÅÑÁÓÌÁÔÁ . . . . . . . . . . . . . . . . . . . . . . . . . 191
9 ÅÑÙÔÇÌÁ ÃÅÉÔÏÍÉÁÓ ÊÁÉ ÊÁËÕØÇÓ ÄÉÊÔÕÙÍ ÁÉÓÈÇ-
ÔÇÑÙÍ 193
9.1 ÅÉÓÁÃÙÃÇ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
9.2 ÔÏ d-ÃÅÉÔÏÍÉÁÓ k-ÊÁËÕØÇÓ ÄÅÄÏÌÅÍÙÍ ÐÑÏÂËÇÌÁ 195
9.3 ÔÏ ÐÑÙÔÏÊÏËËÏ DACON . . . . . . . . . . . . . . . . . . . . 198
9.3.1 Ìåßùóç ìçíõìÜôùí êáé óõíå÷Þò áðïôßìçóç . . . . . . . . . 202
9.4 ÁÐÏÔÉÌÇÓÇ ÁÐÏÄÏÓÇÓ . . . . . . . . . . . . . . . . . . . . 203
XIV ÐÅÑÉÅ×ÏÌÅÍÁ

9.4.1 ÃåííÞôñéá ôïðïëïãßáò äéêôýïõ . . . . . . . . . . . . . . . . 204


9.4.2 ÃåííÞôñéá äåäïìÝíùí áéóèçôÞñá . . . . . . . . . . . . . . . 204
9.4.3 ÌåëÝôç óõìðåñéöïñÜò ôïõ DaCoN . . . . . . . . . . . . . 205
9.4.4 ÐåéñáìáôéêÞ óýãêñéóç . . . . . . . . . . . . . . . . . . . . 208
9.5 Ó×ÅÔÉÊÇ ÂÉÂËÉÏÃÑÁÖÉÁ . . . . . . . . . . . . . . . . . . . . 211
9.6 ÓÕÌÐÅÑÁÓÌÁÔÁ . . . . . . . . . . . . . . . . . . . . . . . . . 212
10 ÅÐÉËÏÃÏÓ 213
10.1 ÓÕÌÐÅÑÁÓÌÁÔÁ . . . . . . . . . . . . . . . . . . . . . . . . . 213
10.2 ÄÑÏÌÏÉ ÌÅËËÏÍÔÉÊÇÓ ÅÑÅÕÍÁÓ . . . . . . . . . . . . . . 216
ÂÉÂËÉÏÃÑÁÖÉÁ 219
A ËÉÓÔÁ ÅÑÅÕÍÇÔÉÊÙÍ ÅÑÃÁÓÉÙÍ 237
ËÉÓÔÁ Ó×ÇÌÁÔÙÍ
2.1 Áñ÷éôåêôïíéêÞ ÓÄÑÄ. . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2 Áñ÷éôåêôïíéêÞ äéá÷åßñéóçò åñùôçìÜôùí óå ÓÄÑÄ. . . . . . . . . 13
2.3 Êáôçãïñéïðïßçóç áëãïñßèìùí ïìáäïðïßçóçò óå õðï÷þñïõò. . . . . 24
3.1 Ïìïéüôçôá ìå ÷ñÞóç êéíïýìåíïõ ðáñáèýñïõ ìÞêïõò W . . . . . . . 36
3.2 ÐáñÜäåéãìá ÷ñïíïóåéñÜò êáé óÞìáôïò áíôßóôïé÷ïõ T RIX (t) . . . 41
3.3 Êáôçãïñßåò ôÜóåùí ãéá äéáöïñåôéêÝò ôéìÝò ôïõ W . . . . . . . . . . 43
3.4 ÐáñÜäåéãìá áíáæÞôçóçò ñïÞò óôç äïìÞ (ìÝãåèïò êÜäïõ 3). . . . . 44
3.5 Áëãüñéèìïò åéóáãùãÞò. . . . . . . . . . . . . . . . . . . . . . . . 45
3.6 Áëãüñéèìïò áíáæÞôçóçò. . . . . . . . . . . . . . . . . . . . . . . . 45
3.7 Áëãüñéèìïò õðïëïãéóìïý ÷ñüíïõ åéóáãùãÞò. . . . . . . . . . . . . 46
3.8 Áëãüñéèìïò äéáãñáöÞò. . . . . . . . . . . . . . . . . . . . . . . . . 46
3.9 Ðáñáäåßãìáôá êáôçãïñéïðïßçóçò. . . . . . . . . . . . . . . . . . . 48
3.10 ÐëÞèïò ïìÜäùí ùò ðñïò ôï ìÞêïò ðáñáèýñïõ ãéá ôá óýíïëá äå-
äïìÝíùí: (á) TAO, êáé (â) STOCKS. . . . . . . . . . . . . . . . . 48
3.11 (á) Óõíïëéêü êüóôïò CPU, êáé (â)êüóôïò CPU ãéá ôéò PLA ùò
ðñïò ìÞêïò ðáñáèýñïõ. . . . . . . . . . . . . . . . . . . . . . . . . 49
3.12 (á) Êüóôïò CPU, êáé (b) áðáéôÞóåéò ìíÞìçò ãéá ôéò PLA ùò ðñïò
ôï ðëÞèïò ôùí ñïþí (TAO). . . . . . . . . . . . . . . . . . . . . . 50
4.1 Êïéíü ôìÞìá äýï PLAs. . . . . . . . . . . . . . . . . . . . . . . . 58
4.2 ÐåñéãñáöÞ áëãïñßèìïõ CTCS. . . . . . . . . . . . . . . . . . . . . 61
4.3 ÐïéïôéêÞ óýãêñéóç óõíôåëåóôþí: (á) Silhouette, (â) Jaccard, êáé
(ã) Rand óôï SYNTH. . . . . . . . . . . . . . . . . . . . . . . . . 63
4.4 ÐïéïôéêÞ óýãêñéóç: (á) óõíôåëåóôÞò Silhouette, êáé (â) Óýãêñéóç
ïìáäïðïßçóçò ùò ðñïò ôï ðëÞèïò ôùí ñïþí (STOCK). . . . . . . 64
4.5 Êüóôïò CPU ùò ðñïò (á) ôï ðëÞèïò ôùí ñïþí, êáé (â) ôï ìÝãåèïò
ðáñáèýñïõ (STOCK). . . . . . . . . . . . . . . . . . . . . . . . . 65
4.6 Êüóôïò CPU ùò ðñïò ôï ðëÞèïò ñïþí (SYNTH). . . . . . . . . . 65
5.1 ÐáñÜäåéãìá ïìáäïðïßçóçò óå õðï÷þñïõò. . . . . . . . . . . . . . 69
5.2 Áñ÷éêïðïßçóç ïìÜäùí. . . . . . . . . . . . . . . . . . . . . . . . . 76

XV
XVI ËÉÓÔÁ Ó×ÇÌÁÔÙÍ

5.3 Áñ÷éêïðïßçóç ïìÜäùí (óõíÝ÷åéá). . . . . . . . . . . . . . . . . . . 77


5.4 Áñ÷éêïðïßçóç ïìÜäùí (óõíÝ÷åéá). . . . . . . . . . . . . . . . . . . 78
5.5 ÐåñéãñáöÞ áëãïñßèìïõ CI. . . . . . . . . . . . . . . . . . . . . . . 80
5.6 ÁðëÝò -ïìÜäåò ìåôÜ ôçí Üöéîç ôçò d5 . . . . . . . . . . . . . . . . 82
5.7 ÐåñéãñáöÞ áëãïñßèìïõ CM-UPALL. . . . . . . . . . . . . . . . . 83
5.8 ÐåñéãñáöÞ áëãïñßèìïõ CM-UPONE. . . . . . . . . . . . . . . . . 84
5.9 Åðßäñáóç êñéôçñßùí áðüññéøçò ãéá óýíïëï äåäïìÝíùí STOCKS. . 86
5.10 ×ñüíïò áðüêñéóçò ùò ðñïò: (á) ôï ìÝãåèïò êéíïýìåíïõ ðáñáèýñïõ
êáé (â) ôï ðëÞèïò ôùí ñïþí. . . . . . . . . . . . . . . . . . . . . . 90
5.11 ×ñüíïò áðüêñéóçò ùò ðñïò: (á) minRows, êáé (â) minCols. . . . 91
5.12 ×ñüíïò áðüêñéóçò ùò ðñïò: (á) minRows, êáé (â) minCols (STOCKS). 92
5.13 ×ñüíïò áðüêñéóçò ùò ðñïò: (á) minRows; minCols ìå =0.2,
êáé (â) minRows; ìå minCols=5 (STOCKS). . . . . . . . . . . 92
5.14 Ðáñáäåßãìáôá ìÝãéóôùí -ïìÜäùí õðï÷þñïõ óôï ECG. . . . . . 94
5.15 ×ñüíïò áðüêñéóçò ùò ðñïò minRows ìå minCols=4, W =30 (TAO). 95
5.16 ×ñüíïò áðüêñéóçò ùò ðñïò ìÝãåèïò êéíïýìåíïõ ðáñáèýñïõ ìå
minRows = 25; minCols = 5 (STOCKS). . . . . . . . . . . . . . 95
5.17 ×ñüíïò áðüêñéóçò ùò ðñïò ôï ðëÞèïò ôùí ñïþí ìå W =30, minCols=5
(SYNTHETIC). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
5.18 CI-pScore vs. MaPle (YEAST). . . . . . . . . . . . . . . . . . . . 96
5.19 Ðáñáäåßãìáôá  -pClusters (STOCKS). . . . . . . . . . . . . . . . 97
6.1 Ïìïéüôçôá êéíïýìåíùí ÷ñïíïóåéñþí. . . . . . . . . . . . . . . . . 102
6.2 Áñ÷éôåêôïíéêÞ óõóôÞìáôïò. . . . . . . . . . . . . . . . . . . . . . 105
6.3 ÁíáâëçôéêÞ ðïëéôéêÞ åíçìÝñùóçò. . . . . . . . . . . . . . . . . . . 109
6.4 Ðñïóäéïñéóìüò ôçò ∆u . . . . . . . . . . . . . . . . . . . . . . . . . 110
6.5 ÐåñéãñáöÞ áëãïñßèìïõ åðåîåñãáóßáò åñùôÞìáôïò äéáóôÞìáôïò. . . 113
6.6 ÐåñéãñáöÞ áëãïñßèìïõ åðåîåñãáóßáò åñùôÞìáôïò k êïíôéíüôåñùí
ãåéôüíùí. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
6.7 ÄïìÞ IDC-Index ìå ôïðéêÞ ∆q . . . . . . . . . . . . . . . . . . . . 117
6.8 ÐáñÜäåéãìá ìåèüäïõ VA+ -stream. . . . . . . . . . . . . . . . . . 118
6.9 (á) Êüóôïò CPU, êáé (â) ðñïóðåëÜóåéò äßóêïõ ùò ðñïò e ãéá
STOCKS (\åëáöñýò" öüñôïò åñãáóéþí). . . . . . . . . . . . . . . 122
6.10 (á) Êüóôïò CPU. êáé (â) ðñïóðåëÜóåéò äßóêïõ ùò ðñïò e ãéá TAO
(\åëáöñýò" öüñôïò åñãáóéþí). . . . . . . . . . . . . . . . . . . . . 123
6.11 (á) Êüóôïò CPU, êáé (â) ðñïóðåëÜóåéò äßóêïõ ùò ðñïò e ãéá
STOCKS (\âáñýò" öüñôïò åñãáóéþí). . . . . . . . . . . . . . . . 123
6.12 (á) Êüóôïò CPU, êáé (â) ðñïóðåëÜóåéò äßóêïõ ùò ðñïò e ãéá TAO
(\âáñýò" öüñôïò åñãáóéþí). . . . . . . . . . . . . . . . . . . . . . 124
6.13 (á) Êüóôïò CPU, êáé (â) ðñïóðåëÜóåéò äßóêïõ ùò ðñïò ôï öüñôï
åñãáóéþí ãéá TAO. . . . . . . . . . . . . . . . . . . . . . . . . . . 124
ËÉÓÔÁ Ó×ÇÌÁÔÙÍ XVII

6.14 Hit ratio ùò ðñïò ôï ðëÞèïò óõíôåëåóôþí DFT ãéá: (á) STOCKS,
êáé (â) TAO. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
6.15 (á) Êüóôïò CPU, êáé (â) ðñïóðåëÜóåéò äßóêïõ ùò ðñïò ôï ðëÞèïò
óõíôåëåóôþí DFT ãéá TAO. . . . . . . . . . . . . . . . . . . . . . 125
6.16 Êüóôïò CPU ùò ðñïò ôï ðïóïóôü åíçìÝñùóçò (U ) ãéá TAO. . . 126
6.17 (á) Êüóôïò CPU, êáé (â) ðñïóðåëÜóåéò äßóêïõ ùò ðñïò ôï ìÝãåèïò
ðáñáèýñïõ ãéá TAO. . . . . . . . . . . . . . . . . . . . . . . . . . 126
6.18 ÁðáéôÞóåéò ÷þñïõ ôùí IDC-Index êáé VA+ -stream ùò ðñïò ìÝãå-
èïò êéíïýìåíïõ ðáñáèýñïõ ãéá: (á) STOCKS, êáé (â) TAO. . . . 127
6.19 (á) Êüóôïò CPU, êáé (â) ðñïóðåëÜóåéò äßóêïõ ùò ðñïò k (STOCKS).128
6.20 (á) Êüóôïò CPU, êáé (â) ðñïóðåëÜóåéò äßóêïõ ùò ðñïò k (TAO). 128
6.21 (á) Êüóôïò CPU, êáé (â) ðñïóðåëÜóåéò äßóêïõ ùò ðñïò öüñôï
åñãáóéþí (TAO). . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
6.22 ÐñïóðåëÜóåéò äßóêïõ ùò ðñïò ìÝãåèïò åíäéÜìåóçò ìíÞìçò (TAO). 129
6.23 ÐëÞèïò õðïøÞöéùí ÷ñïíïóåéñþí ùò ðñïò ðëÞèïò óõíôåëåóôþí DFT
ãéá: (á) STOCKS, êáé (â) TAO. . . . . . . . . . . . . . . . . . . 130
6.24 (á) Êüóôïò CPU, êáé (â) ðñïóðåëÜóåéò äßóêïõ ùò ðñïò ìÝãåèïò
êéíïýìåíïõ ðáñáèýñïõ (STOCKS). . . . . . . . . . . . . . . . . . 130
6.25 Êüóôïò CPU ùò ðñïò ðïóïóôü ñïþí ðïõ åíçìåñþíïíôáé (TAO,
k=10). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
6.26 Êüóôïò CPU ùò ðñïò ðïóïóôü ñïþí ðïõ åíçìåñþíïíôáé (TAO,
k=1000). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
6.27 (á) Êüóôïò CPU åñùôÞìáôïò, êáé (â) óõíïëéêü êüóôïò ùò ðñïò
k (\åëáöñýò" öüñôïò åñãáóéþí). . . . . . . . . . . . . . . . . . . . 132
7.1 ÐáñÜäåéãìá skyline. . . . . . . . . . . . . . . . . . . . . . . . . . 139
7.2 ÐáñÜäåéãìá äïìÞò äåäïìÝíùí. . . . . . . . . . . . . . . . . . . . . 145
7.3 ÐáñÜäåéãìá ëéóôþí åñùôçìÜôùí êáé õðïåñùôçìÜôùí. . . . . . . . 145
7.4 ÔéìÝò äåäïìÝíùí êáé ðëåãìÜôùí. . . . . . . . . . . . . . . . . . . 146
7.5 ÐåñéãñáöÞ áëãïñßèìïõ CoSMuQ-insert. . . . . . . . . . . . . . . 150
7.6 (á) ×ñüíïò áðüêñéóçò, êáé (â) áðáéôÞóåéò ìíÞìçò ùò ðñïò ðëÞèïò
êåëéþí (Independent). . . . . . . . . . . . . . . . . . . . . . . . . 155
7.7 ×ñüíïò áðüêñéóçò ùò ðñïò ðëÞèïò åããñáöþí. . . . . . . . . . . . 156
7.8 ×ñüíïò áðüêñéóçò ùò ðñïò ðëÞèïò äéáóôÜóåùí. . . . . . . . . . . 156
7.9 ×ñüíïò áðüêñéóçò ùò ðñïò ðëÞèïò åñùôçìÜôùí. . . . . . . . . . . 157
7.10 ×ñüíïò áðüêñéóçò ùò ðñïò ðëÞèïò äéáóôÜóåùí åñùôçìÜôùí. . . . 158
7.11 ÄïìÞ äåäïìÝíùí ãéá õðïåñùôÞìáôá. . . . . . . . . . . . . . . . . . 159
8.1 Ðáñáäåßãìáôá åñùôçìÜôùí ðñïôßìçóçò. . . . . . . . . . . . . . . . 163
8.2 ÐáñÜäåéãìá êáíïíéêïý ðëÝãìáôïò. . . . . . . . . . . . . . . . . . 168
8.3 ÐáñÜäåéãìá õðïëïãéóìïý ÷ñïíéêÞò óôéãìÞò ãåãïíüôïò. . . . . . . 171
8.4 ÓåéñÜ äéÜó÷éóçò êßíçóçò öéäéïý. . . . . . . . . . . . . . . . . . . . 173
XVIII ËÉÓÔÁ Ó×ÇÌÁÔÙÍ

8.5 ÐåñéãñáöÞ áëãïñßèìïõ UpdateTopk. . . . . . . . . . . . . . . . . 175


8.6 ÅîåëéãìÝíïò õðïëïãéóìüò ÷ñïíéêÞò óôéãìÞò ãåãïíüôïò. . . . . . . 178
8.7 ÐáñÜäåéãìá õðïëïãéóìïý åýñïõò. . . . . . . . . . . . . . . . . . . 183
8.8 (á) Êüóôïò CPU, êáé (â) Ýëåã÷ïé êõñéáñ÷ßáò ùò ðñïò ìÝãåèïò
ðáñáèýñïõ (IND). . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
8.9 (á) Êüóôïò CPU, êáé (â) Ýëåã÷ïé êõñéáñ÷ßáò ùò ðñïò ìÝãåèïò
ðáñáèýñïõ (ANTI). . . . . . . . . . . . . . . . . . . . . . . . . . . 186
8.10 (á) Êüóôïò CPU ùò ðñïò ðëÞèïò äéáóôÜóåùí. . . . . . . . . . . 186
8.11 ¸ëåã÷ïé êõñéáñ÷ßáò ùò ðñïò ðëÞèïò äéáóôÜóåùí. . . . . . . . . . 187
8.12 Êüóôïò CPU ùò ðñïò k. . . . . . . . . . . . . . . . . . . . . . . . 188
8.13 (á) Êüóôïò CPU, êáé (â) ðëÞèïò ãåãïíüôùí ùò ðñïò ðïóïóôü
ëçãìÝíùí ãåãïíüôùí ðïõ ÷ñçóéìïðïéïýíôáé (FC). . . . . . . . . . 191
9.1 Åñþôçìá d-ãåéôïíéÜò k-êÜëõøçò äåäïìÝíùí óå Ýíá ÁÄÁ. . . . . . 196
9.2 Åðßäñáóç ìåãÝèïõò äéêôýïõ (ðëÞèïò ïìÜäùí óôáèåñü) óå: (á) ðëÞ-
èïò ìçíõìÜôùí, êáé (â) ðëÞèïò åíåñãþí áéóèçôÞñùí. . . . . . . . 205
9.3 Åðßäñáóç ìåãÝèïõò äéêôýïõ (áõîáíüìåíï ðëÞèïò ïìÜäùí ìå ìÝãå-
èïò äéêôýïõ) óå: (á) ðëÞèïò ìçíõìÜôùí, êáé (â) ðëÞèïò åíåñãþí
áéóèçôÞñùí. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
9.4 Åðßäñáóç óõíäåóéìüôçôáò äéêôýïõ óå: (á) ðëÞèïò ìçíõìÜôùí, êáé
(â) ðëÞèïò åíåñãþí áéóèçôÞñùí. . . . . . . . . . . . . . . . . . . . 206
9.5 Åðßäñáóç k óôï ðëÞèïò åíåñãþí áéóèçôÞñùí óå: (á) ìéêñÜ äßêôõá
gn=500, êáé (â) ìåãáëýôåñá äßêôõá gn=1000. . . . . . . . . . . . 207
9.6 Åðßäñáóç óôçí êáôáíÜëùóç åíÝñãåéáò ôïõ: (á) k, êáé (â) ðëÞèïõò
áéóèçôÞñùí äéêôýïõ (d=3). . . . . . . . . . . . . . . . . . . . . . . 209
9.7 Åðßäñáóç ðëÞèïõò áéóèçôÞñùí äéêôýïõ óôçí êáôáíÜëùóç åíÝñãåéáò
(d=3). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
9.8 Åðßäñáóç óôçí êáôáíÜëùóç åíÝñãåéáò ôïõ: (á) ðëÞèïõò áéóèçôÞ-
ñùí äéêôýïõ, êáé (â) ìåãÝèïõò ðáñáèýñïõ óôç óõíå÷Þ áðïôßìçóç
(d=3). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
ËÉÓÔÁ ÐÉÍÁÊÙÍ
2.1 ÃåíéêÜ ìïíôÝëá áëãïñßèìùí áíÜ êáôçãïñßá. . . . . . . . . . . . . 18
3.1 ÂáóéêÜ óýìâïëá Êåöáëáßïõ 3. . . . . . . . . . . . . . . . . . . . . 40
3.2 ÁðáéôÞóåéò ìíÞìçò ùò ðñïò ôï ìÝãåèïò ðáñáèýñïõ (STOCKS). . . 49
3.3 Óõíïëéêü êüóôïò CPU êáé áðáéôÞóåéò ìíÞìçò êáôçãïñéïðïßçóçò
ùò ðñïò ìÝãåèïò êÜäïõ (TAO). . . . . . . . . . . . . . . . . . . . 50
4.1 ÂáóéêÜ óýìâïëá Êåöáëáßïõ 4. . . . . . . . . . . . . . . . . . . . . 56
4.2 ÁíÜëõóç ðïëõðëïêüôçôáò ôïõ CTCS. . . . . . . . . . . . . . . . . 61
4.3 ÐëÞèïò ïìÜäùí óôï ÷ñüíï (SYNTH). . . . . . . . . . . . . . . . 64
5.1 ÂáóéêÜ óýìâïëá Êåöáëáßïõ 5. . . . . . . . . . . . . . . . . . . . . 73
5.2 Óôïé÷åéþäåéò ëåéôïõñãßåò áðáéôïýìåíåò áðü ôïõò áëãïñßèìïõò CI,
CM-UPALL êáé CM-UPONE. . . . . . . . . . . . . . . . . . . . . 86
5.3 ÐëÞèïò ïìÜäùí êáé ìÝóïò ÷ñüíïò åíçìÝñùóçò (STOCKS). . . . . 93
5.4 ÐëÞèïò ïìÜäùí êáé ìÝóïò ÷ñüíïò åíçìÝñùóçò (ECG). . . . . . . 93
6.1 ÂáóéêÜ óýìâïëá Êåöáëáßïõ 6. . . . . . . . . . . . . . . . . . . . . 103
6.2 Áêñßâåéá åêôßìçóçò ãéá ôï STOCKS. . . . . . . . . . . . . . . . . 121
6.3 Áêñßâåéá åêôßìçóçò ãéá ôï TAO. . . . . . . . . . . . . . . . . . . 121
7.1 ÂáóéêÜ óýìâïëá Êåöáëáßïõ 7. . . . . . . . . . . . . . . . . . . . . 142
7.2 Skylines ðëåãìÜôùí. . . . . . . . . . . . . . . . . . . . . . . . . . 146
7.3 Ðëçñïöïñßá õðïåñùôçìÜôùí. . . . . . . . . . . . . . . . . . . . . . 147
8.1 ÂáóéêÜ óýìâïëá Êåöáëáßïõ 8. . . . . . . . . . . . . . . . . . . . . 167
8.2 ÐïéïôéêÞ áðïôßìçóç ùò ðñïò k (IND). . . . . . . . . . . . . . . . 189
8.3 ÐëÞèïò åíçìåñùìÝíùí åããñáöþí ùò ðñïò k (ANTI). . . . . . . . 189
8.4 ÌÝóç áêñßâåéá (%). . . . . . . . . . . . . . . . . . . . . . . . . . . 190
9.1 ÂáóéêÜ óýìâïëá Êåöáëáßïõ 9. . . . . . . . . . . . . . . . . . . . . 198
9.2 ÐáñÜäåéãìá åêôÝëåóçò ðñùôïêüëëïõ DaCoN ãéá d=3 êáé k=2. . 201
9.3 Ðïóïóôü áéóèçôÞñùí ùò ðñïò ðëÞèïò ìçíõìÜôùí ðïõ óôÝëíïõí. . 208

XIX
ÊÅÖÁËÁÉÏ 1

ÅéóáãùãÞ óôç ÄéáôñéâÞ


Ðåñéå÷üìåíá
1.1 ÅÉÓÁÃÙÃÇ . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 ÓÕÍÅÉÓÖÏÑÅÓ ÔÇÓ ÄÉÁÔÑÉÂÇÓ . . . . . . . . 2
1.3 ÂÉÂËÉÏÃÑÁÖÉÁ . . . . . . . . . . . . . . . . . . . . 5

1.1 ÅéóáãùãÞ
Ôá ôåëåõôáßá ÷ñüíéá Ý÷åé áõîçèåß äñáìáôéêÜ ï áñéèìüò ôùí åöáñìïãþí ðïõ ÷ñç-
óéìïðïéïýí ñïÝò äåäïìÝíùí,. Ðáñáäåßãìáôá áõôþí ôùí åöáñìïãþí åßíáé ç áíß-
÷íåõóç óåéóìþí, ç áíÜëõóç äåäïìÝíùí ôïõ Ðáãêüóìéïõ Éóôïý, ç ðáñáêïëïýèçóç
ôéìþí ìåôï÷þí ê.á. Åðéðñüóèåôá, ç áíÜðôõîç ôçò ôå÷íïëïãßáò ôùí áéóèçôÞñùí
åß÷å ùò áðïôÝëåóìá ôç äõíáôüôçôá ðáñáêïëïýèçóçò óõìâÜíôùí óå ðñáãìáôéêü
÷ñüíï.
Ôï ÷áñáêôçñéóôéêü üëùí áõôþí ôùí åöáñìïãþí åßíáé üôé ôá äåäïìÝíá ôïõò
áõîÜíïíôáé óõíå÷þò êáé ìå ðïëý ìåãÜëï ñõèìü. Áõôïý ôïõ åßäïõò ôá äåäïìÝíá
ïíïìÜæïíôáé ñïÝò äåäïìÝíùí (data streams). Äõóôõ÷þò, õðÜñ÷ïíôåò áëãüñéèìïé
ãéá ãíùóôÜ ðñïâëÞìáôá, üðùò ç ïìáäïðïßçóç, ïé ïðïßïé Ý÷ïõí ðñïôáèåß óôï
ðáñåëèüí ãéá ðáñáäïóéáêÝò âÜóåéò äåäïìÝíùí, äåí åßíáé êáôÜëëçëïé ãéá ôéò ñïÝò
äåäïìÝíùí êáé åðïìÝíùò íÝïé áëãüñéèìïé ðñÝðåé íá áíáðôõ÷èïýí ðñïêåéìÝíïõ íá
êáëõöèïýí ïé áíÜãêåò ôùí óýã÷ñïíùí åöáñìïãþí.
Ôï áíôéêåßìåíï ôùí ñïþí äåäïìÝíùí åßíáé ðïëý ðñüóöáôï. Ïé ðñþôåò Ýñåõíåò
ó÷åôéêÜ ìå ôï èÝìá áõôü åìöáíéóèÞêáí äåéëÜ ðñéí ðåñßðïõ ìéá äåêáåôßá. Óôç óõ-
íÝ÷åéá Ýíáò ðïëý ìåãÜëïò üãêïò âéâëéïãñáößáò ðñïôÜèçêå ëüãù ôçò áíáãêáéü-
ôçôáò åýñåóçò ëýóåùí óå õðÜñ÷ïõóåò óýã÷ñïíåò åöáñìïãÝò. Ôï áíôéêåßìåíï

1
2 ÊÅÖÁËÁÉÏ 1. ÅÉÓÁÃÙÃÇ ÓÔÇ ÄÉÁÔÑÉÂÇ

Ýñåõíáò åßíáé áêüìá áíïéêôü äéüôé äåí Ý÷ïõí ðñïôáèåß éêáíïðïéçôéêÝò ëýóåéò óå
ðïëý ãíùóôÜ êáé ïõóéþäç ðñïâëÞìáôá Þ áêüìá äåí Ý÷ïõí êáí äéåñåõíçèåß.
Óôçí ðáñïýóá äéáôñéâÞ åîåôÜæïíôáé äéÜöïñá èÝìáôá åîüñõîçò áðü ñïÝò äåäï-
ìÝíùí êáèþò êáé ðñïçãìÝíåò ôå÷íéêÝò ãéá ôçí áîéïëüãçóç åñùôçìÜôùí. Óêïðüò
åßíáé ç ó÷åäßáóç áõîçôéêþí áëãïñßèìùí (incremental algorithms) êáôÜëëçëùí
ãéá ôéò ñïÝò äåäïìÝíùí áëëÜ êáé ðñïóáñìïóìÝíùí óôá åðéìÝñïõò ðñïâëÞìáôá,
Ýôóé þóôå íá åðéôåõ÷èïýí ôá÷ýôáôç áðüêñéóç êáé ìéêñÝò áðáéôÞóåéò óå ìíÞìç.
Óôçí åðüìåíç åíüôçôá ðåñéãñÜöïíôáé áíáëõôéêüôåñá ïé óõíåéóöïñÝò ôçò ðáñïý-
óáò äéáôñéâÞò.

1.2 ÓõíåéóöïñÝò ôçò ÄéáôñéâÞò


Ç ðáñïýóá äéáôñéâÞ ÷ùñßæåôáé óå ôñßá ìÝñç. Ôï ðñþôï ìÝñïò êáëýðôåé ôï áðáñáß-
ôçôï ãéá ôïí áíáãíþóôç õðüâáèñï (ÊåöÜëáéá 1-2). Ôï äåýôåñï ìÝñïò áó÷ïëåßôáé
ìå ôçí åîüñõîç óå ñïÝò äåäïìÝíùí (ÊåöÜëáéá 3-5) êáé ôñßôï ìÝñïò áó÷ïëåßôáé ìå
ôçí åðåîåñãáóßá åñùôçìÜôùí óå ñïÝò äåäïìÝíùí (ÊåöÜëáéá 6-9). Óôç óõíÝ÷åéá
áíáöÝñïõìå áíáëõôéêÜ ôç óõíåéóöïñÜ êÜèå êåöáëáßïõ.
Óôï ÊåöÜëáéï 2 ðáñïõóéÜæïíôáé äéÜöïñåò åéóáãùãéêÝò Ýííïéåò ôüóï ãåíéêÜ
ãéá ôéò ñïÝò äåäïìÝíùí áëëÜ êáé ðéï óõãêåêñéìÝíá ãéá ôá ðñïâëÞìáôá ðïõ ìå-
ëåôÞèçêáí óôçí ðáñïýóá äéáôñéâÞ. Óêïðüò åßíáé ç äéåõêüëõíóç ôïõ áíáãíþóôç
óôçí êáôáíüçóç ôùí åðüìåíùí êåöáëáßùí.
Óôï ÊåöÜëáéï 3 åîåôÜæåôáé ôï ðñüâëçìá ôçò êáôçãïñéïðïßçóçò (classi ca-
tion) ñïþí äåäïìÝíùí. Äýï åßíáé ôá âáóéêÜ æçôÞìáôá ðïõ ðñÝðåé íá åðéëõèïýí
ðñïêåéìÝíïõ íá åðéôåõ÷èåß Ýíáò êáôÜëëçëïò áëãüñéèìïò: (á) Ïé ñïÝò äåäïìÝíùí
áðïôåëïýíôáé áðü ôéìÝò ðïõ Ý÷ïõí \èüñõâï", ç ýðáñîç ôïõ ïðïßïõ êáèéóôÜ äý-
óêïëç ôç óùóôÞ êáôçãïñéïðïßçóç, êáé (â) ç êáôçãïñéïðïßçóç åßíáé ÷ñïíïâüñá
äéáäéêáóßá êáé ãé' áõôü åßíáé áðáñáßôçôç ç ó÷åäßáóç åíüò áõîçôéêïý áëãïñßèìïõ
ðñïêåéìÝíïõ íá åðéôá÷õíèåß ç äéáäéêáóßá. ¸íá Üëëï æÞôçìá ðïõ ðñïêýðôåé åßíáé
ç åýñåóç ôùí êáôçãïñéþí. Óôéò êëáóéêÝò âÜóåéò äåäïìÝíùí, èá ìðïñïýóå íá
ãßíåé êÜðïéá ðñïåðåîåñãáóßá ðñïêåéìÝíïõ íá êáèïñéóèïýí ïé êáôçãïñßåò. Óôçí
ðåñßðôùóç ôùí ñïþí äåäïìÝíùí áõôü åßíáé áäýíáôï, ôüóï ãéáôß ïé áõîçìÝíåò áðáé-
ôÞóåéò óå ôá÷ýôçôá äåí áöÞíïõí ôÝôïéá ðåñéèþñéá, üóï êáé ãéáôß ëüãù ôçò öýóçò
ôùí äåäïìÝíùí, ðïõ åßíáé äõíáìéêÜ, åßíáé ðéèáíü ïé êáôçãïñßåò íá áëëÜæïõí ìå
ôçí ðÜñïäï ôïõ ÷ñüíïõ.
Ùò ëýóç óôï óõãêåêñéìÝíï ðñüâëçìá åðéíïÞèçêå Ýíáò áõîçôéêüò áëãüñéèìïò
ðïõ êÜíåé ÷ñÞóç ôùí ôÜóåùí (trends). Ç ÷ñÞóç ôùí ôÜóåùí ìáò äéåõêïëýíåé óôçí
åðßëõóç üëùí ôùí æçôçìÜôùí. ×ñçóéìïðïéþíôáò ôéò ôÜóåéò áíôß ôùí ôéìþí ìßáò
ñïÞò äåäïìÝíùí åîáëåßöïõìå ôï èüñõâï. ÅðéðëÝïí, ïé êáôçãïñßåò êáèïñßæïíôáé
áõôüìáôá ìå âÜóç ôïõò óõíäõáóìïýò ôÜóåùí, ôïõò ïðïßïõò ðáñïõóéÜæåé êÜèå
ñïÞ äåäïìÝíùí. Ï ðñïôåéíüìåíïò áëãüñéèìïò ðñïóäéïñßæåé ôçí ôÜóç êÜèå ñïÞò
äåäïìÝíùí óå ðñáãìáôéêü ÷ñüíï. Áðïäåéêíýåôáé üôé ç ÷ñÞóç ôùí ôÜóåùí áöåíüò
1.2. ÓÕÍÅÉÓÖÏÑÅÓ ÔÇÓ ÄÉÁÔÑÉÂÇÓ 3

åðéôá÷ýíåé ôç äéáäéêáóßá êáé åëáôôþíåé ôéò áðáéôÞóåéò ìíÞìçò, êáé áöåôÝñïõ ç


ðñïêýðôïõóá êáôçãïñéïðïßçóç åßíáé êáôáëëçëüôåñç ùò ðñïò ôçí êáôáíüçóÞ ôçò
áðü ôïí åéäéêü/÷ñÞóôç ëüãù ôçò áöáéñåôéêüôçôáò ôùí áðïôåëåóìÜôùí.
Óôï ÊåöÜëáéï 4 åîåôÜæåôáé ôï ðñüâëçìá ôçò ïìáäïðïßçóçò (clustering) ñïþí
äåäïìÝíùí. Óôï ðñüâëçìá áõôü ôßèåíôáé ðáñüìïéá æçôÞìáôá üðùò êáé óôï ðñü-
âëçìá ôçò êáôçãïñéïðïßçóçò, áëëÜ åäþ áêüìç äõóêïëüôåñá ëüãù ôïõ êáèïñé-
óìïý ôïõ áñéèìïý ôùí ïìÜäùí. Óôï ðáñåëèüí Ýãéíáí ðñïóðÜèåéåò ãéá ôçí áíÜ-
ðôõîç åíüò áëãüñéèìïõ êáôÜëëçëïõ ãéá ïìáäïðïßçóç óå ñïÝò äåäïìÝíùí. ¼ëïé
üìùò ïé ðñïôåéíüìåíïé áëãüñéèìïé åßíáé ðáñáëëáãÝò ôïõ k-means, ðïëý ãíùóôïý
áëãïñßèìïõ ïìáäïðïßçóçò, ï ïðïßïò ðñïáðáéôåß íá åßíáé ãíùóôüò ï áñéèìüò ôùí
ïìÜäùí. Ï k-meáns áðïäåß÷èçêå ðïëý ÷ñÞóéìïò óôçí ðåñßðôùóç óôáôéêþí äå-
äïìÝíùí äéüôé åßôå ìå ðñïåðåîåñãáóßá ôùí äåäïìÝíùí åßôå ìå äéáöïñåôéêÝò åöáñ-
ìïãÝò ôïõ áëãïñßèìïõ èá ìðïñïýóå íá ðñïóäéïñéóèåß ï áñéèìüò ôùí ïìÜäùí.
Óôçí ðåñßðôùóç ôùí ñïþí äåäïìÝíùí êÜôé ôÝôïéï åßíáé áäýíáôï, ïðüôå üëïé ïé
ðñïôåéíüìåíïé áëãüñéèìïé Ý÷ïõí ðåñéïñéóìÝíç åöáñìïãÞ.
Ùò ëýóç óå áõôü ôï æÞôçìá ðñïôÜèçêå Ýíáò áõîçôéêüò áëãüñéèìïò, ðïõ ÷ñç-
óéìïðïéåß ôéò ôÜóåéò ôùí ñïþí äåäïìÝíùí. ÐñïôÜèçêå Ýíá ìÝôñï ïìïéüôçôáò,
ðñïêåéìÝíïõ íá êáèïñßæåôáé ç áðüóôáóç ìåôáîý ôùí ôÜóåùí ôùí ñïþí äåäïìÝ-
íùí. Åðéðñüóèåôá ðñïôÜèçêáí êñéôÞñéá óõíÝíùóçò êáé äéá÷ùñéóìïý (merge and
split criteria), Ýôóé þóôå íá åßíáé äõíáôüò ï áõôüìáôïò ðñïóäéïñéóìüò ôïõ áñéè-
ìïý ôùí ïìÜäùí.
Óôï ÊåöÜëáéï 5 åîåôÜæåôáé ôï ðñüâëçìá ïìáäïðïßçóçò óå õðï÷þñïõò (sub-
space clustering). Ôï ðñüâëçìá áõôü åßíáé éäéáßôåñá äýóêïëï ãéá óôáôéêÜ äå-
äïìÝíá ðüóï ìÜëëïí ãéá äõíáìéêÜ, üðùò åßíáé ïé ñïÝò äåäïìÝíùí. Óêïðüò ôïõ
ðñïâëÞìáôïò åßíáé ç åýñåóç üëùí ôùí ïìÜäùí óå üëïõò ôïõò äõíáôïýò õðï÷þ-
ñïõò. Óôçí ðåñßðôùóç ôùí ñïþí, áí êáé ôï ðñüâëçìá áðëïðïéåßôáé ìåñéêþò åðåéäÞ
ôá äåäïìÝíá èåùñïýíôáé ôáîéíïìçìÝíá ùò ðñïò ôï ÷ñüíï, ïðüôå ç ìåëÝôç êáé ç
áíÜëõóÞ ôïõò Ý÷åé íüçìá ìüíï ìå áõôÞ ôç óåéñÜ, ðáñüëá áõôÜ ðáñáìÝíåé äýóêïëï.
Ùò ëýóç óå áõôü ôï æÞôçìá ðñïôÜèçêå Ýíáò áõîçôéêüò áëãüñéèìïò ìå âá-
óéêü ÷áñáêôçñéóôéêü üôé îåêéíÜ ôïí åíôïðéóìü ïìÜäùí óå õðï÷þñïõò ôçò ìßáò
äéÜóôáóçò êáé óôç óõíÝ÷åéá ðñïóðáèåß íá åðåêôåßíåé ôéò ïìÜäåò óå ðåñéóóüôåñåò
äéáóôÜóåéò. Óôïí áëãüñéèìï ÷ñçóéìïðïéÞèçêå Ýíáò ãåíéêåõìÝíïò ïñéóìüò ïìÜ-
äùí, õðïðåñßðôùóç ôïõ ïðïßïõ åßíáé ï ïñéóìüò ïìÜäùí ðïõ åß÷å ÷ñçóéìïðïéçèåß
óôç âéâëéïãñáößá. Áðïäåéêíýåôáé üôé ï ðñïôåéíüìåíïò áëãüñéèìïò åßíáé êáôÜë-
ëçëïò ãéá ñïÝò äåäïìÝíùí êáé éäéáßôåñá áðïôåëåóìáôéêüò.
Óôï ÊåöÜëáéï 6 åîåôÜæïíôáé óõíå÷Þ (continuous) åñùôÞìáôá ïìïéüôçôáò (sim-
ilarity queries) óå ñïÝò äåäïìÝíùí. Ôï ðñüâëçìá åßíáé, äåäïìÝíçò ìéáò ñïÞò
äåäïìÝíùí, íá âñåèïýí ðáñüìïéåò ñïÝò äåäïìÝíùí. ÁíÜëïãá ìå ôï åñþôçìá
ïìïéüôçôáò êáèïñßæïíôáé êáé ïé ðáñüìïéåò ñïÝò äåäïìÝíùí ôçò áðÜíôçóçò. Óôçí
ðáñïýóá äéáôñéâÞ ìåëåôÞèçêáí ôá äýï âáóéêüôåñá åñùôÞìáôá ïìïéüôçôáò: äéá-
óôÞìáôïò (range) êáé k-êïíôéíüôåñùí ãåéôüíùí (k-nearest neighbor). ÄåäïìÝíçò
4 ÊÅÖÁËÁÉÏ 1. ÅÉÓÁÃÙÃÇ ÓÔÇ ÄÉÁÔÑÉÂÇ

ìéá óõíÜñôçóç áðüóôáóçò, ôá åñùôÞìáôá äéáóôÞìáôïò åðéóôñÝöïõí üëåò ôéò ñïÝò


ðïõ âñßóêïíôáé óå áðüóôáóç ìéêñüôåñç Þ ßóç ìå  áðü ôç ñïÞ åñþôçóç, üðïõ ç
ðáñÜìåôñïò  êáèïñßæåôáé áðü ôï ÷ñÞóôç. Ôá åñùôÞìáôá k-êïíôéíüôåñùí ãåéôü-
íùí åðéóôñÝöïõí ôéò k ðéï êïíôéíÝò ñïÝò óôç ñïÞ åñþôçóç. ¼ðùò ç ðáñÜìåôñïò
, Ýôóé êáé ç ðáñÜìåôñïò k êáèïñßæåôáé áðü ôï ÷ñÞóôç.
Ùò ëýóç óôï ðñïçãïýìåíï ðñüâëçìá, ðñïôÜèçêå Ýíá ïëïêëçñùìÝíï ðëáßóéï
ðïõ êáëýðôåé ôüóï ôï æÞôçìá ôïõ ãñÞãïñïõ õðïëïãéóìïý ïìïéüôçôáò ìåôáîý äýï
ñïþí, üóï êáé ôçí ôá÷ýôáôç áîéïëüãçóç ôïõ åñùôÞìáôïò. Ðéï óõãêåêñéìÝíá,
åöáñìüóèçêå ç ôå÷íéêÞ ôçò ìåßùóçò äéáóôÜóåùí (dimensionality reduction) ìå
ôç ÷ñÞóç ôïõ Äéáêñéôïý Ìåôáó÷çìáôéóìïý Fourier (DFT). Ï ìåôáó÷çìáôéóìüò
áõôüò åßíáé ðïëý ÷ñïíïâüñïò óôïí õðïëïãéóìü ôïõ, ãåãïíüò ðïõ óôá äõíáìéêÜ
äåäïìÝíá ç ÷ñÞóç ôïõ åßíáé áðáãïñåõôéêÞ. Ãéá ôï ëüãï áõôü ðñïôÜèçêå Ýíáò
áõîçôéêüò ôñüðïò õðïëïãéóìïý ôïõ, ï ïðïßïò åðéôá÷ýíåé äñáóôéêÜ ôç äéáäéêá-
óßá. Åðéðñüóèåôá, ïé ñïÝò åéóÜãïíôáé óå ìßá äåíäñéêÞ äïìÞ ðïõ åßíáé ðáñáëëáãÞ
ôïõ R∗ -äÝíäñïõ. ÐñïêåéìÝíïõ íá áðïöåõ÷èåß ôï êüóôïò åíçìÝñùóçò ôçò äïìÞò,
ðñïôÜèçêáí äéáöïñåôéêÝò ðïëéôéêÝò åíçìÝñùóçò êáé áíôßóôïé÷åò äéáäéêáóßåò äéÜ-
ó÷éóçò ôçò äïìÞò, ðñïêåéìÝíïõ íá áîéïëïãåßôáé ôï óõíå÷Ýò åñþôçìá åðáêñéâþò.
Óôï ÊåöÜëáéï 7 åîåôÜæåôáé ôï óõíå÷Ýò åñþôçìá k-êõñßáñ÷á óôïé÷åßá êïñõ-
öïãñáììÞò (k-dominant skyline)1 óå ñïÝò äåäïìÝíùí. Ôï k-dominant skyline
åßíáé ðáñáëëáãÞ ôïõ êëáóéêïý åñùôÞìáôïò êïñõöïãñáììÞò (skyline) ðïõ ðñïôÜ-
èçêå ðñüóöáôá. Óêïðüò ôïõ åßíáé íá åëáôôþóåé ôï ðïëý ìåãÜëï áñéèìü áíôéêåé-
ìÝíùí ðïõ åðéóôñÝöåé Ýíá åñþôçìá skyline üôáí åöáñìüæåôáé óå ðïëõäéÜóôáôï
÷þñï. Ôï åñþôçìá åßíáé äýóêïëï, äéüôé äåí éó÷ýïõí äéÜöïñåò éäéüôçôåò ôïõ sky-
line. Áõôü Ý÷åé ùò áðïôÝëåóìá íá ìçí åßíáé åöáñìüóéìïé ðïëý áëãüñéèìïé ðïõ
ðñïôÜèçêáí ãéá åñùôÞìáôá skyline.
Ùò ëýóç óôï ðñïçãïýìåíï ðñüâëçìá ðñïôÜèçêå Ýíáò áõîçôéêüò áëãüñéèìïò
ðïõ ìåëåôÜ üëïõò ôïõò äõíáôïýò õðï÷þñïõò. Ðéï óõãêåêñéìÝíá, åîåôÜæåé ÷ù-
ñéóôÜ üëïõò ôïõò õðï÷þñïõò ìå k äéáóôÜóåéò. Ìå áõôü ôïí ôñüðï áíÜãåé ôï
ðñüâëçìá ôçò åýñåóçò ôïõ k-dominant skyline åíüò ÷þñïõ D äéáóôÜóåùí, óå
ðñüâëçìá åýñåóçò ôïõ skyline óå üëïõò ôïõò õðï÷þñïõò k äéáóôÜóåùí. Ï ðñï-
ôåéíüìåíïò áëãüñéèìïò åêìåôáëëåýåôáé üëåò ôéò éäéüôçôåò ôïõ skyline ãéá íá ðñïó-
äéïñßóåé ôéò áðáíôÞóåéò ôùí åðéìÝñïõò skylines êáé óôï ôÝëïò õðïëïãßæåé ôï k-
dominant skyline.
Óôï ÊåöÜëáéï 8 åîåôÜæåôáé ôï óõíå÷Ýò åñþôçìá êïñõöáßùí k êõñéÜñ÷ùí
óôïé÷åßùí (top-k dominating). Ðáñüôé ôá åñùôÞìáôá áõôÜ Þôáí ãíùóôÜ, ðñü-
óöáôá Ý÷ïõí ðñïóåëêýóåé Ýíôïíá ôï åíäéáöÝñïí ôçò åðéóôçìïíéêÞò êïéíüôçôáò.
¸íá top-k dominating åñþôçìá åðéóôñÝöåé åêåßíá ôá k áíôéêåßìåíá ðïõ \êõñéáñ-
÷ïýí" (êáëýðôïõí) ôá ðåñéóóüôåñá óå ðëÞèïò áíôéêåßìåíá óôç âÜóç. Ôï åñþôçìá
áõôü åßíáé éäéáßôåñá ÷ñÞóéìï, äéüôé ðñüêåéôáé ãéá óõíäõáóìü ôùí skyline êáé ôùí
1 Ãéá ôá åñùôÞìáôá ðñïôßìçóçò (preference queries) ÷ñçóéìïðïéïýíôáé ïé áããëéêïß üñïé äéüôé
áðïäßäïõí êáëýôåñá ôçí Ýííïéá ôùí åñùôçìÜôùí.
1.3. ÂÉÂËÉÏÃÑÁÖÉÁ 5

êïñõöáßùí k (top-k) åñùôçìÜôùí, äçìéïõñãþíôáò Ýíá ðëçñÝóôåñï åñþôçìá áëëÜ


êáé ðïëõðëïêüôåñï ôáõôü÷ñïíá.
Ùò ëýóç óôï æÞôçìá áõôü ðñïôÜèçêå Ýíáò áõîçôéêüò áëãüñéèìïò ìå âáóéêü
÷áñáêôçñéóôéêü ôç ÷ñÞóç ôïõ ÷ñüíïõ æùÞò ôùí áíôéêåéìÝíùí. Ìå áõôü ôïí ôñüðï
ìðïñåß êáé áðïöåýãåé ôç óõíå÷Þ åíçìÝñùóç áíôéêåéìÝíùí. Åðéðñüóèåôá, ðñïôÜ-
èçêáí êÜðïéåò âåëôéþóåéò ãéá ôçí ðåñáéôÝñù âåëôßùóÞ ôïõ. Ìåëåôþíôáò åêôåíÝ-
óôåñá ôï æÞôçìá, ðñïôÜèçêå êáé Ýíáò ðñïóåããéóôéêüò áëãüñéèìïò (approximate
algorithm) ãéá ôçí áîéïëüãçóç ôÝôïéùí åñùôçìÜôùí. ÁíÜëïãá ìå ôéò áíÜãêåò
ôçò åöáñìïãÞò, åßíáé äõíáôü íá èõóéáóèåß ìÝñïò ôçò áêñßâåéáò ôçò áðÜíôçóçò ìå
óêïðü ôçí ôá÷ýôåñç áðüêñéóç. Ç ðåéñáìáôéêÞ áîéïëüãçóç áðÝäåéîå ôçí êáôáëëç-
ëüôçôá ôùí ðñïôåéíüìåíùí áëãïñßèìùí óå ñïÝò äåäïìÝíùí ôüóï óõíèåôéêÝò üóï
êáé ðñáãìáôéêÝò.
Óôï ÊåöÜëáéï 9 ðñïôÜèçêå Ýíá íÝï åñþôçìá óå äßêôõá áéóèçôÞñùí (sensor
networks), -ãåéôïíéÜò k-êÜëõøçò åñþôçìá (d-hop k-coverage query). Ôï óõãêå-
êñéìÝíï åñþôçìá ìáò äßíåé ðëçñïöïñßåò ðïõ åßíáé ÷ñÞóéìåò óå ðëåßóôåò õðÜñ÷ïõ-
óåò åöáñìïãÝò. Ôï åñþôçìá áðïôåëåß ãåíßêåõóç äéÜöïñùí ãíùóôþí åñùôçìÜôùí,
üðùò ôï skyband Þ ôï top-k, åíþ ôáõôü÷ñïíá ëáìâÜíåé õðüøç êáé ôçí êáôáíåìç-
ìÝíç öýóç ôùí äéêôýùí áéóèçôÞñùí ÷ñçóéìïðïéþíôáò ôçí Ýííïéá ôçò ãåéôïíéÜò.
Ôá äßêôõá áéóèçôÞñùí áðïôåëïýí åéäéêÝò ðåñéðôþóåéò ñïþí äåäïìÝíùí, ìå åðé-
ðëÝïí ðåñéïñéóìïýò ôçí êáôáíÜëùóç åíÝñãåéáò áëëÜ êáé ôç äéÜñêåéá æùÞò ôùí
áéóèçôÞñùí.
Ùò ëýóç óå áõôü ôï æÞôçìá ðñïôÜèçêáí áëãüñéèìïé ôüóï ãéá ìïíïäéÜóôáôá
üóï êáé ãéá ðïëõäéÜóôáôá äåäïìÝíá. Ïé ðñïôåéíüìåíïé áëãüñéèìïé åßíáé êáôáíå-
ìçìÝíïé ðñïêåéìÝíïõ íá åëáôôùèåß ç êáôáíÜëùóç åíÝñãåéáò êáé êáôÜ óõíÝðåéá íá
áõîçèåß ç äéÜñêåéá æùÞò ïëüêëçñïõ ôïõ äéêôýïõ. Ç ðåéñáìáôéêÞ áîéïëüãçóç áðÝ-
äåéîå ôçí êáôáëëçëüôçôá ôùí ðñïôåéíüìåíùí áëãïñßèìùí, áöïý åß÷áí êáëýôåñç
áðüäïóç óõãêñéôéêÜ ìå áëãüñéèìïõò ðïõ åß÷áí ðñïôáèåß ãéá ôéò åéäéêÝò ðåñéðôþ-
óåéò.
Óôï ÊåöÜëáéï 10 áíáöÝñïíôáé óõíïëéêÜ ôá óõìðåñÜóìáôá ôçò ðáñïýóáò äéá-
ôñéâÞò êáèþò åðßóçò äßíïíôáé êáé ìåëëïíôéêÝò êáôåõèýíóåéò Ýñåõíáò.

1.3 Âéâëéïãñáößá
Ôï ÊåöÜëáéï 3 åìðåñéÝ÷åé ôï õëéêü áðü ôçí åñãáóßá [103]. Ôï ÊåöÜëáéï 4
åìðåñéÝ÷åé ôï õëéêü áðü ôçí åñãáóßá [108]. Ôï ÊåöÜëáéï 5 åìðåñéÝ÷åé ôï õëéêü
áðü ôéò åñãáóßåò [104, 107]. Ôï ÊåöÜëáéï 6 åìðåñéÝ÷åé ôï õëéêü áðü ôéò åñãá-
óßåò [102, 101, 105]. Ôï ÊåöÜëáéï 7 åìðåñéÝ÷åé ôï õëéêü áðü ôçí åñãáóßá [106].
Ôï ÊåöÜëáéï 8 åìðåñéÝ÷åé ôï õëéêü áðü ôçí åñãáóßá [109]. Ôï ÊåöÜëáéï 9 åìðå-
ñéÝ÷åé ôï õëéêü áðü ôéò åñãáóßåò [99, 100].
Ï ðëÞñçò êáôÜëïãïò ôùí åñåõíçôéêþí åñãáóéþí âñßóêåôáé óôï ÐáñÜñôçìá Á
ôçò ðáñïýóáò äéáôñéâÞò.
ÊÅÖÁËÁÉÏ 2

ÐñïêáôáñêôéêÝò ¸ííïéåò óôéò


ÑïÝò ÄåäïìÝíùí
Ðåñéå÷üìåíá
2.1 ÅÉÓÁÃÙÃÇ ÓÔÉÓ ÑÏÅÓ ÄÅÄÏÌÅÍÙÍ . . . . . 7
2.2 ÊÁÔÇÃÏÑÉÏÐÏÉÇÓÇ ÊÉÍÏÕÌÅÍÙÍ ×ÑÏÍÏ-
ÓÅÉÑÙÍ . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.3 ÏÌÁÄÏÐÏÉÇÓÇ ÊÉÍÏÕÌÅÍÙÍ ×ÑÏÍÏÓÅÉ-
ÑÙÍ . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.4 ÏÌÁÄÏÐÏÉÇÓÇ ÓÅ ÕÐÏ×ÙÑÏÕÓ . . . . . . . 22
2.5 ÅÕÑÅÓÇ ÐÁÑÏÌÏÉÙÍ ÊÉÍÏÕÌÅÍÙÍ ×ÑÏÍÏ-
ÓÅÉÑÙÍ . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.6 ÅÑÙÔÇÌÁÔÁ ÐÑÏÔÉÌÇÓÇÓ ÊÉÍÏÕÌÅÍÙÍ ×ÑÏ-
ÍÏÓÅÉÑÙÍ . . . . . . . . . . . . . . . . . . . . . . . 28
2.7 ÅÑÙÔÇÌÁÔÁ ÓÅ ÄÉÊÔÕÁ ÁÉÓÈÇÔÇÑÙÍ . . . 32

2.1 ÅéóáãùãÞ óôéò ÑïÝò ÄåäïìÝíùí


Ïé ðñüóöáôåò ôå÷íïëïãéêÝò åîåëßîåéò Ý÷ïõí êáôáóôÞóåé áíáãêáßá ôç óõíå÷Þ óõë-
ëïãÞ äåäïìÝíùí. ÁðëÝò óõíáëëáãÝò ôçò êáèçìåñéíÞò æùÞò, üðùò ç ÷ñÞóç ðéóôù-
ôéêÞò êÜñôáò, ïé ôñáðåæéêÝò óõíáëëáãÝò Þ ç áíáæÞôçóç óôï äéáäßêôõï, ïäçãïýí
óå áõôüìáôç ðáñáãùãÞ äåäïìÝíùí. Óå ðïëëÝò ðåñéðôþóåéò áõôüò ï ôåñÜóôéïò
üãêïò äåäïìÝíùí ìðïñåß íá ìáò äþóåé åíäéáöÝñïõóåò ðëçñïöïñßåò, ÷ñÞóéìåò óå
Ýíá ìåãÜëï åýñïò åöáñìïãþí.
Ôá ÓõóôÞìáôá Äéá÷åßñéóçò ÂÜóåùí ÄåäïìÝíùí (ÓÄÂÄ) ó÷åäéÜóèçêáí áñ-
÷éêÜ ãéá íá õðïóôçñßîïõí åðé÷åéñçìáôéêÝò åöáñìïãÝò. Ôá äåäïìÝíá óå ôÝôïéïõ

7
8 ÊÅÖÁËÁÉÏ 2. ÐÑÏÊÁÔÁÑÊÔÉÊÅÓ ÅÍÍÏÉÅÓ ÓÔÉÓ ÑÏÅÓ ÄÅÄÏÌÅÍÙÍ

åßäïõò åöáñìïãÝò ìåôáâÜëëïíôáé ìüíï ùò áðïôÝëåóìá óõíáëëáãþí ðïõ åöáñìü-


æïíôáé áðü ôïõò áíèñþðïõò/÷ñÞóôåò. Ðáñüìïéá, ïé Üíèñùðïé/÷ñÞóôåò èÝôïõí ôá
åñùôÞìáôá óôá õðÜñ÷ïíôá äåäïìÝíá. Ôá ÓÄÂÄ óõìðåñéöÝñïíôáé ðáèçôéêÜ üóïí
áöïñÜ óôéò ìåôáâïëÝò ôùí äåäïìÝíùí êáé ôéò åñùôÞóåéò óôá äåäïìÝíá. Ôá ðáñá-
äïóéáêÜ ÓÄÂÄ äåí åðáñêïýí ãéá Ýíá óýíïëï íÝùí åöáñìïãþí ðïõ áðáéôïýí ôç
óõíå÷Þ áîéïëüãçóç åñùôçìÜôùí óå äåäïìÝíá ðñáãìáôéêïý-÷ñüíïõ [39].

2.1.1 ÅöáñìïãÝò ñïþí äåäïìÝíùí


Ìßá ñïÞ äåäïìÝíùí åßíáé ìßá áðåñéüñéóôç (ìç-ðåðåñáóìÝíç) áêïëïõèßá ôéìþí. Ïé
ôéìÝò áõôÝò ìðïñåß íá åßíáé åßôå ìßáò åßôå ðïëëþí äéáóôÜóåùí (åããñáöÝò1 ). Óýì-
öùíá ìå ôçí åñãáóßá [111], óå Ýíá õøçëü åðßðåäï ìðïñïýìå íá ÷ùñßóïõìå ôéò
ñïÝò äåäïìÝíùí óå äýï ôýðïõò: ôéò ñïÝò óõíáëëáãþí êáé ôéò ñïÝò ìåôñÞóåùí.

ÑïÝò Óõíáëëáãþí: Ðñüêåéôáé ãéá ôéò ñïÝò äåäïìÝíùí, ïé ïðïßåò ðñïêýðôïõí


áðü ôéò óõíáëëáãÝò êáé ôçí áëëçëåðßäñáóç ìåôáîý ïíôïôÞôùí. Ðáñáäåßãìáôá
åöáñìïãþí ðïõ ðáñÜãïõí ñïÝò ôÝôïéïõ åßäïõò åßíáé:
➣ Óå ðïëëÝò éóôïóåëßäåò, ç áëëçëåðßäñáóç ôùí ÷ñçóôþí ìå ôçí éóôïóåëßäá
êáôáãñÜöåôáé êáé ðáñáêïëïõèåßôáé áðü åöáñìïãÝò, üðùò ç åîáôïìßêåõóç
êáé ç äçìéïõñãßá ðñïôéìÞóåùí. Ïé áëëçëåðéäñÜóåéò óõíå÷þò êáôáãñÜöï-
íôáé êáé áîéïðïéïýíôáé.
➣ Ïé ôñÜðåæåò ðáñáêïëïõèïýí ôéò áãïñÝò ôùí ðåëáôþí ôïõò ìÝóù ôùí ðéóôù-
ôéêþí ôïõò êáñôþí êáé ðñïóðáèïýí íá áíé÷íåýóïõí áíùìáëßåò ðïõ õðïäåé-
êíýïõí ðéèáíÞ êëïðÞ Þ äüëéá ÷ñÞóç ôçò ðéóôùôéêÞò êÜñôáò. Ïé óõíáëëáãÝò
ìå ðéóôùôéêÝò êÜñôåò ó÷çìáôßæïõí ìéá óõíå÷Þ ñïÞ äåäïìÝíùí áðü óõíáë-
ëáãÝò.
ÑïÝò ÌåôñÞóåùí: Ðñüêåéôáé ãéá ñïÝò äåäïìÝíùí, ïé ïðïßåò ðñïêýðôïõí áðü
ôçí ðáñáêïëïýèçóç äéÜöïñùí ïíôïôÞôùí. Ðáñáäåßãìáôá åöáñìïãþí åßíáé:
➣ Ìå ôçí åîÝëéîç ôçò ôå÷íïëïãßáò, ïé áéóèçôÞñåò ãßíïíôáé ïëïÝíá êáé öèçíü-
ôåñïé ìå áðïôÝëåóìá íá áíáäåéêíýåôáé Ýíá ìåãÜëï óýíïëï åöáñìïãþí. Ïé
áéóèçôÞñåò êáôáíÝìïíôáé óå ìßá ðåñéï÷Þ êáé êáôáìåôñïýí ôçí êáôÜóôáóç
ìßáò óõãêåêñéìÝíçò ïíôüôçôáò. Ïé ìåôñÞóåéò äçìéïõñãïýí ñïÝò äåäïìÝ-
íùí. Ãéá ðáñÜäåéãìá, ç ðáñáêïëïýèçóç óôñáôéùôþí óå ðåäßï ìÜ÷çò, ç
ðáñáêïëïýèçóç ôçò êßíçóçò óå äñüìïõò, ç êáôáìÝôñçóç èåñìïêñáóßáò êáé
ôá÷ýôçôáò áÝñá óå ìåôåùñïëïãéêïýò óôáèìïýò.
➣ Óå ìåãÜëïõ ìåãÝèïõò äßêôõá áðáéôåßôáé ç ðáñáêïëïýèçóÞ ôïõò ðñïêåéìÝíïõ
íá äéåêðåñáéùèïýí äéÜöïñá æçôÞìáôá, üðùò ï åíôïðéóìüò óçìåßùí óõìöü-
ñçóçò Þ ï åíôïðéóìüò åðßèåóçò óôï äßêôõï. ÓõíÞèùò ðáñáêïëïõèåßôáé ç
1 Ï üñïò åããñáöÞ åßíáé ç åëëçíéêÞ áðüäïóç ôçò ëÝîçò tuple.
2.1. ÅÉÓÁÃÙÃÇ ÓÔÉÓ ÑÏÅÓ ÄÅÄÏÌÅÍÙÍ 9

êåöáëßäá ôùí ðáêÝôùí ìÝóù ôùí äñïìïëïãçôþí ôïõ äéêôýïõ. ¸ôóé, ìðï-
ñåß íá èåùñçèåß üôé ïé êåöáëßäåò ó÷çìáôßæïõí ìßá ñïÞ äåäïìÝíùí.
Éäéáßôåñï åíäéáöÝñïí ðáñïõóéÜæïõí ôá åñùôÞìáôá ðïõ ôßèåíôáé óå ñïÝò äå-
äïìÝíùí, äéüôé ùò åðß ôï ðëåßóôïí áõôÜ åßíáé ðïõ êáèéóôïýí áêáôÜëëçëá ôá
ðáñáäïóéáêÜ ÓõóôÞìáôá Äéá÷åßñéóçò ÂÜóåùí ÄåäïìÝíùí. Ç âáóéêÞ äéáöïñÜ
ôùí åñùôçìÜôùí ðïõ ôßèåíôáé óå ñïÝò äåäïìÝíùí óå ó÷Ýóç ìå ôá ðáñáäïóéáêÜ
åñùôÞìáôá åßíáé üôé áðáéôïýí óõíå÷Þ áîéïëüãçóç ãéá ìåãÜëç ÷ñïíéêÞ ðåñßïäï.
Óôç óõíÝ÷åéá äßíïõìå Ýíá ðáñÜäåéãìá ñïÞò äåäïìÝíùí êáé åñùôÞìáôá ðïõ èá
ìðïñïýóáí íá ôåèïýí.
ÐÁÑÁÄÅÉÃÌÁ (ÅöáñìïãÞ ñïÞò äåäïìÝíùí). ¸óôù ìßá åöáñìïãÞ ðáñáêïëïý-
èçóçò ôçò êßíçóçò óå äñüìïõò. ÕðïèÝóôå üôé áéóèçôÞñåò åßíáé äéåóðáñìÝíïé êáôÜ
ìÞêïò ðïëëþí ïäþí, êáé áíáöÝñïõí ôçí ôñÝ÷ïõóá êßíçóç óôï äñüìï. Ðéï óõ-
ãêåêñéìÝíá, ïé áéóèçôÞñåò ó÷çìáôßæïõí ìßá ñïÞ äåäïìÝíùí óôÝëíïíôáò ôéò åîÞò
ìåôñÞóåéò:
1. ¸íá áíáãíùñéóôéêü ôïõ ï÷Þìáôïò.

2. Ôçí ôá÷ýôçôá ôïõ ï÷Þìáôïò.

3. ¸íá áíáãíùñéóôéêü ôïõ äñüìïõ, ôïõ ôìÞìáôïò ôïõ äñüìïõ êáèþò êáé ôçò
ëùñßäáò êõêëïöïñßáò ôïõ äñüìïõ, üðïõ êéíåßôáé ôï ü÷çìá.
ÄéÜöïñá åñùôÞìáôá ìðïñïýí íá áîéïëïãçèïýí ëáìâÜíïíôáò õðüøç áõôÜ ôá
äåäïìÝíá.
➣ ¸íá åñþôçìá ðïõ èá áöïñïýóå óôç äéá÷åßñéóç ôçò êßíçóçò, èá ìðïñïýóå íá
åßíáé \Ðïéá åßíáé ç ìÝóç ôá÷ýôçôá ôùí ï÷çìÜôùí êÜèå ëùñßäáò êõêëïöï-
ñßáò êÜèå ôìÞìáôïò êÜèå äñüìïõ". Áí ç ìÝóç ôá÷ýôçôá åßíáé ÷áìçëüôåñç
áðü Ýíá êáôþöëé, ôüôå ïé ôáîéäéþôåò èá ìðïñïýóáí íá åíçìåñùèïýí ìÝóù
çëåêôñïíéêþí ðéíáêßäùí ãéá åíáëëáêôéêÞ äéáäñïìÞ.

➣ ×ñçóéìïðïéþíôáò ôï ßäéï åñþôçìá, ïé ôáîéäéþôåò êáèþò êáé ïé åëåãêôÝò ôïõ


äñüìïõ èá ìðïñïýóáí íá åíçìåñùèïýí ãéá ðéèáíÜ áôõ÷Þìáôá.

➣ Óå äñüìïõò ìå äéüäéá, ç ñïÞ äåäïìÝíùí èá ìðïñïýóå íá ÷ñçóéìïðïéçèåß ãéá


ôçí áõôüìáôç êáôáâïëÞ äéïäßùí áðü ôïõò ïäçãïýò ôùí ïðïßùí ôá ï÷Þìáôá
áíáãíùñßóèçêáí áðü ôïõò áéóèçôÞñåò. ÁõôÞ ç ëåéôïõñãéêüôçôá åöáñìüæå-
ôáé Þäç, áëëÜ óêåöôåßôå Ýíáí åîåëéãìÝíï õðïëïãéóìü äéïäßùí áíÜëïãá ìå
ôï ðëÞèïò ôùí ÷éëéïìÝôñùí ðïõ ôï ü÷çìá äéÝíõóå óôï äñüìï. ÊÜôé ôÝôïéï
èá áðáéôïýóå ôçí áíáãíþñéóç ôïõ ï÷Þìáôïò ôüóï êáôÜ ôçí åßóïäï üóï êáé
êáôÜ ôçí Ýîïäü ôïõ áðü ôï äñüìï.
10 ÊÅÖÁËÁÉÏ 2. ÐÑÏÊÁÔÁÑÊÔÉÊÅÓ ÅÍÍÏÉÅÓ ÓÔÉÓ ÑÏÅÓ ÄÅÄÏÌÅÍÙÍ

2.1.2 ÌïíôÝëá ñïþí äåäïìÝíùí


Ôá ãíùóôüôåñá êáé åõñýôåñá ÷ñçóéìïðïéïýìåíá ìïíôÝëá ñïþí äåäïìÝíùí ìðï-
ñïýí íá ÷ùñéóèïýí óå äýï äéáêñéôÝò êáôçãïñßåò: (á) ôéò åôéêÝôåò ÷ñüíïõ (times-
tamps), êáé (â) ôá ðáñÜèõñá (windows). Óôç óõíÝ÷åéá ïé äýï áõôÝò êáôçãïñßåò
áíáöÝñïíôáé áíáëõôéêüôåñá.

2.1.2.1 ÅôéêÝôåò ÷ñüíïõ


¸íá ðïëý âáóéêü ÷áñáêôçñéóôéêü ôùí ìïíôÝëùí ñïþí äåäïìÝíùí åßíáé ç ÷ñÞóç
ôùí åôéêåôþí ÷ñüíïõ ãéá êÜèå åããñáöÞ ôçò ñïÞò. ÕðÜñ÷ïõí äýï êáôçãïñßåò
åôéêåôþí ÷ñüíïõ [16]:
➣ ÅôéêÝôåò ÷ñüíïõ, ïé ïðïßåò äßíïíôáé áðü ôï óýóôçìá äéá÷åßñéóçò ôùí ñïþí,
óå ìßá åããñáöÞ üôáí áõôÞ öèÜíåé óôï óýóôçìá. Ç åôéêÝôá ìðïñåß íá åßíáé
ìßá áðëÞ áýîïõóá áêïëïõèßá áñéèìþí, ç ïðïßá êáèïñßæåé ôç óåéñÜ Üöéîçò
ôùí åããñáöþí óôï óýóôçìá.
➣ ÅôéêÝôåò ÷ñüíïõ, ïé ïðïßåò áðïôåëïýí ÷áñáêôçñéóôéêü ôçò ßäéáò ôçò ñïÞò
äåäïìÝíùí. ÐñáêôéêÜ, ñïÝò äåäïìÝíùí, ôùí ïðïßùí ïé åããñáöÝò áíôéóôïé-
÷ïýí óå ðñáãìáôéêÜ ãåãïíüôá, Ý÷ïõí ôÝôïéïõ åßäïõò åôéêÝôåò ÷ñüíïõ.

2.1.2.2 ÐáñÜèõñá
¼ðùò Þäç áíáöÝñáìå, ïé ñïÝò äåäïìÝíùí åßíáé ìç-ðåðåñáóìÝíåò. ¼ìùò, ðïëëÝò
öïñÝò ôá åñùôÞìáôá åíäéáöÝñïíôáé ãéá Ýíá ôìÞìá ôçò ñïÞò. Ãéá ðáñÜäåéãìá,
ôá ðåñéóóüôåñá åñùôÞìáôá åíäéáöÝñïíôáé ãéá ôéò ðéï ðñüóöáôåò åããñáöÝò, äéüôé
áðïôõðþíïõí êáëýôåñá ôçí ôñÝ÷ïõóá ôÜóç ôçò ñïÞò, áãíïþíôáò Ýôóé ðáëéüôåñåò
åããñáöÝò. Áõôüò ï ðåñéïñéóìüò ìßáò ñïÞò äåäïìÝíùí åðéôõã÷Üíåôáé ìå ôç ÷ñÞóç
ôùí ðáñáèýñùí. Óôçí ïõóßá, ôá ðáñÜèõñá ôùí ñïþí åßíáé ìßá åðÝêôáóç ôùí
öõóéêþí Þ ëïãéêþí ðáñáèýñùí óå åñùôÞìáôá ôçò SQL-99. Ïé ñïÝò äåäïìÝíùí ìå
ìÝãåèïò ðïõ ðåñéïñßæåôáé, åßôå ìå ôç ÷ñÞóç ðáñáèýñùí åßôå ìå ïðïéïäÞðïôå Üëëï
ìïíôÝëï, ïíïìÜæïíôáé êéíïýìåíåò ÷ñïíïóåéñÝò (streaming time series)2 .
ÐÁÑÁÄÅÉÃÌÁ (×ñÞóç ðáñáèýñùí óå åñùôÞìáôá). Èåùñåßóôå ôçí åöáñìïãÞ
ôïõ Ðáñáäåßãìáôïò 2.1.1. ¸óôù üôé ïé áéóèçôÞñåò óôÝëíïõí ôéò ìåôñÞóåéò ôïõò,
äçìéïõñãþíôáò ôç ñïÞ äåäïìÝíùí \ÊáôáãñáöÞÏ÷Þìáôïò". ¸óôù áêüìá üôé åí-
äéáöåñüìáóôå ãéá ôç ìÝóç ôá÷ýôçôá ôùí ï÷çìÜôùí áíÜ äñüìï, ôìÞìá äñüìïõ êáé
ëùñßäá êõêëïöïñßáò äñüìïõ. Áõôü ôï åñþôçìá èá ìðïñïýóå íá äéáôõðùèåß ùò
åîÞò:
SELECT äñüìïò, ôìÞìá, ëùñßäá, AVG(ôá÷ýôçôá)
FROM ÊáôáãñáöÞÏ÷Þìáôïò [ÄÉÁÓÔÇÌÁ 5 ËÅÐÔÁ]
GROUP BY äñüìïò, ôìÞìá, ëùñßäá
2 Ïé üñïé ñïÝò äåäïìÝíùí êáé êéíïýìåíåò ÷ñïíïóåéñÝò èá ÷ñçóéìïðïéïýíôáé åíáëëáêôéêÜ óôï
õðüëïéðï ôçò äéáôñéâÞò.
2.1. ÅÉÓÁÃÙÃÇ ÓÔÉÓ ÑÏÅÓ ÄÅÄÏÌÅÍÙÍ 11

Óôï ÐáñÜäåéãìá 2.1.2.2, ôï äéÜóôçìá 5 ëåðôþí êáèïñßæåé Ýíá ðáñÜèõñï ôùí


5 ëåðôþí, õðïäçëþíïíôáò üôé ôï åñþôçìá ðñÝðåé íá áîéïëïãåßôáé äéáñêþò ìå ôá
äåäïìÝíá ôùí ôåëåõôáßùí 5 ëåðôþí. Áõôü åßíáé Ýíá ôõðéêü ðáñÜäåéãìá ðáñÜèõñïõ
âáóéóìÝíïõ óôï ÷ñüíï (time-based window). ÅíáëëáêôéêÜ ÷ñçóéìïðïéïýíôáé ôá
ðáñÜèõñá âáóéóìÝíá óôï ðëÞèïò (count-based windows), üðïõ ôï ìÝãåèïò ôïõ
ðáñÜèõñïõ åêöñÜæåôáé ìå ôï ðëÞèïò ôùí åããñáöþí ðïõ ðåñéÝ÷åé.
Êáé ïé äýï ðñïçãïýìåíåò ðåñéðôþóåéò åßíáé õðïêáôçãïñßåò ôùí êéíïýìåíùí
ðáñáèýñùí (sliding windows) [68]. Óôá êéíïýìåíá ðáñÜèõñá, ôï ìÝãåèïò ôïõ
ðáñÜèõñïõ ðáñáìÝíåé óôáèåñü, êáôÜ óõíÝðåéá êáé ïé äýï Üêñåò ôïõ ìåôáêéíïýíôáé
Ýôóé þóôå ïé íÝåò åããñáöÝò íá áíôéêáèéóôïýí ôéò ðáëéÝò. Ìßá Üëëç êáôçãïñßá
ðáñáèýñùí åßíáé ôá ðáñÜèõñá óôáèåñÞò Üêñçò (landmark windows), üðïõ ôï
Ýíá Üêñï ðáñáìÝíåé óôáèåñü åíþ ôï Üëëï ìåôáêéíåßôáé Ýôóé þóôå íÝåò åããñáöÝò
íá ðñïóôßèåíôáé óôï ðáñÜèõñï. ÐáñÜäåéãìá åíüò ôÝôïéïõ ðáñÜèõñïõ åßíáé Ýíá
åñþôçìá ðïõ áöïñÜ óôç ìÝóç ôá÷ýôçôá ôùí ï÷çìÜôùí óå Ýíá óõãêåêñéìÝíï
ôìÞìá ôïõ äñüìïõ ìåôÜ áðü Ýíá áôý÷çìá.

2.1.3 ÐáñáäïóéáêÜ ÓÄÂÄ êáé åöáñìïãÝò ñïþí äåäïìÝíùí


ÌÝ÷ñé óôéãìÞò åßäáìå ôé åßíáé ïé ñïÝò äåäïìÝíùí êáé ðïéá åßíáé ôá âáóéêÜ ÷áñá-
êôçñéóôéêÜ ôïõò. Óå áõôÞí ôçí åíüôçôá èá åîåôÜóïõìå êáôÜ ðüóï ïé äõíáôüôçôåò
åíüò ðáñáäïóéáêïý ÓÄÂÄ ìðïñïýí íá êáëýøïõí ôéò áðáéôÞóåéò ìßáò åöáñìïãÞò
ñïþí äåäïìÝíùí.
➣ Ìßáò öïñÜò Ýíáíôé óõíå÷þí åñùôçìÜôùí: Ïé åöáñìïãÝò ôùí ðáñáäï-
óéáêþí ÓÄÂÄ èÝôïõí åñùôÞìáôá ìßáò öïñÜò, äçëáäÞ ôá åñùôÞìáôá áîéïëï-
ãïýíôáé ìßá öïñÜ êáé óôç óõíÝ÷åéá ôï áðïôÝëåóìá åðéóôñÝöåôáé óôï ÷ñÞóôç.
Óå áíôßèåóç, ïé åöáñìïãÝò ñïþí äåäïìÝíùí èÝôïõí óõíå÷Þ åñùôÞìáôá, ôá
ïðïßá áîéïëïãïýíôáé äéáñêþò.
➣ ¸ííïéá ôïõ ÷ñüíïõ: Ôá äåäïìÝíá óôéò ðáñáäïóéáêÝò åöáñìïãÝò äåí
Ý÷ïõí áðáñáßôçôá ôçí Ýííïéá ôïõ ÷ñüíïõ. Ç åíçìÝñùóç ìßáò ïíôüôçôáò
áíôéêáèéóôÜ ôçí êáôá÷þñçóç ôçò ïíôüôçôáò. Óå áíôßèåóç, óôéò ñïÝò äåäï-
ìÝíùí ôá äåäïìÝíá áíáðáñéóôïýí ìßá áêïëïõèßá ôéìþí ôçò ßäéáò ïíôüôçôáò.
Åðéðñüóèåôá, ôá åñùôÞìáôá óå ñïÝò äåäïìÝíùí óõíÞèùò ëáìâÜíïõí õðüøç
ôïõò ôçí Ýííïéá ôïõ ÷ñüíïõ, üðùò óôï ÐáñÜäåéãìá 2.1.2.2.
➣ Ìç-ðåðåñáóìÝíï óýíïëï äåäïìÝíùí: Ôá åñùôÞìáôá óôá ðáñáäïóéáêÜ
ÓÄÂÄ áîéïëïãïýíôáé ìå âÜóç Ýíá ðåðåñáóìÝíï óýíïëï äåäïìÝíùí, ôï
ïðïßï äåí ìåôáâÜëëåôáé êáôÜ ôç äéÜñêåéá åðåîåñãáóßáò ôïõ åñùôÞìáôïò.
Áí ôõ÷üí áëëÜîïõí ôá äåäïìÝíá êáôÜ ôç äéÜñêåéá åðåîåñãáóßáò, ôï ÓÄÂÄ
öñïíôßæåé Ýôóé þóôå ç áðÜíôçóç ôïõ åñùôÞìáôïò íá áöïñÜ óå óõãêåêñé-
ìÝíç ÷ñïíéêÞ óôéãìÞ. Óôá óõíå÷Þ åñùôÞìáôá, ôá äåäïìÝíá ìåôáâÜëëïíôáé
äéáñêþò êáé ôï óýíïëï äåäïìÝíùí åßíáé ìç-ðåðåñáóìÝíï.
12 ÊÅÖÁËÁÉÏ 2. ÐÑÏÊÁÔÁÑÊÔÉÊÅÓ ÅÍÍÏÉÅÓ ÓÔÉÓ ÑÏÅÓ ÄÅÄÏÌÅÍÙÍ

➣ Áíáîéüðéóôá äåäïìÝíá: Ôá ðáñáäïóéáêÜ ÓÄÂÄ äéá÷åéñßæïíôáé äåäïìÝíá


áîéüðéóôá êáé áêñéâÞ. ¼ìùò óôéò åöáñìïãÝò ñïþí äåäïìÝíùí êÜôé ôÝôïéï
äåí åßíáé áðáñáßôçôï. Ãéá ðáñÜäåéãìá, áí ç åöáñìïãÞ âáóßæåôáé óôéò ìåôñÞ-
óåéò áéóèçôÞñùí, åßíáé ðéèáíü êÜðïéïé áéóèçôÞñåò íá áðïôý÷ïõí íá óôåßëïõí
ôéò ìåôñÞóåéò ôïõò Þ ôá äåäïìÝíá íá öèÜóïõí ðïëý áñãüôåñá ëüãù êáèõóôÝ-
ñçóçò ôïõ äéêôýïõ. Èõìçèåßôå üôé ï ÷ñüíïò åßíáé ðïëý âáóéêÞ ðáñÜìåôñïò
ãéá ôéò ñïÝò äåäïìÝíùí. Óôï ÐáñÜäåéãìá 2.1.2.2, åßíáé Ü÷ñçóôá ôá äåäï-
ìÝíá ðïõ Ý÷ïõí ðáñá÷èåß 20 ëåðôÜ íùñßôåñá. Åðéðñüóèåôá, ïé áéóèçôÞñåò
åßíáé ðéèáíü íá êÜíïõí ëÜèïò óå êÜðïéåò ìåôñÞóåéò.

➣ Äõíáôüôçôá ÅíÝñãåéáò: Ôá ðáñáäïóéáêÜ ÓÄÂÄ åßíáé ðáèçôéêÜ. Ï ÷ñÞ-


óôçò îåêéíÜ ìßá óõíáëëáãÞ êáé ôï ÓÄÂÄ åêôåëåß ôç óõíáëëáãÞ. Ï ÷ñÞ-
óôçò èÝôåé Ýíá åñþôçìá êáé ôï ÓÄÂÄ áðáíôÜ ôï åñþôçìá. Óå ðïëëÝò
åöáñìïãÝò ñïþí äåäïìÝíùí áðáéôåßôáé ç äõíáôüôçôá åíÝñãåéáò õðü ïñéóìÝ-
íåò óõíèÞêåò. Ãéá ðáñÜäåéãìá, óå ðåñßðôùóç áðüôïìçò áýîçóçò ôçò èåñìï-
êñáóßáò, áðáéôåßôáé ç åíåñãïðïßçóç ôïõ óõíáãåñìïý êáé ôïõ óõóôÞìáôïò
ðõñüóâåóçò.

2.1.4 Ðñùôüôõðá óõóôÞìáôá äéá÷åßñéóçò ñïþí äåäïìÝíùí


Ìå óêïðü íá êáëõöèïýí ïé áíÜãêåò ôùí åöáñìïãþí ñïþí äåäïìÝíùí, ôéò ïðïßåò
áíáöÝñáìå óôçí Åíüôçôá 2.1.3, áíáðôý÷èçêáí äéÜöïñá ðñùôüôõðá ÓõóôÞìáôá
Äéá÷åßñéóçò Ñïþí ÄåäïìÝíùí (ÓÄÑÄ). Ïé Åéêüíåò 2.1 êáé 2.2 ðáñïõóéÜæïõí
ôç ãåíéêÞ áñ÷éôåêôïíéêÞ åíüò ÓÄÑÄ êáé ôïõ äéá÷åéñéóôÞ åñùôçìÜôùí áíôßóôïé÷á.
Óôç óõíÝ÷åéá áíáöÝñïõìå ôá êõñéüôåñá ÓÄÑÄ:

Working
Query Processor

Storage

Input Summary Output


Monitor Storage Buffer
Query
Static Reposi-
Storage tory
Streaming Streaming
Inputs Outputs
Updates to User
Static Data Queries

EIKONA 2.1. Áñ÷éôåêôïíéêÞ ÓÄÑÄ.


2.1. ÅÉÓÁÃÙÃÇ ÓÔÉÓ ÑÏÅÓ ÄÅÄÏÌÅÍÙÍ 13

EIKONA 2.2. Áñ÷éôåêôïíéêÞ äéá÷åßñéóçò åñùôçìÜôùí óå ÓÄÑÄ.

➣ Aurora [32]: Åßíáé Ýíá ÓÄÑÄ ìå Ýíá óýíïëï áðü êëáóéêïýò ôåëåóôÝò (op-
erators) ôùí âÜóåùí äåäïìÝíùí, üðùò SELECT êáé JOIN, åîåëéãìÝíïõò
ãéá ñïÝò äåäïìÝíùí. ¸íáò ÷ñÞóôçò ìðïñåß íá ïñßóåé åñùôÞìáôá ìÝóù ôïõ
ãñáöéêïý ðåñéâÜëëïíôïò êáé íá êáèïñßóåé ôç ñïÞ ôùí äåäïìÝíùí ìåôáîý
ôùí ôåëåóôþí. Óôçí ïõóßá ï ÷ñÞóôçò äßíåé Ýíá ðëÜíï åñùôÞìáôïò. Óôç
óõíÝ÷åéá ôï óýóôçìá âåëôéóôïðïéåß ôçí åðåîåñãáóßá ôùí äåäïìÝíùí ìå-
ôáîý ôùí ôåëåóôþí óå ðñáãìáôéêü ÷ñüíï ìå óêïðü ôç ìåßùóç ôïõ ÷ñüíïõ
áðüêñéóçò.
➣ COUGAR [52]: Åßíáé Ýíá ïëïêëçñùìÝíï ÓÄÑÄ. Áíôß ãéá åããñáöÝò, ôï
óýóôçìá ìïíôåëïðïéåß ôéò ôéìÝò ôùí ñïþí ìå áöáéñåôéêïýò ôýðïõò äåäïìÝ-
íùí (abstract data types), üðïõ âáóßæåôáé ï êáèïñéóìüò êáé ç åêôÝëåóç
ôùí åñùôçìÜôùí.
➣ Gigascope [93]: Åßíáé Ýíá ÓÄÑÄ ìå óêïðü ôçí åîõðçñÝôçóç ôùí äéêôõá-
êþí åöáñìïãþí ôçò åôáéñåßáò AT&T. Ôï óýóôçìá ðáñÝ÷åé ìßá ãëþóóá
åñùôçìÜôùí ãéá ñïÝò, ç ïðïßá ïíïìÜæåôáé GSQL.
➣ Hancock [48]: Åîåëß÷èçêå åðßóçò ãéá ôçí åôáéñåßá ÁÔ&Ô. Ôï óýóôçìá
14 ÊÅÖÁËÁÉÏ 2. ÐÑÏÊÁÔÁÑÊÔÉÊÅÓ ÅÍÍÏÉÅÓ ÓÔÉÓ ÑÏÅÓ ÄÅÄÏÌÅÍÙÍ

ðáñÝ÷åé ìßá äéáäéêáóôéêÞ ãëþóóá ãéá åñùôÞìáôá ñå ñïÝò. Ï óêïðüò ôïõ


óõóôÞìáôïò åßíáé íá êáëýøåé ôéò áíÜãêåò ìßáò óõãêåêñéìÝíçò åöáñìïãÞò.
Ç åöáñìïãÞ áõôÞ áíé÷íåýåé ðñüôõðá ôçëåöùíéêÞò åðéêïéíùíßáò ìåôáîý åêá-
ôïììõñßùí ðåëáôþí ôçò åôáéñåßáò êáé åíçìåñþíåé óå ðñáãìáôéêü ÷ñüíï ãéá
ðéèáíÝò õðïêëïðÝò.
➣ NiagaraCQ [41]: Åßíáé Ýíá óýóôçìá åðåîåñãáóßáò óõíå÷þí åñùôçìÜôùí óå
äõíáìéêÜ äåäïìÝíá ôïõ ðáãêüóìéïõ éóôïý. Ç ìïíôåëïðïßçóç ôùí äåäïìÝ-
íùí êáèþò êáé ôçò ãëþóóáò åñùôçìÜôùí åßíáé âáóéóìÝíç óå XML.
➣ StatStream [183]: Ðñïïñßæåôáé ãéá ôïí õðïëïãéóìü óôáôéóôéêþí ôùí ñïþí
äåäïìÝíùí óå ðñáãìáôéêü ÷ñüíï. Ôï óýóôçìá Ý÷åé ôç äõíáôüôçôá åîáãù-
ãÞò óôáôéóôéêþí óôïé÷åßùí áðü ìßá ñïÞ äåäïìÝíùí êáèþò êáé óõó÷åôßóåéò
ìåôáîý äéáöïñåôéêþí ñïþí.
➣ STREAM [71]: Åßíáé Ýíá ÓÄÑÄ ðïõ ÷ñçóéìïðïéåß ùò ãëþóóá åñùôçìÜôùí
ôç CQL [15], ç ïðïßá åßíáé âáóéóìÝíç óôç SQL. Ôï óýóôçìá äéá÷åéñßæåôáé
áõôüìáôá ôïõò ðüñïõò ôïõ êáé Ý÷åé ôç äõíáôüôçôá ðñïóåããéóôéêþí áðï-
ôåëåóìÜôùí áíÜëïãá ìå ôï ñõèìü Üöéîçò äåäïìÝíùí êáé ôïõò äéáèÝóéìïõò
ðüñïõò ôïõ.
➣ TelegraphCQ [34]: ¸÷åé ùò âáóéêü óêïðü ôçí åîõðçñÝôçóç óõíå÷þí åñù-
ôçìÜôùí. ÐåñéëáìâÜíåé ðñïçãìÝíåò ôå÷íéêÝò ãéá ðñïóáñìïæüìåíá ðëÜíá
åñùôçìÜôùí ðñïêåéìÝíïõ íá åðéôý÷åé ôçí åîõðçñÝôçóç ðïëëþí óõíå÷þí
åñùôçìÜôùí ôáõôü÷ñïíá.
➣ Tapestry [157]: Ðáñüôé äåí åßíáé Ýíá ïëïêëçñùìÝíï ÓÄÑÄ, åßíáé ôï ðñþôï
ðïõ åéóÞãáãå ôçí Ýííïéá ôùí óõíå÷þí åñùôçìÜôùí êáé õëïðïßçóå ìßá åðÝ-
êôáóç ôçò SQL ðñïêåéìÝíïõ íá ìðïñåß íá ôá áîéïëïãÞóåé. Ï óêïðüò
ôïõ óõóôÞìáôïò áöïñïýóå ôï öéëôñÜñéóìá çëåêôñïíéêþí ôá÷õäñïìåßùí êáé
íÝùí.

2.1.5 ÐñïâëÞìáôá óå ñïÝò äåäïìÝíùí


Ôá ðñïâëÞìáôá óå ñïÝò äåäïìÝíùí åßíáé áíáñßèìçôá. Áõôü ïöåßëåôáé óôï ãå-
ãïíüò üôé ïé ðñïôåéíüìåíïé áëãüñéèìïé ãéá óôáôéêÜ äåäïìÝíá, äåí åßíáé êáôÜë-
ëçëïé êáé ðñïóáñìüóéìïé ãéá ôéò ñïÝò äåäïìÝíùí, ó÷åäüí óå üëá ôá æçôÞìáôá
ôùí ðáñáäïóéáêþí âÜóåùí äåäïìÝíùí. Óôç óõíÝ÷åéá áíáöÝñïõìå ïñéóìÝíá áðü
ôá óçìáíôéêüôåñá ðñïâëÞìáôá, üðùò áíáöÝñïíôáé óôï [3], ôá ïðïßá áðáó÷ïëïýí
Ýíôïíá ôçí åñåõíçôéêÞ êïéíüôçôá. Óôéò åðüìåíåò åíüôçôåò ôïõ êåöáëáßïõ èá
áíáöÝñïõìå åêôåíÝóôåñá ìåñéêÜ áðü áõôÜ ôá ðñïâëÞìáôá, ðïõ áðáó÷üëçóáí ôçí
ðáñïýóá äéáôñéâÞ, ìå óêïðü ôçí êáëýôåñç êáôáíüçóç ôùí åðüìåíùí êåöáëáßùí
áðü ôïí áíáãíþóôç.
2.1. ÅÉÓÁÃÙÃÇ ÓÔÉÓ ÑÏÅÓ ÄÅÄÏÌÅÍÙÍ 15

➣ Ïìáäïðïßçóç: Ç ïìáäïðïßçóç (clustering) åßíáé Ýíá ðïëý ãíùóôü êáé


åõñÝùò ìåëåôçìÝíï ðñüâëçìá óå óôáôéêÜ äåäïìÝíá. ¼ìùò, óôéò ñïÝò äå-
äïìÝíùí ôï ðñüâëçìá åßíáé ðïëý äõóêïëüôåñï êáé éäéáßôåñá ôï æÞôçìá ôçò
áõôüìáôçò ðñïóáñìïãÞò ôïõ áñéèìïý ôùí ïìÜäùí [73, 4, 108].
➣ Êáôçãïñéïðïßçóç: Ç êáôçãïñéïðïßçóç (classi cation) åßíáé Ýíá áêüìá
ðïëý ãíùóôü ðñüâëçìá óôçí åîüñõîç äåäïìÝíùí. Ïé áëãüñéèìïé ãéá äõíá-
ìéêÜ äåäïìÝíá ðñÝðåé íá Ý÷ïõí ôç äõíáôüôçôá íá ëáìâÜíïõí õðüøç ôïõò ôç
÷ñïíéêÞ ôïðéêüôçôá ôùí äåäïìÝíùí [5, 53, 83, 103].
➣ Åîüñõîç óõ÷íþí ðñïôýðùí: Ç åîüñõîç óõ÷íþí ðñïôýðùí (frequent pat-
tern mining) ðáñïõóéÜóèçêå ðñþôá óôï [10] êáé óôç óõíÝ÷åéá áðáó÷üëçóå
óå ìåãÜëï âáèìü ôçí åñåõíçôéêÞ êïéíüôçôá. ¼ëåò ïé ðñïóðÜèåéåò áöï-
ñïýóáí äåäïìÝíá ðïõ åßíáé áðïèçêåõìÝíá óôï äßóêï êÜôé ðïõ äåí éó÷ýåé
óôéò ñïÝò äåäïìÝíùí. Åðéðñüóèåôá, óôéò ñïÝò äåäïìÝíùí åßíáé ðéèáíüôåñï
ìßá åöáñìïãÞ íá åíäéáöÝñåôáé ãéá ôá óõ÷íÜ ðñüôõðá ôùí ðéï ðñüóöáôùí
äåäïìÝíùí [69, 91].
➣ Áíß÷íåõóç áëëáãÞò: Ëüãù ôçò äõíáìéêüôçôáò ôùí äåäïìÝíùí, ïé ôéìÝò
ìßáò ñïÞò åßíáé äõíáôü íá áëëÜæïõí êáôáíïìÞ ÷ñïíéêÜ. ¸íá áðü ôá óçìá-
íôéêüôåñá ðñïâëÞìáôá åßíáé ç áíß÷íåõóç ôùí áëëáãþí (change detection),
äéüôé ìðïñåß íá ÷ñçóéìïðïéçèåß ãéá ôçí åðßëõóç ðïëëþí Üëëùí ðñïâëçìÜ-
ôùí, üðùò ç áíß÷íåõóç áëëáãÞò ôïõ áñéèìïý ôùí ïìÜäùí Þ åðéëïãÞ äåäï-
ìÝíùí [1, 49, 98].
➣ ÅðéëïãÞ äåäïìÝíùí: Ôá äåäïìÝíá ôùí ñïþí ðáñÜãïíôáé ìå ìç åëåã÷ü-
ìåíï êáé ìåôáâáëëüìåíï ñõèìü êáé åðïìÝíùò Ýíá ÓÄÑÄ åßíáé ðéèáíü íá
ìçí ìðïñåß íá õðïóôçñßîåé Ýíáí ðïëý õøçëü ñõèìü Üöéîçò äåäïìÝíùí. Ãéá
ôï ëüãï áõôü, åßíáé ðïëý óçìáíôéêü ôï ðñüâëçìá ôçò åðéëïãÞò äåäïìÝíùí
(loadshedding), ôï ïðïßï óêïðü Ý÷åé íá áðïññßøåé äåäïìÝíá ÷ùñßò üìùò íá
åðçñåáóèåß éäéáßôåñá ç áðÜíôçóç ôùí óõíå÷þí åñùôçìÜôùí [18, 45, 156].
➣ Äçìéïõñãßá óõíüøåùí: Ìßá ðïëý óõ÷íÞ ôáêôéêÞ óôéò ñïÝò äåäïìÝíùí
åßíáé ç ÷ñÞóç ðñïóåããéóôéêþí áëãïñßèìùí (approximation algorithms).
Óêïðüò ôïõò åßíáé ç ôá÷ýôåñç áðüêñéóç ôïõ óõóôÞìáôïò êáé ÷ñçóéìïðïéïý-
íôáé ìüíï óå åöáñìïãÝò ðïõ ç áêñßâåéá ôïõ áðïôåëÝóìáôïò äåí åßíáé óç-
ìáíôéêÞ (ôïõëÜ÷éóôïí, ü÷é ôüóï üóï ç áðüêñéóç). Ïé áëãüñéèìïé áõôïß
âáóßæïíôáé óôç äçìéïõñãßá óõíüøåùí (synopsis construction). ÕðÜñ÷ïõí
ðïëëïß äéáöïñåôéêïß ôñüðïé äçìéïõñãßáò óõíüøåùí, üðùò äåéãìáôïëçøßá [2],
êõìáôïìïñöÝò [67] êáé éóôïãñÜììáôá [72].
➣ Äåéêôïäüôçóç: Ç äåéêôïäüôçóç (indexing) ôùí ñïþí äåäïìÝíùí [116,
105] åßíáé Ýíá ðïëý óçìáíôéêü áëëÜ êáé ôáõôü÷ñïíá ðïëý äýóêïëï ðñü-
âëçìá. Óçìáíôéêü ãéáôß ï üãêïò ôùí äåäïìÝíùí åßíáé ôåñÜóôéïò. Ðïëý
16 ÊÅÖÁËÁÉÏ 2. ÐÑÏÊÁÔÁÑÊÔÉÊÅÓ ÅÍÍÏÉÅÓ ÓÔÉÓ ÑÏÅÓ ÄÅÄÏÌÅÍÙÍ

äýóêïëï üìùò, äéüôé ôá äåäïìÝíá áëëÜæïõí äéáñêþò, ïðüôå ç äåéêôïäüôçóç


ðñÝðåé íá åíçìåñþíåôáé. Ãéá ôïõò ðáñáäïóéáêïýò ôñüðïõò äåéêôïäüôçóçò ç
óõíå÷Þò åíçìÝñùóç åßíáé áðáãïñåõôéêÞ, äéüôé ôï êüóôïò ôçò îåðåñíÜ êáôÜ
ðïëý ôï üöåëïò áðü ôç ÷ñÞóç ôçò äåéêôïäüôçóçò.
➣ Äßêôõá áéóèçôÞñùí: Ôá äßêôõá áéóèçôÞñùí (sensor networks) áðïôåëïýí
ôçí êõñéüôåñç êáôçãïñßá ôùí ñïþí äåäïìÝíùí. Áõôü ïöåßëåôáé êõñßùò óå
äýï ëüãïõò. Áöåíüò, ç åîÝëéîç ôçò ôå÷íïëïãßáò áëëÜ êáé ïé áðáéôÞóåéò
ôçò óýã÷ñïíçò êáèçìåñéíüôçôáò Ý÷ïõí êáôáóôÞóåé ôï óýíïëï ôùí åöáñ-
ìïãþí óå äßêôõá áéóèçôÞñùí Ýíá áðü ôá óçìáíôéêüôåñá êáé ðéï áíáðôõó-
óüìåíá æçôÞìáôá. ÁöåôÝñïõ, ôá äßêôõá áéóèçôÞñùí, ëüãù ôùí éäéáßôåñùí
÷áñáêôçñéóôéêþí ôïõò, åðéâÜëïõí ôçí ðñïóåêôéêüôåñç ó÷åäßáóç êáé õëï-
ðïßçóç áëãïñßèìùí áð' üôé óôéò õðüëïéðåò ñïÝò äåäïìÝíùí. Ðéï óõãêåêñé-
ìÝíá, ôá äßêôõá áéóèçôÞñùí åðéâÜëïõí ôç ÷ñÞóç êáôáíåìçìÝíùí áëãïñßè-
ìùí [132, 182, 99] ìå óêïðü ôç ìåßùóç ôçò åðéêïéíùíßáò êáé ôçí êáôáíÜ-
ëùóç åíÝñãåéáò.

2.1.6 ÌåôñéêÝò áðüäïóçò


¸íá âáóéêü åñþôçìá ðïõ äçìéïõñãåßôáé óôïí áíáãíþóôç åßíáé ðïéåò åßíáé áõôÝò
ïé ìåôñéêÝò ðïõ ðñÝðåé íá ÷ñçóéìïðïéçèïýí þóôå íá áðïôéìçèåß óùóôÜ ç áðüäïóç
åíüò áëãïñßèìïõ ãéá ñïÝò äåäïìÝíùí. Åöüóïí, ïé ñïÝò äåäïìÝíùí åðéâÜëïõí
ôç äçìéïõñãßá ôüóï äéáöïñåôéêþí áëãïñßèìùí ãéá ôçí åðßëõóç ôùí ðñïâëçìÜ-
ôùí åßíáé ëïãéêü íá áíáñùôçèïýìå êáôÜ ðüóï åßíáé êáôÜëëçëåò ïé ìåôñéêÝò ðïõ
÷ñçóéìïðïéïýíôáé åõñÝùò ãéá ôïõò ðáñáäïóéáêïýò áëãüñéèìïõò óå óôáôéêÜ äåäï-
ìÝíá. Ç áðÜíôçóç åßíáé áðëÞ: ïé ðáñáäïóéáêÝò ìåôñéêÝò äåí åßíáé êáôÜëëçëåò.
¸íá áðëü áëëÜ ðïëý ÷áñáêôçñéóôéêü ðáñÜäåéãìá åßíáé ç ìÝôñçóç ôïõ ðëÞèïõò
ôùí ðñïóðåëÜóåùí óôï äßóêï (disk accesses), ç ïðïßá ÷ñçóéìïðïéåßôáé ó÷åäüí
óå êÜèå áëãüñéèìï ãéá óôáôéêÜ äåäïìÝíá. Óôéò ñïÝò äåäïìÝíùí, ç ÷ñÞóç ôïõ
óêëçñïý äßóêïõ åßíáé áðáãïñåõôéêÞ êáé ãé' áõôü ôï ëüãï üëïé ïé ðñïôåéíüìåíïé
áëãüñéèìïé èåùñïýí üôé ôá äåäïìÝíá åßíáé óôç ìíÞìç. Ëüãù ôïõ ôåñÜóôéïõ üãêïõ
äåäïìÝíùí, ïé áëãüñéèìïé äåí ôá áðïèçêåýïõí, áðëÜ ôá åðåîåñãÜæïíôáé, åîÜãïõí
óõìðåñÜóìáôá êáé óõíå÷ßæïõí ìå ôá íÝá äåäïìÝíá. Ïé âáóéêÝò ìåôñéêÝò ðïõ
÷ñçóéìïðïéÞèçêáí êáé ÷ñçóéìïðïéïýíôáé ìÝ÷ñé óÞìåñá ãéá ôéò ñïÝò äåäïìÝíùí
åßíáé:
➣ ×ñüíïò áðüêñéóçò (response time): áðü ôç óôéãìÞ Üöéîçò ìßáò åããñáöÞò,
ðüóç þñá áðáéôåßôáé ãéá ôçí åðåîåñãáóßá ôçò êáé ôçí åîáãùãÞ óõìðåñÜóìá-
ôïò.
➣ ÊëéìÜêùóç (scalability): ðùò áíôáðïêñßíåôáé ôï óýóôçìá óôçí áýîçóç
ôùí ðçãþí äåäïìÝíùí, äçëáäÞ áýîçóç ôïõ áñéèìïý ôùí ñïþí äåäïìÝíùí Þ
áýîçóç ôïõ ìåãÝèïõò ôïõ ðáñáèýñïõ.
2.2. ÊÁÔÇÃÏÑÉÏÐÏÉÇÓÇ ÊÉÍÏÕÌÅÍÙÍ ×ÑÏÍÏÓÅÉÑÙÍ 17

➣ Áêñßâåéá (accuracy): óå ðåñéðôþóåéò üðïõ ÷ñçóéìïðïéïýíôáé ðñïóåããéóôé-


êïß áëãüñéèìïé, ðïéá åßíáé ç áêñßâåéá ôïõ áðïôåëÝóìáôïò.

2.2 Êáôçãïñéïðïßçóç Êéíïýìåíùí ×ñïíïóåéñþí


Ç êáôçãïñéïðïßçóç åßíáé Ýíá ðïëý ãíùóôü ðñüâëçìá êáé Ý÷åé ìåëåôçèåß óå äéÜ-
öïñïõò åðéóôçìïíéêïýò ôïìåßò, üðùò ç ìç÷áíéêÞ ìÜèçóç, ç óôáôéóôéêÞ êáé ç
åîüñõîç äåäïìÝíùí. Óôéò êéíïýìåíåò ÷ñïíïóåéñÝò, ôï ðñüâëçìá ãßíåôáé áêüìá
ðéï äýóêïëï ëüãù ôçò äõíáìéêüôçôáò ôùí äåäïìÝíùí. Ôï ðñüâëçìá ïñßæåôáé ùò
åîÞò:
ÏÑÉÓÌÏÓ 2.1 (Êáôçãïñéïðïßçóç). ÄåäïìÝíïõ åíüò óõíüëïõ êéíïýìåíùí ÷ñï-
íïóåéñþí, óõíå÷Þò êáôçãïñéïðïßçóç ïíïìÜæåôáé ç äéáäéêáóßá ðñïóäéïñéóìïý ôçò
êáôçãïñßáò êÜèå êéíïýìåíçò ÷ñïíïóåéñÜò óå êÜèå ÷ñïíéêÞ óôéãìÞ.
Ïé êáôçãïñßåò ìðïñåß íá åßíáé ãíùóôÝò åê ôùí ðñïôÝñùí Þ ðñÝðåé íá ðñïóäéï-
ñéóèïýí ìå âÜóç ôá õðÜñ÷ïíôá äåäïìÝíá. Óôç äåýôåñç ðåñßðôùóç, ôï ðñüâëçìá
ôçò êáôçãïñéïðïßçóçò åßíáé áêüìá äõóêïëüôåñï, åéäéêÜ ãéá ôéò êéíïýìåíåò ÷ñï-
íïóåéñÝò, äéüôé ïé êáôçãïñßåò åßíáé äõíáôü íá áëëÜæïõí ÷ñïíéêÜ. Ïé ìÝèïäïé
ðïõ áíôéìåôùðßæïõí ôç äåýôåñç ðåñßðôùóç, ÷ñçóéìïðïéïýí ìéá ðåñßïäï åêìÜèç-
óçò ðñïêåéìÝíïõ íá åíôïðßóïõí ôéò õðÜñ÷ïõóåò êáôçãïñßåò êáé ìå âÜóç áõôÝò
íá êáôçãïñéïðïéÞóïõí ôá õðüëïéðá äåäïìÝíá. ÊÜôé ôÝôïéï üìùò óôéò êéíïýìåíåò
÷ñïíïóåéñÝò äåí Ý÷åé íüçìá, ãéáôß áêüìá êáé áí ãßíåé óùóôÜ ï ðñïóäéïñéóìüò
ôùí êáôçãïñéþí êáôÜ ôçí ðåñßïäï åêìÜèçóçò, óôç óõíÝ÷åéá ïé õðÜñ÷ïõóåò êá-
ôçãïñßåò ìðïñåß íá ìåôáâëçèïýí.
¸íáò áðëüò ôñüðïò áíôéìåôþðéóçò áõôïý ôïõ æçôÞìáôïò åßíáé íá åðáíáëáì-
âÜíåôáé áíÜ ôáêôéêÜ ÷ñïíéêÜ äéáóôÞìáôá ç ðåñßïäïò åêìÜèçóçò. ¼ìùò, ìå áõôÞí
ôçí ðñïóÝããéóç äçìéïõñãïýíôáé äéÜöïñá ðñïâëÞìáôá. Ðñþôïí, ðñÝðåé íá ðñïó-
äéïñéóèåß êÜèå ðüôå èá åöáñìüæåôáé ç ðåñßïäïò åêìÜèçóçò, æÞôçìá ðïõ äåí åßíáé
åýêïëï áöïý äåí õðÜñ÷åé ôñüðïò íá áîéïëïãÞóïõìå ôï áðïôÝëåóìá ôçò êáôçãï-
ñéïðïßçóçò. Äåýôåñïí, ç åöáñìïãÞ ôçò ðåñéüäïõ åêìÜèçóçò èá óÞìáéíå üôé áíÜ
ôáêôÜ ÷ñïíéêÜ äéáóôÞìáôá äåí èá ìðïñïýóå ï áëãüñéèìïò íá äßíåé áðïôåëÝóìáôá.
ÁíÜëïãá ôçí åöáñìïãÞ üðïõ ÷ñçóéìïðïéåßôáé ç êáôçãïñéïðïßçóç, êÜôé ôÝôïéï äåí
åßíáé ðÜíôá áðïäåêôü êáèþò åîáñôÜôáé áðü ôç óçìáíôéêüôçôá êáé ôçí êñéóéìüôçôá
ôçò ÷ñÞóçò ôùí áðïôåëåóìÜôùí êáôçãïñéïðïßçóçò.
Ç êáôçãïñéïðïßçóç ÷ñïíïóåéñþí åßíáé Ýíá ðïëý êáëÜ ìåëåôçìÝíï ðñüâëçìá
óôçí õðÜñ÷ïõóá âéâëéïãñáößá. Äõóôõ÷þò üëïé ïé ðñïôåéíüìåíïé áëãüñéèìïé äåí
åßíáé êáôÜëëçëïé ãéá êéíïýìåíåò ÷ñïíïóåéñÝò. Ïé êõñéüôåñïé ëüãïé ðïõ ôïõò
êáôáóôïýí áêáôÜëëçëïõò åßíáé: (á) áðáéôïýí ðåñéóóüôåñåò áðü ìßá óáñþóåéò
ôùí äåäïìÝíùí, (â) Ý÷ïõí õøçëÝò áðáéôÞóåéò óå ìíÞìç, (ã) äåí Ý÷ïõí ãñÞãïñç
áðüêñéóç, ìéáò êáé áõôü äåí åßíáé æçôïýìåíï óå óôáôéêÜ äåäïìÝíá, êáé (ä) äåí
ìðïñïýí íá ðñïóäéïñßóïõí áëëáãÝò óôçí êáôçãïñéïðïßçóç. Ãéá íá êáôáíïÞóïõìå
18 ÊÅÖÁËÁÉÏ 2. ÐÑÏÊÁÔÁÑÊÔÉÊÅÓ ÅÍÍÏÉÅÓ ÓÔÉÓ ÑÏÅÓ ÄÅÄÏÌÅÍÙÍ

ôç óçìáíôéêüôçôá ôïõ ôåëåõôáßïõ, ðñÝðåé íá ëÜâïõìå õðüøç ìáò üôé óôéò êéíïý-
ìåíåò ÷ñïíïóåéñÝò ôá äåäïìÝíá äéáñêþò ìåôáâÜëëïíôáé êáé êáôÜ óõíÝðåéá åßíáé
ðéèáíÞ ìéá áëëáãÞ ôçò êáôáíïìÞò ôùí äåäïìÝíùí ìå ôçí ðÜñïäï ôïõ ÷ñüíïõ.
Óôç óõíÝ÷åéá èá åîåôÜóïõìå ôïõò ãíùóôüôåñïõò áëãïñßèìïõò êáôçãïñéïðïßç-
óçò ñïþí äåäïìÝíùí, ïé ïðïßïé ìðïñïýí íá ÷ùñéóèïýí óå äýï âáóéêÝò êáôçãïñßåò
[3]: ôïõò âáóéóìÝíïõò óôá äåäïìÝíá (data-based) êáé ôïõò âáóéóìÝíïõò óôçí
åñãáóßá (task-based). Óôçí ðñþôç êáôçãïñßá, ç âáóéêÞ éäÝá åßíáé íá åîåôÜóïõìå
Ýíá ôìÞìá ôùí äåäïìÝíùí Þ íá ìåôáó÷çìáôßóïõìå ôá äåäïìÝíá óå Ýíá ÷þñï
ëéãüôåñï äéáóôÜóåùí ðñïêåéìÝíïõ íá ìåéþóïõìå ôçí ðïëõðëïêüôçôá ôùí áëãï-
ñßèìùí. Óôç äåýôåñç êáôçãïñßá, ÷ñçóéìïðïéïýìå êÜðïéåò áëãïñéèìéêÝò ôå÷íéêÝò,
üðùò ôá ðáñÜèõñá, ðñïêåéìÝíïõ íá åðéôý÷ïõìå êáëýôåñïõò ÷ñüíïõò áðüêñéóçò
êáé ìéêñüôåñåò áðáéôÞóåéò óå ìíÞìç. Ï Ðßíáêáò 2.1 ðáñïõóéÜæåé äéÜöïñåò ãåíéêÝò
ðñïóåããßóåéò êáé ôùí äýï êáôçãïñéþí.
Áëãüñéèìïé âáóéóìÝíïé Áëãüñéèìïé âáóéóìÝíïé
óôá äåäïìÝíá óôçí åñãáóßá
Äåéãìáôïëçøßá ÐñïóÝããéóç
Áðüññéøç öüñôùóçò ÐáñÜèõñï
ÓêéáãñÜöéóç ÁíÜëõóç
Óýíïøç
ÓõíÜèñïéóç

ΠINAKAΣ 2.1. ÃåíéêÜ ìïíôÝëá áëãïñßèìùí áíÜ êáôçãïñßá.

2.2.1 Êáôçãïñéïðïßçóç âáóéóìÝíç óå óýíïëá


Óôçí åñãáóßá [162] ðñïôÜèçêå ôï ãåíéêü ðëáßóéï êáôçãïñéïðïßçóçò âáóéóìÝíçò
óå óýíïëá (ensemble based classi cation) ãéá ôçí êáôçãïñéïðïßçóç ñïþí äåäïìÝ-
íùí ìå êýñéï óêïðü ôçí åíçìÝñùóç ôùí êáôçãïñéþí ìå ôçí ðÜñïäï ôïõ ÷ñüíïõ.
ÐÝñá áðü áõôü, ðñïêåéìÝíïõ íá åðéôåõ÷èåß ç êáôçãïñéïðïßçóç ìðïñåß íá ÷ñç-
óéìïðïéçèåß ïðïéïóäÞðïôå êëáóéêü ìïíôÝëï êáôçãïñéïðïßçóçò, üðùò ôá äÝíäñá
áðüöáóçò.
Ôï âáóéêü êßíçôñï ôçò åñãáóßáò åßíáé íá ëÜâåé õðüøç ôï ÷áñáêôçñéóôéêü ôùí
êéíïýìåíùí ÷ñïíïóåéñþí, üôé ôá äåäïìÝíá \ðáëéþíïõí". Ç éäÝá íá ÷ñçóéìïðïéïý-
íôáé ìüíï ôá ðéï ðñüóöáôá äåäïìÝíá, üðùò óõìâáßíåé ìå ôç ÷ñÞóç ðáñáèýñùí,
äåí åßíáé áðïäåêôÞ áðü üëåò ôéò åöáñìïãÝò. Ðáñüôé ïé ðáëéÝò ôéìÝò ìðïñïýí íá
åðçñåÜóïõí ìå áñíçôéêü ôñüðï ôï áðïôÝëåóìá ôçò êáôçãïñéïðïßçóçò, óå ìåñé-
êÝò åöáñìïãÝò åßíáé óçìáíôéêü íá ëáìâÜíïíôáé õðüøç ôá ðáëéÜ äåäïìÝíá óôï
ôñÝ÷ïí áðïôÝëåóìá. Ç åñãáóßá áõôÞ ðñïôåßíåé ôç ÷ñÞóç âáñþí ðñïêåéìÝíïõ íá
åðéôý÷åé áõôü ôï óêïðü. Ç ðñïôåéíüìåíç ìÝèïäïò ÷ñçóéìïðïéåß Ýíáò âÜñïò ãéá
êÜèå êáôçãïñßá, áíÜëïãá ìå ðïéïôéêÜ ÷áñáêôçñéóôéêÜ. Ôá âÜñç ìåôáâÜëëïíôáé
2.2. ÊÁÔÇÃÏÑÉÏÐÏÉÇÓÇ ÊÉÍÏÕÌÅÍÙÍ ×ÑÏÍÏÓÅÉÑÙÍ 19

ìå áðïôÝëåóìá, ìßá êáôçãïñßá íá åßíáé éäéáßôåñá Ýùò ìçäáìéíÜ óçìáíôéêÞ óôçí


ôñÝ÷ïõóá êáôçãïñéïðïßçóç.

2.2.2 Ðïëý ãñÞãïñá äÝíäñá áðüöáóçò


Óôçí åñãáóßá [53] ðñïôÜèçêå ç ìÝèïäïò ðïëý ãñÞãïñá äÝíäñá áðüöáóçò (very
fast decision trees - VFDT) ðïõ ðñïôåßíåé Ýíá óýóôçìá ìÜèçóçò äÝíäñïõ áðüöá-
óçò âáóéóìÝíç óôá äÝíäñá Hoe ding. Äéá÷ùñßæåé ôï äÝíäñï ÷ñçóéìïðïéþíôáò ôï
êáëýôåñï ôñÝ÷ïí ÷áñáêôçñéóôéêü, ëáìâÜíïíôáò õðüøç üôé ï áñéèìüò ôùí ðáñá-
äåéãìÜôùí éêáíïðïéåß ôï üñéï Hoe ding. Ç ðñïôåéíüìåíç ìÝèïäïò åðåêôåßíåé ôá
äÝíäñá Hoe ding ìå ôéò åîÞò ðñïóèÞêåò:
➣ ¸íá âáóéêü æÞôçìá åßíáé ç åðéëïãÞ ôïõ ÷áñáêôçñéóôéêïý ðïõ ÷ñçóéìï-
ðïéåßôáé ãéá ôï äéá÷ùñéóìü ôïõ äÝíäñïõ êáôÜ ôç äéÜñêåéá êáôáóêåõÞò ôïõ.
ÐéèáíÝò éóïðáëßåò ìåôáîý ôùí ÷áñáêôçñéóôéêþí åðéëýïíôáé ìå Ýíá êáôþöëé
ðïõ ïñßæåôáé áðü ôï ÷ñÞóôç ó÷åôéêÜ ìå ôï áðïäåêôü ëÜèïò ôïõ áðïôåëÝ-
óìáôïò.
➣ Åðéôõã÷Üíåôáé ï ðåñéïñéóìüò ôçò ìíÞìçò ìå ôçí áðåíåñãïðïßçóç ü÷é ðïëëÜ
õðïó÷üìåíùí öýëëùí ôïõ äÝíäñïõ êáé áãíïþíôáò êÜðïéá ÷áñáêôçñéóôéêÜ.
Ôá ÷áñáêôçñéóôéêÜ ðïõ áãíïïýíôáé ðñïóäéïñßæïíôáé ìÝóù ôçò äéáöïñÜò
ôùí êñéôçñßùí äéá÷ùñéóìïý ôùí õøçëüôåñùí êáé ÷áìçëüôåñùí ÷áñáêôçñé-
óôéêþí.
➣ ÄéÜöïñåò åðåêôÜóåéò ðñïôÜèçêáí ìå óêïðü ôç ìåßùóç ôïõ ÷ñüíïõ áðüêñé-
óçò. Áðïäåß÷èçêå üôé ç ðñïôåéíüìåíç ìÝèïäïò áðáéôåß ëéãüôåñï ÷ñüíï áðü
üôé ç óÜñùóç ôùí äåäïìÝíùí. Ç ìÝèïäïò áðáéôåß ìüíï ìßá óÜñùóç ôùí
äåäïìÝíùí. ÅðéðëÝïí, ï õðïëïãéóìüò ôùí êñéôçñßùí äéá÷ùñéóìïý ãßíåôáé
ìå ìáæéêÞ åðåîåñãáóßá, åðéôõã÷Üíïíôáò êáëýôåñïõò ÷ñüíïõò.
Óôç óõíÝ÷åéá ç ìÝèïäïò VFDT åðåêôÜèçêå Ýôóé þóôå íá õðïóôçñßæåé ôçí
áõôüìáôç åíçìÝñùóç ôùí êáôçãïñéþí. ÁõôÞ ç ìÝèïäïò ïíïìÜæåôáé CVFDT êáé
ðñïôÜèçêå óôçí åñãáóßá [83]. ÔÝëïò ç ìÝèïäïò åðåêôÜèçêå [90] þóôå íá ìðïñåß
íá åðåîåñãáóèåß áñéèìçôéêÝò ôéìÝò áðïôåëåóìáôéêüôåñá ìå ìéêñüôåñï ìÝãåèïò
äåßãìáôïò.

2.2.3 Êáôçãïñéïðïßçóç êáôÜ áðáßôçóç


Óôçí åñãáóßá [4] ðñïôÜèçêáí ïé micro-clusters ùò óõíüøåéò ôùí ñïþí äåäïìÝíùí
êáé óôç óõíÝ÷åéá ÷ñçóéìïðïéÞèçêáí ãéá ôçí êáôçãïñéïðïßçóç [5]. Ç ðñïôåéíü-
ìåíç ìÝèïäïò, ç ïðïßá ïíïìÜæåôáé êáôçãïñéïðïßçóç êáôÜ áðáßôçóç (on demand
classi cation), ÷ùñßæåôáé óå äýï âáóéêÜ ôìÞìáôá. Ôï ðñþôï ôìÞìá óõíå÷þò õðï-
ëïãßæåé êáé áðïèçêåýåé óôáôéóôéêÜ ãéá ôéò ñïÝò äåäïìÝíùí (micro-clusters) êáé ôï
20 ÊÅÖÁËÁÉÏ 2. ÐÑÏÊÁÔÁÑÊÔÉÊÅÓ ÅÍÍÏÉÅÓ ÓÔÉÓ ÑÏÅÓ ÄÅÄÏÌÅÍÙÍ

äåýôåñï ÷ñçóéìïðïéåß áõôÜ ôá óôáôéóôéêÜ ãéá íá õðïëïãßóåé ôçí êáôçãïñéïðïßçóç


üôáí áõôÞ æçôçèåß. Ôï êõñéüôåñï ðëåïíÝêôçìá ôçò ìåèüäïõ åßíáé ç åõåëéîßá ôçò.
ÏðïéáäÞðïôå ÷ñïíéêÞ óôéãìÞ, ïé ôñÝ÷ïíôåò micro-clusters ìðïñïýí íá ÷ñç-
óéìïðïéçèïýí ãéá ôçí êáôçãïñéïðïßçóç. Ôï âáóéêü êßíçôñï áõôÞò ôçò åñãáóßáò
åßíáé üôé ç êáôçãïñéïðïßçóç ðñÝðåé íá ïñßæåôáé óå Ýíá ÷ñïíéêü äéÜóôçìá ðïõ åîáñ-
ôÜôáé áðü ôç ìåôáâïëÞ ôùí êáôçãïñéþí êáé ôùí äåäïìÝíùí. Áí ïé ìåôáâïëÝò åßíáé
ìéêñÝò, ìðïñïýí íá ëçöèïýí õðüøç ôá äåäïìÝíá åíüò ìåãÜëïõ ÷ñïíéêïý äéáóôÞ-
ìáôïò êáé ðñïöáíþò ôï áíôßèåôï áí ïé ìåôáâïëÝò åßíáé Ýíôïíåò. Ïé micro-clusters
äßíïõí ôç äõíáôüôçôá õðïëïãéóìïý óôáôéóôéêþí óå äéÜöïñá ÷ñïíéêÜ äéáóôÞìáôá
ìå áðïôÝëåóìá íá åßíáé äõíáôÞ ç êáôçãïñéïðïßçóç ôùí äåäïìÝíùí äéáöïñåôéêþí
÷ñïíéêþí äéáóôçìÜôùí.

2.2.4 Ðñïóáñìïæüìåíïò áëãüñéèìïò êáôçãïñéïðïßçóçò ãéá


ñïÝò äåäïìÝíùí âáóéóìÝíïò óôïí êïíôéíüôåñï ãåßôïíá
Óôçí åñãáóßá [115] ðñïôÜèçêå ç ìÝèïäïò êáôçãïñéïðïßçóçò ãéá ñïÝò äåäïìÝíùí
âáóéóìÝíç óôïí êïíôéíüôåñï ãåßôïíá (nearest neighbor), ãíùóôüò ùò ANNCAD
(Adaptive Nearest Neighbor Classi cation Algorithm for Data streams). Ï
áëãüñéèìïò ÷ñçóéìïðïéåß Ýíá ìåôáó÷çìáôéóìü Haar Wavelet ãéá ôçí ðïëëáðëþí
åðéðÝäùí áíáðáñÜóôáóç ôùí äåäïìÝíùí. ¸íá ðëÝãìá (grid) ÷ñçóéìïðïéåßôáé ãéá
ôçí áíáðáñÜóôáóç êÜèå åðéðÝäïõ.
Ç äéáäéêáóßá ôçò êáôçãïñéïðïßçóçò îåêéíÜ ìå ôçí ðñïóðÜèåéá íá êáôçãïñéï-
ðïéçèåß ôï äåäïìÝíï ðïõ åßíáé êïíôéíüôåñïò ãåßôïíáò óôá ðåñéóóüôåñá äåäïìÝíá
óå õøçëÞ áíáðáñÜóôáóç. Áí ç õøçëÞ áíáðáñÜóôáóç äåí åßíáé äõíáôü íá âïç-
èÞóåé óôçí êáôçãïñéïðïßçóç (åöüóïí äåí îåðåñíéÝôáé Ýíá ðñïêáèïñéóìÝíï êá-
ôþöëé), ôüôå ÷ñçóéìïðïéïýíôáé ÷áìçëüôåñåò áíáðáñáóôÜóåéò ãé áõôü ôï óêïðü.
Ãéá íá ëçöèåß õðüøç ç ìåôáâïëÞ ôùí äåäïìÝíùí, ÷ñçóéìïðïéÞèçêå ìßá åêèåôéêÞ
óõíÜñôçóç âÜñïõò ãéá ôçí ðáëáéüôçôá ôùí äåäïìÝíùí.
Óå ó÷Ýóç ìå ôéò ìåèüäïõò VFDT êáé CVFDT, ç ðñïôåéíüìåíç ìÝèïäïò åßíáé
êáëýôåñç. Ôï ìåéïíÝêôçìá ôïõ óõãêåêñéìÝíïõ áëãïñßèìïõ Ýíáíôé ôùí Üëëùí äýï,
åßíáé üôé äåí ìðïñåß íá áíôéëçöèåß Ýãêáéñá Ýíôïíåò ìåôáâïëÝò óôéò êáôçãïñßåò
ëüãù ôïõ åêèåôéêïý ôñüðïõ ðáëáßùóçò ôùí äåäïìÝíùí.

2.3 Ïìáäïðïßçóç Êéíïýìåíùí ×ñïíïóåéñþí


ÓÞìåñá õðÜñ÷ïõí ðÜñá ðïëëÝò åöáñìïãÝò ñïþí äåäïìÝíùí, üðïõ ç åîüñõîç ãíþ-
óçò ãéá ðåñáéôÝñù ÷ñÞóç åßíáé ðïëý óçìáíôéêÞ, áëëÜ ôáõôü÷ñïíá êáé ðÜñá ðïëý
äýóêïëç ëüãù ôùí áðáéôÞóåùí ôùí ñïþí äåäïìÝíùí. ÔÝôïéåò åöáñìïãÝò åßíáé ôá
äßêôõá áéóèçôÞñùí, ç áíÜëõóç êßíçóçò äéêôýïõ, ç áíÜëõóç ïéêïíïìéêþí ïíôïôÞ-
ôùí, ãéá ðáñÜäåéãìá ìåôï÷Ýò, ç áíÜëõóç óõíáëëáãþí êáé ç êáôáãñáöÞ êéíÞóåùí
ðéóôùôéêþí êáñôþí.
2.3. ÏÌÁÄÏÐÏÉÇÓÇ ÊÉÍÏÕÌÅÍÙÍ ×ÑÏÍÏÓÅÉÑÙÍ 21

Óå áõôÞ ôçí åíüôçôá èá áíáöÝñïõìå ìåñéêÝò áðü ôéò ðñïôåéíüìåíåò ôå÷íéêÝò


ãéá ïìáäïðïßçóç óå ñïÝò äåäïìÝíùí. ¸íáò áëãüñéèìïò ïìáäïðïßçóçò ñïþí ðñï-
êåéìÝíïõ íá åßíáé áðïôåëåóìáôéêüò ðñÝðåé íá êáëýðôåé êÜðïéåò ðñïäéáãñáöÝò, ïé
ïðïßåò åßíáé: (á) ìéêñüò óôáèåñüò ÷ñüíïò åðåîåñãáóßáò êÜèå äåäïìÝíïõ, (â) ìßá
óÜñùóç ôùí äåäïìÝíùí, (ã) ðåñéïñéóìÝíåò áðáéôÞóåéò ìíÞìçò, êáé (ä) åíçìÝñùóç
ôùí áðïôåëåóìÜôùí ìå âÜóç ôá ðñïçãïýìåíá áðïôåëÝóìáôá.
Ïé áëãüñéèìïé ïìáäïðïßçóçò êéíïýìåíùí ÷ñïíïóåéñþí ÷ùñßæïíôáé óå äýï êá-
ôçãïñßåò: (á) óå áõôïýò ðïõ ïìáäïðïéïýí ôéò ôéìÝò ìéáò êéíïýìåíçò ÷ñïíïóåéñÜò,
êáé (â) óå áõôïýò ðïõ ïìáäïðïéïýí äéáöïñåôéêÝò êéíïýìåíåò ÷ñïíïóåéñÝò. Ëüãù
ôùí äýï áõôþí êáôçãïñéþí ðñïêýðôïõí ïé åîÞò äýï ïñéóìïß:
ÏÑÉÓÌÏÓ 2.2 (Ïìáäïðïßçóç - Êáôçãïñßá 1). ÄåäïìÝíçò ìßáò êéíïýìåíçò ÷ñï-
íïóåéñÜò, óõíå÷Þò ïìáäïðïßçóç ïíïìÜæåôáé ç äéáäéêáóßá äéá÷ùñéóìïý ôùí ôéìþí
ôçò óå ïìÜäåò êÜèå ÷ñïíéêÞ óôéãìÞ.
ÏÑÉÓÌÏÓ 2.3 (Ïìáäïðïßçóç - Êáôçãïñßá 2). ÄåäïìÝíïõ åíüò óõíüëïõ êéíïý-
ìåíùí ÷ñïíïóåéñþí, óõíå÷Þò ïìáäïðïßçóç ïíïìÜæåôáé ç äéáäéêáóßá äéá÷ùñéóìïý
ôùí êéíïýìåíùí ÷ñïíïóåéñþí óå ïìÜäåò êÜèå ÷ñïíéêÞ óôéãìÞ.
Ç ðñþôç êáôçãïñßá ïìáäïðïßçóçò åßíáé åõêïëüôåñç êáé áõôü êõñßùò äéüôé
åßíáé äõíáôü íá ÷ñçóéìïðïéçèïýí áëãüñéèìïé ðïõ ðñïôÜèçêáí ãéá óôáôéêÜ äåäï-
ìÝíá, áñêåß íá êáëýðôïõí ôéò áðáéôÞóåéò ðïõ ðñïáíáöÝñáìå. ÓõíÞèùò áõôü äåí
éó÷ýåé, áëëÜ üðùò èá äïýìå êáé óôç óõíÝ÷åéá, ìå ìéêñÝò äéáöïñïðïéÞóåéò ôçò êå-
íôñéêÞò éäÝáò åßíáé äõíáôü íá åðéôåõ÷èåß. Ïé áëãüñéèìïé ðïõ èá áíáöÝñïõìå óôç
óõíÝ÷åéá åßíáé üëïé ôçò ðñþôçò êáôçãïñßáò. Äõóôõ÷þò, óôç äåýôåñç êáôçãïñßá
Ý÷ïõí ãßíåé åëÜ÷éóôåò ðñïóðÜèåéåò êáé áõôÝò óå Üëëïõò åðéóôçìïíéêïýò ôïìåßò,
ïé ïðïßåò åßôå áó÷ïëïýíôáé ìå óôáôéêÜ äåäïìÝíá [177, 124], Þ áó÷ïëïýíôáé ìå
óõãêåêñéìÝíïõ ôýðïõ äåäïìÝíá [143]. Êáé óôéò äýï ðåñéðôþóåéò, åßíáé äýóêïëï
íá ðñïóáñìïóèåß ï áëãüñéèìïò óôéò áíÜãêåò ôùí ñïþí äåäïìÝíùí. Èá èÝëáìå
íá áíáöÝñïõìå óå áõôü ôï óçìåßï üôé óôï ÊåöÜëáéï 4 èá ðñïôåßíïõìå Ýíáí áëãü-
ñéèìï ðïõ áöïñÜ óôçí ïìáäïðïßçóç ôçò äåýôåñçò êáôçãïñßáò. ÅðéðëÝïí, áîßæåé íá
óçìåéùèåß üôé óôçí åñãáóßá [120], ïé óõããñáöåßò áðïäåéêíýïõí üôé ç ïìáäïðïßçóç
ñïþí äåäïìÝíùí ôçò ðñþôçò êáôçãïñßáò äåí Ý÷åé íüçìá. Ðáñüëá áõôÜ, üëïé ïé
áëãüñéèìïé ðïõ èá áíáöÝñïõìå óôç óõíÝ÷åéá åßíáé áîéüëïãåò ðñïóðÜèåéåò ðïõ
ìðïñïýí íá ëçöèïýí õðüøç êáôÜ ôï ó÷åäéáóìü íÝùí áëãïñßèìùí áíåîáñôÞôùò
êáôçãïñßáò.
Óôç ó÷åôéêÞ âéâëéïãñáößá õðÜñ÷ïõí äéáöïñåôéêÝò ðñïóåããßóåéò óôï æÞôçìá
ôçò ïìáäïðïßçóçò. Ïé ðñþôïé áëãüñéèìïé ðïõ ðñïôÜèçêáí ÷ñçóéìïðïéïýí üëåò
ôéò ôéìÝò ôçò ñïÞò, ÷ùñßò êÜðïéï ìïíôÝëï áðüññéøçò Þ ðáëáßùóçò ôùí äåäïìÝíùí,
êáé óôçí ïõóßá áðïôåëïýí åêäüóåéò óõíå÷ïýò åêôÝëåóçò áëãïñßèìùí ãéá óôáôéêÜ
äåäïìÝíá. Áõôïß ïé áëãüñéèìïé [74, 73, 130] ÷ñçóéìïðïéïýí ðñïóåããßóåéò \äéáßñåé
êáé âáóßëåõå". Äéá÷ùñßæïõí ôç ñïÞ óå ôìÞìáôá êáé áíáêáëýðôïõí ïìÜäåò óôç
ñïÞ âáóéóìÝíïé óôïí áëãüñéèìï k-means. ÌåéïíÝêôçìá áõôþí ôùí áëãïñßèìùí
22 ÊÅÖÁËÁÉÏ 2. ÐÑÏÊÁÔÁÑÊÔÉÊÅÓ ÅÍÍÏÉÅÓ ÓÔÉÓ ÑÏÅÓ ÄÅÄÏÌÅÍÙÍ

åßíáé üôé èåùñïýí ðáëéÜ êáé íÝá äåäïìÝíá ßäéáò óçìáíôéêüôçôáò êáé êáôÜ óõíÝ-
ðåéá äåí ëáìâÜíïõí õðüøç ôïõò ðéèáíÝò áëëáãÝò óôçí êáôáíïìÞ ôùí äåäïìÝíùí.
Ãéá íá áíôéìåôùðéóèåß áõôü ôï ìåéïíÝêôçìá, ðñïôÜèçêáí áëãüñéèìïé ðïõ ÷ñçóé-
ìïðïéïýí ðáñÜèõñá ðñïêåéìÝíïõ íá äéá÷ùñßóïõí ôá ðáëéÜ áðü ôá íÝá äåäïìÝíá
[19, 23].
Ìßá ôåëåßùò äéáöïñåôéêÞ ðñïóÝããéóç áêïëïõèÞèçêå óôçí åñãáóßá [4]. Ï
áëãüñéèìïò ðïõ ðñïôÜèçêå ÷ùñßæåôáé óå äýï ôìÞìáôá: óå Ýíá ðñáãìáôéêïý ÷ñü-
íïõ ôìÞìá ðïõ åðåîåñãÜæåôáé ôá íÝá äåäïìÝíá êáé õðïëïãßæåé áèñïéóôéêÜ óôáôé-
óôéêÜ, êáé óå Ýíá ìç-ðñáãìáôéêïý ÷ñüíïõ ôìÞìá ðïõ ÷ñçóéìïðïéåß ôá áèñïéóôéêÜ
óôáôéóôéêÜ êáé åíôïðßæåé ôéò ïìÜäåò. Óå áõôÞí ôçí ðñïóÝããéóç ôùí äýï ôìçìÜ-
ôùí, óôçñß÷èçêáí ìåôáãåíÝóôåñïé áëãüñéèìïé. Óôçí åñãáóßá [164], ðñïôÜèçêå ìßá
âåëôßùóç ôïõ ôìÞìáôïò ìç-ðñáãìáôéêïý ÷ñüíïõ ÷ñçóéìïðïéþíôáò ôå÷íéêÝò äéá-
ìïéñáóìïý. ¢ëëïé áëãüñéèìïé ðñïôÜèçêáí ãéá óõãêåêñéìÝíåò åöáñìïãÝò ñïþí
äåäïìÝíùí [129, 131, 150].
¼ëïé ïé ðñïáíáöåñèÝíôåò áëãüñéèìïé âáóßæïíôáé óôïí áëãüñéèìï k-means,
åßôå ùò åðÝêôáóÞ ôïõ, åßôå ùò áëãïñßèìïõ ïìáäïðïßçóçò ôïõ ôìÞìáôïò ìç-ðñáã-
ìáôéêïý ÷ñüíïõ. Ç ÷ñÞóç ôïõ k-means åéóÜãåé ðïëëïýò ðåñéïñéóìïýò, üðùò:
➣ Ï k-means åíôïðßæåé ìüíï óöáéñéêÝò ïìÜäåò êáé ü÷é ïìÜäåò ôõ÷áßïõ ó÷Þ-
ìáôïò.
➣ Ï k-means åßíáé åõáßóèçôïò óå èüñõâï êáé äåí ìðïñåß íá åíôïðßóåé outliers.
➣ Ï k-means áðáéôåß ðïëëáðëÜ ðåñÜóìáôá óôá äåäïìÝíá êáé ãé' áõôü ôï ëüãï
ïé ðåñéóóüôåñïé áëãüñéèìïé ôï ÷ñçóéìïðïéïýí óôï ôìÞìá ìç-ðñáãìáôéêïý
÷ñüíïõ.
➣ Ï k-means ðñïûðïèÝôåé üôé ï áñéèìüò ôùí ïìÜäùí åßíáé k. Óôá óôáôéêÜ
äåäïìÝíá, åöáñìüæåôáé Ýíá âÞìá ðñïåðåîåñãáóßáò ôùí äåäïìÝíùí ðñïêåé-
ìÝíïõ íá ðñïóäéïñéóèåß ï óùóôüò áñéèìüò ïìÜäùí. Óôç óõíÝ÷åéá ï áñéèìüò
áõôüò äßíåôáé óôï k-means, ðïõ õðïëïãßæåé ôçí ïìáäïðïßçóç. Óôá äõíá-
ìéêÜ äåäïìÝíá áõôü äåí åßíáé äõíáôü, áöïý ôá äåäïìÝíá óõíå÷þò áëëÜæïõí
êáé êáôÜ óõíÝðåéá ðéèáíüí íá áëëÜæåé êáé ï áñéèìüò ôùí ïìÜäùí.

2.4 Ïìáäïðïßçóç óå Õðï÷þñïõò


Ïé ôå÷íïëïãéêÝò åîåëßîåéò Ý÷ïõí êÜíåé ôç óõëëïãÞ äåäïìÝíùí ðïëý åõêïëüôåñç
êáé ôá÷ýôåñç ìå áðïôÝëåóìá ôç äçìéïõñãßá óõíèåôüôåñùí êáé ìåãáëýôåñùí óõ-
íüëùí äåäïìÝíùí. Êáèþò ôá óýíïëá äåäïìÝíùí ðëçèáßíïõí êáé ìåãáëþíïõí,
áðáéôïýíôáé ìåôáôñïðÝò óôïõò õðÜñ÷ïíôåò áëãüñéèìïõò, ðñïêåéìÝíïõ íá ìðïñÝ-
óïõí íá áíôáðïêñéèïýí üóïí áöïñÜ ôüóï óôçí ôá÷ýôçôá áðüêñéóçò áëëÜ êáé
óôçí ðïéüôçôá ôïõ áðïôåëÝóìáôïò. Ïé ðáñáäïóéáêïß áëãüñéèìïé ïìáäïðïßçóçò
2.4. ÏÌÁÄÏÐÏÉÇÓÇ ÓÅ ÕÐÏ×ÙÑÏÕÓ 23

èåùñïýí ùò åßóïäï üëåò ôéò äéáóôÜóåéò (dimensions) ôïõ óõíüëïõ äåäïìÝíùí êáé
ðñïóðáèïýí íá áíé÷íåýóïõí ïìÜäåò óå üëåò ìáæß ôéò äéáóôÜóåéò.
Óå ðïëõäéÜóôáôá äåäïìÝíá ðáñïõóéÜæïíôáé äéÜöïñá ðñïâëÞìáôá ìå ôçí ðá-
ñáäïóéáêÞ ðñïóÝããéóç. Ðñþôïí, åßíáé ðïëý óõ÷íü ôï öáéíüìåíï êÜðïéåò áðü ôéò
äéáóôÜóåéò íá ìç ó÷åôßæïíôáé ìå ôéò õðüëïéðåò ìå áðïôÝëåóìá íá ëåéôïõñãïýí ùò
èüñõâïò êáôÜ ôçí ïìáäïðïßçóç. Äåýôåñïí, åìöáíßæåôáé ôï öáéíüìåíï ãíùóôü ùò
\êáôÜñá ôçò äéáóôáóéìüôçôáò" (curse of dimensionality), üðïõ üóï áõîÜíïíôáé ïé
äéáóôÜóåéò ôùí äåäïìÝíùí, ôüóï ôá ìÝôñá ïìïéüôçôáò ôåßíïõí íá ìç ëåéôïõñãïýí.
Ãéá ôçí áêñßâåéá, óå ðïëý ìåãÜëï áñéèìü äéáóôÜóåùí, ôá äåäïìÝíá ôåßíïõí íá
áðÝ÷ïõí ðåñßðïõ ôï ßäéï ìåôáîý ôïõò. Ôñßôïí, ïìÜäåò äåäïìÝíùí ðïëý ìåãÜëïõ
áñéèìïý äéáóôÜóåùí äåí åßíáé åýêïëï íá åñìçíåõèïýí êáé êáô' åðÝêôáóç íá ÷ñç-
óéìïðïéçèïýí áðü åéäéêïýò. Ùò ëýóç óå üëá ôá ðáñáðÜíù ðñïâëÞìáôá ðñïôÜèçêå
ç ïìáäïðïßçóç óå õðï÷þñïõò (subspace clustering), ç ïðïßá åßíáé åðÝêôáóç ôçò
ðáñáäïóéáêÞò ïìáäïðïßçóçò.
ÏÑÉÓÌÏÓ 2.4 (Ïìáäïðïßçóç óå õðï÷þñïõò). ÄåäïìÝíïõ åíüò óõíüëïõ ðïëõ-
äéÜóôáôùí äåäïìÝíùí, ç ïìáäïðïßçóç óå õðï÷þñïõò åíôïðßæåé ïìÜäåò äåäïìÝíùí
óå ïðïéáäÞðïôå õðïóýíïëá äéáóôÜóåùí.
Ç ïìáäïðïßçóç óå õðï÷þñïõò äéáöÝñåé óå áñêåôÜ óçìåßá áðü ôçí ðáñáäï-
óéáêÞ ïìáäïðïßçóç. Ðñþôïí, ïé åíôïðéæüìåíåò ïìÜäåò äåí åßíáé áðáñáßôçôá óôïí
ßäéï õðï÷þñï. Äåýôåñïí, äåí ïìáäïðïéïýíôáé üëá ôá äåäïìÝíá üðùò óõìâáßíåé
óôçí áðëÞ ïìáäïðïßçóç. Ôñßôïí, åßíáé äõíáôü íá õðÜñ÷åé åðéêÜëõøç ìåôáîý ôùí
ïìÜäùí, êÜôé ðïõ äå óõíçèßæåôáé óôçí áðëÞ ïìáäïðïßçóç. Åðéðñüóèåôá, ïé ðñï-
óåããßóåéò ðïõ áêïëïõèïýíôáé åßíáé ðïëý äéáöïñåôéêÝò, üðùò èá äïýìå êáé óôç
óõíÝ÷åéá. ¼óïí áöïñÜ óôç óõíå÷Þ ïìáäïðïßçóç óå õðï÷þñïõò ñïþí äåäïìÝ-
íùí, äõóôõ÷þò äåí õðÜñ÷ïõí ðñïôåéíüìåíïé áëãüñéèìïé óôç âéâëéïãñáößá. Ôï
óõãêåêñéìÝíï æÞôçìá èá ôï ìåëåôÞóïõìå äéåîïäéêÜ óôï ÊåöÜëáéï 5.
Óôï ðáñåëèüí ðñïôÜèçêáí äéÜöïñåò ôå÷íéêÝò ãéá ôçí ïìáäïðïßçóç ðïëõäéÜ-
óôáôùí äåäïìÝíùí. Ïé äýï âáóéêüôåñåò åßíáé: ï ìåôáó÷çìáôéóìüò ÷áñáêôçñéóôé-
êþí (feature transformation) êáé ç åðéëïãÞ ÷áñáêôçñéóôéêþí feature selection.
Ç ðñïóÝããéóç ôïõ ìåôáó÷çìáôéóìïý ÷áñáêôçñéóôéêþí ðñïóðáèåß íá áíáðáñá-
óôÞóåé ôï óýíïëï äåäïìÝíùí óå Ýíá ÷þñï ëéãüôåñùí äéáóôÜóåùí, óõíäõÜæïíôáò
äýï Þ ðåñéóóüôåñá ÷áñáêôçñéóôéêÜ 3 . ÁõôÝò ïé ôå÷íéêÝò, áí êáé åßíáé ðïëý ÷ñÞ-
óéìåò óå ðïëëÝò åöáñìïãÝò, äéáôçñïýí ôéò ó÷åôéêÝò áðïóôÜóåéò ôùí äåäïìÝíùí
êáé åðïìÝíùò äåí åßíáé êáôÜëëçëåò ãéá ïìáäïðïßçóç ðïëõäéÜóôáôùí äåäïìÝíùí,
åéäéêÜ üôáí õðÜñ÷åé ìåãÜëïò áñéèìüò ÷áñáêôçñéóôéêþí ðïõ äåí ó÷åôßæïíôáé ìå-
ôáîý ôïõò. Ç ðñïóÝããéóç ôçò åðéëïãÞò ÷áñáêôçñéóôéêþí, åðéëÝãåé Ýíá õðïóýíïëï
ó÷åôéæüìåíùí ÷áñáêôçñéóôéêþí ðñïêåéìÝíïõ íá åíôïðéóèïýí ïìÜäåò óå áõôü ôï
õðïóýíïëï. Åßíáé ðñïöáíÝò, üôé ïé ôå÷íéêÝò áõôÝò äåí ëåéôïõñãïýí üôáí ïé ïìÜäåò
âñßóêïíôáé óå äéáöïñåôéêÜ õðïóýíïëá äéáóôÜóåùí. Ãéá áõôüí áêñéâþò ôïí ôýðï
3 Ïé üñïé äéÜóôáóç êáé ÷áñáêôçñéóôéêü ÷ñçóéìïðïéïýíôáé åíáëëáêôéêÜ.
24 ÊÅÖÁËÁÉÏ 2. ÐÑÏÊÁÔÁÑÊÔÉÊÅÓ ÅÍÍÏÉÅÓ ÓÔÉÓ ÑÏÅÓ ÄÅÄÏÌÅÍÙÍ

äåäïìÝíùí, ðñïôÜèçêå ç ïìáäïðïßçóç óå õðï÷þñïõò, ç ïðïßá óôçí ïõóßá åðå-


êôåßíåé ôçí ðñïóÝããéóç ôçò åðéëïãÞò ÷áñáêôçñéóôéêþí åðéëÝãïíôáò äéáöïñåôéêÜ
÷áñáêôçñéóôéêÜ ãéá êÜèå ïìÜäá.

Subspace
Clustering
Algorithms

Top Down Bottom Up

Per Cluster Per Instance


Static Adaptive
Weighting Weighting

PROCLUS CLIQUE MAFIA


COSA
ORCLUS ENCLUS CBF
FINDIT CLTREE
d-Clusters DOC

EIKONA 2.3. Êáôçãïñéïðïßçóç áëãïñßèìùí ïìáäïðïßçóçò óå õðï÷þñïõò.

Óôç óõíÝ÷åéá èá äïýìå ôñüðïõò ðñïóÝããéóçò êáé áëãüñéèìïõò ãéá ôçí ïìá-
äïðïßçóç óå õðï÷þñïõò. Ç Åéêüíá 2.3 ðáñïõóéÜæåé ìéá êáôçãïñéïðïßçóç ôùí
ðñïôåéíüìåíùí áëãïñßèìùí óå ó÷Ýóç ìå ôçí ôå÷íéêÞ åýñåóçò ó÷åôéæüìåíùí äéá-
óôÜóåùí êáé ôï ìÝôñï ôïðéêüôçôáò ðïõ ÷ñçóéìïðïéÞèçêå ãéá ôïí êáèïñéóìü ìéáò
ïìÜäáò. Áñ÷éêÜ ïé áëãüñéèìïé ÷ùñßæïíôáé óå äýï âáóéêÝò êáôçãïñßåò óå ó÷Ýóç
ìå ôïí ôñüðï åýñåóçò ó÷åôéæüìåíùí äéáóôÜóåùí. Ç ðñþôç êáôçãïñßá ðåñéëáì-
âÜíåé ôïõò áëãüñéèìïõò \áðü ðÜíù ðñïò ôá êÜôù" (top-down algorithms), ïé
ïðïßïé âñßóêïõí ìéá áñ÷éêÞ ïìáäïðïßçóç óå üëï ôï óýíïëï ôùí äéáóôÜóåùí êáé
óôç óõíÝ÷åéá âåëôéþíïõí ôï áðïôÝëåóìá åíôïðßæïíôáò ïëïÝíá êáé ìéêñüôåñåò
õðü-ïìÜäåò ôùí áñ÷éêþí ïìÜäùí. Ç äåýôåñç êáôçãïñßá ðåñéëáìâÜíåé ôïõò áëãü-
ñéèìïõò \áðü êÜôù ðñïò ôá ðÜíù" (bottom-up algorithms), ïé ïðïßïé åíôïðßæïõí
ðõêíÝò ðåñéï÷Ýò äåäïìÝíùí óå ìéêñü áñéèìü äéáóôÜóåùí êáé óôç óõíÝ÷åéá ôéò
óõíäõÜæïõí äçìéïõñãþíôáò ïëïÝíá êáé ìåãáëýôåñåò ïìÜäåò. Óôï äåýôåñï åðß-
ðåäï, ïé áëãüñéèìïé êáôçãïñéïðïéïýíôáé ìå âÜóç ôá êñéôÞñéá ðïõ ÷ñçóéìïðïéïýí
ðñïêåéìÝíïõ íá ó÷çìáôßóïõí ìéá ïìÜäá.

2.4.1 Áëãüñéèìïé áðü åðÜíù ðñïò ôá êÜôù


Ïé áëãüñéèìïé áõôÞò ôçò êáôçãïñßáò âñßóêïõí ìßá áñ÷éêÞ ïìáäïðïßçóç óå üëåò
ôéò äéáóôÜóåéò èåùñþíôáò üôé ïé äéáóôÜóåéò Ý÷ïõí ßóï âÜñïò. Óôç óõíÝ÷åéá áêï-
2.4. ÏÌÁÄÏÐÏÉÇÓÇ ÓÅ ÕÐÏ×ÙÑÏÕÓ 25

ëïõèåßôáé ìßá åðáíáëçðôéêÞ äéáäéêáóßá. Óå êÜèå äéÜóôáóç áíáôßèåôáé Ýíá âÜñïò


ãéá êÜèå ïìÜäá. Ôá íÝá âÜñç ÷ñçóéìïðïéïýíôáé ãéá íá åðáíáðñïóäéïñéóèïýí
ïé ïìÜäåò. Åßíáé Ýêäçëï, üôé ëüãù ôùí åðáíáëÞøåùí áõôïß ïé áëãüñéèìïé åß-
íáé ÷ñïíïâüñïé êáé êáô' åðÝêôáóç áêáôÜëëçëïé ãéá äõíáìéêÜ äåäïìÝíá. Ðïëëïß
áëãüñéèìïé ÷ñçóéìïðïéïýí äåéãìáôïëçøßá ãéá íá âåëôéþóïõí ôçí ôá÷ýôçôÜ ôïõò.
ÅðéðëÝïí, ïé áëãüñéèìïé áõôÞò ôçò êáôçãïñßáò Ý÷ïõí áñêåôÝò ðáñáìÝôñïõò, ôùí
ïðïßùí ç ôéìÞ ðñÝðåé íá ðñïóäéïñéóèåß óùóôÜ ðñïêåéìÝíïõ íá ðáñá÷èïýí ÷ñÞóéìá
áðïôåëÝóìáôá. Ïé âáóéêüôåñåò ðáñáìÝôñïé åßíáé ï áñéèìüò ôùí ïìÜäùí, ôï ìÝ-
ãåèïò ôùí õðï÷þñùí êáé ôï ìÝãåèïò ôïõ äåßãìáôïò. Ï ðñïóäéïñéóìüò ôùí ôéìþí
ôïõò äåí åßíáé áðëü æÞôçìá êáé ðåñéðëÝêåôáé áêüìá ðåñéóóüôåñï óå äõíáìéêÜ
äåäïìÝíá. ÅðéðëÝïí, ëüãù ôçò ÷ñÞóçò ðáñáìÝôñïõ ãéá ôï ìÝãåèïò ôùí õðï÷þ-
ñùí, ïé áëãüñéèìïé ôåßíïõí íá åíôïðßæïõí ïìÜäåò óå ßäéïõ Þ ðáñüìïéïõ ðëÞèïõò
äéáóôÜóåéò.
Ôá êñéôÞñéá ðïõ ÷ñçóéìïðïéïýíôáé ãéá ôï ó÷çìáôéóìü ïìÜäùí âáóßæïíôáé
óôçí ßäéá ôçí ïìáäïðïßçóç êáé óôá âÜñç ðïõ Ý÷ïõí áíáôåèåß óôéò äéáóôÜóåéò.
Ïé áëãüñéèìïé PROCLUS [6], ORCLUS [7], FINDIT [166] êáé ä -Clusters [173]
êáèïñßæïõí Ýíá âÜñïò ãéá êÜèå äåäïìÝíï êÜèå ïìÜäáò. Ï áëãüñéèìïò COSA [59]
÷ñçóéìïðïéåß ôïõò k êïíôéíüôåñïõò ãåßôïíåò êÜèå äåäïìÝíïõ ãéá íá êáèïñßóåé ôá
âÜñç êÜèå äéÜóôáóçò ãé' áõôü ôï óõãêåêñéìÝíï äåäïìÝíï.

2.4.2 Áëãüñéèìïé áðü êÜôù ðñïò ôá åðÜíù


Ïé áëãüñéèìïé áõôÞò ôçò êáôçãïñßáò äçìéïõñãïýí Ýíá éóôüãñáììá ãéá êÜèå äéÜ-
óôáóç êáé óôç óõíÝ÷åéá åðéëÝãïõí åêåßíá ôá ôìÞìáôá ðïõ åßíáé ðõêíüôåñá áðü
Ýíá äåäïìÝíï êáôþöëé. ÐñïêåéìÝíïõ íá ó÷çìáôßóïõí ïìÜäåò óå ðåñéóóüôåñåò
áðü ìßá äéáóôÜóåéò ÷ñçóéìïðïéïýí ìßá éäéüôçôá, óýìöùíá ìå ôçí ïðïßá ðõêíÝò
ðåñéï÷Ýò óå k äéáóôÜóåéò óõíåðÜãåôáé ðõêíÝò ðåñéï÷Ýò óå üëåò ôéò ðñïâïëÝò óå
k{1 äéáóôÜóåéò. Ìå áõôüí ôïí ôñüðï ó÷çìáôßæïíôáé ïìÜäåò áðü ðõêíÝò ðåñéï÷Ýò
óôéò äýï äéáóôÜóåéò, åëáôôþíïíôáò äñáóôéêÜ ôï ÷þñï áíáæÞôçóçò ïìÜäùí. Ïé
áëãüñéèìïé óõíå÷ßæïõí ìÝ÷ñé íá ìçí ìðïñïýí íá ó÷çìáôéóèïýí ïìÜäåò ðåñéóóü-
ôåñùí äéáóôÜóåùí.
Âáóéêüò ðáñÜãïíôáò, ãéá íá åðéôý÷ïõí ïñèÜ áðïôåëÝóìáôá ïé áëãüñéèìïé áõ-
ôÞò ôçò êáôçãïñßáò, åßíáé ç óùóôÞ ðáñáìåôñïðïßçóç ùò ðñïò ôï ìÝãåèïò ôïõ
ðëÝãìáôïò êáé ôï êáôþöëé ðõêíüôçôáò. Áõôü ôï æÞôçìá åßíáé äýóêïëï, éäéáßôåñá
ëüãù ôïõ ãåãïíüôïò üôé ïé ðáñÜìåôñïé ÷ñçóéìïðïéïýíôáé ãéá ôï óýíïëï ôùí äéá-
óôÜóåùí [9, 43]. Ðéï ðñüóöáôïé áëãüñéèìïé ðñïôåßíïõí ôç ÷ñÞóç ðñïóáñìïæü-
ìåíùí ðëåãìÜôùí êáé äéáöïñåôéêÜ êáôþöëéá ðõêíüôçôáò. Ðéï óõãêåêñéìÝíá, ïé
áëãüñéèìïé MAFIA [70] êáé CBF [37] ÷ñçóéìïðïéïýí éóôïãñÜììáôá ãéá íá áíá-
ëýóïõí ôçí ðõêíüôçôá ôùí äåäïìÝíùí óå êÜèå äéÜóôáóç. Ï áëãüñéèìïò CLTree
[122] ÷ñçóéìïðïéåß ìßá óôñáôçãéêÞ âáóéóìÝíç óå Ýíá äÝíäñï áðïöÜóåùí ãéá íá
âñßóêåé ôéò ðõêíÝò ðåñéï÷Ýò. ÔÝëïò, ï áëãüñéèìïò DOC [141] ÷ñçóéìïðïéåß Ýíá
ìÝãéóôï áñéèìü äéáóôÜóåùí êáé Ýíáí åëÜ÷éóôï áñéèìü äåäïìÝíùí áíÜ ïìÜäá ãéá
26 ÊÅÖÁËÁÉÏ 2. ÐÑÏÊÁÔÁÑÊÔÉÊÅÓ ÅÍÍÏÉÅÓ ÓÔÉÓ ÑÏÅÓ ÄÅÄÏÌÅÍÙÍ

íá åöáñìüóåé ìßá ôõ÷áßá áíáæÞôçóç.

2.5 Åýñåóç Ðáñüìïéùí Êéíïýìåíùí ×ñïíïóåéñþí


Ç åýñåóç ðáñüìïéùí ÷ñïíïóåéñþí åßíáé Ýíá ðïëý óçìáíôéêü ðñüâëçìá óôéò âÜ-
óåéò äåäïìÝíùí. ÐïëëÝò ìÝèïäïé ðñïôÜèçêáí ãéá ôçí åðßëõóç ôïõ ðñïâëÞìáôïò
óå óôáôéêÝò ÷ñïíïóåéñÝò. Ïé ðñïôåéíüìåíïé áëãüñéèìïé áðïôåëïýíôáé áðü ôñßá
âáóéêÜ ôìÞìáôá: (á) ôç óõíÜñôçóç áðüóôáóçò, (â) ôç ìÝèïäï áíáðáñÜóôáóçò,
êáé (ã) ôï ó÷Þìá äåéêôïäüôçóÞò ôïõò. Óôçí ðåñßðôùóç ôùí êéíïýìåíùí ÷ñï-
íïóåéñþí, ôï ðñüâëçìá ãßíåôáé áêüìá ðéï äýóêïëï, ëüãù ôçò ìåôáâïëÞò ôùí
äåäïìÝíùí, ç ïðïßá åðéâÜëëåé ôï ó÷åäéáóìü áõîçôéêþí áëãïñßèìùí. Äõóôõ÷þò,
äåí åßíáé äõíáôÞ ç ÷ñÞóç áëãïñßèìùí ðïõ ðñïôÜèçêáí ãéá óôáôéêÜ äåäïìÝíá óå
äõíáìéêÜ ðåñéâÜëëïíôá.
Ç åýñåóç ðáñüìïéùí ÷ñïíïóåéñþí äéá÷ùñßæåôáé óå äýï âáóéêÝò êáôçãïñßåò
áíÜëïãá ìå ôï åßäïò ôïõ åñùôÞìáôïò. Ç ðñþôç êáôçãïñßá áíáöÝñåôáé óôï ìÞêïò
ôùí ÷ñïíïóåéñþí êáé ðåñéëáìâÜíåé ôéò åîÞò êáôçãïñßåò:
➣ ÅñùôÞìáôá ðëÞñïõò áíôéóôïß÷çóçò (whole-match queries), üðïõ üëåò ïé
÷ñïíïóåéñÝò Ý÷ïõí ôï ßäéï ìÞêïò, êáé
➣ ÅñùôÞìáôá ìåñéêÞò áíôéóôïß÷çóçò (subsequence-match queries), üðïõ ôï
åñþôçìá åßíáé ìéêñüôåñïõ ìÞêïõò áðü ôéò ÷ñïíïóåéñÝò ôçò âÜóçò äåäï-
ìÝíùí êáé åðïìÝíùò åíäéáöåñüìáóôå ãéá ÷ñïíïóåéñÝò ðïõ ðåñéÝ÷ïõí ôç
÷ñïíïóåéñÜ-åñþôçóç.
Óå áíôßèåóç ìå ôéò êëáóéêÝò âÜóåéò äåäïìÝíùí, ç åýñåóç ßäéùí ÷ñïíïóåéñþí
åßíáé ó÷åäüí áðßèáíç êáé ãé' áõôü ç åýñåóç ðáñüìïéùí ÷ñïíïóåéñþí ðáñïõóéÜæåé
éäéáßôåñï åíäéáöÝñïí. ÕðÜñ÷ïõí ôñåéò ôýðïé åñùôçìÜôùí ïìïéüôçôáò:
➣ ÅñùôÞìáôá äéáóôÞìáôïò (range queries): äåäïìÝíçò ìéáò ÷ñïíïóåéñÜò Q
êáé ìéáò áðüóôáóçò , áõôÜ ôá åñùôÞìáôá áíáêôïýí üëåò ôéò ÷ñïíïóåéñÝò
ðïõ Ý÷ïõí áðüóôáóç ìéêñüôåñç áðü  áðü ôçí Q.
➣ ÅñùôÞìáôá êïíôéíüôåñïõ ãåßôïíá nearest neighbor queries: äåäïìÝíçò ìéáò
÷ñïíïóåéñÜò Q êáé åíüò áêåñáßïõ k, áõôÜ ôá åñùôÞìáôá áíáêôïýí ôéò k
åêåßíåò ÷ñïíïóåéñÝò ðïõ åßíáé ðéï êïíôÜ óôç Q.
➣ ÅñùôÞìáôá óýíäåóçò (join queries): äåäïìÝíùí äýï óõíüëùí ÷ñïíïóåéñþí
êáé ìéáò áðüóôáóçò , áõôÜ ôá åñùôÞìáôá áíáêôïýí üëá ôá æåýãç ÷ñïíï-
óåéñþí ìåôáîý ôùí äýï óõíüëùí ðïõ ç áðüóôáóÞ ôïõò åßíáé ìéêñüôåñç áðü
.
¼ðùò áíáöÝñáìå êáé ðñïçãïõìÝíùò, ôñßá åßíáé ôá âáóéêÜ ôìÞìáôá ôùí áëãï-
ñßèìùí ôçò âéâëéïãñáößáò. Ôï ðñþôï áöïñÜ óôç óõíÜñôçóç áðüóôáóçò ðïõ ÷ñç-
óéìïðïéïýí. Åõñýôåñá ÷ñçóéìïðïéïýìåíç ïéêïãÝíåéá óõíáñôÞóåùí áðüóôáóçò
2.5. ÅÕÑÅÓÇ ÐÁÑÏÌÏÉÙÍ ÊÉÍÏÕÌÅÍÙÍ ×ÑÏÍÏÓÅÉÑÙÍ 27

åßíáé ç Lp norm [8, 57, 101], üðïõ ãéá p=1 åßíáé ãíùóôÞ ùò city-block Þ Manhat-
tan, ãéá p=2 åßíáé ç Åõêëåßäåéá áðüóôáóç êáé ãéá p=∞ åßíáé ç ìÝãéóôç íüñìá.
ÅíáëëáêôéêÝò óõíáñôÞóåéò ðñïôÜèçêáí ãéá ôçí áíôéìåôþðéóç öáéíïìÝíùí, üðùò ç
ðåñéóôñïöÞ êáé ç êëéìÜêùóç [11, 174, 175]. Ôï âáóéêü ìåéïíÝêôçìá üëùí áõôþí
ôùí óõíáñôÞóåùí áðüóôáóçò åßíáé üôé áðáéôïýí ïé óõãêñéíüìåíåò ÷ñïíïóåéñÝò íá
Ý÷ïõí ôï ßäéï áêñéâþò ìÞêïò. Ãéá íá îåðåñáóèåß áõôü ôï ðñüâëçìá, ðñïôÜèçêáí
óõíáñôÞóåéò áðüóôáóçò, üðùò ç Time Warping (TW) [175, 137], ç Edit Distance
[30] êáé ç Longest Common Subsequence (LCSS) [160].
Ôï äåýôåñï ôìÞìá ôùí áëãïñßèìùí áöïñÜ óôç ìÝèïäï áíáðáñÜóôáóçò. Ç
êëáóéêüôåñç ìÝèïäïò ãéá ôï ìåôáó÷çìáôéóìü ôùí ÷ñïíïóåéñþí êáé ôçí áíáðáñÜ-
óôáóÞ ôïõò óå ìéêñüôåñï áñéèìü äéáóôÜóåùí åßíáé ï Äéáêñéôüò Ìåôáó÷çìáôéóìüò
Fourier (DFT) [8, 101, 174]. Ï DFT åßíáé éäéáßôåñá ÷ñïíïâüñïò êáé ðïëýðëï-
êïò. Ãéá ìéá ôá÷ýôåñç êáé áðëïýóôåñç áíáðáñÜóôáóç ÷ñïíïóåéñþí ðñïôÜèçêáí
äéÜöïñåò ìÝèïäïé ðïõ âáóßæïíôáé óôç ãñáììéêÞ áíáðáñÜóôáóç, üðùò ç Piecewise
Linear Approximation (PLA) [167, 174] êáé ç Adaptive Piecewise Constant Ap-
proximation (APCA) [96]. ¢ëëåò ìÝèïäïé áíáðáñÜóôáóçò åßíáé ç Singular Value
Decomposition (SVD), ç Discrete Wavelet Transform (DWT) êáé ç Piecewise
Aggregate Approximation (PAA).
ÐñÝðåé íá åðéóçìÜíïõìå, üôé ÷Üíåôáé ìÝñïò ôçò ðëçñïöïñßáò ôùí ÷ñïíïóåéñþí
ëüãù ôçò ÷ñÞóçò ôùí ìåèüäùí áíáðáñÜóôáóçò. ¸ôóé ïé áëãüñéèìïé Ý÷ïõí äýï
âáóéêÜ ôìÞìáôá. Ðñþôá ìåôáó÷çìáôßæåôáé ôï åñþôçìá êáé áðü ôï ó÷Þìá äåéêôï-
äüôçóçò áíáêôþíôáé êÜðïéåò ÷ñïíïóåéñÝò, ðïõ ïíïìÜæïíôáé õðïøÞöéåò (candi-
dates), êáé óôç óõíÝ÷åéá ÷ñçóéìïðïéïýíôáé ïé ðñáãìáôéêÝò ÷ñïíïóåéñÝò ðñïêåé-
ìÝíïõ íá áðïìáêñõíèïýí ïé ëáíèáóìÝíåò õðïøÞöéåò ÷ñïíïóåéñÝò (false alarms).
Åßíáé ðñïöáíÝò üôé ôï ðñþôï âÞìá ðáßæåé êáèïñéóôéêü ñüëï óôçí áðüäïóç ôïõ
áëãïñßèìïõ êáé êáôÜ óõíÝðåéá ç ÷ñÞóç êáôÜëëçëïõ ó÷Þìáôïò äåéêôïäüôçóçò
âåëôéþíåé äñáóôéêÜ ôïí áëãüñéèìï, áöïý ìðïñåß íá åëáôôþóåé óå ìåãÜëï âáèìü
ôéò õðïøÞöéåò ÷ñïíïóåéñÝò. ÌåñéêÜ áðü ôá óçìáíôéêüôåñá ó÷Þìáôá äåéêôïäüôç-
óçò ðïõ ÷ñçóéìïðïéÞèçêáí åßíáé ôï R∗ -äÝíäñï [24], ôï X -äÝíäñï [26], ôï SASH
[80] êáé ôï LSH [126]. ÔÝëïò, áîßæåé íá áíáöÝñïõìå üôé Ýãéíáí éäéáßôåñåò ðñï-
óðÜèåéåò ãéá ôá åñùôÞìáôá ìåñéêÞò áíôéóôïß÷çóçò [8, 57, 137, 159, 174] áëëÜ êáé
ãéá ðïëõäéÜóôáôåò ÷ñïíïóåéñÝò [42, 159, 160].
Ðáñüôé ç ó÷åôéêÞ âéâëéïãñáößá ãéá åýñåóç ïìïéüôçôáò óå óôáôéêÝò ÷ñïíïóåé-
ñÝò åßíáé ðëïýóéá, ôï ðñüâëçìá óå êéíïýìåíåò ÷ñïíïóåéñÝò åßíáé áêüìá áíïéêôü.
Ïé ðñïôåéíüìåíïé áëãüñéèìïé ãéá óôáôéêÜ äåäïìÝíá åßíáé áêáôÜëëçëïé ãéá êéíïý-
ìåíåò ÷ñïíïóåéñÝò. Ç ðñþôç ðñïóðÜèåéá ãéá ôçí åðßëõóç ôïõ óõãêåêñéìÝíïõ
ðñïâëÞìáôïò Ýãéíå óôçí åñãáóßá [64]. Ï ðñïôåéíüìåíïò áëãüñéèìïò âáóßæåôáé
óå ìßá ðñïóÝããéóç ðñüâëåøçò. Ç áðüóôáóç ôïõ åñùôÞìáôïò êáé ôùí ÷ñïíïóåé-
ñþí õðïëïãßæåôáé ìå âÜóç ôéò ðñïâëåöèåßóåò ôéìÝò. ¼ôáí åßíáé äéáèÝóéìåò ïé
ðñáãìáôéêÝò ôéìÝò ôïõ åñùôÞìáôïò, õðïëïãßæåôáé Ýíá Üíù êáé êÜôù üñéï ôïõ ëÜ-
èïõò ðñüâëåøçò êáé êáôÜ áõôüí ôïí ôñüðï ó÷çìáôßæåôáé ôï óýíïëï õðïøçößùí
28 ÊÅÖÁËÁÉÏ 2. ÐÑÏÊÁÔÁÑÊÔÉÊÅÓ ÅÍÍÏÉÅÓ ÓÔÉÓ ÑÏÅÓ ÄÅÄÏÌÅÍÙÍ

÷ñïíïóåéñþí. Óôç óõíÝ÷åéá åíôïðßæïíôáé êáé áðïìáêñýíïíôáé ïé ëáíèáóìÝíåò


õðïøÞöéåò ÷ñïíïóåéñÝò. Ïé ßäéïé óõããñáöåßò ðñüôåéíáí ðáñüìïéåò ðñïóåããßóåéò
ðïõ âáóßæïíôáé óôï prefetching [66].
Ïé ðñïáíáöåñèåßóåò ìÝèïäïé åîåôÜæïõí åñùôÞìáôá ðïõ åßíáé êéíïýìåíá, áëëÜ
ïé ÷ñïíïóåéñÝò ôçò âÜóçò äåäïìÝíùí åßíáé óôáôéêÝò. Óôçí åñãáóßá [123], ïé
óõããñáöåßò ðáñïõóßáóáí ìßá ìÝèïäï ãéá åñùôÞìáôá ïìïéüôçôáò, èåùñþíôáò êé-
íïýìåíåò ôüóï ôéò ÷ñïíïóåéñÝò ôçò âÜóçò üóï êáé ôï åñþôçìá. Ðñüôåéíáí ôá
VA-stream êáé VA+ -stream ùò ó÷Þìáôá äåéêôïäüôçóçò, ôá ïðïßá áðïôåëïýí ðá-
ñáëëáãÝò ôïõ VA- le [165]. ÁõôÝò ïé äïìÝò õðïëïãßæïõí óõíüøåéò ôùí äåäïìÝíùí
êáé Ý÷ïõí ôç äõíáôüôçôá áõîçôéêÞò åíçìÝñùóçò. ÔÝëïò, ðñüóöáôá ðñïôÜèçêå ìßá
áíáðáñÜóôáóç ãéá ôéò êéíïýìåíåò ÷ñïíïóåéñÝò, ç ïðïßá ïíïìÜæåôáé Multi-scaled
Segment Mean (MSM) [119]. Ç ÷ñïíïóåéñÜ ÷ùñßæåôáé óå ìç åðéêáëõðôüìåíá
ôìÞìáôá, êáèÝíá áðü ôá ïðïßá áíáðáñßóôáôáé áðü ôï ìÝóï üñï ôùí ôéìþí ôïõ.
Ç áíáðáñÜóôáóç áðïôåëåßôáé áðü ðïëëáðëÜ åðßðåäá óôá ïðïßá ôï ðëÞèïò ôùí
ôìçìÜôùí äéáöïñïðïéåßôáé. Óå õøçëïý åðéðÝäïõ áíáðáñÜóôáóç, ôá ôìÞìáôá åß-
íáé ëéãüôåñá êáé åðïìÝíùò ç áíáðáñÜóôáóç åßíáé ðéï áöáéñåôéêÞ. Ôï áíôßèåôï
éó÷ýåé ãéá ÷áìçëïý åðéðÝäïõ áíáðáñÜóôáóç. Ôï ðëåïíÝêôçìá ôçò MSM åßíáé
üôé ìðïñåß íá õðïëïãéóèåß áõîçôéêÜ êáé áõôü ôçí êÜíåé êáôÜëëçëç ãéá äõíáìéêÜ
ðåñéâÜëëïíôá.

2.6 ÅñùôÞìáôá Ðñïôßìçóçò Êéíïýìåíùí ×ñïíïóåé-


ñþí
2.6.1 Åñþôçìá skyline
Ôï åñþôçìá skyline åßíáé ðïëý óçìáíôéêü óå åöáñìïãÝò ðïõ áðáéôïýí áíÜêôçóç
äåäïìÝíùí óå ó÷Ýóç ìå ôéò ðñïôéìÞóåéò ôïõ ÷ñÞóôç êáé ãé' áõôü áðáó÷üëçóå
éäéáßôåñá ôçí åñåõíçôéêÞ êïéíüôçôá óôéò ðáñáäïóéáêÝò âÜóåéò äåäïìÝíùí. Áêï-
ëïõèïýí ïé ïñéóìïß õðïèÝôïíôáò üôé ç ìéêñüôåñç ôéìÞ åßíáé êáëýôåñç.
ÏÑÉÓÌÏÓ 2.5 (êõñéáñ÷ßá). Ìßá åããñáöÞ ti êõñéáñ÷åß (dominates) ìßá Üëëç
åããñáöÞ tj óå Ýíá ÷þñï D, áí êáé ìüíï áí ∀x ∈ D; ti;x ≤ tj;x êáé ∃y ∈ D; ti;y <
tj;y .
ÏÑÉÓÌÏÓ 2.6 (skyline). Ôï skyline áðïôåëåßôáé áðü üëåò åêåßíåò ôéò åããñáöÝò
ðïõ äåí êõñéáñ÷ïýíôáé áðü êÜðïéá Üëëç åããñáöÞ.
ÐëÞèïò áëãïñßèìùí Ý÷ïõí ðñïôáèåß ãéá ôçí áðïôßìçóç åñùôçìÜôùí skyline
óå ðáñáäïóéáêÝò âÜóåéò äåäïìÝíùí. Óôçí åñãáóßá [29] ðñïôÜèçêáí äýï áëãü-
ñéèìïé ðïõ âáóßæïíôáé óôéò ôå÷íéêÝò \äéáßñåé êáé âáóßëåõå" êáé óå öùëéáóìÝ-
íïõò âñüã÷ïõò, áíôßóôïé÷á. ÓõãêåêñéìÝíá, ï ðñþôïò áëãüñéèìïò äéá÷ùñßæåé ôá
äåäïìÝíá óå ôìÞìáôá, ôá ïðïßá ÷ùñïýí óôçí êýñéá ìíÞìç. Ãéá êÜèå êïììÜôé
2.6. ÅÑÙÔÇÌÁÔÁ ÐÑÏÔÉÌÇÓÇÓ ÊÉÍÏÕÌÅÍÙÍ ×ÑÏÍÏÓÅÉÑÙÍ 29

õðïëïãßæåôáé ôï skyline ÷ñçóéìïðïéþíôáò ìéá ìÝèïäï êýñéáò ìíÞìçò êáé óôç óõ-
íÝ÷åéá åíþíïíôáé þóôå íá õðïëïãéóèåß ôï ôåëéêü skyline. Ï äåýôåñïò áëãüñéèìïò
ðñáêôéêÜ óõãêñßíåé Ýíá äåäïìÝíï ìå üëá ôá Üëëá äåäïìÝíá êáé ôï åéóÜãåé óôï
skyline, åöüóïí áõôü äåí êõñéáñ÷åßôáé áðü êáíÝíá Üëëï. Ï áëãüñéèìïò SFS [46],
ôáîéíïìåß ôá äåäïìÝíá êáé óôç óõíÝ÷åéá õðïëïãßæåé ôï skyline ìå Ýíá ðÝñáóìá.
Óôéò åñãáóßåò [110, 134] ðñïôÜèçêáí áëãüñéèìïé ãéá ÷ùñéêÜ äåäïìÝíá, ïé ïðïßïé
âáóßæïíôáé óôçí áðïôßìçóç ôïõ åñùôÞìáôïò êïíôéíüôåñïõ ãåßôïíá. Óôçí åñãá-
óßá [22] ìåëåôÞèçêå ôï åñþôçìá skyline óôá ðëáßóéá ôïõ Ðáãêüóìéïõ Éóôïý êáé
ðñïôÜèçêå ìßá ëýóç ðïõ âáóßæåôáé óôïí áëãüñéèìï Threshold [56].
¼ëåò ïé ðñïçãïýìåíåò ìÝèïäïé áöïñïýí óôáôéêÜ äåäïìÝíá êáé äõóôõ÷þò äåí
ìðïñïýí íá åöáñìïóèïýí óôçí ðåñßðôùóç ôùí ñïþí äåäïìÝíùí äéüôé: (á) õðïèÝ-
ôïõí üôé ôá äåäïìÝíá åßíáé áðïèçêåõìÝíá óôï äßóêï êáé äåí ìðïñïýí íá ÷åéñé-
óèïýí ðåñéðôþóåéò åéóáãùãþí êáé äéáãñáöþí, (â) áó÷ïëïýíôáé ìå ôçí áðïôßìçóç
ôïõ åñùôÞìáôïò ìßá öïñÜ Ýíáíôé ôçò óõíå÷ïýò áðïôßìçóçò ðïõ åßíáé áðáñáßôçôç
óôéò ñïÝò äåäïìÝíùí, êáé (ã) âáóéêüò óôü÷ïò ôïõò åßíáé íá åëáôôþóïõí ôéò ðñï-
óðåëÜóåéò óôï äßóêï óå áíôßèåóç ìå ôïõò áëãüñéèìïõò ãéá ñïÝò äåäïìÝíùí ðïõ
Ý÷ïõí ùò âáóéêïýò óôü÷ïõò ôçí åëá÷éóôïðïßçóç ôïõ ÷ñüíïõ áðüêñéóçò êáé ôçí
êáôáíÜëùóç ìíÞìçò. Ôï ðñüâëçìá äéåñåõíÞèçêå óôá ðëáßóéá ôùí êéíïýìåíùí
÷ñïíïóåéñþí óôçí åñãáóßá [154], üðïõ ðñïôÜèçêáí áõîçôéêïß áëãüñéèìïé ðïõ
êÜíïõí ÷ñÞóç ôùí éäéïôÞôùí ôùí ñïþí äåäïìÝíùí (ð.÷. ï ÷ñüíïò ëÞîçò åíüò
äåäïìÝíïõ) êáé ÷ñçóéìïðïéïýí ÷ùñéêÝò äïìÝò, üðùò ôï R∗ -äÝíäñï. Óôçí åñãá-
óßá [82] ìåëåôÞèçêå ôï ðñüâëçìá óôá ðëáßóéá ôùí êéíïýìåíùí áíôéêåéìÝíùí. Ôï
ìïíôÝëï ðïõ èåùñÞèçêå ðåñéëáìâÜíåé ôüóï óôáôéêÝò äéáóôÜóåéò üóï êáé äõíá-
ìéêÝò (ð.÷. ïé óõíôåôáãìÝíåò ôùí áíôéêåéìÝíùí). Ëüãù ôçò ýðáñîçò óôáôéêþí
äéáóôÜóåùí, êÜðïéá äåäïìÝíá-áíôéêåßìåíá âñßóêïíôáé ðÜíôá óôï skyline. Ç ðñï-
ôåéíüìåíç ìÝèïäïò îå÷ùñßæåé ðñþôá ôá áíôéêåßìåíá ðïõ åßíáé ðÜíôá óôï skyline
êáé óôç óõíÝ÷åéá ôá ÷ñçóéìïðïéåß ãéá íá ðåñéïñßóåé ðåñáéôÝñù ôï ÷þñï áíáæÞ-
ôçóçò. ÌåôÜ, ÷ñçóéìïðïéåß ôéò ãåùãñáöéêÝò èÝóåéò ôùí áíôéêåéìÝíùí êáèþò êáé
ëåðôïìÝñåéåò ôçò êßíçóÞò ôïõò (äçëáäÞ, ôá÷ýôçôá, äéåýèõíóç) ãéá íá âñåé óõó÷å-
ôßóåéò ìåôáîý ôùí áíôéêåéìÝíùí ðñïêåéìÝíïõ íá áðïññßøåé êáé Üëëá áíôéêåßìåíá
Þ íá ðñïóäéïñßóåé ôç ÷ñïíéêÞ óôéãìÞ óôï ìÝëëïí, óôçí ïðïßá åßíáé ðéèáíüí íá
õðÜñ÷ïõí áëëáãÝò óôï skyline.

2.6.2 Åñþôçìá k-dominant skyline


Ôï åñþôçìá skyline åßíáé Ýíá ðïëý ÷ñÞóéìï åñþôçìá, éäéáßôåñá óå åöáñìïãÝò
õðïóôÞñéîçò áðüöáóçò. ¸÷åé üìùò Ýíá âáóéêü ìåéïíÝêôçìá. Êáèþò ï áñéèìüò
ôùí äéáóôÜóåùí ìåãáëþíåé, ôüóï ìåéþíåôáé ç ðéèáíüôçôá êÜðïéï äåäïìÝíï íá
êõñéáñ÷åß êÜðïéï Üëëï äåäïìÝíï, ìå áðïôÝëåóìá ï áñéèìüò ôùí äåäïìÝíùí ðïõ
áíÞêïõí óôï skyline íá áõîÜíåôáé äñáóôéêÜ. Óå ðïëõäéÜóôáôïõò ÷þñïõò, ôï
skyline äåí åßíáé ÷ñÞóéìï ãéá ôï ÷ñÞóôç, áöïý ó÷åäüí üëá ôá äåäïìÝíá áíÞêïõí
óôçí áðÜíôçóç. Ùò ëýóç óå áõôü ôï ðñüâëçìá, ðñïôÜèçêå ìßá ðáñáëëáãÞ ôïõ
30 ÊÅÖÁËÁÉÏ 2. ÐÑÏÊÁÔÁÑÊÔÉÊÅÓ ÅÍÍÏÉÅÓ ÓÔÉÓ ÑÏÅÓ ÄÅÄÏÌÅÍÙÍ

skyline, ôï k-dominant skyline, ôï ïðïßï ðñáêôéêÜ ÷áëáñþíåé ôçí Ýííïéá ôçò


êõñéáñ÷ßáò. Èåùñþíôáò ðÜëé üôé ç ìéêñüôåñç ôéìÞ åßíáé êáëýôåñç, ïé ôõðéêïß
ïñéóìïß ôïõ k-dominant skyline åßíáé:
ÏÑÉÓÌÏÓ 2.7 (k-êõñéáñ÷ßá). Ìßá åããñáöÞ ti k-êõñéáñ÷åß (k-dominates) ìßá
Üëëç åããñáöÞ tj óå Ýíá ÷þñï D, áí êáé ìüíï áí ∃D0 ⊆ D; |D0 | = k; ∀x ∈
D0 ; ti;x ≤ tj;x êáé ∃y ∈ D0 ; ti;y < tj;y .
ÏÑÉÓÌÏÓ 2.8 (k-dominant skyline). Ôï k-dominant skyline áðïôåëåßôáé áðü
üëåò åêåßíåò ôéò åããñáöÝò ðïõ äåí k-êõñéáñ÷ïýíôáé áðü êÜðïéá Üëëç åããñáöÞ.
Åßíáé Ýêäçëï, üôé ôï êëáóéêü skyline åßíáé åéäéêÞ ðåñßðôùóç ôïõ k-dominant
skyline, üðïõ k = |D|. Ç ðéèáíüôçôá åíüò äåäïìÝíïõ íá ìçí áíÞêåé óôï k-
dominant skyline åßíáé ìåãáëýôåñç áðü ôçí ðéèáíüôçôá íá ìçí áíÞêåé óôï êëá-
óéêü skyline. Äõóôõ÷þò, áëãüñéèìïé ðïõ ðñïôÜèçêáí ãéá ôï êëáóéêü skyline,
ôïõò âáóéêüôåñïõò áðü ôïõò ïðïßïõò ôïõò åßäáìå óôçí ðñïçãïýìåíç åíüôçôá, äåí
ìðïñïýí íá åöáñìïóèïýí ãéá ôçí áðïôßìçóç ôïõ k-dominant skyline. Áõôü óõì-
âáßíåé äéüôé ïé ðñïôåéíüìåíïé áëãüñéèìïé ÷ñçóéìïðïéïýí éäéüôçôåò ôùí skylines,
ïé ïðïßåò üìùò äåí éó÷ýïõí óôçí ðåñßðôùóç ôùí k-dominant skylines. Ãéá ðá-
ñÜäåéãìá, áíáöÝñïõìå ôç ìåôáâáôéêÞ éäéüôçôá (transitive property). Èåùñåßóôå
ôñåéò åããñáöÝò t1 ; t2 êáé t3 . Óôá êëáóéêÜ skylines, áí ç t1 êõñéáñ÷åß óôçí t2 , êáé
ç t2 êõñéáñ÷åß óôçí t3 , ôüôå ç t1 êõñéáñ÷åß óôçí t3 . ÁõôÞ ç éäéüôçôá äåí éó÷ýåé
óôá k-dominant skylines.
Ôï åñþôçìá áõôü ðáñïõóéÜóèçêå óôçí åñãáóßá [33], üðïõ ðñïôÜèçêáí ëý-
óåéò ãéá óôáôéêÜ äåäïìÝíá. Ç ðñþôç ëýóç âáóßæåôáé óå ìßá ðñïóÝããéóç äýï
ðåñáóìÜôùí. Óôï ðñþôï ðÝñáóìá ôùí äåäïìÝíùí, ó÷çìáôßæåôáé Ýíá óýíïëï áðü
õðïøÞöéá äåäïìÝíá ãéá ôï k-dominant skyline, åíþ óôï äåýôåñï ðÝñáóìá áðïññß-
ðôïíôáé üóá ðñáãìáôéêÜ äåí áíÞêïõí óôçí áðÜíôçóç ôïõ åñùôÞìáôïò. Ç äåýôåñç
ëýóç âáóßæåôáé óôïí áëãüñéèìï ôçò åñãáóßáò [56], óýìöùíá ìå ôçí ïðïßá ôá äå-
äïìÝíá ôáîéíïìïýíôáé ÷ùñéóôÜ áíÜ äéÜóôáóç ó÷çìáôßæïíôáò ðñáêôéêÜ ëßóôåò êáé
óôç óõíÝ÷åéá óõíåíþíïíôáé ïé ëßóôåò ãéá íá õðïëïãéóèåß ç áðÜíôçóç.

2.6.3 Åñþôçìá top-k


Ôï åñþôçìá top-k áíÞêåé êáé áõôü óôá åñùôÞìáôá ðñïôßìçóçò. Åßíáé ðïëý ÷ñÞ-
óéìï åñþôçìá, éäéáßôåñá óå åöáñìïãÝò ðïõ ó÷åôßæïíôáé ìå ôçëåðéêïéíùíßåò, äßêôõá
áéóèçôÞñùí, ðáñáêïëïýèçóç êáé áíÜëõóç ìåôï÷þí ê.á.
ÏÑÉÓÌÏÓ 2.9 (top-k). ÄåäïìÝíùí åíüò óõíüëïõ äåäïìÝíùí D êáé ìßáò óõíÜñ-
ôçóçò ðñïôßìçóçò f , Ýíá top-k åñþôçìá áíáêôÜ ôéò k åããñáöÝò ôïõ D ðïõ Ý÷ïõí
ôéò ìåãáëýôåñåò ôéìÝò óýìöùíá ìå ôç óõíÜñôçóç f .
Ôï åñþôçìá Ý÷åé ìåëåôçèåß áñêåôÜ óôéò ðáñáäïóéáêÝò âÜóåéò äåäïìÝíùí. Ìå-
ñéêïß áðü ôïõò óçìáíôéêüôåñïõò áëãüñéèìïõò ðåñéãñÜöïíôáé óôç óõíÝ÷åéá. Ç
2.6. ÅÑÙÔÇÌÁÔÁ ÐÑÏÔÉÌÇÓÇÓ ÊÉÍÏÕÌÅÍÙÍ ×ÑÏÍÏÓÅÉÑÙÍ 31

åñãáóßá [31] ÷ñçóéìïðïéåß ðïëõäéÜóôáôá éóôïãñÜììáôá ãéá íá áíôéóôïé÷ßóåé ôá


åñùôÞìáôá top-k óå ðáñáäïóéáêÜ äéáóôÞìáôá. Ðáñüìïéá, ç åñãáóßá [40] ÷ñçóé-
ìïðïéåß ìéá ôå÷íéêÞ äåéãìáôïëçøßáò ãéá íá ìåôáó÷çìáôßóåé ôá top-k åñùôÞìáôá
óå ðñïóåããéóôéêÜ äéáóôÞìáôá. Êáé óôéò äýï ðåñéðôþóåéò, áí ôá äéáóôÞìáôá äåí
áðïôéìÞóïõí k áðïôåëÝóìáôá, ç äéáäéêáóßá åðáíáëáìâÜíåôáé. Åðßóçò äéåîïäéêÜ
Ý÷åé ìåëåôçèåß êáé ôï ðñüâëçìá åýñåóçò ôùí top-k åããñáöþí ìåôáîý ôùí áðï-
ôåëåóìÜôùí ìßáò ðñÜîçò óýíäåóçò óå ó÷åóéáêÝò âÜóåéò äåäïìÝíùí. Ç åñãáóßá
[85] ðñüôåéíå Ýíá óåéñéáêü áëãüñéèìï êáôÜëëçëï ãéá õëïðïßçóç ìåôáîý ðïëëþí
óõíäÝóåùí. Ç åñãáóßá [86] åðÝêôåéíå ôï óåéñéáêü áëãüñéèìï ÷ñçóéìïðïéþíôáò
êáé ôáîéíüìçóç ìåôáîý ôùí ðñÜîåùí. Êáôüðéí, ç åñãáóßá [87] ìåëÝôçóå ôçí
åöáñìïãÞ ôïõ áëãïñßèìïõ, åêôéìþíôáò ôï êüóôïò ôùí ôåëåóôþí ùò ìÝñïò åíüò
ó÷åäßïõ åñùôçìÜôùí (query plan).
Äõóôõ÷þò, üëåò ïé ðñïáíáöåñèåßóåò ìÝèïäïé äåí ìðïñïýí íá åöáñìïóèïýí
åðéôõ÷þò óå äõíáìéêÜ äåäïìÝíá. Óôçí åñãáóßá [128] ìåëåôÞèçêå ôï top-k åñþ-
ôçìá óå êéíïýìåíåò ÷ñïíïóåéñÝò. Ïé ðñïôåéíüìåíïé áëãüñéèìïé åßíáé áõîçôéêïß
êáé ëáìâÜíïõí õðüøç ôá ÷áñáêôçñéóôéêÜ ôùí êéíïýìåíùí ÷ñïíïóåéñþí. Óôçí
åñãáóßá áõôÞ, Ýíá top-k åñþôçìá ìåôáó÷çìáôßæåôáé óôï ðñüâëçìá skyband, ìßá
ðáñáëëáãÞ ôïõ skyline ðïõ ðñïôÜèçêå óôçí åñãáóßá [135], ìå áðïôÝëåóìá íá
åßíáé äõíáôüò ï õðïëïãéóìüò ôçò ÷ñïíéêÞò óôéãìÞò êáôÜ ôçí ïðïßá åßíáé ðéèá-
íüí íá õðÜñîïõí áëëáãÝò óôçí áðÜíôçóç ôïõ åñùôÞìáôïò. Ç ðñïóÝããéóç áõôÞ
åëáôôþíåé ôï ÷ñüíï áðüêñéóçò áí êáé áõîÜíåé ôéò áðáéôÞóåéò ìíÞìçò.

2.6.4 Åñþôçìá top-k dominating


Ôï åñþôçìá top-k dominating åðéóôñÝöåé ôá k äåäïìÝíá ðïõ êõñéáñ÷ïýí ôï ìå-
ãáëýôåñï áñéèìü äåäïìÝíùí. Ôï åñþôçìá áõôü åßíáé ðïëý ÷ñÞóéìï óå óõóôÞìáôá
õðïóôÞñéîçò áðüöáóçò, áöïý ðáñÝ÷ïõí óôïõò ÷ñÞóôåò Ýíá äéáéóèçôéêü ôñüðï ãéá
ôçí åýñåóç ôùí óçìáíôéêüôåñùí äåäïìÝíùí. Åðéðñüóèåôá, óõíäõÜæåé ôá ðëåï-
íåêôÞìáôá ôùí åñùôçìÜôùí top-k êáé ôùí åñùôçìÜôùí skyline áðïöåýãïíôáò
ôá ìåéïíåêôÞìáôÜ ôïõò: (á) ôï ìÝãåèïò ôïõ áðïôåëÝóìáôïò åßíáé åëåã÷üìåíï,
(â) äåí áðáéôïýí ðáñáìÝôñïõò áðü ôï ÷ñÞóôç, êáé (ã) ôï áðïôÝëåóìá åßíáé áíå-
îÜñôçôï áðü ôéò ðéèáíÝò êëéìáêþóåéò ôùí äåäïìÝíùí óå äéáöïñåôéêÝò äéáóôÜóåéò.
ÐáñÜ ôç óçìáíôéêüôçôÜ ôïõò, ôá top-k dominating åñùôÞìáôá äåí äéåñåõíÞèçêáí
áñêåôÜ áðü ôçí åñåõíçôéêÞ êïéíüôçôá.
Ôþñá èá ìåëåôÞóïõìå áíáëõôéêüôåñá ôá ðëåïíåêôÞìáôá êáé ôá ìåéïíåêôÞ-
ìáôá ôùí åñùôçìÜôùí ðñïôßìçóçò. Ôá top-k åñùôÞìáôá Ý÷ïõí ôï ðëåïíÝêôçìá
üôé ôï ìÝãåèïò ôïõ áðïôåëÝóìáôïò åßíáé åëåã÷üìåíï. ¼ìùò, Ý÷ïõí ôï ìåéïíÝ-
êôçìá üôé áðáéôïýí áðü ôï ÷ñÞóôç ôïí êáèïñéóìü ôçò óõíÜñôçóçò ðñïôßìçóçò,
ãåãïíüò ü÷é ôüóï áðëïúêü, åéäéêÜ üóï áõîÜíåôáé êáé ôï ðëÞèïò ôùí äéáóôÜóåùí,
äåäïìÝíïõ üôé äéáöïñåôéêÝò óõíáñôÞóåéò äßíïõí äéáöïñåôéêÜ áðïôåëÝóìáôá. Ôá
skyline åñùôÞìáôá Ý÷ïõí ôï ðëåïíÝêôçìá üôé äåí áðáéôïýí êáìßá ðáñÜìåôñï áðü
ôï ÷ñÞóôç. ÅðéðëÝïí, äåí åðçñåÜæïíôáé áðü åíäå÷üìåíåò êëéìáêþóåéò ôùí äåäï-
32 ÊÅÖÁËÁÉÏ 2. ÐÑÏÊÁÔÁÑÊÔÉÊÅÓ ÅÍÍÏÉÅÓ ÓÔÉÓ ÑÏÅÓ ÄÅÄÏÌÅÍÙÍ

ìÝíùí óå äéáöïñåôéêÝò äéáóôÜóåéò. ¼ìùò, Ý÷ïõí ôï ìåéïíÝêôçìá üôé ôï ìÝãåèïò


ôïõ áðïôåëÝóìáôïò äåí åßíáé åëåã÷üìåíï êáé óôç ÷åéñüôåñç ðåñßðôùóç ìðïñåß íá
öèÜóåé ìÝ÷ñé êáé ôï ðëÞèïò ôùí äåäïìÝíùí.
Áí èåùñÞóïõìå üôé ï áñéèìüò ôùí äåäïìÝíùí ðïõ êõñéáñ÷åß Ýíá äåäïìÝíï åßíáé
score, ôüôå ìðïñïýìå íá ïñßóïõìå ìéá öõóéêÞ äéÜôáîç ôùí äåäïìÝíùí âáóéóìÝíç
óôï score. To top-k dominating åñþôçìá áíáêôÜ ôá k äåäïìÝíá ìå ôï ìåãáëýôåñï
score. Ôï top-k dominating åñþôçìá åßíáé Ýíá ðïëý ðñáêôéêü åñãáëåßï, áöïý
áíáãíùñßæåé ôá óçìáíôéêüôåñá äåäïìÝíá ìå Ýíá äéáéóèçôéêü ôñüðï. ÐñáêôéêÜ, Ýíá
top-k dominating åñþôçìá óõíäõÜæåé ôá ðëåïíåêôÞìáôá ôùí top-k êáé skyline
åñùôçìÜôùí áðïöåýãïíôáò ôá ìåéïíåêôÞìáôÜ ôïõò.
Ôï top-k dominating åñþôçìá ðñïôÜèçêå óôçí åñãáóßá [135], ç ïðïßá ðáñïõ-
óßáóå ìéá áðëÞ ëýóç ãéá ôçí áðïôßìçóç ôïõ åñùôÞìáôïò óå óôáôéêÜ äåäïìÝíá. Ç
âáóéêÞ éäÝá åßíáé íá õðïëïãßóïõìå ôï skyline ôùí äåäïìÝíùí êáé óôç óõíÝ÷åéá
íá åíôïðßóïõìå ôï top-1 äåäïìÝíï, äéüôé áõôü áíÞêåé ðÜíôá óôï skyline. Óôç
óõíÝ÷åéá, ôï áöáéñïýìå áðü ôá äåäïìÝíá êáé åðáíáëáìâÜíïõìå ôç äéåñãáóßá k{1
öïñÝò. Óôçí åñãáóßá [176], ðñïôÜèçêáí áëãüñéèìïé ó÷åäéáóìÝíïé åéäéêÜ ãéá top-
k dominating åñùôÞìáôá, ïé ïðïßïé ÷ñçóéìïðïéïýí ôç äïìÞ Áèñïéóôéêü R-äÝíäñï
(aR-tree), êáé áõôïß üìùò ãéá óôáôéêÜ äåäïìÝíá.

2.7 ÅñùôÞìáôá óå Äßêôõá ÁéóèçôÞñùí


Ôá äßêôõá áéóèçôÞñùí áðïôåëïýíôáé áðü ìéêñïóêïðéêÝò, ÷áìçëÞò åíÝñãåéáò êáé
÷áìçëïý-êüóôïõò óõóêåõÝò ôïðïèåôçìÝíåò óõíÞèùò ôõ÷áßá óå ìéá ðåñéï÷Þ. Ïé
áéóèçôÞñåò Ý÷ïõí ôç äõíáôüôçôá íá åíôïðßæïõí öáéíüìåíá, íá åðåîåñãÜæïíôáé êáé
íá åðéêïéíùíïýí áóýñìáôá ìåôáîý ôïõò. ¸íá ðáñÜäåéãìá ìéáò ôÝôïéáò óõóêåõÞò
åßíáé ôá motes ðïõ áíáðôý÷èçêå áðü ôï UC Berkeley êáé êáôáóêåõÜóôçêå áðü
ôçí åôáéñåßá Crossbow Technology Inc.
ÊÜèå áéóèçôÞñáò ðáñÜãåé ðïëý ìåãÜëï üãêï äåäïìÝíùí ëüãù ôùí óõíå÷þí
åêôåëïýìåíùí ìåôñÞóåùí. Ãéá ðáñÜäåéãìá, ðåñßðïõ 10000 áéóèçôÞñåò êßíçóçò
÷ñçóéìïðïéïýíôáé óå äñüìïõò ôá÷åßáò êõêëïöïñßáò ôçò Êáëéöüñíéáò ðñïêåéìÝ-
íïõ íá åíçìåñþíïõí äéáñêþò ãéá ôçí êáôÜóôáóç óôïõò äñüìïõò ôçò ðüëçò. Ç
ðçãÞ åíÝñãåéáò ôùí áéóèçôÞñùí åßíáé åßôå ìðáôáñßåò ÁÁ Þ çëéáêÜ êýôôáñá, üðïõ
êáé ôá äýï ÷áñáêôçñßæïíôáé áðü ðåñéïñéóìÝíç ðñïóöïñÜ åíÝñãåéáò. Óôéò ðåñéó-
óüôåñåò åöáñìïãÝò, ç åðéêïéíùíßá ìåôáîý áéóèçôÞñùí èåùñåßôáé ï êõñéüôåñïò
ðáñÜãïíôáò êáôáíÜëùóçò åíÝñãåéáò óå ó÷Ýóç åßôå ìå ôçí åðåîåñãáóßá äåäïìÝ-
íùí, åßôå ìå ôçí áíß÷íåõóç öáéíïìÝíùí (ìåôñÞóåéò). Åßíáé Ýêäçëï, üôé ç äéÜñêåéá
æùÞò ôùí äéêôýùí áéóèçôÞñùí åëáôôþíåôáé äñáóôéêÜ üóï ìåãáëýôåñç åßíáé ç åðé-
êïéíùíßá ìåôáîý ôïõò êáé ðñïöáíþò üôáí ìåôáöÝñïíôáé üëåò ïé ìåôñÞóåéò óå
Ýíá óýóôçìá åîùôåñéêÜ ôïõ äéêôýïõ. Ãé' áõôü áíáðôý÷èçêáí äéÜöïñåò ôå÷íé-
êÝò ðñïêåéìÝíïõ íá åðéôåõ÷èåß ç åðåîåñãáóßá äåäïìÝíùí åóùôåñéêÜ ôïõ äéêôýïõ
(in-network processing), üðùò ç óõíÜèñïéóç äåäïìÝíùí (data aggregation) êáé
2.7. ÅÑÙÔÇÌÁÔÁ ÓÅ ÄÉÊÔÕÁ ÁÉÓÈÇÔÇÑÙÍ 33

ç óõìðßåóç äåäïìÝíùí (data compression). Åðéðñüóèåôá, ïé áëãüñéèìïé ãéá äß-


êôõá áéóèçôÞñùí ðñÝðåé íá åßíáé éêáíïß íá äéá÷åéñéóèïýí ðéèáíÝò áðïôõ÷ßåò ôùí
óõóêåõþí (fault-tolerant), üðùò ç áðïôõ÷ßá ìåôÜäïóçò äåäïìÝíùí Þ ç Ýëëåéøç
åíÝñãåéáò, êáèþò êáé ôçí êáèõóôÝñçóç (delay) ðïõ ìðïñåß íá ðñïêýøåé ëüãù ôïõ
äéêôýïõ.
Áðü ôçí åñåõíçôéêÞ êïéíüôçôá äüèçêå ç ìåãáëýôåñç âáñýôçôá óôç óõíÜèñïéóç
äåäïìÝíùí, ðñïêåéìÝíïõ íá åëáôôùèåß ôï ìÝãåèïò ôùí ìåôáäéäüìåíùí äåäïìÝíùí
êáé êáô' åðÝêôáóç íá åðéìçêõíèåß ç äéÜñêåéá æùÞò ôïõ äéêôýïõ. Ïé ðåñéóóüôå-
ñåò áðü ôéò ðñïôáèåßóåò ìåèüäïõò ÷ñçóéìïðïéïýí ìßá éåñáñ÷éêÞ ïñãÜíùóç ôïõ äé-
êôýïõ, ìÝóù ôçò ïðïßáò õëïðïéåßôáé ç óõíÜèñïéóç äåäïìÝíùí êáèþò ðñïùèïýíôáé
ôáõôü÷ñïíá åîùôåñéêÜ ôïõ äéêôýïõ. Ç ÷ñÞóç éåñáñ÷éêÞò ïñãÜíùóçò (á) áðáéôåß
ìéá öÜóç áñ÷éêïðïßçóç éäéáßôåñá áðáéôçôéêÞò óå åðéêïéíùíßá, êáé (â) äçìéïõñãåß
óçìåßá óõìöüñçóçò (hotspots), ôá ïðïßá åßíáé ïé áéóèçôÞñåò ðïõ âñßóêïíôáé øçëÜ
óôçí éåñáñ÷ßá. Ôá óçìåßá óõìöüñçóçò ëüãù ôçò Ýíôïíçò åðéêïéíùíßáò, îïäåýïõí
ãñçãïñüôåñá ôçí åíÝñãåéá ôïõò, ìå áðïôÝëåóìá üôáí ôåëåéþóåé íá ÷Üíåôáé ç éå-
ñáñ÷éêÞ ïñãÜíùóç êáé íá áðáéôåßôáé êáéíïýñãéá öÜóç áñ÷éêïðïßçóçò.
Óôçí åñãáóßá [79] ðñïôÜèçêå ìéá ïñãÜíùóç äýï åðéðÝäùí ãíùóôÞ ùò LEACH.
Óýìöùíá ìå áõôÞ, ïé áéóèçôÞñåò ÷ùñßæïíôáé óå ïìÜäåò êáé êÜèå ïìÜäá Ý÷åé Ýíáí
áñ÷çãü (cluster head). Ïé áñ÷çãïß áðïôåëïýí ôï ðñþôï åðßðåäï ôçò ïñãÜíùóçò,
åíþ üëïé ïé õðüëïéðïé áéóèçôÞñåò áðïôåëïýí ôï äåýôåñï åðßðåäï. Ìßá åíáëëá-
êôéêÞ ðñïóÝããéóç åßíáé ç åóôßáóç óôá äåäïìÝíá (data centric approach). Ç
ìÝèïäïò Directed Di usion [88] áêïëïõèåß áõôÞ ôçí ðñïóÝããéóç. ÊÜèå áéóèç-
ôÞñáò áðïèçêåýåé äåäïìÝíá ðïõ ðñïùèïýíôáé ìÝóù ôïõ åáõôïý ôïõ Ýôóé þóôå
íá áðïöåõ÷èåß ç åðáíÜëçøç ìåôÜäïóçò äåäïìÝíùí. Ìßá ãåùãñáöéêÞ ðñïóÝã-
ãéóç áêïëïõèåßôáé áðü ôç ìÝèïäï GAF [172], óýìöùíá ìå ôçí ïðïßá êÜðïéïé
áéóèçôÞñåò üôáí åßíáé ðåñéôôïß áðåíåñãïðïéïýí ôçí åðéêïéíùíßá ôïõò. Óôçí ïõ-
óßá ï ãåùãñáöéêüò ÷þñïò ÷ùñßæåôáé óå ðåñéï÷Ýò êáé ìüíï Ýíáò áéóèçôÞñáò áíÜ
ðåñéï÷Þ Ý÷åé åíåñãïðïéçìÝíç ôçí åðéêïéíùíßá ôïõ.
Ïé áéóèçôÞñåò åíôïðßæïõí äéáñêþò öáéíüìåíá êÜíïíôáò ìåôñÞóåéò äéáöüñùí
ìåãåèþí, üðùò åßíáé ç èåñìïêñáóßá, ç õãñáóßá, ç êßíçóç ê.á. Óå ðïëëÝò åöáñ-
ìïãÝò åßíáé ÷ñÞóéìï ôá äßêôõá áéóèçôÞñùí íá áðïôéìïýí óõíå÷Þ åñùôÞìáôá. Ãéá
ðáñÜäåéãìá, áéóèçôÞñåò êßíçóçò Þ Þ÷ïõ ìðïñïýí íá ÷ñçóéìïðïéçèïýí ãéá íá
åíåñãïðïéåßôáé áõôüìáôá ï öùôéóìüò óå ÷þñïõò ìå ôçí áðïôßìçóç åíüò óõíå-
÷ïýò åñùôÞìáôïò.
Áí êáé ç âéâëéïãñáößá åßíáé ðëïýóéá óôç ìåëÝôç åñùôçìÜôùí ìßáò öïñÜò (ad-
hoc queries), ôá óõíå÷Þ åñùôÞìáôá åßíáé ðïëý íÝïò ôïìÝáò óôá äßêôõá áéóèçôÞ-
ñùí. Ôï ðñüâëçìá åßíáé åîáéñåôéêÜ äýóêïëï, äéüôé ðÝñá áðü ôï ó÷åäéáóìü áõ-
îçôéêþí áëãïñßèìùí, áðáéôåßôáé ðåñáéôÝñù ìåßùóçò ôçò êáôáíÜëùóçò åíÝñãåéáò
ðñïêåéìÝíïõ íá äéáôçñçèåß ç äéÜñêåéá æùÞò ôïõ äéêôýïõ óå éêáíïðïéçôéêÜ åðß-
ðåäá. ¼ôáí ðåñéóóüôåñá ôïõ åíüò óõíå÷Þ åñùôÞìáôá ôßèåíôáé óå Ýíá äßêôõï
áéóèçôÞñùí, åßíáé äõíáôÞ ç âåëôßùóç ôçò áðïèÞêåõóçò, åðåîåñãáóßáò êáé åðéêïé-
34 ÊÅÖÁËÁÉÏ 2. ÐÑÏÊÁÔÁÑÊÔÉÊÅÓ ÅÍÍÏÉÅÓ ÓÔÉÓ ÑÏÅÓ ÄÅÄÏÌÅÍÙÍ

íùíßáò ëáìâÜíïíôáò õðüøç ôéò ðéèáíÝò åðéêáëýøåéò ìåôáîý ôùí áðáíôÞóåùí ôùí
åñùôçìÜôùí. Ôï ÓÄÑÄ Telegraph õëïðïéåß ôï óýóôçìá Continuously Adaptive
Continuous Query (CACQ) [127], ôï ïðïßï ðñïóðáèåß íá åëá÷éóôïðïéÞóåé ôçí
êáôáíÜëùóç åíÝñãåéáò ìå ôçí ôáõôü÷ñïíç åêôÝëåóç ðïëëþí óõíå÷þí åñùôçìÜ-
ôùí.
ÊÅÖÁËÁÉÏ 3

Êáôçãïñéïðïßçóç Êéíïýìåíùí
×ñïíïóåéñþí∗
Ðåñéå÷üìåíá
3.1 ÅÉÓÁÃÙÃÇ . . . . . . . . . . . . . . . . . . . . . . . 35
3.2 Ó×ÅÔÉÊÇ ÂÉÂËÉÏÃÑÁÖÉÁ ÊÁÉ ÓÕÍÅÉÓÖÏÑÁ 37
3.3 ÁÍÁÐÁÑÁÓÔÁÓÇ ÔÁÓÅÙÍ ÊÁÉ ÊÁÔÇÃÏÑÉÏ-
ÐÏÉÇÓÇ . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.4 ÐÅÉÑÁÌÁÔÉÊÇ ÌÅËÅÔÇ . . . . . . . . . . . . . 46
3.5 ÓÕÌÐÅÑÁÓÌÁÔÁ . . . . . . . . . . . . . . . . . . 51

3.1 ÅéóáãùãÞ
Ç ìåëÝôç ôçò åðåîåñãáóßáò åñùôçìÜôùí êáé ôùí ôå÷íéêþí åîüñõîçò äåäïìÝíùí óå
äõíáìéêÜ ðåñéâÜëëïíôá Ý÷åé ðñüóöáôá ðñïóåëêýóåé ôï åíäéáöÝñïí ôçò åðéóôçìï-
íéêÞò êïéíüôçôáò [16], ëüãù ôïõ ãåãïíüôïò üôé Ý÷ïõí ðñïêýøåé ðïëëÝò åöáñìïãÝò
ðïõ áó÷ïëïýíôáé ìå äéáñêþò ìåôáâáëëüìåíá äåäïìÝíá. Ðáñáäåßãìáôá ôÝôïéùí
åöáñìïãþí áðïôåëïýí ç ðáñáêïëïýèçóç äéêôýïõ, ç ïéêïíïìéêÞ ðáñáêïëïýèçóç
êáé áíÜëõóç, ôá äßêôõá áéóèçôÞñùí, ãéá íá ïíïìÜóïõìå ìåñéêÜ áðü áõôÜ. Ç
óçìáíôéêüôåñç éäéüôçôá ôùí ñïþí äåäïìÝíùí åßíáé üôé íÝåò ôéìÝò äéáñêþò ðá-
ñÜãïíôáé êáé ðñïóôßèåíôáé óôá äåäïìÝíá ðñïò åðåîåñãáóßá, êáé óõíåðþò åßíáé
áðáñáßôçôç ç ÷ñÞóç áðïôåëåóìáôéêþí ôå÷íéêþí áðïèÞêåõóçò êáé åðåîåñãáóßáò
ðñïêåéìÝíïõ ïé ìÝèïäïé íá áíôáðåîÝëèïõí óôïõò õøçëïýò ñõèìïýò Üöéîçò.
∗ Ôï êåöÜëáéï áíôëåß ôá ðåñéå÷üìåíÜ ôïõ áðü ôçí åñãáóßá [103].

35
36 ÊÅÖÁËÁÉÏ 3. ÊÁÔÇÃÏÑÉÏÐÏÉÇÓÇ ÊÉÍÏÕÌÅÍÙÍ ×ÑÏÍÏÓÅÉÑÙÍ

Ìéá êéíïýìåíç ÷ñïíïóåéñÜ S åßíáé ìßá áêïëïõèßá áðü ðñáãìáôéêÝò ôéìÝò


s1 ; s2 ; : : :, üðïõ óõíå÷þò ðñïóôßèåíôáé íÝåò ôéìÝò ìå ôçí ðÜñïäï ôïõ ÷ñüíïõ. Ãéá
ðáñÜäåéãìá, Ýíáò áéóèçôÞñáò èåñìïêñáóßáò, ï ïðïßïò ðáñáêïëïõèåß ôç èåñìï-
êñáóßá ðåñéâÜëëïíôïò êÜèå ðÝíôå ëåðôÜ, ðáñÜãåé ìßá êéíïýìåíç ÷ñïíïóåéñÜ áðü
ôéìÝò èåñìïêñáóßáò. Ùò Üëëï ðáñÜäåéãìá, èåùñåßóôå Ýíá áõôïêßíçôï, ðïõ Ý÷åé
åíóùìáôùìÝíç ìßá óõóêåõÞ GPS êáé ìßá óõóêåõÞ áóýñìáôçò åðéêïéíùíßáò, ôï
ïðïßï ìåôáäßäåé ôç ãåùãñáöéêÞ ôïõ èÝóç óå Ýíáí êåíôñéêü åîõðçñåôçôÞ êÜèå äÝêá
ëåðôÜ. Ìå áõôü ôïí ôñüðï ðáñÜãåôáé ìßá êéíïýìåíç ÷ñïíïóåéñÜ äýï äéáóôÜóåùí
(ôéò x êáé y óõíôåôáãìÝíåò ôçò èÝóçò ôïõ). Óçìåéþóôå üôé ôá äåäïìÝíá ôùí êéíïý-
ìåíùí ÷ñïíïóåéñþí åßíáé ðÜíôá ôáîéíïìçìÝíá ìå âÜóç ôç ÷ñïíéêÞ óôéãìÞ Üöéîçò
ôïõò. Ïé íÝåò ôéìÝò ðñïóôßèåíôáé ðÜíôá óôï ôÝëïò ôçò êéíïýìåíçò ÷ñïíïóåéñÜò.
ÐëÞèïò áëãïñßèìùí åðåîåñãáóßáò ñïþí äåäïìÝíùí åóôéÜæïõí ôçí ðñïóï÷Þ
ôïõò ìüíï óôï ðñüóöáôï ðáñåëèüí ôùí ñïþí äåäïìÝíùí åöáñìüæïíôáò Ýíá êé-
íïýìåíï ðáñÜèõñï (sliding window) óôç ñïÞ [16, 50]. Ìå áõôüí ôïí ôñüðï, ìüíï
ïé ôåëåõôáßåò W ôéìÝò ëáìâÜíïíôáé õðüøç ãéá åðåîåñãáóßá, åíþ ïé ðáëéüôåñåò
ôéìÝò èåùñïýíôáé îåðåñáóìÝíåò êáé äåí ÷ñçóéìïðïéïýíôáé. ¼ðùò öáßíåôáé êáé
óôçí Åéêüíá 3.1, ñïÝò ðïõ äåí ìïéÜæïõí ãéá Ýíá ðáñÜèõñï ìÞêïõò W (áñéóôåñÜ),
ìðïñåß íá ìïéÜæïõí áí ôï ðáñÜèõñï ìåôáêéíçèåß ìáæß ìå ôï ÷ñüíï (äåîéÜ).

EIKONA 3.1. Ïìïéüôçôá ìå ÷ñÞóç êéíïýìåíïõ ðáñáèýñïõ ìÞêïõò W .

×ñçóéìïðïéïýìå ôÜóåéò ùò âÜóç ãéá ôçí êáôçãïñéïðïßçóç êéíïýìåíùí ÷ñï-


íïóåéñþí ãéá äýï ëüãïõò. Ðñþôïí, ç ôÜóç (trend) åßíáé Ýíá âáóéêü ÷áñáêôçñé-
óôéêü ôùí êéíïýìåíùí ÷ñïíïóåéñþí. Óå ðÜñá ðïëëÝò åöáñìïãÝò èåùñåßôáé ðïëý
óçìáíôéêüò ï ôñüðïò ìåôáâïëÞò ôùí ôéìþí ôçò ñïÞò, äéüôé áðü áõôü ìðïñïýí íá
åîá÷èïýí ÷ñÞóéìá óõìðåñÜóìáôá. Ãéá ðáñÜäåéãìá, óå Ýíá óýóôçìá ðáñáêïëïý-
èçóçò ìåôï÷þí, åßíáé óçìáíôéêü íá ãíùñßæïõìå ðïéåò ìåôï÷Ýò Ý÷ïõí ìßá áõîçôéêÞ
ôÜóç ôáõôü÷ñïíá êáé ðïéåò Ý÷ïõí ìßá ðôùôéêÞ ôÜóç. Äåýôåñïí, ç áíáðáñÜóôáóç
÷ñïíïóåéñþí ðïõ âáóßæåôáé óå ôÜóåéò óõìâáäßæåé ðåñéóóüôåñï ìå ôçí áíèñþðéíç
ëïãéêÞ. Óôç âéâëéïãñáößá, ðïëëÝò åñãáóßåò [73, 74] ÷ñçóéìïðïéïýí ôéò ôéìÝò ôùí
ñïþí äåäïìÝíùí êáé ìßá óõíÜñôçóç áðüóôáóçò, üðùò åßíáé ç Åõêëåßäåéá áðü-
óôáóç ãéá íá ïìáäïðïéÞóïõí ñïÝò. Ðáñüôé ìßá ôÝôïéá óõíÜñôçóç áðüóôáóçò
3.2. Ó×ÅÔÉÊÇ ÂÉÂËÉÏÃÑÁÖÉÁ ÊÁÉ ÓÕÍÅÉÓÖÏÑÁ 37

ìðïñåß íá äßíåé ìåãÜëåò ôéìÝò ãéá Ýíá æåýãïò ñïþí, áõôÝò ïé äýï ñïÝò ìðïñïýí
íá èåùñçèïýí ðáñüìïéåò, áí åîåôÜóïõìå ðñïóåêôéêüôåñá ôá ãñáöÞìáôÜ ôïõò. Ãé'
áõôü ôï ëüãï, ïé óõíáñôÞóåéò áðüóôáóçò äåí åßíáé ðÜíôá êáëÝò ìåôñéêÝò ãéá ôçí
ïìáäïðïßçóç Þ ôçí êáôÜôáîç áíôéêåéìÝíùí.
Óå áõôü ôï êåöÜëáéï, åóôéÜæïõìå ôçí ðñïóï÷Þ ìáò óôï ðñüâëçìá ôçò óõíå-
÷ïýò êáôçãïñéïðïßçóçò êéíïýìåíùí ÷ñïíïóåéñþí âáóéæüìåíïé óôéò ôÜóåéò ôïõò
êáôÜ ôçí ðÜñïäï ôïõ ÷ñüíïõ. Ðñïöáíþò, áíáìÝíïõìå üôé ç ßäéá ÷ñïíïóåéñÜ
èá Ý÷åé äéáöïñåôéêÝò ôÜóåéò óå äéáöïñåôéêÜ ÷ñïíéêÜ äéáóôÞìáôá. Ç êáôçãïñéï-
ðïßçóç ðñáãìáôïðïéåßôáé ëáìâÜíïíôáò õðüøç ìüíï ôéò ôåëåõôáßåò W ôéìÝò ôçò
êÜèå ñïÞò (÷ñçóéìïðïéþíôáò êéíïýìåíï ðáñÜèõñï ìÞêïõò W ). Óçìåéþóôå, üôé
äýï êéíïýìåíåò ÷ñïíïóåéñÝò ìå ðáñüìïéåò ôÜóåéò ãéá Ýíá óõãêåêñéìÝíï ÷ñïíéêü
äéÜóôçìá, ìðïñåß íá Ý÷ïõí ôåëåßùò äéáöïñåôéêÝò ôÜóåéò óå êÜðïéï Üëëï ÷ñïíéêü
äéÜóôçìá. Áõôü ôï öáéíüìåíï ðáñïõóéÜæåôáé óôçí Åéêüíá 3.1, üðïõ ïé ôÜóåéò ôùí
÷ñïíïóåéñþí áíáðáñßóôáíôáé áðü ôéò äéáêïðôüìåíåò ãñáììÝò. Óçìåéþóôå åðßóçò,
üôé äýï ÷ñïíïóåéñÝò ìå ðáñüìïéåò ôÜóåéò ìðïñåß íá åßíáé ôåëåßùò äéáöïñåôéêÝò
üóïí áöïñÜ óôéò ôéìÝò ôïõò óôï óõãêåêñéìÝíï ÷ñïíéêü äéÜóôçìá.

3.2 Ó÷åôéêÞ Âéâëéïãñáößá êáé ÓõíåéóöïñÜ


Ôçí ôåëåõôáßá äåêáåôßá, ç åîüñõîç äåäïìÝíùí óå ÷ñïíïóåéñÝò ðñïóÝëêõóå ôï
åíäéáöÝñïí ôùí åñåõíçôþí. Ç êáôçãïñéïðïßçóç åßíáé Ýíá ðïëý ãíùóôü ðñüâëçìá
åîüñõîçò äåäïìÝíùí. ÐïëëÝò åñãáóßåò Ý÷ïõí ðñïôáèåß ãéá ôçí êáôçãïñéïðïßçóç
áíôéêåéìÝíùí áðü äéáöïñåôéêïýò åñåõíçôéêïýò ôïìåßò, üðùò ç ìç÷áíéêÞ ìÜèçóç,
ç áíáêÜëõøç ãíþóçò êáé ç ôå÷íçôÞ íïçìïóýíç.
Ôï ðñüâëçìá ôçò êáôçãïñéïðïßçóçò áðïôåëåß áêüìá ìåãáëýôåñç ðñüêëçóç
óôçí ðåñßðôùóç ôùí êéíïýìåíùí ÷ñïíïóåéñþí, ëüãù ôçò äõíáìéêÞò öýóçò ôùí
äåäïìÝíùí. Óôï ðñüóöáôï ðáñåëèüí, óôçí åñãáóßá [5] ðñïôÜèçêå Ýíá óýóôçìá
êáôçãïñéïðïßçóçò, óýìöùíá ìå ôï ïðïßï ôï ìïíôÝëï ðïõ äçìéïõñãÞèçêå êáôÜ
ôç äéáäéêáóßá åêðáßäåõóçò ðñïóáñìüæåôáé óôéò áëëáãÝò ôùí ñïþí äåäïìÝíùí. Ç
ìÝèïäïò âáóßæåôáé óôïõò micro-clusters, ïé ïðïßïé ðñáêôéêÜ åßíáé áðëÝò óôáôéóôé-
êÝò ðëçñïöïñßåò êÜèå ñïÞò óå óõãêåêñéìÝíá ÷ñïíéêÜ äéáóôÞìáôá. Ç êáôçãïñéï-
ðïßçóç åðéôõã÷Üíåôáé óõíäõÜæïíôáò ôïõò micro-clusters óå äéáöïñåôéêÝò ÷ñïíé-
êÝò óôéãìÝò (snapshots). Ç ìÝèïäïò ÷ñçóéìïðïéåß Ýíá ðåñéïäéêü ó÷Þìá ãéá ôçí
åíçìÝñùóç ôùí micro-clusters êáé õðïëïãßæåé ôçí êáôçãïñéïðïßçóç üðïôå áõôü
æçôåßôáé (on demand classi cation). ÅðéðëÝïí ç ìÝèïäïò ðïõ ðñïôÜèçêå, ÷ñåéÜ-
æåôáé ìßá ðåñßïäï åêðáßäåõóçò óå áíôßèåóç ìå ôç ìÝèïäï ðïõ ðñïôåßíïõìå, ç ïðïßá
Ý÷åé Ýíá ðåñéïñéóìÝíï áñéèìü ïìÜäùí êáé ïé ïìÜäåò áõôÝò åßíáé ãíùóôÝò åê ôùí
ðñïôÝñùí. Óôçí åñãáóßá [114] ÷ñçóéìïðïéÞèçêáí áóáöÞ-ðëçñïöïñéáêÜ äßêôõá
(info-fuzzy networks) ãéá íá áíôéìåôùðßóïõí ôï ðñüâëçìá. ¢ëëåò ðñïóåããßóåéò
ðåñéëáìâÜíïõí áëãüñéèìïõò åíüò ðåñÜóìáôïò [53, 83], óôéò ïðïßåò ôï ìïíôÝëï
êáôçãïñéïðïßçóçò äçìéïõñãåßôáé óôçí áñ÷Þ áëëÜ óôç óõíÝ÷åéá äåí áíáãíùñßæåé
38 ÊÅÖÁËÁÉÏ 3. ÊÁÔÇÃÏÑÉÏÐÏÉÇÓÇ ÊÉÍÏÕÌÅÍÙÍ ×ÑÏÍÏÓÅÉÑÙÍ

ðéèáíÝò áëëáãÝò ëüãù ôçò ìåôáâïëÞò ôùí äåäïìÝíùí.


Ç ôìçìáôéêÞ ãñáììéêÞ ðñïóÝããéóç (piecewise linear approximation, PLA)
Ý÷åé ÷ñçóéìïðïéçèåß ðïëý áðïôåëåóìáôéêÜ óôï ðáñåëèüí ãéá ôçí áíáðáñÜóôáóç
÷ñïíïóåéñþí óå äéÜöïñá åñåõíçôéêÜ ðñïâëÞìáôá, üðùò ïìáäïðïßçóç, êáôçãïñéï-
ðïßçóç êáé äåéêôïäüôçóç [167, 174]. ÐïëëÝò ðáñáëëáãÝò Ý÷ïõí ðñïôáèåß, üðùò
ìåôáîý Üëëùí ç ôìçìáôéêÞ áèñïéóôéêÞ ðñïóÝããéóç (piecewise aggregate approx-
imation, PAA) [97], ðïõ áðïèçêåýåé ôç ìÝóç ôéìÞ ôìçìÜôùí ßóïõ ìÞêïõò êáé
ç ðñïóáñìïóôéêÞ ôìçìáôéêÞ óôáèåñÞ ðñïóÝããéóç (adaptive piecewise constant
approximation, APCA) [96], ðïõ áðïèçêåýåé ôç ìÝóç ôéìÞ êáé ôï äåîéü Üêñï
ôìçìÜôùí ìåôáâëçôïý ìÞêïõò.
Ç áíÜëõóç ìå ôç âïÞèåéá ôÜóåùí Ý÷åé ÷ñçóéìïðïéçèåß ãéá ôçí ïìáäïðïßçóç
óôáôéêþí ÷ñïíïóåéñþí óå ðïëëïýò ôïìåßò, üðùò óôéò ÷ñïíïóåéñÝò [177, 124],
óôç âéïðëçñïöïñéêÞ (bioinformatics) [143] êáé óå óõóôÞìáôá ðáíôá÷ïý ðáñüíôïò
õðïëïãéóìïý (ubiquitous computing) [151]. Óôçí åñãáóßá [177] ðñïôÜèçêáí Ýîé
äåßêôåò ôÜóçò. Ìßá ÷ñïíïóåéñÜ áíáðáñßóôáôáé ùò ìßá ôõ÷áßá áêïëïõèßá áõôþí
ôùí äåéêôþí. ¸íá ó÷Þìá äåéêôïäüôçóçò ÷ñçóéìïðïéåßôáé ãéá íá êùäéêïðïéÞóåé
ôïõò äåßêôåò óå áêïëïõèßá bits ìå óêïðü ôïí õðïëïãéóìü ôùí áðïóôÜóåùí äýï
÷ñïíïóåéñþí ÷ñçóéìïðïéþíôáò ôïí ôåëåóôÞ XOR. Óôéò åñãáóßåò [124, 143] ÷ñçóé-
ìïðïéÞèçêáí ðáñáëëáãÝò ôçò PLA ãéá íá åíôïðßóïõí ôñåéò ôýðïõò ôÜóåùí, ôïõò
ïðïßïõò ðñüôåéíáí ðñïêåéìÝíïõ íá êáôáóôåß äõíáôÞ ç ïìáäïðïßçóç ÷ñïíïóåéñþí.
ÁõôÝò ïé ìÝèïäïé ðñïôÜèçêáí ãéá óôáôéêÜ äåäïìÝíá. Äåí ÷ñçóéìïðïéïýí áõîçôéêü
ôñüðï õðïëïãéóìïý ôçò áíáðáñÜóôáóçò ôÜóåùí. Åðéðñüóèåôá, ïé ðñïôåéíüìåíïé
áëãüñéèìïé äåí åßíáé åíüò ðåñÜóìáôïò. Ãéá üëïõò ôïõò áíùôÝñù ëüãïõò, áõôÝò
ïé ìÝèïäïé äåí åßíáé êáôÜëëçëåò ãéá ôçí ðåñßðôùóç ôùí ñïþí. Óå óýãêñéóç ìå
ôç ìÝèïäï ðïõ ðñïôåßíïõìå, ç áíáðáñÜóôáóç ôÜóåùí õðïëïãßæåôáé áõîçôéêÜ êáé
ç êáôçãïñéïðïßçóç åíçìåñþíåôáé äéáñêþò ÷ñçóéìïðïéþíôáò ìßá áðïôåëåóìáôéêÞ
äïìÞ êýñéáò ìíÞìçò. Ðñüóöáôá, ç åñãáóßá [167] ðñüôåéíå ôç ÷ñÞóç ôÜóåùí óôçí
áðïôßìçóç åñùôçìÜôùí ìåñéêÞò áíôéóôïß÷çóçò óå ñïÝò äåäïìÝíùí ïéêïíïìéêÞò
öýóçò. Ï äåßêôçò Bollinger Band (%b) ÷ñçóéìïðïéÞèçêå ãéá ôçí ïìáëïðïßçóç
ôùí ÷ñïíïóåéñþí êáé ìåôÜ ôçí åöáñìïãÞ ôïõ õðïëïãßæåôáé ç PLA ôùí ÷ñïíï-
óåéñþí. Ï äåßêôçò %b ÷ñçóéìïðïéåß ôçí ôå÷íéêÞ ôïõ áðëïý êéíïýìåíïõ ìÝóïõ
(simple moving average) êáé ãé' áõôü áðáéôïýíôáé üëåò ïé ôéìÝò ôïõ êéíïýìå-
íïõ ðáñÜèõñïõ ãéá íá õðïëïãéóèåß ç åðüìåíç ôéìÞ ôïõ %b. ÅðïìÝíùò, ç PLA
äåí õðïëïãßæåôáé áõîçôéêÜ êáé Ýôóé ïé áðáéôÞóåéò ìíÞìçò åßíáé ôåñÜóôéåò óôçí
ðåñßðôùóç ðïëëþí ñïþí äåäïìÝíùí.
Ç óõíåéóöïñÜ áõôïý ôïõ êåöáëáßïõ óõíïøßæåôáé óôá åîÞò:
➣ ÐáñïõóéÜæåôáé Ýíáò áõîçôéêüò ôñüðïò õðïëïãéóìïý ôçò PLA, ï ïðïßïò äßíåé
ôç äõíáôüôçôá óõíå÷ïýò áíáðáñÜóôáóçò ôÜóåùí ôùí êéíïýìåíùí ÷ñïíïóåé-
ñþí óôï ìïíôÝëï êéíïýìåíïõ ðáñáèýñïõ.
➣ Ðñïôåßíåôáé ìßá áðïôåëåóìáôéêÞ ìÝèïäï ðñïóðÝëáóçò êýñéáò ìíÞìçò, ç
ïðïßá õðïóôçñßæåé èåìåëéþäåéò ëåéôïõñãßåò üðùò: ðñïóäéïñéóìü ôçò ïìÜäáò
3.3. ÁÍÁÐÁÑÁÓÔÁÓÇ ÔÁÓÅÙÍ ÊÁÉ ÊÁÔÇÃÏÑÉÏÐÏÉÇÓÇ 39

ìßáò ÷ñïíïóåéñÜò, åéóáãùãÞ ÷ñïíïóåéñÜò óå ïìÜäá, äéáãñáöÞ ÷ñïíïóåéñÜò


áðü ïìÜäá.
➣ Ùò åðáêüëïõèï, êáèßóôáôáé äõíáôÞ ç óõíå÷Þò êáôçãïñéïðïßçóç âáóéóìÝíç
óå ôÜóåéò, ç ïðïßá äßíåé ôç äõíáôüôçôá ðáñáêïëïýèçóçò ôùí êëÜóåùí Þ ôùí
ñïþí äåäïìÝíùí.
➣ Ç ðñïôåéíüìåíç ôå÷íéêÞ ìðïñåß íá åöáñìïóèåß áêüìá êáé óôçí ðåñßðôùóç
üðïõ êÜèå ÷ñïíéêÞ óôéãìÞ ìåôáâÜëëåôáé Ýíá ìÝñïò ìüíï ôùí ñïþí äåäïìÝ-
íùí. ÅðïìÝíùò, äåí áðáéôåßôáé ç ôáõôü÷ñïíç Üöéîç ôéìþí ãéá üëåò ôéò ñïÝò
äåäïìÝíùí.

3.3 ÁíáðáñÜóôáóç ÔÜóåùí êáé Êáôçãïñéïðïßçóç


Óôçí åðåîåñãáóßá ñïþí äåäïìÝíùí ôßèåíôáé äýï âáóéêÝò áðáéôÞóåéò ëüãù ôçò öý-
óçò ôùí äåäïìÝíùí. Ç ðñþôç áðáßôçóç åßíáé üôé ç åðåîåñãáóßá ðñÝðåé íá åßíáé
ðïëý ãñÞãïñç êáé áðïäïôéêÞ ðñïêåéìÝíïõ íá êáôáóôåß äõíáôÞ ç óõíå÷Þò åðå-
îåñãáóßá ëüãù ôïõ ìåãÜëïõ áñéèìïý áëëáãþí êáé åíçìåñþóåùí. Áõôü õðïäçëþ-
íåé ôç ÷ñÞóç ôçò êýñéáò ìíÞìçò ðñïêåéìÝíïõ íá áðïöåõ÷èïýí ïé ðïëý ÷ñïíïâüñåò
äéáäéêáóßåò I/O. Ç äåýôåñç áðáßôçóç åßíáé ç áðïöõãÞ ôçò ÷ñÞóçò ôõ÷áßáò ðñï-
óðÝëáóçò äåäïìÝíùí. ÅðïìÝíùò, üëïé ïé õðïëïãéóìïß ðïõ åöáñìüæïíôáé ðñÝðåé
íá åßíáé áõîçôéêïß, Ýôóé þóôå íá ìçí áðáéôåßôáé ðñïóðÝëáóç ðáëéüôåñùí ôéìþí
ìßáò ñïÞò. Ãéá ôçí éêáíïðïßçóç ôùí äýï ðñïçãïýìåíùí áðáéôÞóåùí, ðñïôåßíïõìå
Ýíá ó÷Þìá óõíå÷ïýò ïìáäïðïßçóçò, ôï ïðïßï Ý÷åé ìéêñü áðïèçêåõôéêü êüóôïò êáé
õðïëïãßæåé áõîçôéêÜ ôçí êáôçãïñéïðïßçóç ÷ñçóéìïðïéþíôáò óõíüøåéò ôùí ñïþí.
ÊÜèå óýíïøç ñïÞò Ý÷åé óçìáíôéêÜ ìéêñüôåñåò áðáéôÞóåéò áðïèçêåõôéêïý ÷þñïõ
óå ó÷Ýóç ìå ôá ðñáãìáôéêÜ äåäïìÝíá ôçò ñïÞò êáé åðïìÝíùò åßíáé äõíáôÞ ç ÷ñÞóç
ìüíï ôçò êýñéáò ìíÞìçò. Ðñéí ðåñéãñÜøïõìå áíáëõôéêÜ ôçí ðñïôåéíüìåíç ìÝèïäï,
óôïí Ðßíáêá 3.1 äßíïõìå ôá âáóéêÜ óýìâïëá ðïõ èá ÷ñçóéìïðïéçèïýí óå áõôü ôï
êåöÜëáéï.

3.3.1 Óõíüøåéò ÷ñïíïóåéñþí


Óå áõôÞí ôçí åíüôçôá, èá ìåëåôÞóïõìå ôïí áõîçôéêü ôñüðï ðñïóäéïñéóìïý ôçò
óýíïøçò ìßáò ñïÞò, ìå óêïðü ôçí åëÜôôùóç ôùí áðáéôÞóåùí áðïèçêåõôéêïý ÷þ-
ñïõ þóôå íá êáôáóôåß äõíáôÞ ç êáôçãïñéïðïßçóç ñïþí âáóéóìÝíç óå ôÜóåéò. Ï
åíôïðéóìüò ôÜóåùí Ý÷åé ìåëåôçèåß äéåîïäéêÜ óôç óôáôéóôéêÞ êáé óå Üëëïõò ó÷åôé-
êïýò ôïìåßò [61, 84]. Óôçí ðñáãìáôéêüôçôá, ìðïñïýí íá ÷ñçóéìïðïéçèïýí ðïëëïß
äåßêôåò ãéá ôïí ðñïóäéïñéóìü ôçò ôÜóçò ìßáò ÷ñïíïóåéñÜò. Ìåôáîý Üëëùí ðñï-
óåããßóåùí, åðéëÝîáìå ôï äåßêôç TRIX [84], ï ïðïßïò õðïëïãßæåôáé ìå ôç âïÞèåéá
åíüò ôñéðëïý êéíïýìåíïõ ìÝóïõ ðïõ åöáñìüæåôáé óôéò ðñáãìáôéêÝò ôéìÝò ìßáò
40 ÊÅÖÁËÁÉÏ 3. ÊÁÔÇÃÏÑÉÏÐÏÉÇÓÇ ÊÉÍÏÕÌÅÍÙÍ ×ÑÏÍÏÓÅÉÑÙÍ

Óýìâïëï ÐåñéãñáöÞ
S êéíïýìåíç ÷ñïíïóåéñÜ
S (t) ôéìÞ ôçò ñïÞò S ôç ÷ñïíéêÞ óôéãìÞ t
N ðëÞèïò ôùí êéíïýìåíùí ÷ñïíïóåéñþí
n ìÞêïò ôùí êéíïýìåíùí ÷ñïíïóåéñþí
W ìÞêïò ôïõ êéíïýìåíïõ ðáñáèýñïõ
p ðåñßïäïò ôïõ êéíïýìåíïõ ìÝóïõ (p ≤ W )
EMAip (t) i-ïóôü åêèåôéêü êéíïýìåíï ìÝóï ðåñéüäïõ p (t ≥ p)
T RIX (t) ðïóïóôü äéáöïñþí ôïõ EMA3p (t) óÞìáôïò
P LA ôìçìáôéêÞ ãñáììéêÞ ðñïóÝããéóç
P LA(i) i-ïóôü ôìÞìá ôçò P LA
k ðëÞèïò ôùí ôìçìÜôùí ôçò P LA
tlmin åëÜ÷éóôç ÷ñïíéêÞ ìïíÜäá ìßáò ëßóôáò êÜäùí
tlmax ìÝãéóôç ÷ñïíéêÞ ìïíÜäá ìßáò ëßóôáò êÜäùí
tbmin åëÜ÷éóôç ÷ñïíéêÞ ìïíÜäá åíüò êÜäïõ
tbmax ìÝãéóôç ÷ñïíéêÞ ìïíÜäá åíüò êÜäïõ
ΠINAKAΣ 3.1. ÂáóéêÜ óýìâïëá Êåöáëáßïõ 3.

ñïÞò äåäïìÝíùí. Óçìåéþíïõìå üôé ðñéí ðñáãìáôïðïéçèåß ç áíÜëõóç ôÜóåùí, ðñÝ-


ðåé íá åöáñìïóèåß ìßá äéáäéêáóßá ïìáëïðïßçóçò ðñïêåéìÝíïõ íá áöáéñÝóïõìå ôï
èüñõâï êáé íá õðïëïãßóïõìå ðéï ïìáëÝò êáìðýëåò, ïé ïðïßåò èá áðïêáëýøïõí ôéò
ôÜóåéò ôùí ÷ñïíïóåéñþí ãéá Ýíá óõãêåêñéìÝíï ÷ñïíéêü äéÜóôçìá. ÁõôÞ ç äéáäé-
êáóßá ïìáëïðïßçóçò äéåõêïëýíåôáé ìå ôç âïÞèåéá ôïõ äåßêôç TRIX, ðïõ âáóßæåôáé
óôïí õðïëïãéóìü åíüò ôñéðëïý åêèåôéêïý êéíïýìåíïõ ìÝóïõ ôïõ ëïãáñßèìïõ ôùí
ôéìþí ôçò ÷ñïíïóåéñÜò. Óôç óõíÝ÷åéá, åîçãïýìå ðñþôá ôç ÷ñÞóç ôïõ åêèåôéêïý
êéíïýìåíïõ ìÝóïõ êáé ìåôÜ ðáñïõóéÜæïõìå ôï äåßêôç TRIX.

ÏÑÉÓÌÏÓ 3.1 (Åêèåôéêü êéíïýìåíï ìÝóï). Ôï åêèåôéêü êéíïýìåíï ìÝóï ðåñéü-


äïõ p óå ìßá êéíïýìåíç ÷ñïíïóåéñÜ S õðïëïãßæåôáé ìå ôç âïÞèåéá ôçò åîßóùóçò:
2
EMAp (t) = EMAp (t − 1) + · (S (t) − EMAp (t − 1)) (3.1)
1+p

ÏÑÉÓÌÏÓ 3.2 (Äåßêôçò TRIX). Ï äåßêôçò TRIX ðåñéüäïõ p óå ìßá êéíïýìåíç


÷ñïíïóåéñÜ S õðïëïãßæåôáé ìå ôç âïÞèåéá ôçò åîßóùóçò:
EMA3p (t) − EMA3p (t − 1)
T RIX (t) = 100 · (3.2)
EMA3p (t − 1)
üðïõ EMA3p åßíáé Ýíá óÞìá ðïõ ðáñÜãåôáé áðü ôçí åöáñìïãÞ ôïõ ôñéðëïý åêèå-
ôéêïý êéíïýìåíïõ ìÝóïõ óôéò ôéìÝò ôçò ÷ñïíïóåéñÜò.
3.3. ÁÍÁÐÁÑÁÓÔÁÓÇ ÔÁÓÅÙÍ ÊÁÉ ÊÁÔÇÃÏÑÉÏÐÏÉÇÓÇ 41

Ôï óÞìá T RIX (t) ôáëáíôåýåôáé ãýñù áðü ôï ìçäÝí. ¼ðïôå ôï óÞìá T RIX (t)
äéáóôáõñþíåôáé ìå ôç ãñáììÞ ôïõ ìçäåíüò, õðÜñ÷åé ìßá Ýíäåéîç áëëáãÞ ôÜóçò.
Áõôü åßíáé áêñéâþò ðïõ ÷ñåéáæüìáóôå ðñïêåéìÝíïõ íá õðïëïãßóïõìå ôçí áíáðá-
ñÜóôáóç ôÜóåùí ìßáò ÷ñïíïóåéñÜò. Ç Åéêüíá 3.2 äåß÷íåé Ýíá ðáñÜäåéãìá, üðïõ
ôï óÞìá T RIX (t) äéáóôáõñþíåôáé ìå ôï ìçäÝí, üðïôå õðÜñ÷åé ìßá áëëáãÞ ôÜóçò
óôç ÷ñïíïóåéñÜ. Ç Åéêüíá 3.2 äåß÷íåé åðßóçò ôçí ïìáëïðïßçóç ðïõ åðéôõã÷Üíåôáé
áðü ôçí åöáñìïãÞ ôïõ åêèåôéêïý êéíïýìåíïõ ìÝóïõ.

8
real
ema
trix
zero
6

4
value

-2

300 350 400 450 500 550


time

EIKONA 3.2. ÐáñÜäåéãìá ÷ñïíïóåéñÜò êáé óÞìáôïò áíôßóôïé÷ïõ T RIX (t) .

ÏÑÉÓÌÏÓ 3.3 (PLA áíáðáñÜóôáóç). Ç áíáðáñÜóôáóç PLA ìßáò êéíïýìåíçò


÷ñïíïóåéñÜò S ãéá Ýíá ÷ñïíéêü äéÜóôçìá W ôéìþí åßíáé ìßá áêïëïõèßá ôï ðïëý
W -1 æåõãþí ôçò ìïñöÞò (t; trend), üðïõ ôï t êáèïñßæåé ôç ÷ñïíéêÞ óôéãìÞ ôïõ áñé-
óôåñïý Üêñïõ ôïõ ôìÞìáôïò êáé ôï trend óõìâïëßæåé ôçí ôÜóç ôçò ñïÞò (ðÜíù/UP
Þ êÜôù/DOWN) óôï óõãêåêñéìÝíï ôìÞìá.
Ç PLA åíçìåñþíåôáé üðïôå Ýñ÷åôáé ìßá íÝá ôéìÞ. Õëïðïéïýíôáé ôñåéò ëåé-
ôïõñãßåò (ADD, UPDATE, EXPIRE) ãéá ôçí õðïóôÞñéîç ôïõ áõîçôéêïý õðïëï-
ãéóìïý ôçò PLA. Ç ëåéôïõñãßá ADD åöáñìüæåôáé üôáí áíé÷íåõèåß áëëáãÞ ôÜóçò
êáé ðñïóèÝôåé Ýíá íÝï óçìåßï PLA. Ç ëåéôïõñãßá UPDATE åöáñìüæåôáé üôáí ç
ôÜóç åßíáé óôáèåñÞ êáé åíçìåñþíåé ôçí åôéêÝôá ÷ñüíïõ (timestamp)1 ôïõ ôåëåõ-
ôáßïõ óçìåßïõ PLA. Ç ëåéôïõñãßá EXPIRE åöáñìüæåôáé üôáí ëÞîåé ÷ñïíéêÜ ôï
ðñþôï ôìÞìá ôçò PLA êáé äéáãñÜöåé ôï ðñþôï óçìåßï PLA. ÐñïóÝîôå üôé üôáí
åöáñìüæåôáé ç ëåéôïõñãßá UPDATE ç êáôçãïñßá ôçò ñïÞò äåí ìåôáâÜëëåôáé.

3.3.2 Óõíå÷Þò êáôçãïñéïðïßçóç


Óå áõôÞ ôçí åíüôçôá, ìåëåôïýìå ôïí ôñüðï ðñáãìáôïðïßçóçò ôçò óõíå÷ïýò êá-
ôçãïñéïðïßçóçò. ÄåäïìÝíïõ üôé êÜèå ôìÞìá ôçò PLA Ý÷åé êáôåýèõíóç UP Þ
1 Óôç óõíÝ÷åéá ôçò äéáôñéâÞò èá ÷ñçóéìïðïéåßôáé ï áããëéêüò üñïò.
42 ÊÅÖÁËÁÉÏ 3. ÊÁÔÇÃÏÑÉÏÐÏÉÇÓÇ ÊÉÍÏÕÌÅÍÙÍ ×ÑÏÍÏÓÅÉÑÙÍ

DOWN, ôï ðëÞèïò ôùí ðéèáíþí êáôçãïñéþí ôÜóåùí ãéá Ýíá êéíïýìåíï ðáñÜèõñï
ìÞêïõò W åßíáé CW =2·(W {1), üðùò äéåõêñéíßæåé ç åðüìåíç ðñüôáóç.

ÐÑÏÔÁÓÇ 3.4 (ÐëÞèïò êëÜóåùí). Ï ìÝãéóôïò áñéèìüò êëÜóåùí CW ôùí êé-


íïýìåíùí ÷ñïíïóåéñþí åßíáé:
CW = 2 · (W − 1) (3.3)
üðïõ W åßíáé ôï ìÞêïò ôïõ êéíïýìåíïõ ðáñáèýñïõ.
ÁÐÏÄÅÉÎÇ. ×ñçóéìïðïéïýìå åðáãùãÞ ãéá ôçí áðüäåéîç áõôÞò ôçò ðñüôáóçò.
Åßíáé ðñïöáíÝò, üôé ç ðñüôáóç éó÷ýåé ãéá W =2 (óçìåéþóôå üôé W =2 åßíáé ç ìé-
êñüôåñç äõíáôÞ ôéìÞ ìÞêïõò êéíïýìåíïõ ðáñáèýñïõ, ç ïðïßá åðéôñÝðåé ôïí ðñïó-
äéïñéóìü ôÜóçò). ÕðïèÝôïõìå üôé ç ðñüôáóç åßíáé áëçèÞò ãéá W =n, êáé åðïìÝíùò
Cn =2·(n{1). Èá áðïäåßîïõìå üôé ç ðñüôáóç éó÷ýåé ãéá W =n+1. Ïé ôéìÝò ôçò
÷ñïíïóåéñÜò óôéò èÝóåéò n êáé n+1 êáèïñßæïõí ìßá åõèåßá ãñáììÞ, ðïõ Ý÷åé åßôå
áõîçôéêÞ ôÜóç (UP) Þ ðôùôéêÞ ôÜóç (DOWN). Áí ç ôÜóç åßíáé UP êáé ç ôÜóç
ôïõ ðñïçãïýìåíïõ ôìÞìáôïò ôçò PLA åßíáé åðßóçò UP, ôüôå ôï ôåëéêü áðïôÝëå-
óìá åßíáé UP. Áí ç ôÜóç åßíáé DOWN êáé ç ôÜóç ôïõ ðñïçãïýìåíïõ ôìÞìáôïò
åßíáé åðßóçò DOWN, ôüôå ôï ôåëéêü áðïôÝëåóìá åßíáé DOWN. Áí éó÷ýåé ìßá
áðü ôéò ðñïçãïýìåíåò ðåñéðôþóåéò, ôüôå ç (n+1)-ïóôÞ ôéìÞ ôçò ñïÞò äåí óõì-
âÜëåé óôï ìÝãéóôï ðëÞèïò êáôçãïñéþí. Ôþñá èåùñåßóôå ôçí ðåñßðôùóç üðïõ
ç ôåëåõôáßá ôÜóç åßíáé UP êáé ç ðñïçãïýìåíç åßíáé DOWN, Þ ôçí ðåñßðôùóç
ðïõ ç ôåëåõôáßá ôÜóç åßíáé DOWN êáé ç ðñïçãïýìåíç ôÜóç åßíáé UP. Áí éó÷ýåé
ìßá áðü ôéò äýï ðåñéðôþóåéò, ôüôå üðùò åßíáé öáíåñü ç (n+1)-ïóôÞ ôéìÞ ôçò
ñïÞò óõìâÜëåé óôçí áýîçóç ôïõ ðëÞèïõò ôùí êáôçãïñéþí. Áõôü óçìáßíåé üôé ç
(n+1)-ïóôÞ ôéìÞ ôçò ñïÞò ðñïóèÝôåé Üëëåò äýï êáôçãïñßåò ôÜóåùí. ¸ôóé, Ý÷ïõìå
Cn+1 =Cn +2. Áðü ôçí õðüèåóç ôçò åðáãùãÞò, ãíùñßæïõìå üôé Cn =2·(n − 1).
ÅðïìÝíùò, Cn+1 =2·(n − 1)+2=2 ·n, êáé êáôÜ óõíÝðåéá ç ðñüôáóç áðïäåéêíýåôáé
áëçèÞò. a

Ç Åéêüíá 3.3 åðåîçãåß ôéò äéáöïñåôéêÝò êáôçãïñßåò ðïõ äçìéïõñãïýíôáé áðü


äéáöïñåôéêÝò ôéìÝò ôïõ ìÞêïõò ôïõ êéíïýìåíïõ ðáñáèýñïõ (W =2, W =3 êáé
W =4). ÊÜèå êáôçãïñßá ÷áñáêôçñßæåôáé áðü ôçí áêïëïõèßá ôÜóåùí, ç ïðïßá
áðïôåëåßôáé áðü ìßá óåéñÜ óõìâüëùí U êáé D.
ÊÜèå öïñÜ ðïõ Ýñ÷åôáé ìßá íÝá ôéìÞ ãéá ìßá êéíïýìåíç ÷ñïíïóåéñÜ, ç áíôß-
óôïé÷ç ñïÞ ìðïñåß íá áëëÜîåé áðü ìßá êáôçãïñßá óå ìßá Üëëç. Ðñïôåßíïõìå Ýíá
ôñüðï þóôå ç óõíå÷Þò êáôçãïñéïðïßçóç íá õëïðïéçèåß áðïôåëåóìáôéêÜ ìå ôç âïÞ-
èåéá ìßáò ìåèüäïõ ðñïóðÝëáóçò êýñéáò ìíÞìçò, ç ïðïßá ïñãáíþíåé ôéò ñïÝò óå
ó÷Ýóç ìå ôçí êáôçãïñßá üðïõ áíÞêïõí ëáìâÜíïíôáò õðüøç ÷ñïíéêÝò ðëçñïöïñßåò
ãéá íá äéåõêïëýíåé ôçí áíáæÞôçóç êáé ôçí åíçìÝñùóÞ ôçò. ÊáôÜ ôç äéÜñêåéá ôçò
óõíå÷ïýò êáôçãïñéïðïßçóçò, ïé åðüìåíåò êáôçãïñßåò ðñÝðåé íá õðïóôçñßæïíôáé
áðïôåëåóìáôéêÜ:
3.3. ÁÍÁÐÁÑÁÓÔÁÓÇ ÔÁÓÅÙÍ ÊÁÉ ÊÁÔÇÃÏÑÉÏÐÏÉÇÓÇ 43

EIKONA 3.3. Êáôçãïñßåò ôÜóåùí ãéá äéáöïñåôéêÝò ôéìÝò ôïõ W .

• ÐñÝðåé íá ðñïóäéïñßæåôáé ãñÞãïñá ç êáôçãïñßá üðïõ áíÞêåé ìßá óõãêåêñé-


ìÝíç ñïÞ.
• ÐñÝðåé íá õðïóôçñßæåôáé ç ãñÞãïñç äéáãñáöÞ ìßá ñïÞò áðü ìßá êáôçãïñßá
êáé ç ãñÞãïñç åéóáãùãÞ ìßáò ñïÞò óå ìßá êáôçãïñßá.
• ÐñÝðåé íá áíáêôþíôáé ãñÞãïñá ôá áíáãíùñéóôéêÜ ôùí ñïþí ðïõ áíÞêïõí
óå ìßá óõãêåêñéìÝíç êáôçãïñßá.
ÊÜèå êáôçãïñßá õðïóôçñßæåôáé áðü ëßóôåò êÜäùí. Ï ðñþôïò êÜäïò êÜèå ëß-
óôáò åßíáé ï ðñùôåýùí êÜäïò (primary bucket), åíþ ïé õðüëïéðï êÜäïé åßíáé êÜäïé
õðåñ÷åßëéóçò (over ow buckets). Ïé êÜäïé õðåñ÷åßëéóçò ÷ñçóéìïðïéïýíôáé ìüíï
óôçí ðåñßðôùóç üðïõ ìßá ñïÞ ðñÝðåé íá åéóá÷èåß óå ìßá õðÜñ÷ïõóá ëßóôá (âÞìá
2 ôïõ Áëãüñéèìïõ Insert) êáé ï ðñùôåýïí êÜäïò áõôÞò ôçò ëßóôáò åßíáé ãåìÜôïò
(êÜèå êÜäïò ÷ùñÜ ðñïêáèïñéóìÝíï áñéèìü ñïþí). ÊÜèå ëßóôá êÜäùí ÷áñáêôçñß-
æåôáé áðü äýï ÷ñïíéêÝò óôéãìÝò tlmin êáé tlmax , ðïõ õðïäçëþíïõí ôçí åëÜ÷éóôç
êáé ôç ìÝãéóôç ÷ñïíéêÞ óôéãìÞ ðïõ áíôéóôïé÷åß óôï (k-1)-ïóôü óçìåßï PLA, üðïõ
k åßíáé ï áñéèìüò ôùí óçìåßùí ðïõ ðåñéÝ÷ïíôáé óôçí áíáðáñÜóôáóç PLA. ×ñç-
óéìïðïéïýìå ôï ðñïôåëåõôáßï óçìåßï PLA ùò âÜóç ãéá ôçí åéóáãùãÞ ôùí ñïþí
óôéò ëßóôåò êÜäùí, äéüôé åßíáé ôï ôåëåõôáßï óôáèåñü óçìåßï (ôï ôåëåõôáßï óçìåßï
ìðïñåß íá áëëÜîåé ÷ñïíéêÞ óôéãìÞ áí åöáñìïóèåß ç ëåéôïõñãßá UPDATE) êáé
Ýôóé ðñÝðåé íá åíçìåñþíïõìå ôç äïìÞ ðñïóðÝëáóçò ìüíï üôáí ìßá ñïÞ áëëÜæåé
êáôçãïñßá. ÊÜèå êÜäïò ðåñéÝ÷åé Ýíá óýíïëï áðü áíáãíùñéóôéêÜ ñïþí êáé äýï
÷ñïíéêÝò óôéãìÝò tbmin êáé tbmax . ÁõôÝò ïé ÷ñïíéêÝò óôéãìÝò õðïäçëþíïõí ôï
÷ñïíéêü äéÜóôçìá êáôÜ ôï ïðïßï üëåò ïé ñïÝò ôïõ êÜäïõ Ý÷ïõí åéóá÷èåß óå áõôüí.
Óôçí Åéêüíá 3.4 öáßíåôáé Ýíá ðáñÜäåéãìá ôçò äïìÞò. Ç êáôçãïñßá DUD
áðïôåëåßôáé áðü äýï ëßóôåò êÜäùí. Ç ðñþôç ëßóôá ðåñéÝ÷åé Ýíáí åðéðñüóèåôï
êÜäï õðåñ÷åßëéóçò. Ãéá ôçí ðñþôç ëßóôá, ç tlmin åßíáé 10, åíþ ç tlmax åßíáé 15.
Áõôü óçìáßíåé, üôé ïé ñïÝò 1, 2, 5, 8 Ý÷ïõí ôï ðñïôåëåõôáßï ôïõò PLA óçìåßï
44 ÊÅÖÁËÁÉÏ 3. ÊÁÔÇÃÏÑÉÏÐÏÉÇÓÇ ÊÉÍÏÕÌÅÍÙÍ ×ÑÏÍÏÓÅÉÑÙÍ

ìåôáîý ôùí ÷ñïíéêþí óôéãìþí 10 êáé 15. Ãéá ôïí ðñùôåýïíôá êÜäï ôçò ðñþôçò
ëßóôáò, ç tbmin åßíáé 12 êáé ç tbmax åßíáé 17 êáé ðåñéÝ÷åé ôéò ñïÝò 2, 5 êáé
8. Óõíåðþò ïé ñïÝò 2, 5 êáé 8 åéóÞ÷èçóáí óå áõôÞ ôçí êáôçãïñßá ìåôáîý ôùí
÷ñïíéêþí óôéãìþí 12 êáé 17. Ãéá ôïí êÜäï õðåñ÷åßëéóçò ôçò ðñþôçò ëßóôáò, ç
tbmin åßíáé 18 êáé ç tbmax åßíáé 18 êáé ðåñéÝ÷åé ôç ñïÞ 1. Ç ñïÞ 1 åéóÞ÷èç ôç
÷ñïíéêÞ óôéãìÞ 18. Áíôßóôïé÷ç åßíáé ç ðåñéãñáöÞ ãéá ôç äåýôåñç ëßóôá.

Class DUD Class DUDU 3,D 14,D

tlmax Bucket List


tlmin Expired 10,U 18
10 - 15 16 - 18 13 - 13 14 - 17
PLA of the stream 1 at
tbmin 12 - 17 20 - 20 16 - 16 15 - 19 time instance 18
14,D
2,5,8 4 6 3,7 3,D 21

tbmax 18 - 18 Primary Bucket 10,U 20,U


PLA of the stream 1 at
1 Overflow Bucket
time instance 21

EIKONA 3.4. ÐáñÜäåéãìá áíáæÞôçóçò ñïÞò óôç äïìÞ (ìÝãåèïò êÜäïõ 3).

Ìå Ýíá ðáñÜäåéãìá èá åîçãÞóïõìå ôç ÷ñÞóç ôçò äïìÞò ìå ôéò ëßóôåò êÜäùí


ãéá ôçí óõíå÷Þ êáôçãïñéïðïßçóç ôùí ñïþí. ÕðïèÝóôå ôéò ëßóôåò êÜäùí ôùí êá-
ôçãïñéþí DUD êáé DUDU ôçò Åéêüíáò 3.4. Ôï ìÝãåèïò ôïõ êÜäïõ åßíáé 3 êáé
ôï ìÝãåèïò ôïõ ðáñáèýñïõ åßíáé 16. Ôç ÷ñïíéêÞ óôéãìÞ 21, ìßá íÝá ôéìÞ Ýñ÷åôáé
ãéá ôç ñïÞ 1. Ïé áêüëïõèåò ëåéôïõñãßåò óõìâáßíïõí: á) áíáæçôïýìå ôç ñïÞ 1
óôéò ëßóôåò êÜäùí ôçò êáôçãïñßáò DUD, â) äéáãñÜöïõìå ôç ñïÞ áðü ôçí êáôç-
ãïñßá, ã) åíçìåñþíïõìå ôçí PLA êáé ä) åéóÜãïõìå ôç ñïÞ óôéò ëßóôåò êÜäùí
ôçò êáôçãïñßáò DUDU. Ç ñïÞ 1 Ý÷åé ôï ðñïôåëåõôáßï óçìåßï PLA ôç ÷ñïíéêÞ
óôéãìÞ 14. Åñåõíïýìå ãéá ôç ëßóôá êÜäùí ôçò êáôçãïñßáò DUD, ôçò ïðïßáò ïé
ôéìÝò tlmin êáé tlmax åóùêëåßïõí ôçí ôéìÞ 14 (âÞìá 1 ôïõ Áëãüñéèìïõ Search).
ÁõôÞ åßíáé ç ðñþôç ëßóôá ðïõ ðåñéÝ÷åé êáé Ýíáí êÜäï õðåñ÷åßëéóçò. ÅðïìÝíùò
ðñÝðåé íá âñïýìå ôç ÷ñïíéêÞ óôéãìÞ üðïõ ç ñïÞ 1 åéóÞ÷èç óôçí êáôçãïñßá DUD
(Áëãüñéèìïò Insertion Time). Ç ñïÞ 1 åéóÞ÷èç óå áõôÞí ôçí êáôçãïñßá åßôå
üôáí ðñïóôÝèçêå Ýíá íÝï óçìåßï PLA (P LA(k-1){point+1) Þ üôáí Ýëçîå ôï
ðñþôï ôìÞìá (W +P LA(0){ point{1). Ç ìÝãéóôç ìåôáîý áõôþí ôùí äýï ÷ñïíé-
êþí óôéãìþí åßíáé ç ÷ñïíéêÞ óôéãìÞ ðïõ ç ñïÞ 1 åéóÞ÷èç óôçí êáôçãïñßá. ¢ñá,
ï ÷ñüíïò åéóáãùãÞò åßíáé 18. Åñåõíïýìå ôç ëßóôá ãéá Ýíáí êÜäï, ôïõ ïðïßïõ ïé
ôéìÝò tbmin êáé tbmax åóùêëåßïõí ôçí ôéìÞ 18 (âÞìá 3 ôïõ Áëãüñéèìïõ Search).
Áõôüò åßíáé ï êÜäïò õðåñ÷åßëéóçò. ÄéáãñÜöïõìå ôç ñïÞ 1 êáé ìåôÜ äéáãñÜöïõìå
êáé ôïí êÜäï åðåéäÞ ðëÝïí åßíáé Üäåéïò (Áëãüñéèìïò Delete). ÌåôÜ åíçìåñþíïõìå
ôçí PLA ôçò ñïÞò. Ç íÝá êáôçãïñßá åßíáé ç DUDU. Ôþñá ôï ðñïôåëåõôáßï PLA
óçìåßï ôçò ñïÞò åßíáé ôç óôéãìÞ 20. Åöüóïí ïé ëßóôåò êÜäùí áõôÞò ôçò êáôç-
ãïñßáò äåí åßíáé Üäåéåò (âÞìá 1 ôïõ Áëãüñéèìïõ Insert) êáé åöüóïí ç tlmax ôçò
3.3. ÁÍÁÐÁÑÁÓÔÁÓÇ ÔÁÓÅÙÍ ÊÁÉ ÊÁÔÇÃÏÑÉÏÐÏÉÇÓÇ 45

Algorithm Insert

/* Determine the list to insert the stream */


1. If the corresponding class is empty, then a new list is created and the values
tlmin and tlmax are set to the time instance tn−1 of the (n − 1)-th PLA point.
2. Otherwise, check if tn−1 is less than the tlmax value of the last list. If yes,
then the stream identi er is inserted into one of the existing bucket lists.
The appropriate bucket list is the list in which the tlmin and tlmax enclose
the tn−1 .
3. Otherwise, check if the primary bucket of the last list is full. If the primary
bucket is not full then the stream is inserted into that list by updating the
corresponding value tlmax . If the primary bucket is full, a new bucket list is
generated and the values tlmin and tlmax are set to the time instance tn−1
of the (n − 1)-th PLA point.
/* Determine the bucket to insert the stream */
4. If the primary bucket of the current list does not exist, then a primary bucket
is created and the stream is inserted. The tbmin and tbmax are updated with
the current time.
5. If the primary bucket of the current list is not full, then the stream is inserted
into that bucket and the tbmax value is updated with the current time.
6. Otherwise the stream is inserted into the last over ow bucket of the list,
by updating accordingly the tbmax value. If this bucket is full, a new over ow
bucket is generated.

EIKONA 3.5. Áëãüñéèìïò åéóáãùãÞò.

Algorithm Search

1. Determine the bucket list by checking for the values of tlmin and tlmax that
enclose the time instance tn−1 of the stream.
2. If the list contains only a primary bucket, then the stream identi er is found
into it.
3. If the list contains a number of over ow buckets, then by using the time
instance that the stream has been inserted (Fig. 3.7), the corresponding
over ow bucket which contains the stream is easily detected.

EIKONA 3.6. Áëãüñéèìïò áíáæÞôçóçò.


46 ÊÅÖÁËÁÉÏ 3. ÊÁÔÇÃÏÑÉÏÐÏÉÇÓÇ ÊÉÍÏÕÌÅÍÙÍ ×ÑÏÍÏÓÅÉÑÙÍ

ðñïôåëåõôáßáò ëßóôáò åßíáé ìéêñüôåñç ôïõ 20 (âÞìá 2), åëÝã÷ïõìå áí ç ôåëåõôáßá


ëßóôá êÜäùí åßíáé ãåìÜôç (âÞìá 3). Óôï ðáñÜäåéãìá, ï ðñùôåýùí êÜäïò áõôÞò
ôçò ëßóôáò äåí åßíáé ãåìÜôïò. ÅðïìÝíùò, åíçìåñþíïõìå ôçí ôéìÞ ôçò tlmax (âÞìá
3) êáé ôçí ôéìÞ ôçò tbmax êáé åéóÜãïõìå ôç ñïÞ (âÞìá 5). Ïé áëãüñéèìïé Insert,
Search, Delete, ãéá ôçí åéóáãùãÞ, áíáæÞôçóç êáé äéáãñáöÞ ìßáò ñïÞò áðü/óå ìßá
êáôçãïñßá äßíïíôáé óôéò Åéêüíåò 3.5, 3.6 êáé 3.8 áíôßóôïé÷á.

Algorithm Insertion Time

1. Compute the time that the last expiration has occurred. The time is given by
lastEXP =W + P LA(0)-point - 1.
2. Compute the time that the last ADD operation has occurred. The time is
given by lastADD=P LA(k − 1)-point + 1.
3. The time that the stream has been inserted is given by max(lastEXP ,lastADD).

EIKONA 3.7. Áëãüñéèìïò õðïëïãéóìïý ÷ñüíïõ åéóáãùãÞò.

Algorithm Delete

1. Call algorithm Search in order to determine the position of the stream.


2. Remove the stream identi er from the bucket.
3. If the bucket is empty it is removed.
4. If the bucket list is empty it is removed.

EIKONA 3.8. Áëãüñéèìïò äéáãñáöÞò.

3.4 ÐåéñáìáôéêÞ ÌåëÝôç


Ôï ðñïôåéíüìåíï ó÷Þìá êáôçãïñéïðïßçóçò âáóéóìÝíçò óôéò ôÜóåéò õëïðïéÞèçêå
óå C++ êáé ç ðåéñáìáôéêÞ áîéïëüãçóç ðñáãìáôïðïéÞèçêå óå õðïëïãéóôÞ Pen-
tium IV ìå 1 GByte RAM êáé ëåéôïõñãéêü óýóôçìá Windows 2000. ×ñçóéìï-
ðïéÞèçêáí äýï ðñáãìáôéêÜ óýíïëá äåäïìÝíùí ìå äéáöïñåôéêÜ ÷áñáêôçñéóôéêÜ:
➣ STOCKS: åßíáé êáèçìåñéíÝò ôéìÝò äéÜöïñùí ìåôï÷þí ðïõ áðïêôÞèçêáí
áðü ôïí éóôï÷þñï http://finance.yahoo.com. Ôï óýíïëï äåäïìÝíùí
áðïôåëåßôáé áðü 93 ÷ñïíïóåéñÝò ìå ìÝãéóôï ìÞêïò 3000.
3.4. ÐÅÉÑÁÌÁÔÉÊÇ ÌÅËÅÔÇ 47

➣ TAO: áõôü ôï óýíïëï äåäïìÝíùí (Tropical Atmosphere Ocean) ðåñéÝ-


÷åé ôçí ôá÷ýôçôá áÝñá 65 ôïðïèåóéþí ôïõ Åéñçíéêïý êáé ôïõ Áôëáíôéêïý
ùêåáíïý áðü ôï 1974 êáé áðïêôÞèçêå áðü ôï Paci c Marine Environmental
Laboratory (http://www.pmal.noaa.gov/tao). ×ñçóéìïðïéÞóáìå ôç ìÝ-
ãéóôç äéáèÝóéìç áíÜëõóç äåäïìÝíùí, äçëáäÞ ôï äéÜóôçìá äåéãìáôïëçøßáò.
Ôï óýíïëï äåäïìÝíùí áðïôåëåßôáé áðü 12,000 ÷ñïíïóåéñÝò ìå ìÝãéóôï ìÞ-
êïò 1000.
Óôç óõíÝ÷åéá, äßíïõìå ôá ðåéñáìáôéêÜ áðïôåëÝóìáôá ãéá äéÜöïñåò ôéìÝò ôùí
ðáñáìÝôñùí: ìÞêïò êéíïýìåíïõ ðáñáèýñïõ (W ), ðåñßïäïò åêèåôéêïý êéíïýìåíïõ
ìÝóïõ (p), ðëÞèïò êéíïýìåíùí ÷ñïíïóåéñþí (N ), ìÝãåèïò êÜäïõ (B ). Ôá ðåéñÜ-
ìáôá ÷ùñßæïíôáé óå äýï ïìÜäåò. Ç ðñþôç ïìÜäá ìåëåôÜ ôçí ðïéüôçôá ôçò êá-
ôçãïñéïðïßçóçò, åíþ ç äåýôåñç ìåëåôÜ ôçí áðüäïóç ôçò ðñïôåéíüìåíçò ìåèüäïõ.
ÅóôéÜæïõìå óå äýï ìåôñéêÝò áðüäïóçò: ôï áðáéôïýìåíï õðïëïãéóôéêü êüóôïò ãéá
ôçí ðñáãìáôïðïßçóç ôçò óõíå÷ïýò êáôçãïñéïðïßçóçò êáé ôéò áðáéôÞóåéò óå ìíÞìç
ôçò ðñïôåéíüìåíçò ðñïóÝããéóçò, åðåéäÞ åßíáé ïé óçìáíôéêüôåñåò ìåôñéêÝò ãéá ôïí
ðñïóäéïñéóìü ôçò áðïôåëåóìáôéêüôçôáò êáé ôçò åõñùóôßáò åíüò óõóôÞìáôïò åðå-
îåñãáóßáò ñïþí. Ôï êüóôïò ôçò CPU ìåôñÞèçêå óå äåõôåñüëåðôá. ÔÝëïò, ç
ðñïôåéíüìåíç ìÝèïäïò ìðïñåß íá ÷åéñéóèåß ðåñéðôþóåéò üðïõ üëåò ïé ñïÝò Þ ôìÞìá
áõôþí åíçìåñþíåôáé êÜèå ÷ñïíéêÞ óôéãìÞ. Ãéá ôá ðåéñÜìáôá ðïõ áêïëïõèïýí,
÷ñçóéìïðïéÞèçêå ç ðñþôç ðåñßðôùóç.

3.4.1 Ðïéüôçôá ôçò PLA


Ç âáóéêÞ éäÝá ôçò ðñïôåéíüìåíçò ðñïóÝããéóçò åßíáé íá êáôçãïñéïðïéÞóåé ñïÝò
÷ñçóéìïðïéþíôáò ìßá áöáéñåôéêÞ áíáðáñÜóôáóç ôùí ñïþí, ç ïðïßá åßíáé êïíôÜ
óôçí \áíèñþðéíç ëïãéêÞ", Ýíáíôé ôùí ôéìþí ôùí ñïþí êáé ìßáò óõíÜñôçóçò áðü-
óôáóçò üðùò åöáñìüóèçêå óå Üëëåò ìåèüäïõò ôçò âéâëéïãñáößáò. Óå áõôÞí ôçí
åíüôçôá ìåëåôÞóáìå êáôÜ ðüóï ç ôìçìáôéêÞ ãñáììéêÞ ðñïóÝããéóç ìßáò ñïÞò
óõìöùíåß ìå ôï ãåíéêü ó÷Þìá ôçò ñïÞò ÷ùñßò ôï èüñõâï êáé ôéò ìéêñü-áëëáãÝò.
Ðñþôá, äßíïõìå êÜðïéá ðáñáäåßãìáôá êáôçãïñéïðïßçóçò. Ç Åéêüíá 3.9 äåß-
÷íåé êÜðïéá ðñüôõðá êáôçãïñéïðïßçóçò êáé Ýíá äåßãìá ñïþí ðïõ êáôáôÜ÷èçêáí
óôç óõãêåêñéìÝíç êáôçãïñßá. Ãéá êÜèå ñïÞ äßíïíôáé ôüóï ôá ðñáãìáôéêÜ äå-
äïìÝíá üóï êáé ç PLA ôïõò. Ç Åéêüíá 3.9 åìöáíßæåé Ýíá óôéãìéüôõðï ôùí
êáôçãïñéþí ìåôÜ áðü Ýíá ôõ÷áßï áñéèìü åíçìåñþóåùí. Óçìåéþóôå, üôé áí ç áíá-
ðáñÜóôáóç äåí åßíáé éêáíïðïéçôéêÞ, ìðïñïýìå íá åðéëÝîïõìå ìåãáëýôåñç ðåñßïäï
p ãéá ìéá ðéï áöáéñåôéêÞ ðåñéãñáöÞ ôçò ñïÞò, Þ ìéêñüôåñÞ p ãéá ìéá ðéï áíáëõôéêÞ
ðåñéãñáöÞ.
Åðéðñüóèåôá, ç Åéêüíá 3.10 äåß÷íåé ôïí áñéèìü ôùí ïìÜäùí2 ãéá äéáöïñå-
ôéêÝò ôéìÝò ôçò ðåñéüäïõ p óå ó÷Ýóç ìå ôï W ãéá ôá óýíïëá äåäïìÝíùí TAO
êáé STOCKS. Ï üñïò CL raw ÷ñçóéìïðïéåßôáé ãéá ôï ìÝãéóôï áñéèìü ïìÜäùí,
2 Ïé üñïé ïìÜäá êáé êáôçãïñßá ÷ñçóéìïðïéïýíôáé åíáëëáêôéêÜ.
48 ÊÅÖÁËÁÉÏ 3. ÊÁÔÇÃÏÑÉÏÐÏÉÇÓÇ ÊÉÍÏÕÌÅÍÙÍ ×ÑÏÍÏÓÅÉÑÙÍ

EIKONA 3.9. Ðáñáäåßãìáôá êáôçãïñéïðïßçóçò.

ï ïðïßïò åîáñôÜôáé ìüíï áðü ôï ìÞêïò ôïõ êéíïýìåíïõ ðáñáèýñïõ W . ¼ðùò


áíáìåíüôáí, ôï ðëÞèïò ôùí ïìÜäùí, ðïõ ðñáãìáôéêÜ ÷ñçóéìïðïéåßôáé, åëáôôþíå-
ôáé üóï áõîÜíåôáé ç ðåñßïäïò p, äéüôé ç PLA áíáðáñéóôÜ ëéãüôåñåò ëåðôïìÝñåéåò.
Ãé' áõôü ôï ëüãï êÜðïéåò ñïÝò ìåôáêéíïýíôáé óå êáôçãïñßåò ìå ìéêñüôåñï áñéèìü
ôìçìÜôùí.

700
CL_p1 3000 CL_p9
CL_p5 CL_p15
CL_p9 CL_p21
CL_p13 CL_p27
600 CL_p17 CL_p33
CL_p21 2500 CL_p39
CL_raw CL_raw

500

2000
Number of Clusters
Number of Clusters

400

1500
300

1000
200

500
100

0 0
0 50 100 150 200 250 0 500 1000 1500 2000
Window Size Window Size

(á) (â)

EIKONA 3.10: ÐëÞèïò ïìÜäùí ùò ðñïò ôï ìÞêïò ðáñáèýñïõ ãéá ôá óýíïëá äåäïìÝíùí: (á) TAO, êáé (â)
STOCKS.
3.4. ÐÅÉÑÁÌÁÔÉÊÇ ÌÅËÅÔÇ 49
25 25
CPU_p1 CPU_p1
CPU_p5 CPU_p5
CPU_p9 CPU_p9
CPU_p13 CPU_p13
CPU_p17 CPU_p17
CPU_p21 20 CPU_p21
20

15 15
Total CPU

PLA CPU
10 10

5 5

0 0
0 50 100 150 200 250 0 50 100 150 200 250
Window Size Window Size

(á) (â)

EIKONA 3.11. (á) Óõíïëéêü êüóôïò CPU, êáé (â)êüóôïò CPU ãéá ôéò PLA ùò ðñïò ìÞêïò ðáñáèýñïõ.

3.4.2 ÐåéñáìáôéêÞ áðïôßìçóç


Ðñþôá åîåôÜæïõìå ôçí áðüäïóç ôçò ìåèüäïõ óå ó÷Ýóç ìå ôï ìÞêïò ðáñáèýñïõ.
Ç Åéêüíá 3.11 ðáñïõóéÜæåé ôï óõíïëéêü êüóôïò ôçò CPU (3.11(á) êáé ôï êüóôïò
ôçò CPU ãéá ôïí õðïëïãéóìü ôçò PLA üëùí ôùí ñïþí ãéá üëåò ôéò åíçìåñþóåéò
(3.11(â) óôï óýíïëï äåäïìÝíùí TAO. ×ñçóéìïðïéÞèçêáí äéáöïñåôéêÝò ôéìÝò ãéá
ôçí ðåñßïäï p. ¼ðùò ìðïñïýìå íá äïýìå áðü ôçí Åéêüíá 3.11, ôï óõíïëéêü
êüóôïò ôçò CPU êáèïñßæåôáé áðü ôçí åíçìÝñùóç ôùí PLA. Ôï ôåëåõôáßï åßíáé
áíåîÜñôçôï áðü ôï ìÞêïò ôïõ ðáñáèýñïõ ëüãù ôçò ÷ñÞóçò ôïõ äåßêôç TRIX.
Ï Ðßíáêáò 3.2 åìöáíßæåé ôéò óõíïëéêÝò áðáéôÞóåéò ìíÞìçò ãéá ôï óýíïëï äå-
äïìÝíùí STOCKS êáèþò êáé ôéò áðáéôÞóåéò ìíÞìçò ôùí PLA áíáðáñáóôÜóåùí
êáé ôçò äïìÞò êáôçãïñéïðïßçóçò ÷ùñéóôÜ. Ç óõíïëéêÞ ìíÞìç åðçñåÜæåôáé ïõóéá-
óôéêÜ áðü ôç ìíÞìç ðïõ ÷ñçóéìïðïéåßôáé ãéá ôéò PLA. Ç ìíÞìç áõôÞ áõîÜíåôáé
üóï ìåãáëþíåé ôï ìÝãåèïò ôïõ êéíïýìåíïõ ðáñáèýñïõ.

ÌÝãåèïò ÌíÞìç ÌíÞìç ÌíÞìç


ÐáñÜèõñïõ óõíïëéêÞ (KB) êáôçãïñéïðïßçóçò (%) PLA (%)
128 13013.797 28.6% 71.4%
324 16065.762 25.9% 74.1%
520 19059.859 23.9% 76.1%
716 21772.871 21.4% 78.6%
912 24441.957 19.6% 80.4%
1108 27129.715 18.1% 81.9%
1304 29934.621 17.2% 82.8%
1500 32726.527 16.5% 83.5%
ΠINAKAΣ 3.2. ÁðáéôÞóåéò ìíÞìçò ùò ðñïò ôï ìÝãåèïò ðáñáèýñïõ (STOCKS).
50 ÊÅÖÁËÁÉÏ 3. ÊÁÔÇÃÏÑÉÏÐÏÉÇÓÇ ÊÉÍÏÕÌÅÍÙÍ ×ÑÏÍÏÓÅÉÑÙÍ

Óôç óõíÝ÷åéá åîåôÜæïõìå ôçí áðüäïóç ôçò ìåèüäïõ óå ó÷Ýóç ìå ôïí áñéèìü
ôùí ñïþí. Ç Åéêüíá 3.12(á) äåß÷íåé ôï êüóôïò ôçò CPU ãéá üëåò ôéò ñïÝò
(12145) êáé ãéá üëåò ôéò åíçìåñþóåéò (ðåñßðïõ 700) ãéá ôï óýíïëï äåäïìÝíùí
TAO. Ï üñïò TOTAL CPU ÷ñçóéìïðïéåßôáé ãéá ôï óõíïëéêü êüóôïò (Üèñïéóìá
ôïõ êüóôïõò åíçìÝñùóçò ôùí PLA êáé ôïõ êüóôïõò êáôçãïñéïðïßçóçò). Ôï
õðïëïãéóôéêü êüóôïò áõîÜíåé ãñáììéêÜ óå ó÷Ýóç ìå ôï ðëÞèïò ôùí ñïþí.
5 100
CPU_TOTAL MEM_pla
CPU_CLAS MEM_raw
CPU_PLA

4
10

PLA Memory (MB)


3
CPU cost

0.1
1

0 0.01
0 2000 4000 6000 8000 10000 12000 0 2000 4000 6000 8000 10000 12000
Number of Streams Number of Streams

(á) (â)

EIKONA 3.12: (á) Êüóôïò CPU, êáé (b) áðáéôÞóåéò ìíÞìçò ãéá ôéò PLA ùò ðñïò ôï ðëÞèïò ôùí ñïþí (TAO).

Ïé áðáéôÞóåéò ìíÞìçò ãéá ôçí áíáðáñÜóôáóç PLA üëùí ôùí ñïþí ãéá ôï
óýíïëï äåäïìÝíùí TAO ðáñïõóéÜæïíôáé óôçí Åéêüíá 3.12(â). Ïé áðáéôÞóåéò
ìíÞìçò äßíïíôáé êáôÜ ìÝóï üñï ãéá êÜèå åíçìÝñùóç. Ï üñïò MEM raw ÷ñçóé-
ìïðïéåßôáé ãéá ìÝãåèïò ôùí ðñáãìáôéêþí äåäïìÝíùí. Óçìåéþóôå üôé ï Üîïíáò
y êëéìáêþíåôáé ëïãáñéèìéêÜ. Ïé áðáéôÞóåéò ìíÞìçò ôçò PLA áõîÜíïõí óôáèåñÜ
óå ó÷Ýóç ìå ôï ðëÞèïò ôùí ñïþí áëëÜ ðáñáìÝíïõí ëéãüôåñåò áðü ôï 10% ôùí
ðñáãìáôéêþí äåäïìÝíùí.
Ãéá íá êáôáíïÞóïõìå êáëýôåñá ôçí åðßäñáóç ôïõ ìåãÝèïõò ôïõ êÜäïõ óôç

ÌÝãåèïò Êüóôïò ÌíÞìç


êÜäïõ CPU êáôçãïñéïðïßçóçò (MB)
50 3.745 25.061
100 3.7842 14.803
200 3.6836 8.573
300 3.73 6.082
400 3.801 4.764
500 3.9377 3.876
600 4.0029 3.286
ΠINAKAΣ 3.3: Óõíïëéêü êüóôïò CPU êáé áðáéôÞóåéò ìíÞìçò êáôçãïñéïðïßçóçò ùò ðñïò ìÝãåèïò êÜäïõ
(TAO).
3.5. ÓÕÌÐÅÑÁÓÌÁÔÁ 51

äïìÞ êáôçãïñéïðïßçóçò, ï Ðßíáêáò 3.3 äåß÷íåé ôï óõíïëéêü õðïëïãéóôéêü êüóôïò


êáé ôéò áðáéôÞóåéò ìíÞìçò ãéá ôç äïìÞ êáôçãïñéïðïßçóçò. ÌåãÜëï ìÝãåèïò êÜäïõ
Ý÷åé ùò óõíÝðåéá ôçí åëÜôôùóç ôçò ÷ñçóéìïðïéïýìåíçò ìíÞìçò áëëÜ ôáõôü÷ñïíá
êáé ôçí áýîçóç ôïõ õðïëïãéóôéêïý êüóôïõò, åíþ ôï ìéêñü ìÝãåèïò êÜäïõ Ý÷åé
ôá áíôßèåôá áðïôåëÝóìáôá. Ôï êáôÜëëçëï ìÝãåèïò ôïõ êÜäïõ êáèïñßæåôáé áðü
ôç äéáèÝóéìç ìíÞìç áëëÜ êáé ôéò áðáéôÞóåéò óôï ÷ñüíï áðüêñéóçò ôçò åêÜóôïôå
åöáñìïãÞò.

3.5 ÓõìðåñÜóìáôá
Ç áíÜëõóç ôÜóåùí ôùí äéáñêþò ìåôáâáëëüìåíùí ñïþí äåäïìÝíùí åßíáé Ýíá ðñü-
âëçìá äýóêïëï ëüãù ôïõ ãåãïíüôïò üôé ç ôÜóç ìßáò ÷ñïíïóåéñÜò ìåôáâÜëëåôáé
÷ñïíéêÜ. Óå áõôü ôï êåöÜëáéï, ìåëåôÞóáìå ôï ðñüâëçìá ôçò óõíå÷ïýò êáôçãï-
ñéïðïßçóçò âáóéóìÝíçò óå ôÜóåéò ôùí êéíïýìåíùí ÷ñïíïóåéñþí, ÷ñçóéìïðïéþíôáò
óõìðéåóìÝíç áíáðáñÜóôáóç ãéá êÜèå ñïÞ êáé ìßá ìÝèïäï ðñïóðÝëáóçò êýñéáò
ìíÞìçò ãéá íá äéåõêïëýíåé ôéò ëåéôïõñãßåò ôçò ãñÞãïñçò áíáæÞôçóçò, åéóáãù-
ãÞò êáé äéáãñáöÞò. Ç ôìçìáôéêÞ ãñáììéêÞ ðñïóÝããéóç (PLA) ÷ñçóéìïðïéÞèçêå
ðñïêåéìÝíïõ íá ðñïóäéïñßóïõìå ôéò ôÜóåéò êÜèå ñïÞò. Ç áíáðáñÜóôáóç PLA
åöáñìüóèçêå óå ìßá ïìáëüôåñç Ýêäïóç êÜèå ñïÞò. Ãéá ôçí ïìáëïðïßçóç, ÷ñçóé-
ìïðïéÞóáìå ôï äåßêôç TRIX. ÅðéðëÝïí, ðñïôÜèçêå ìßá ìÝèïäïò óõíå÷ïýò êáôçãï-
ñéïðïßçóçò, ç ïðïßá áíáèÝôåé áõôüìáôá êÜèå ñïÞ óôçí ßäéá Þ óå íÝá êáôçãïñßá, áí
÷ñåéÜæåôáé. Ôá áðïôåëÝóìáôá ôçò ðåéñáìáôéêÞò ìåëÝôçò óå ðñáãìáôéêÜ óýíïëá
äåäïìÝíùí Ýäåéîáí ôçí ðñáêôéêüôçôá êáé ôçí áðïäïôéêüôçôá ôçò ðñïôåéíüìåíçò
ðñïóÝããéóçò.
ÊÅÖÁËÁÉÏ 4

Ïìáäïðïßçóç Êéíïýìåíùí
×ñïíïóåéñþí∗
Ðåñéå÷üìåíá
4.1 ÅÉÓÁÃÙÃÇ . . . . . . . . . . . . . . . . . . . . . . . 53
4.2 ÕÐÏÂÁÈÑÏ . . . . . . . . . . . . . . . . . . . . . . 56
4.3 ÓÕÍÅ×ÇÓ ÏÌÁÄÏÐÏÉÇÓÇ . . . . . . . . . . . . 57
4.4 ÐÅÉÑÁÌÁÔÉÊÇ ÌÅËÅÔÇ . . . . . . . . . . . . . 62
4.5 ÓÕÌÐÅÑÁÓÌÁÔÁ . . . . . . . . . . . . . . . . . . 66

4.1 ÅéóáãùãÞ
Ôá ôåëåõôáßá ÷ñüíéá, ïé ñïÝò äåäïìÝíùí êáé ïé åöáñìïãÝò ôïõò áíáðôýóóïíôáé
ñáãäáßá ëüãù ôçò åîÜðëùóçò ôïõ ðáãêüóìéïõ éóôïý áëëÜ êáé ôùí äéêôýùí áé-
óèçôÞñùí, üðùò áíáöÝñèçêå óôï ÊåöÜëáéï 2. ÐïëëÜ åñåõíçôéêÜ æçôÞìáôá ðïõ
ìåëåôÞèçêáí äéåîïäéêÜ óôï ðëáßóéï ôùí óôáôéêþí ÷ñïíïóåéñþí, üðùò ç åîüñõîç
äåäïìÝíùí [53, 83] êáé ç åðåîåñãáóßá åñùôçìÜôùí [111], åðáíåîåôÜæïíôáé óÞìåñá
õðü ôï ðñßóìá ôùí äõíáìéêþí äåäïìÝíùí. Åðéðñüóèåôá, ç åñåõíçôéêÞ êïéíüôçôá
ìåëåôÜ ïëïÝíá êáé ðåñéóóüôåñï ôï óåíÜñéï ôçò óõíå÷ïýò áðïôßìçóçò áõôþí ôùí
ðñïâëçìÜôùí [21], áöïý áõôÞ ç ðñïóÝããéóç åßíáé êáôáëëçëüôåñç ãéá ôéò ñïÝò
äåäïìÝíùí.
¸íá áðü ôá ãíùóôüôåñá ðñïâëÞìáôá óôçí åîüñõîç äåäïìÝíùí åßíáé ç ïìá-
äïðïßçóç. ÄéÜöïñåò ðñïóåããßóåéò Ý÷ïõí ðñïôáèåß ìå âáóéêüôåñåò áðü áõôÝò ôïí
k-means, åðáíáëçðôéêÞ äéáäéêáóßá ðïõ ðñïáðáéôåß ôïí áñéèìü ôùí ïìÜäùí êáé
∗ Ôï êåöÜëáéï áíôëåß ôá ðåñéå÷üìåíÜ ôïõ áðü ôçí åñãáóßá [108].

53
54 ÊÅÖÁËÁÉÏ 4. ÏÌÁÄÏÐÏÉÇÓÇ ÊÉÍÏÕÌÅÍÙÍ ×ÑÏÍÏÓÅÉÑÙÍ

ôçí éåñáñ÷éêÞ ïìáäïðïßçóç, áíáäñïìéêÞ äéáäéêáóßá ðïõ îåêéíÜ áðü ìßá ïìÜäá
ãéá êÜèå áíôéêåßìåíï êáé óôç óõíÝ÷åéá óõíèÝôåé ïëïÝíá êáé ìåãáëýôåñåò ïìÜäåò
óõíåíþíïíôáò õðÜñ÷ïõóåò ïìÜäåò. Áñãüôåñá èá ìåëåôÞóïõìå ôïõò ëüãïõò ãéá
ôïõò ïðïßïõò áõôÝò ïé ðñïóåããßóåéò äåí åßíáé êáôÜëëçëåò ãéá ñïÝò äåäïìÝíùí.
Ç ïìáäïðïßçóç ìåëåôÞèçêå éäéáßôåñá áðü ôçí åñåõíçôéêÞ êïéíüôçôá êáé ï ëü-
ãïò åßíáé ãéáôß âñßóêåé ðÜñá ðïëëÝò åöáñìïãÝò óå õðÜñ÷ïíôá ðñïâëÞìáôá. Ãéá
ðáñÜäåéãìá, èåùñåßóôå ôçí ðåñßðôùóç ðáñáêïëïýèçóçò ìåôï÷þí óå ðñáãìáôéêü
÷ñüíï. ÊÜèå ìåôï÷Þ ó÷çìáôßæåé ìßá ñïÞ äåäïìÝíùí ìå ôéò ôñÝ÷ïõóåò åìðïñé-
êÝò ôéìÝò ôçò. Ç ïìáäïðïßçóç ôùí ìåôï÷þí, èá Ýäéíå ôç äõíáôüôçôá óå Ýíá
÷ñçìáôéóôÞ íá åìðïñåõèåß ìßá ìåôï÷Þ âÜóç ìßáò Üëëçò ðéï ðñïâëÝøéìçò åöüóïí
áíÞêáí óôçí ßäéá ïìÜäá. Ç åðßëõóç ôïõ ðñïâëÞìáôïò áðïôåëåß ðñüêëçóç ãéá
ôïõò åñåõíçôÝò, äéüôé ïé ïìÜäåò åßíáé ðéèáíüí íá ìåôáâÜëëïíôáé ëüãù ôçò äõíá-
ìéêÞò öýóçò ôùí äåäïìÝíùí ôüóï ðïéïôéêÜ üóï êáé áñéèìçôéêÜ. Åðéðñüóèåôá,
ëüãù ôçò öýóçò ôçò åöáñìïãÞò õðÜñ÷åé ï ðåñéïñéóôéêüò ðáñÜãïíôáò ôçò ôá÷ý-
ôáôçò áðüêñéóçò, ãåãïíüò ðïõ äõó÷åñáßíåé áêüìá ðåñéóóüôåñï ôçí åðßëõóç ôïõ
ðñïâëÞìáôïò.
Óå áõôü ôï êåöÜëáéï èá ìåëåôÞóïõìå ôçí ïìáäïðïßçóç óôéò ñïÝò äåäïìÝíùí,
ç ïðïßá âáóßæåôáé óôéò ôÜóåéò ôùí ñïþí êáé ü÷é áðåõèåßáò óôéò ôéìÝò ôïõò. Èá
åîçãÞóïõìå áìÝóùò ôç óçìáíôéêüôçôá ôùí ôÜóåùí êáé ôçí ðñáêôéêüôçôÜ ôïõò
óôï óõãêåêñéìÝíï ðñüâëçìá, áí êáé Þäç Ý÷ïõìå áíáöÝñåé ôá ðëåïíåêôÞìáôÜ ôïõò
óôï ÊåöÜëáéï 3. Ç ïìáäïðïßçóç âÜóåé ôùí ôéìþí áí êáé åßíáé ðïëý ÷ñÞóéìç óå
ìåñéêïýò ôïìåßò, óôéò ÷ñïíïóåéñÝò äåí ëåéôïõñãåß ðÜíôá óùóôÜ. Áõôü óõìâáßíåé
äéüôé ïé ÷ñïíïóåéñÝò ðåñéÝ÷ïõí ðïëý èüñõâï óôéò ôéìÝò ôïõò. Óõíå÷ßæïíôáò ôï
ðñïçãïýìåíï ðáñÜäåéãìá, ç ÷ñçóéìüôçôá ôçò ïìáäïðïßçóçò ðñáêôéêÜ ãéá ôï ÷ñç-
ìáôéóôÞ, åßíáé íá ðñïóäéïñßóåé ìåôï÷Ýò ðïõ Ý÷ïõí ôçí ßäéá óõìðåñéöïñÜ. ¼ìùò,
êÜèå ÷ñïíïóåéñÜ Ý÷åé ìéêñÝò áõîïìåéþóåéò óôçí ôéìÞ ôçò áíåîÜñôçôá áðü ôç óõ-
íïëéêÞ óõìðåñéöïñÜ ôçò. ÄçëáäÞ, ìßá ìåôï÷Þ ìðïñåß ãåíéêÜ íá Ý÷åé áõîçôéêÞ
ôÜóç áëëÜ áõôü äåí óçìáßíåé üôé èá áõîÜíåôáé äéáñêþò. Èá åìöáíßæïíôáé ìéêñÝò
ìåéþóåéò ðïõ, üìùò, èá áêïëïõèïýíôáé áðü ìåãáëýôåñåò áõîÞóåéò. ¸ôóé, áíôß íá
ïìáäïðïéïýìå ôéò ÷ñïíïóåéñÝò ÷ñçóéìïðïéþíôáò ôéò ôéìÝò ôïõò, åöáñìüæïõìå Ýíá
ðéï áöáéñåôéêü ó÷Þìá, ôéò ôÜóåéò, ãéá íá åîáëåßøïõìå ôï èüñõâï áëëÜ êáé ãéá íá
êáôáóôÞóïõìå ÷ñÞóéìï ôï áðïôÝëåóìá ôçò ïìáäïðïßçóçò.
¸íá Üëëï æÞôçìá óôéò ñïÝò äåäïìÝíùí, åßíáé ôï ðëÞèïò ôùí ôéìþí ðïõ èåù-
ñïýíôáé Ýãêõñåò. ÊÜèå ñïÞ äåäïìÝíùí Ý÷åé ìç-ðåðåñáóìÝíï ðëÞèïò äåäïìÝíùí.
Áí ÷ñçóéìïðïéïýíôáé üëá ôá äåäïìÝíá, ôüôå áöåíüò ç åðßëõóç ôïõ ðñïâëÞìáôïò
äõóêïëåýåé áöåôÝñïõ ôï áðïôÝëåóìá ôçò ïìáäïðïßçóçò ÷Üíåé ôçí ðñáêôéêüôçôÜ
ôïõ. Ãéá íá áðïóáöçíßóïõìå ôï ôåëåõôáßï, èåùñåßóôå ðÜëé ôçí ðåñßðôùóç ôïõ
÷ñçìáôéóôÞ ðïõ åíäéáöÝñåôáé ãéá Ýíá óýíïëï ìåôï÷þí, ðñïêåéìÝíïõ íá êéíçèåß
áíÜëïãá ãéá ôçí áãïñÜ êáé ðþëçóç ìåôï÷þí. Áí ÷ñçóéìïðïéïýíôáé üëåò ïé ôéìÝò,
õðÜñ÷åé ï êßíäõíïò äýï ìåôï÷Ýò íá áíÞêïõí óôçí ßäéá ïìÜäá êáé áõôü íá ïöåß-
ëåôáé óôï ãåãïíüò üôé ðáëéüôåñá ç óõìðåñéöïñÜ ôïõò Þôáí ðáñüìïéá, åíþ ôþñá
4.1. ÅÉÓÁÃÙÃÇ 55

Ý÷ïõí ôåëåßùò äéáöïñåôéêÞ óõìðåñéöïñÜ. Áõôü ìðïñåß íá ïäçãÞóåé ôïí åéäéêü óå


ëáíèáóìÝíåò áðïöÜóåéò. Ãé' áõôü ôï ëüãï, ðÜñá ðïëëÝò åñåõíçôéêÝò ðñïóðÜèåéåò
Ý÷ïõí õéïèåôÞóåé ôï ìïíôÝëï ôïõ êéíïýìåíïõ ðáñáèýñïõ [50], óýìöùíá ìå ôï
ïðïßï ìüíï ïé ôåëåõôáßåò W ôéìÝò èåùñïýíôáé Ýãêõñåò, üðïõ W åßíáé ôï ìÞêïò
ôïõ ðáñáèýñïõ.
Óå áõôü ôï êåöÜëáéï, áó÷ïëïýìáóôå ìå ôï ðñüâëçìá ôçò óõíå÷ïýò ïìáäï-
ðïßçóçò âáóéóìÝíçò óôéò ôÜóåéò ôùí êéíïýìåíùí ÷ñïíïóåéñþí. ×ñçóéìïðïéïýìå
ôï ìïíôÝëï êéíïýìåíïõ ðáñáèýñïõ ãéá ôçí ïìáäïðïßçóç. ÊÜèå êéíïýìåíç ÷ñï-
íïóåéñÜ áíáðáñßóôáôáé áðü ôçí ôìçìáôéêÞ ãñáììéêÞ ðñïóÝããéóç (PLA). Ç PLA
êÜèå ñïÞò õðïëïãßæåôáé ìå âÜóç ôçí áõîçôéêÞ áíáãíþñéóç ôçò ôÜóçò ôçò ñïÞò.
Ðñïôåßíïõìå ìßá êáôÜëëçëç óõíÜñôçóç áðüóôáóçò ðñïêåéìÝíïõ íá ìåôñÞóïõìå
ôçí áíïìïéüôçôá ìåôáîý äýï PLAs.
Ðñüóöáôá, Ý÷åé ðñïôáèåß Ýíáò ðëÞèïò ìåèüäùí ãéá ôçí åðßëõóç ôïõ ðñïâëÞ-
ìáôïò ôçò ïìáäïðïßçóçò óå ñïÝò äåäïìÝíùí [38, 73]. Ôï âáóéêü ÷áñáêôçñéóôéêü
ôùí ðñïôåéíüìåíùí ìåèüäùí åßíáé üôé óôçí ïõóßá åðéëýïõí ôçí ïìáäïðïßçóç ôùí
ôéìþí ìßáò êéíïýìåíçò ÷ñïíïóåéñÜò, åíþ óå áõôü ôï êåöÜëáéï åðé÷åéñïýìå ôçí
ïìáäïðïßçóç äéáöïñåôéêþí êéíïýìåíùí ÷ñïíïóåéñþí. ÅðéðëÝïí, óôçí åñãáóßá
[120], ïé óõããñáöåßò Ýäåéîáí üôé ç ïìáäïðïßçóç ôùí ôéìþí ìßáò êéíïýìåíçò ÷ñï-
íïóåéñÜò åßíáé Üóêïðç. ÐñïóÝîåôå üôé ç ðñïôåéíüìåíç ìÝèïäïò ïìáäïðïéåß áõîç-
ôéêÜ êéíïýìåíåò ÷ñïíïóåéñÝò, ðïõ ðáñÜãïíôá áðü äéáöïñåôéêÝò ñïÝò äåäïìÝíùí,
óå ïìÜäåò ÷ñçóéìïðïéþíôáò ôéò ôÜóåéò ôïõò.
Ç ðëåéïíüôçôá ôùí ðñïáíáöåñèåéóþí óõíåéóöïñþí åöáñìüæåé ðáñáëëáãÝò ôçò
ôå÷íéêÞò k-median êáé, åðïìÝíùò, ï áñéèìüò ôùí ïìÜäùí ðñÝðåé íá ðñïêáèïñéóèåß
áðü ôï ÷ñÞóôç. Ï áëãüñéèìïò ðïõ ðñïôåßíïõìå áíé÷íåýåé áõôüìáôá ôï ðëÞèïò
ôùí ïìÜäùí, ÷ñçóéìïðïéþíôáò êñéôÞñéá äéá÷ùñéóìïý êáé óõíÝíùóçò ðïõ èá ìå-
ëåôÞóïõìå óôç óõíÝ÷åéá. Ïé ôéìÝò ìåôáâÜëëïíôáé ÷ñïíéêÜ êáé åðßóçò ðéèáíþò
êáé ïé ôÜóåéò ìßáò ñïÞò äåäïìÝíùí. Åßíáé ðéèáíü íá åßíáé áðáñáßôçôïò ï äéá-
÷ùñéóìüò ìßáò ïìÜäáò óå äýï äéáöïñåôéêÝò ðñïêåéìÝíïõ íá áðåéêïíéóèåß ïñèÜ
ç ïìáäïðïßçóç ôùí äåäïìÝíùí. Ôï ðñïôåéíüìåíï êñéôÞñéï äéá÷ùñéóìïý áíá-
ãíùñßæåé áõôüìáôá ôÝôïéåò ðåñéðôþóåéò. Åðéðñüóèåôá, ôï ðñïôåéíüìåíï êñéôÞñéï
óõíÝíùóçò áíáãíùñßæåé ðåñéðôþóåéò óõíÝíùóçò äýï äéáöïñåôéêþí ïìÜäùí. Åðé-
ðëÝïí, ç ðñïôåéíüìåíç ìÝèïäïò áíáãíùñßæåé ôïõò outliers. Ç óõíåéóöïñÜ áõôïý
ôïõ êåöáëáßïõ óõíïøßæåôáé óôá åîÞò:
➣ ×ñçóéìïðïéåßôáé ç ôå÷íéêÞ ôçò ôìçìáôéêÞò ãñáììéêÞò ðñïóÝããéóçò âáóé-
óìÝíçò óå áõîçôéêÞ áíáãíþñéóç ôçò ôÜóçò, ç ïðïßá êáèéóôÜ äõíáôÞ ôç
óõíå÷Þ áíáðáñÜóôáóç ôùí ôÜóåùí ôùí ÷ñïíïóåéñþí.
➣ Ðñïôåßíåôáé ìßá óõíÜñôçóç áðüóôáóçò ìåôáîý äýï PLAs.
➣ Ðñïôåßíåôáé áëãüñéèìïò ãéá ôç óõíå÷Þ ïìáäïðïßçóç âáóéóìÝíçò óå ôÜóåéò.
Ðñïôåßíïíôáé êñéôÞñéá äéá÷ùñéóìïý êáé óõíÝíùóçò ðñïêåéìÝíïõ íá ãßíåôáé
áõôüìáôá ç áíáãíþñéóç ôïõ ðëÞèïõò ôùí ïìÜäùí.
56 ÊÅÖÁËÁÉÏ 4. ÏÌÁÄÏÐÏÉÇÓÇ ÊÉÍÏÕÌÅÍÙÍ ×ÑÏÍÏÓÅÉÑÙÍ

4.2 Õðüâáèñï
Óå áõôÞí ôçí åíüôçôá, ìåëåôïýìå ôïí áõîçôéêü ðñïóäéïñéóìü ôùí ôÜóåùí êáé ôçò
áíáðáñÜóôáóçò ìßáò ñïÞò äåäïìÝíùí. Óôïí Ðßíáêá 4.1 óõíïøßæïíôáé ôá âáóéêÜ
óýìâïëá ðïõ ÷ñçóéìïðïéÞèçêáí óå áõôü ôï êåöÜëáéï.
Óýìâïëï ÐåñéãñáöÞ
S; Si êéíïýìåíç ÷ñïíïóåéñÜ
P LAx PLA ôçò ÷ñïíïóåéñÜò Sx
P LA(i); P LAx (i) i-ïóôï ôìÞìá ôçò PLA
P LA(i):tstart ; P LA(i):tend áñ÷éêÞ êáé ôåëéêÞ ÷ñïíéêÞ óôéãìÞ ôïõ ôìÞìáôïò
P LA(i)
P LA(i):vstart ; P LA(i):vend ôéìÝò áñ÷éêÞò êáé ôåëéêÞò ÷ñïíéêÞò óôéãìÞò
ôïõ P LA(i)
P LA(i):slope êëßóç ôïõ ôìÞìáôïò P LA(i)
cs; csi êïéíü ôìÞìá ìåôáîý äýï PLAs
C; Ci ïìÜäá
C:n; Ci :n ðëÞèïò êéíïýìåíùí ÷ñïíïóåéñþí ôçò ïìÜäáò
centroidi êÝíôñï ïìÜäáò Ci
C:avg; Ci :avg ìÝóç DPLA áðüóôáóç êéíïýìåíùí ÷ñïíïóåéñþí
ïìÜäáò áðü ôï êÝíôñï ôçò
nCi êïíôéíüôåñç ïìÜäá ôçò ïìÜäáò Ci
W ìÞêïò êéíïýìåíïõ ðáñáèýñïõ
ΠINAKAΣ 4.1. ÂáóéêÜ óýìâïëá Êåöáëáßïõ 4.

¼ðùò Þäç áíáöÝñáìå, ïé ÷ñïíïóåéñÝò ðåñéÝ÷ïõí ðïëý èüñõâï óôéò ôéìÝò ôïõò.
Ãé' áõôü ôï ëüãï, ï ðñïóäéïñéóìüò ôçò ôÜóçò ìßáò ÷ñïíïóåéñÜò åöáñìüæåôáé ìåôÜ
ôç äéáäéêáóßá ïìáëïðïßçóçò. ¸÷ïõí ðñïôáèåß ðëåßóôåò ðñïóåããßóåéò ãé' áõôü
ôï óêïðü. Ãéá ôçí ïìáäïðïßçóç ôùí êéíïýìåíùí ÷ñïíïóåéñþí, åðéëÝîáìå íá
÷ñçóéìïðïéÞóïõìå ôï äåßêôç TRIX [84], ï ïðïßïò âáóßæåôáé óôçí åöáñìïãÞ åíüò
ôñéðëïý åêèåôéêïý êéíïýìåíïõ ìÝóïõ. Ï TRIX Ý÷åé ôñßá âáóéêÜ ðëåïíåêôÞìáôá:
(á) ïìáëïðïéåß ôç ÷ñïíïóåéñÜ ðáñÜëëçëá ìå ôï ðñïóäéïñéóìü ôçò ôÜóçò, (â)
õðïëïãßæåôáé áõîçôéêÜ, êáé (ã) áíáãíùñßæåé áðëÜ êáé áðïôåëåóìáôéêÜ ôçí áëëáãÞ
ôÜóçò. ¼ôáí ç ôéìÞ ôïõ äåßêôç TRIX äéáóôáõñþíåôáé ìå ôï ìçäÝí, ôüôå õðÜñ÷åé
áëëáãÞ ôÜóçò óôç ÷ñïíïóåéñÜ.
Ç PLA êÜèå ñïÞò áðïôåëåßôáé áðü æåýãç ôéìþí ôçò ìïñöÞò (t; trend), üðïõ
ôï t êáèïñßæåé ôç ÷ñïíéêÞ óôéãìÞ ôïõ áñéóôåñïý Üêñïõ ôïõ ôìÞìáôïò, åíþ ôï
trend óõìâïëßæåé ôçí ôÜóç ôçò ñïÞò (ðÜíù/UP Þ êÜôù/DOWN) óôï óõãêå-
êñéìÝíï ôìÞìá. ¼ðïôå ï äåßêôçò TRIX äßíåé áëëáãÞ ôÜóçò, ôüôå ðñïóôßèåôáé
Ýíá êáéíïýñãéï PLA óçìåßï (æåýãïò ôéìþí) ôç óõãêåêñéìÝíç ÷ñïíéêÞ óôéãìÞ.
ÁõôÞ ç ëåéôïõñãßá ïíïìÜæåôáé ADD. Áí ç ÷ñïíïóåéñÜ åíçìåñùèåß êáé ï äåßêôçò
TRIX äåí äþóåé áëëáãÞ ôÜóçò, ôüôå ðñáãìáôïðïéåßôáé ç ëåéôïõñãßá UPDATE,
4.3. ÓÕÍÅ×ÇÓ ÏÌÁÄÏÐÏÉÇÓÇ 57

ðïõ åíçìåñþíåé ôç ÷ñïíéêÞ óôéãìÞ t ôïõ ôåëåõôáßïõ óçìåßïõ ôçò PLA. ÔÝëïò,
õðïóôçñßæåôáé êáé ç ëåéôïõñãßá EXPIRE, ðïõ åöáñìüæåôáé üôáí ëÞîåé ÷ñïíéêÜ
ôï ðñþôï ôìÞìá ôçò PLA. Ðåñéóóüôåñåò ëåðôïìÝñåéåò, ó÷åôéêÜ ìå ôïí ðñïóäéï-
ñéóìü ôÜóçò êáé ôïí áõîçôéêü õðïëïãéóìü ôçò PLA äßíïíôáé óôï ÊåöÜëáéï 3.

4.3 Óõíå÷Þò Ïìáäïðïßçóç


Óå áõôÞí ôçí åíüôçôá, ðåñéãñÜöïõìå ôïí áëãüñéèìï CTCS (Continuous Trend-
based Clustering of Streaming time series). Ç Åíüôçôá 4.3.1 ðáñïõóéÜæåé ôçí
ðñïôåéíüìåíç óõíÜñôçóç áðüóôáóçò, åíþ ç Åíüôçôá 4.3.2 áíáöÝñåé ôá ðñïôåéíü-
ìåíá êñéôÞñéá äéá÷ùñéóìïý êáé óõíÝíùóçò, áíáëýåé ôïí áëãüñéèìï ïìáäïðïßçóçò
êáé ðåñéãñÜöåé ìßá áðëÞ ìÝèïäï ãéá ôïí ðñïóäéïñéóìü ôùí outliers.

4.3.1 ÓõíÜñôçóç áðüóôáóçò


Ç âéâëéïãñáößá åßíáé ðëïýóéá óå ìåôñéêÝò áðüóôáóçò ãéá ÷ñïíïóåéñÝò. Ç ðéï
äéáäåäïìÝíç ïéêïãÝíåéá óõíáñôÞóåùí áðüóôáóçò åßíáé ç íüñìá Lp , ç ïðïßá åßíáé
ãíùóôÞ ùò city-block Þ Manhattan norm üôáí p=1, êáé ùò Åõêëåßäåéá áðüóôáóç
üôáí p=2. ¸íá óçìáíôéêü ìåéïíÝêôçìá áõôþí ôùí óõíáñôÞóåùí åßíáé üôé áðáé-
ôïýí ïé ÷ñïíïóåéñÝò íá Ý÷ïõí ôï ßäéï ìÞêïò. Ç ðñïôåéíüìåíç ìÝèïäïò õðïëïãßæåé
áðïóôÜóåéò ìåôáîý ôùí PLAs ôùí êéíïýìåíùí ÷ñïíïóåéñþí, ïé ïðïßåò åßíáé ðïëý
ðéèáíü íá Ý÷ïõí äéáöïñåôéêÜ ìÞêç. Ãé' áõôü ôï ëüãï, ïé íüñìåò Lp äåí ìðï-
ñïýí íá ÷ñçóéìïðïéçèïýí ùò ìåôñéêÝò áðüóôáóçò óôïí ðñïôåéíüìåíï áëãüñéèìï.
ÐñïêåéìÝíïõ íá êáôáóôåß äõíáôüò ï õðïëïãéóìüò ïìïéüôçôáò Þ áíïìïéüôçôáò
ìåôáîý ÷ñïíïóåéñþí äéáöïñåôéêïý ìÞêïõò, ðñïôÜèçêáí ðïëõðëïêüôåñåò óõíáñ-
ôÞóåéò áðüóôáóçò. Ìßá ôÝôïéá ìåôñéêÞ åßíáé ç Time Warping (TW) ðïõ åðéôñÝðåé
ôçí åëáóôéêüôçôá ôùí ÷ñïíïóåéñþí (íá óõìðéÝæïíôáé Þ íá åðéìçêýíïíôáé) óôïí
Üîïíá ôïõ ÷ñüíïõ. Ôï ìåéïíÝêôçìá ôçò TW åßíáé üôé åßíáé ðïëý ÷ñïíïâüñá êáé
åðïìÝíùò äåí åßíáé ðñáêôéêÜ åöáñìüóéìç óôï óåíÜñéï ôùí ñïþí. Óôçí åñãáóßá
[144], ðñïôÜèçêå Ýíáò áõîçôéêüò ôñüðïò õðïëïãéóìïý ôçò TW, áëëÜ ðåñéïñßæå-
ôáé óôïí õðïëïãéóìü ôçò áðüóôáóçò ìåôáîý ìßáò óôáôéêÞò ìå ìßáò êéíïýìåíçò
÷ñïíïóåéñÜò êáé ãé' áõôü äåí åßíáé êáôÜëëçëç ãéá ôï ðñüâëçìá ðïõ ìåëåôïýìå.
Ãéá íá îåðåñÜóïõìå ôçí Ýëëåéøç êáôÜëëçëçò ìåôñéêÞò, ðñïôåßíïõìå ôç óõíÜñ-
ôçóç áðüóôáóçò DP LA. Ç óõíÜñôçóç áðüóôáóçò DP LA äéá÷ùñßæåé ôéò PLAs
óå êïéíÜ ôìÞìáôá êáé óôç óõíÝ÷åéá õðïëïãßæåé ôçí áðüóôáóç ìåôáîý ôùí áíôß-
óôïé÷ùí ôìçìÜôùí. Ôï Üèñïéóìá ôùí åðéìÝñïõò áðïóôÜóåùí ôùí ôìçìÜôùí äßíåé
ôç óõíïëéêÞ áðüóôáóç ìåôáîý äýï PLAs. ÊÜèå óõíÜñôçóç áðüóôáóçò ðïõ ðñïï-
ñßæåôáé ãéá PLAs ðñÝðåé íá ëáìâÜíåé õðüøç ôçò óõãêåêñéìÝíá ÷áñáêôçñéóôéêÜ
ôùí ÷ñïíïóåéñþí: (1) ôçí ôÜóç ôïõ ôìÞìáôïò, äçëáäÞ ôìÞìáôá ìå äéáöïñåôéêÝò
ôÜóåéò èá ðñÝðåé íá Ý÷ïõí ìåãáëýôåñç áðüóôáóç áðü ôìÞìáôá ìå ßäéåò ôÜóåéò,
êáé (2) ôï ìÞêïò ôïõ ôìÞìáôïò, äçëáäÞ ìåãáëýôåñá óå ìÞêïò ôìÞìáôá ðñÝðåé íá
58 ÊÅÖÁËÁÉÏ 4. ÏÌÁÄÏÐÏÉÇÓÇ ÊÉÍÏÕÌÅÍÙÍ ×ÑÏÍÏÓÅÉÑÙÍ

åðçñåÜæïõí ðåñéóóüôåñï ôçí áðüóôáóç áðü ôá ìéêñüôåñá.


Ðñéí ðñï÷ùñÞóïõìå óôïí ïñéóìü ôçò DP LA, áò ïñßóïõìå ôçí êëßóç åíüò
ôìÞìáôïò, ðïõ óõìâïëßæåôáé ùò slope. Èåùñåßóôå ôï i-ïóôü ôìÞìá ôçò PLA, ôï
ïðïßï îåêéíÜ ôç ÷ñïíéêÞ óôéãìÞ P LA(i):tstart êáé ôåëåéþíåé ôç ÷ñïíéêÞ óôéãìÞ
P LA(i):tend . Ïé ôéìÝò ôïõ P LA(i) êáôÜ ôçí áñ÷éêÞ êáé ôçí ôåëéêÞ ÷ñïíéêÞ
óôéãìÞ óõìâïëßæïíôáé ùò P LA(i):vstart êáé P LA(i):vend áíôßóôïé÷á.

ÏÑÉÓÌÏÓ 4.1 (Êëßóç). Ç êëßóç slope åíüò ôìÞìáôïò P LA(i) åßíáé ôï êëÜóìá
ôçò äéáöïñÜò ôùí ôéìþí ôïõ ôìÞìáôïò ðñïò ôï ìÞêïò ôïõ ôìÞìáôïò:
P LA(i):vend − P LA(i):vstart
P LA(i):slope = (4.1)
P LA(i):tend − P LA(i):tstart
ÃåíéêÜ, ïé PLAs Ý÷ïõí äéáöïñåôéêü ðëÞèïò ôìçìÜôùí, äéáöïñåôéêïý ìÞêïõò
ôï êáèÝíá. Ãé' áõôü, ðñïêåéìÝíïõ íá óõãêñßíïõìå äýï PLAs, ÷ñçóéìïðïéïýìå
ôçí Ýííïéá ôïõ êïéíïý ôìÞìáôïò. ¸íá êïéíü ôìÞìá ôçò P LAx êáé ôçò P LAy
ïñßæåôáé ìåôáîý ôùí ÷ñïíéêþí óôéãìþí max(P LAx (i): tstart ; P LAy (j ):tstart )
êáé min(P LAx (i):tend ; P LAy (j ):tend ), üðïõ ïé äåßêôåò i êáé j áñ÷éêïðïéïýíôáé
óôï Ýíá êáé áõîÜíïíôáé ìÝ÷ñé ôï ðëÞèïò ôùí ôìçìÜôùí ôçò P LAx êáé ôçò P LAy
áíôßóôïé÷á.
Ãéá ðáñÜäåéãìá, õðïèÝóôå ôéò äýï PLAs ôçò Åéêüíáò 4.1. Îåêéíïýìå ìå i =
j = 1. Ôï ðñþôï êïéíü ôìÞìá ïñßæåôáé áðü ôï ìÝãéóôï áñ÷éêü timestamp (t1 ) êáé
ôï åëÜ÷éóôï ôåëéêü timestamp (t2 ). Åöüóïí Ý÷ïõìå öôÜóåé óôï ôåëéêü óçìåßï
ôïõ ôìÞìáôïò ôçò P LA2 , áõîÜíïõìå ôï j êáôÜ Ýíá. Ôþñá åîåôÜæïõìå ôï ðñþôï
ôìÞìá ôçò P LA1 (i = 1) êáé ôï äåýôåñï ôìÞìá ôçò P LA2 (j = 2). Ðáñáôçñþíôáò
ôçí Åéêüíá 4.1, áíôéëáìâáíüìáóôå üôé ôï åðüìåíï êïéíü ôìÞìá ôùí P LA1 êáé
P LA2 ïñßæåôáé ìåôáîý ôùí timestamps t2 êáé t3 . ÁõôÞ ç äéáäéêáóßá óõíå÷ßæåôáé
ìÝ÷ñé íá öôÜóïõìå ôï ôÝëïò ôùí PLAs.

EIKONA 4.1. Êïéíü ôìÞìá äýï PLAs.

Ç áðüóôáóç óå Ýíá êïéíü ôìÞìá cs ðïõ êáèïñßæåôáé áðü ôï i-ïóôü ôìÞìá ôçò
ðñþôçò PLA êáé ôï j -ïóôü ôìÞìá ôçò äåýôåñçò PLA äßíåôáé áðü ôïí ôýðï:
Dcs = |P LAx (i):slope − P LAy (j ):slope| · (cs:tend − cs:tstart ) (4.2)
4.3. ÓÕÍÅ×ÇÓ ÏÌÁÄÏÐÏÉÇÓÇ 59

ÏÑÉÓÌÏÓ 4.2 (DPLA). Ç áðüóôáóç äýï PLAs, ôùí P LAx êáé P LAy ìå n
êïéíÜ ôìÞìáôá äßíåôáé áðü ôï Üèñïéóìá ôùí áðïóôÜóåùí ôùí êïéíþí ôìçìÜôùí:
n
X
DP LA(P LAx ; P LAy ) = Dcsi (4.3)
i=0
ÐñïóÝîôå üôé ç óõíÜñôçóç áðüóôáóçò DP LA ëáìâÜíåé õðüøç êáé ôçí ôÜóç
êáé ôï ìÞêïò ôïõ ôìÞìáôïò êáé åðéðëÝïí ìðïñåß íá õðïëïãéóèåß áõîçôéêÜ.

4.3.2 Áëãüñéèìïò ïìáäïðïßçóçò


Ðñéí îåêéíÞóïõìå ôçí áíáëõôéêÞ ðåñéãñáöÞ ôïõ áëãïñßèìïõ CTCS, èá åîåôÜ-
óïõìå ôé åßäïõò ðëçñïöïñßá äéáôçñåß ìßá ïìÜäá. ÊÜèå ïìÜäá Ci Ý÷åé Ýíá áíá-
ãíùñéóôéêü (id) êáé Ýíá êÝíôñï, ðïõ åßíáé ìßá PLA ìßáò êéíïýìåíçò ÷ñïíï-
óåéñÜò ðïõ áíÞêåé óôçí ïìÜäá. ÅðéðëÝïí, ìßá ïìÜäá C áðïèçêåýåé Ýíáí ðß-
íáêá C:n × C:n ìå ôéò áðïóôÜóåéò ôùí êéíïýìåíùí ÷ñïíïóåéñþí ôçò ïìÜäáò
ìåôáîý ôïõò. Ìßá êéíïýìåíç ÷ñïíïóåéñÜ Sx áíÞêåé óôçí ïìÜäá Ci , áí: ∀j 6=
i; DP LA(P LAx ; centroidi ) ≤ DP LA(P LAx ; centroidj ). Åðéðñüóèåôá, äéáôç-
ñïýìå Ýíá äéóäéÜóôáôï ðßíáêá ìå ôéò áðïóôÜóåéò üëùí ôùí êÝíôñùí ôùí ïìÜäùí
ìåôáîý ôïõò.
Ðñþôá, ðáñïõóéÜæïõìå ôï êñéôÞñéï óõíÝíùóçò. Ç ìÝóç áðüóôáóç Ci :avgD
ôçò ïìÜäáò Ci åßíáé ç ìÝóç DP LA áðüóôáóç ôùí êéíïýìåíùí ÷ñïíïóåéñþí ôçò
ïìÜäáò áðü ôï êÝíôñï ôçò.

ÏÑÉÓÌÏÓ 4.3 (ÊñéôÞñéï óõíÝíùóçò). Äýï ïìÜäåò Ci êáé Cj óõíåíþíïíôáé áí


ôï Üèñïéóìá ôùí ìÝóùí áðïóôÜóåùí ôïõò åßíáé ìåãáëýôåñï áðü ôï ìÝóï ôçò
áðüóôáóçò ìåôáîý ôùí êÝíôñùí ôïõò:
ci :avgD + cj :avgD > DP LA(centroidi ; centroidj )=2 (4.4)
Ãéá íá åíþóïõìå äýï ïìÜäåò, ðñÝðåé íá áðïöáóßóïõìå ôï êÝíôñï ôçò íÝáò
ïìÜäáò. Õðïëïãßæïõìå ôéò áðïóôÜóåéò üëùí ôùí PLAs ôùí äýï ïìÜäùí ìå ôá
äýï êÝíôñá. Ç PLA ðïõ Ý÷åé ôï ìéêñüôåñï Üèñïéóìá áõôþí ôùí äýï áðïóôÜóåùí
åðéëÝãåôáé ùò ôï êÝíôñï ôçò íÝáò ïìÜäáò.
Ôï êñéôÞñéï äéá÷ùñéóìïý åßíáé ðïëõðëïêüôåñï. Ãéá êÜèå P LAx ôçò ïìÜäáò
Ci , ÷ùñßæïõìå üëåò ôéò õðüëïéðåò PLAs óå äýï õðïóýíïëá A êáé B . Ôï õðï-
óýíïëï A ðåñéÝ÷åé ôéò PLAs ðïõ åßíáé êïíôÜ óôçí P LAx êáé ôï õðïóýíïëï B
ðåñéÝ÷åé ôéò õðüëïéðåò PLAs. Äéá÷ùñßæïõìå ôéò êïíôéíÝò áðü ôéò ìáêñéíÝò êé-
íïýìåíåò ÷ñïíïóåéñÝò ìå ôç âïÞèåéá åíüò êáôùöëßïõ. ÅðïìÝíùò, ïé PLAs ðïõ
ç áðüóôáóÞ ôïõò áðü ôçí P LAx åßíáé êÜôù áðü ôï êáôþöëé èåùñïýíôáé êïíôÜ
óôçí P LAx . Óôá ðåéñÜìáôÜ ìáò, ç ôéìÞ ôïõ êáôùöëßïõ Þôáí ßóç ìå ôï ìéóü
ôçò ìÝãéóôçò áðüóôáóçò ôçò P LAx áðü üëåò ôéò Üëëåò PLAs ôçò ïìÜäáò Ci . Ç
ìÝóç áðüóôáóç ìåôáîý ôçò P LAx êáé ôùí PLAs ðïõ áíÞêïõí óôï õðïóýíïëï A
60 ÊÅÖÁËÁÉÏ 4. ÏÌÁÄÏÐÏÉÇÓÇ ÊÉÍÏÕÌÅÍÙÍ ×ÑÏÍÏÓÅÉÑÙÍ

óõìâïëßæåôáé ùò P LAx :close, åíþ ç ìÝóç áðüóôáóç ôçò P LAx êáé ôùí PLAs
ðïõ áíÞêïõí óôï õðïóýíïëï B óõìâïëßæåôáé ùò P LAx :distant.

ÏÑÉÓÌÏÓ 4.4 (ÊñéôÞñéï äéá÷ùñéóìïý). Ìßá ïìÜäá Ci äéá÷ùñßæåôáé óå äýï äéá-


öïñåôéêÝò ïìÜäåò áí:
CX
i :n
1 P LAx :distant − P LAx :close
> (4.5)
Ci :n x=0 max(P LAx :distant; P LAx :close)

Ï ðñïçãïýìåíïò ïñéóìüò ðñïóðáèåß íá ðñïóåããßóåé ôçí ôéìÞ ôïõ silhouette


coecient ôùí íÝùí ïìÜäùí. Ï óõíôåëåóôÞò silhouette [153] åßíáé ìßá ðïëý ãíù-
óôÞ ìåôñéêÞ ãéá ôçí áîéïëüãçóç ïìáäïðïßçóçò êáé ïé ôéìÝò ôïõ áíÞêïõí óôï
äéÜóôçìá [{1,1]. ÔéìÝò êïíôÜ óôï 1 ìáñôõñïýí ôçí ýðáñîç ìßáò êáëÞò ïìáäï-
ðïßçóçò åíþ ôéìÝò êïíôÜ óôï 0 ìáñôõñïýí ôçí áðïõóßá ïìáäïðïßçóçò. Ç âáóéêÞ
éäÝá ôïõ ïñéóìïý áõôïý åßíáé üôé áí õðÜñ÷ïõí äýï ïìÜäåò, ôüôå ãéá êÜèå PLA
ôï êëÜóìá max P LAx :distant−P LAx :close èá ðñÝðåé íá åßíáé õøçëü. Ç ðáñÜìåôñïò
(P LAx :distant;P LAx :close)
 ìðïñåß íá åðçñåÜóåé óçìáíôéêÜ ôçí ïìáäïðïßçóç. ÔéìÝò ìéêñüôåñåò ôïõ 0.5
ìðïñïýí íá åëáôôþóïõí ôïí áñéèìü ôùí ðáñáãüìåíùí ïìÜäùí, åíþ ìåãÜëåò ôé-
ìÝò (ðÜíù áðü 0.7) ìðïñïýí íá ðñïêáëÝóïõí áëëåðÜëëçëïõò äéá÷ùñéóìïýò ìå
áðïôÝëåóìá Ýíá ìåãÜëï ðëÞèïò ïìÜäùí. ÏõóéáóôéêÜ, ç ðáñÜìåôñïò  åëÝã÷åé
ôçí ðïéüôçôá ôçò ïìáäïðïßçóçò êáé åðïìÝíùò äåí ÷ñåéÜæåôáé íá ìåôáâÜëëåôáé
÷ñïíéêÜ. Óôá ðåéñÜìáôÜ ìáò ÷ñçóéìïðïéÞóáìå  =0.6.
Ôá êÝíôñá ôùí äýï íÝùí ïìÜäùí åðéëÝãïíôáé íá åßíáé ïé PLAs ðïõ áêïëïõ-
èïýí ôïõò åîÞò êáíüíåò: (1) max P LA:distant−P LA:close >  êáé ãéá ôéò äýï PLAs,
(P LA:distant;P LA:close)
êáé (2) ç DP LA áðüóôáóç ìåôáîý ôïõò åßíáé ç ìåãáëýôåñç áðüóôáóç ìåôáîý ôùí
PLAs ðïõ åðéâßùóáí ôïõ ðñþôïõ êáíüíá.
Óôçí Åéêüíá 4.2 äßíåôáé ç ðåñéãñáöÞ ôïõ áëãïñßèìïõ CTCS. Ïé ãñáììÝò 3-10
ðåñéãñÜöïõí ôçí åíçìÝñùóç ôùí ïìÜäùí, åíþ ïé ãñáììÝò 11-17 äåß÷íïõí ðùò ï
CTCS ðñïóáñìüæåé áõôüìáôá ôïí áñéèìü ôùí ïìÜäùí. ÐñïóÝîôå üôé, ï CTCS
äåí áðáéôåß êáéíïýñãéåò ôéìÝò ãéá üëåò ôéò êéíïýìåíåò ÷ñïíïóåéñÝò ðñïêåéìÝíïõ
íá åíçìåñþóåé ôçí ïìáäïðïßçóç. Óôç ãñáììÞ 2, åíçìåñþíïíôáé ìüíï ïé PLAs
ôùí êéíïýìåíùí ÷ñïíïóåéñþí ðïõ Ý÷ïõí íÝá ôéìÞ.
Åðéðñüóèåôá, ìðïñåß íá åöáñìïóèåß Ýíá ó÷Þìá ãéá ôçí áíß÷íåõóç ôùí outliers.
Ìßá PLA áíÞêåé óå ìßá ïìÜäá, áí ç áðüóôáóÞ ôçò áðü ôï êÝíôñï áõôÞò ôçò
ïìÜäáò åßíáé ç ìéêñüôåñç. ¸óôù üôé ç P LAx åßíáé ìßá PLA ðïõ áíÞêåé óôçí
ïìÜäá Ci . Ç P LAx èá èåùñçèåß outlier áí ç DP LA áðüóôáóç ìåôáîý ôçò P LAx
êáé ôïõ êÝíôñïõ ôçò ïìÜäáò Ci , åßíáé õøçëüôåñï áðü ôç DP LA áðüóôáóç ôùí
êÝíôñùí ôçò ïìÜäáò Ci êáé ôçò êïíôéíüôåñçò ôçò ïìÜäáò nCi . Óôçí Åéêüíá 4.2,
ìðïñïýìå íá åöáñìüóïõìå ôçí áíß÷íåõóç ôùí outliers ðñéí ôç ãñáììÞ 6. Áí ç
P LAx åßíáé outlier, ôüôå ôçí åéóÜãïõìå óôïõò outliers êáé óõíå÷ßæïõìå ìå ôçí
åðüìåíç PLA, ðáñáëåßðïíôáò ôïõò õðïëïãéóìïýò ôùí ãñáììþí 6-9.
4.3. ÓÕÍÅ×ÇÓ ÏÌÁÄÏÐÏÉÇÓÇ 61

Algorithm CTCS
Input
new values of streaming time series
Output
set of clusters

1. updC = ∅ //set of changed clusters


2. update PLAs of streaming time series
3. for (each P LAi )
4. Ck = cluster that P LAi belongs to
5. nd its new nearest cluster Cj
6. if (Cj 6= Ck )
7. move P LAi to cluster Cj
8. insert Cj and Ck to updC
9. end
10. end
11. for (each cluster Ci of updC)
12. remove Ci from updC
13. apply merge criterion
14. if (merge occurs) insert the new cluster to updC
15. apply split criterion
16. if (a split occurs) insert the new clusters to updC
17. end
18. report the clusters;

EIKONA 4.2. ÐåñéãñáöÞ áëãïñßèìïõ CTCS.

Ï Ðßíáêáò 4.2 äåß÷íåé ôçí ðïëõðëïêüôçôá ÷åßñéóôçò ðåñßðôùóçò ôùí âáóéêþí


ëåéôïõñãéþí ôïõ áëãïñßèìïõ CTCS. Ç åíçìÝñùóç ñïÞò áíáöÝñåôáé óôçí åíçìÝ-
ñùóç ôùí ðëçñïöïñéþí ôçò ïìÜäáò ëüãù ôçò åíçìÝñùóçò ìßáò ñïÞò S . Ôï k
åßíáé ï ôñÝ÷ùí áñéèìüò ïìÜäùí, Cold åßíáé ç ïìÜäá ðïõ ðåñéåß÷å ðñïçãïõìÝíùò

Ëåéôïõñãßá Ðïëõðëïêüôçôá ÷åßñéóôçò ðåñßðôùóçò


ÅíçìÝñùóç PLA O(1)
ÅíçìÝñùóç ñïÞò O(k) + O(Cold :n) + O(Cnew :n)
¸ëåã÷ïò äéá÷ùñéóìïý O(C:n)
Äéáäéêáóßá äéá÷ùñéóìïý O((C:n)2 ) + O(k)
¸ëåã÷ïò óõíÝíùóçò O(1)
Äéáäéêáóßá óõíÝíùóçò O((C1 :n + C2 :n)2 ) + O(k)

ΠINAKAΣ 4.2. ÁíÜëõóç ðïëõðëïêüôçôáò ôïõ CTCS.


62 ÊÅÖÁËÁÉÏ 4. ÏÌÁÄÏÐÏÉÇÓÇ ÊÉÍÏÕÌÅÍÙÍ ×ÑÏÍÏÓÅÉÑÙÍ

ôç ñïÞ S , åíþ Cnew åßíáé ç ïìÜäá ðïõ ðåñéÝ÷åé ôþñá ôç ñïÞ S . ÐñïóÝîôå üôé,
ïé äéáäéêáóßåò äéá÷ùñéóìïý êáé óõíÝíùóçò Ý÷ïõí ôåôñáãùíéêÞ ðïëõðëïêüôçôá
ùò ðñïò ôïí áñéèìü ôùí ñïþí áíÜ ïìÜäá êáé åðïìÝíùò åßíáé õðïëïãéóôéêÜ ïé
ðéï ÷ñïíïâüñåò ëåéôïõñãßåò. Ùóôüóï, áõôÝò ïé äýï ëåéôïõñãßåò åêôåëïýíôáé ðïëý
óðáíéüôåñá áðü ôéò õðüëïéðåò, äéüôé ï áñéèìüò ôùí ïìÜäùí äåí áëëÜæåé óõ÷íÜ,
êáé åðïìÝíùò äåí åðçñåÜæïõí éäéáßôåñá ôï ÷ñüíï áðüêñéóçò.

4.4 ÐåéñáìáôéêÞ ÌåëÝôç


Óå áõôÞí ôçí åíüôçôá, áíáöÝñïõìå ôá ðåéñáìáôéêÜ áðïôåëÝóìáôá. ÄéåîÞ÷èç ìéá
óåéñÜ ðåéñáìÜôùí ãéá ôçí áðïôßìçóç ôçò áðüäïóçò ôçò ðñïôåéíüìåíçò ìåèüäïõ. Ï
áëãüñéèìïò k-medoid ÷ñçóéìïðïéÞèçêå ùò áíôáãùíéóôÞò ôçò CTCS. O k-medoid
ìåôáôñÜðçêå Ýôóé þóôå íá ÷ñçóéìïðïéåß ôçí ðñïôåéíüìåíç óõíÜñôçóç áðüóôáóçò
ðñïêåéìÝíïõ íá ÷åéñßæåôáé PLAs êéíïýìåíùí ÷ñïíïóåéñþí. Óçìåéþóôå üôé äåí
ìðïñïýí íá åöáñìïóèïýí áõîçôéêÝò õëïðïéÞóåéò ôïõ k-medoid äéüôé ôï ðëÞèïò
ôùí ïìÜäùí ìåôáâÜëëåôáé ÷ñïíéêÜ. Ùóôüóï, óôá ðåéñÜìáôá ðïõ áêïëïõèïýí
åõíïÞóáìå ôïí k-medoid, õðïèÝôïíôáò üôé ï áñéèìüò ôùí ïìÜäùí åßíáé åê ôùí
ðñïôÝñùí ãíùóôüò êáé äßíïíôáò ôïõ ùò óðüñïõò ôá êÝíôñá ðïõ åß÷å áíáãíùñßóåé
óôçí áìÝóùò ðñïçãïýìåíç åíüôçôá. ¼ëåò ïé ìÝèïäïé õëïðïéÞèçêáí óå C++ êáé
ôá ðåéñÜìáôá äéåîÞ÷èçóáí óå õðïëïãéóôÞ Pentium IV óôá 3.0GHz, ìå 1GB êýñéá
ìíÞìç, ìå ëåéôïõñãéêü óýóôçìá Windows XP.
×ñçóéìïðïéÞóáìå ðñáãìáôéêÜ êáé óõíèåôéêÜ óýíïëá äåäïìÝíùí. Ôï óýíïëï
äåäïìÝíùí STOCK åßíáé ïé êáèçìåñéíÝò ôéìÝò ìåôï÷þí êáé áðïêôÞèçêáí áðü
ôïí éóôï÷þñï http://finance.yahoo.com. Ôï STOCK áðïôåëåßôáé áðü 500
÷ñïíïóåéñÝò ìå ìÝãéóôï ìÞêïò ôéò 3000 ôéìÝò. Ôï SYNTH åßíáé Ýíá óõíèåôéêü
óýíïëï äåäïìÝíùí êáé ÷ñçóéìïðïéÞèçêå ðñïêåéìÝíïõ íá áîéïëïãçèåß ðïéïôéêÜ ç
ðñïôåéíüìåíç ìÝèïäïò. Ç äéáäéêáóßá ðáñáãùãÞò ôïõ óõíèåôéêïý óõíüëïõ äåäïìÝ-
íùí ðáßñíåé ùò ðáñáìÝôñïõò ôï ðëÞèïò ôùí êéíïýìåíùí ÷ñïíïóåéñþí, ôï ìÝãåèïò
ôïõ êéíïýìåíïõ ðáñáèýñïõ êáé ôï ðëÞèïò ôùí ïìÜäùí óå äéáöïñåôéêÝò ÷ñïíéêÝò
óôéãìÝò. Ìå áõôüí ôïí ôñüðï, ï áñéèìüò ôùí ïìÜäùí ìåôáâÜëëåôáé ÷ñïíéêÜ êáé
åðïìÝíùò ìðïñïýìå íá åðéâåâáéþóïõìå ôçí áðüäïóç ôùí êñéôçñßùí äéá÷ùñéóìïý
êáé óõíÝíùóçò.
Ðñþôá, åîåôÜæïõìå ôçí ðïéüôçôá ôùí áðïôåëåóìÜôùí. ×ñçóéìïðïéÞóáìå ôï
óõíèåôéêü óýíïëï äåäïìÝíùí, ôï ïðïßï áðïôåëåßôáé áðü 500 ñïÝò. Ôï ìÝãåèïò
ôïõ ðáñáèýñïõ åßíáé 30. Åöáñìüóáìå 300 åíçìåñþóåéò êáé êÜèå 30 ÷ñïíéêÝò
óôéãìÝò, ìåôñÞóáìå ôï óõíôåëåóôÞ silhouette ôçò ïìáäïðïßçóçò ðïõ ðáñÜ÷èçêå
áðü ôç ìÝèïäï CTCS êáé ôç ìÝèïäï k-medoid. Óå êÜèå åíçìÝñùóç, ç ðáñÜìåôñïò
k ôçò ìåèüäïõ k-medoid ôßèåôáé ßóç ìå ôïí ðñáãìáôéêü áñéèìü ôùí ïìÜäùí. Ç
Åéêüíá 4.3(á) äåß÷íåé ôá áðïôåëÝóìáôá. Ç ìÝèïäïò CTCS ðåôõ÷áßíåé óõíôåëåóôÞ
silhouette ìåãáëëõôåñï áðü 0.6 óå üëåò ôéò ðåñéðôþóåéò. ÅðéðëÝïí, óõãêñßíáìå
ôçí ðñáãìáôéêÞ ïìáäïðïßçóç ìå ôçí ïìáäïðïßçóç ôçò ìåèüäïõ CTCS êáé ôçò
4.4. ÐÅÉÑÁÌÁÔÉÊÇ ÌÅËÅÔÇ 63

2
CTCS 1.4 CTCS vs. ground truth

Silhouette Coefficient
k-medoid k-medoid vs. ground truth

Jaccard Coefficient
1.2
1.5
1

1 0.8
0.6
0.5 0.4
0.2
0 0
0 50 100 150 200 250 300 0 50 100 150 200 250 300
Update Update
(á) (â)
1.4 CTCS vs. ground truth
k-medoid vs. ground truth
1.2
Rand Coefficient

1
0.8
0.6
0.4
0.2
0
0 50 100 150 200 250 300
Update
(ã)

EIKONA 4.3. ÐïéïôéêÞ óýãêñéóç óõíôåëåóôþí: (á) Silhouette, (â) Jaccard, êáé (ã) Rand óôï SYNTH.

ìåèüäïõ k-medoid ÷ñçóéìïðïéþíôáò ôïõò óõíôåëåóôÝò Jaccard êáé Rand [153].


Ïé ôéìÝò áõôþí ôùí ìåôñéêþí êõìáßíïíôáé ìåôáîý 0 êáé 1. ÔéìÝò êïíôÜ óôï 1
õðïäåéêíýïõí ìåãÜëç óõó÷Ýôéóç ìåôáîý ôùí ïìáäïðïéÞóåùí, åíþ ôéìÝò êïíôÜ
óôï 0 ìáñôõñïýí ÷áìçëÞ óõó÷Ýôéóç. Ïé Åéêüíåò 4.3(â) êáé (ã) ðáñïõóéÜæïõí
ôá áðïôåëÝóìáôá ãéá ôïõò óõíôåëåóôÝò Jaccard êáé Rand áíôßóôïé÷á. Ïé ôéìÝò
ôïõò ìåñéêÝò öïñÝò åßíáé 1, ôï ïðïßï óçìáßíåé üôé ç CTCS äßíåé áêñéâþò ôçí
ðñáãìáôéêÞ ïìáäïðïßçóç (ground truth).
Ãéá íá êáôáíïÞóïõìå êáëýôåñá ôá áðïôåëÝóìáôá, ìåëåôïýìå ôïí áñéèìü ôùí
ïìÜäùí ðïõ áíé÷íåýåé ç CTCS. Ï Ðßíáêáò 4.3 áíáöÝñåé ôïí ðñáãìáôéêü áñéèìü
ôùí ïìÜäùí êáé ôï áñéèìü ôùí ïìÜäùí ðïõ ðñïóäéïñßæåé ç CTCS. Áí óõó÷åôß-
óïõìå ôá áðïôåëÝóìáôá ôçò Åéêüíáò 4.3 êáé ôïõ Ðßíáêá 4.3, ðáñáôçñïýìå üôé
üðïôå ç CTCS áíé÷íåýåé áêñéâþò ôï ðëÞèïò ôùí ïìÜäùí, ï óõíôåëåóôÞò silhou-
ette ôçò ïìáäïðïßçóçò åßíáé ìåãáëýôåñïò áðü 0.85, åíþ ïé óõíôåëåóôÝò Jaccard
êáé Rand åßíáé ìåãáëýôåñïé áðü 0.8. Óôéò ðåñéðôþóåéò ðïõ ç CTCS ÷Üíåé ìßá
Þ äýï ïìÜäåò, ïé óõíôåëåóôÝò silhouette, Jaccard êáé Rand Ý÷ïõí êáëÝò ôéìÝò
(ìåãáëýôåñåò áðü 0.78, 0.67 êáé 0.81 áíôßóôïé÷á), ðïõ óçìáßíåé üôé ç CTCS Ý÷åé
áíáãíùñßóåé äýï ïìÜäåò ùò ìßá Þ ôï áíôßèåôï. Ôá áðïôåëÝóìáôá ôçò ìåèüäïõ
64 ÊÅÖÁËÁÉÏ 4. ÏÌÁÄÏÐÏÉÇÓÇ ÊÉÍÏÕÌÅÍÙÍ ×ÑÏÍÏÓÅÉÑÙÍ

ÅíçìÝñùóç
0 30 60 90 120 150 180 210 240 270 300
ÐëÞèïò ïìÜäùí 6 7 5 6 5 4 6 7 8 7 6
CTCS 3 6 6 4 5 4 6 7 8 4 6

ΠINAKAΣ 4.3. ÐëÞèïò ïìÜäùí óôï ÷ñüíï (SYNTH).

k-medoid åßíáé åîßóïõ êáëÜ ìå áõôÜ ôçò CTCS, áëëÜ óçìåéþóôå üôé ç ìÝèïäïò
CTCS áíé÷íåýåé áõôüìáôá ôïí áñéèìü ôùí ïìÜäùí.
Óôï åðüìåíï ðåßñáìá, åîåôÜóáìå ôçí ðïéüôçôá ôùí áðïôåëåóìÜôùí óôï ðñáã-
ìáôéêü óýíïëï äåäïìÝíùí STOCK. Ç Åéêüíá 4.4 ðáñïõóéÜæåé ôá áðïôåëÝóìáôá
óå ó÷Ýóç ìå ôï ðëÞèïò ôùí ñïþí. ÊÜèå ôéìÞ åßíáé ï ìÝóïò üñïò ôùí áðïôå-
ëåóìÜôùí ðïõ ðñïÝêõøáí áðü ôçí åöáñìïãÞ ðïëëáðëþí åíçìåñþóåùí. Óå êÜèå
åíçìÝñùóç, èÝóáìå ôçí ðáñÜìåôñï k ôçò k-medoid ßóç ìå ôïí áñéèìü ôùí ïìÜäùí
ôçò CTCS. Êáèþò ï áñéèìüò ôùí ñïþí áõîÜíåôáé, ç óõó÷Ýôéóç ôùí äýï ïìáäï-
ðïéÞóåùí åëáôôþíåôáé (Åéêüíá 4.4(â)). Ùóôüóï, ï óõíôåëåóôÞò silhouette ôçò
CTCS åßíáé ìåãáëýôåñïò áðü áõôüí ôçò k-medoid êáé åßíáé ðåñéóóüôåñï áðü 0.6
óå üëåò ôéò ðåñéðôþóåéò, ãåãïíüò ðïõ õðïäåéêíýåé ìßá êáëÞ ïìáäïðïßçóç.

1 1
CTCS Jaccard: CTCS vs. k-medoid
Clustering Comparison
Silhouette Coefficient

k-medoid Rand: CTCS vs. k-medoid


0.8 0.8

0.6 0.6

0.4 0.4

0.2 0.2

0 0
100 200 300 400 500 100 200 300 400 500
Number Of Streams Number Of Streams
(á) (â)

EIKONA 4.4: ÐïéïôéêÞ óýãêñéóç: (á) óõíôåëåóôÞò Silhouette, êáé (â) Óýãêñéóç ïìáäïðïßçóçò ùò ðñïò ôï
ðëÞèïò ôùí ñïþí (STOCK).

Óôç óõíÝ÷åéá, ìåëåôÞóáìå ôï õðïëïãéóôéêü êüóôïò ôçò ðñïôåéíüìåíçò ìåèü-


äïõ óå ó÷Ýóç ìå ôï ðëÞèïò ôùí êéíïýìåíùí ÷ñïíïóåéñþí êáé ôï ìÝãåèïò ðáñáèý-
ñïõ (Åéêüíá 4.5(á) êáé (â) áíôßóôïé÷á). Äßíåôáé ôï ìÝóï õðïëïãéóôéêü êüóôïò.
Åßíáé Ýêäçëï, üôé ç ìÝèïäïò CTCS åßíáé êáëýôåñç ôçò k-medoid. Åéäéêüôåñá, ç
ìÝèïäïò k-medoid åðçñåÜæåôáé ðïëý áðü ðëÞèïò ôùí ñïþí (ï Üîïíáò CPU êëé-
ìáêþíåôáé ëïãáñéèìéêÜ), åíþ ç CTCS ìðïñåß íá ÷åéñéóèåß ìåãÜëï áñéèìü ñïþí
óå ëéãüôåñï áðü 1 äåõôåñüëåðôï.
ÔÝëïò, åîåôÜóáìå ôçí éêáíüôçôá êëéìÜêùóçò ôçò ðñïôåéíüìåíçò ìåèüäïõ. Ç
Åéêüíá 4.6(á) äåß÷íåé ôï êüóôïò CPU óå ó÷Ýóç ìå ôï ðëÞèïò ôùí ñïþí óôï
4.4. ÐÅÉÑÁÌÁÔÉÊÇ ÌÅËÅÔÇ 65

2
100 CTCS CTCS
k-medoid k-medoid
CPU time (sec) 10 1.5

CPU time (sec)


1
1
0.1
0.5
0.01

0.001 0
100 200 300 400 500 30 60 90 120 150
Number Of Streams Window Size
(á) (â)

EIKONA 4.5. Êüóôïò CPU ùò ðñïò (á) ôï ðëÞèïò ôùí ñïþí, êáé (â) ôï ìÝãåèïò ðáñáèýñïõ (STOCK).

10000 10000
CTCS streams_update
k-medoid 1000 clusters_update
1000
CPU time (sec)

100
CPU time (sec)

100 10
10 1
0.1
1
0.01
0.1 0.001
0.0001
1000 5000 10000 1000 5000 10000
Number Of Streams Number Of Streams
(á) (â)

EIKONA 4.6. Êüóôïò CPU ùò ðñïò ôï ðëÞèïò ñïþí (SYNTH).

óýíïëï äåäïìÝíùí SYNTH. Ôï ðëÞèïò ôùí ñïþí ìåôáâÜëëåôáé áðü 100 ìÝ÷ñé
10000. Ç ìÝèïäïò CTCS åßíáé ðïëý êáëýôåñç ôçò k-medoid óå üëåò ôéò ðåñéðôþ-
óåéò. Ç ìÝèïäïò CTCS Ý÷åé äýï âáóéêÜ âÞìáôá: (á) ôïí áõîçôéêü õðïëïãéóìü
ôçò PLA ìßáò ñïÞò êáé ôçí åíçìÝñùóç ôùí ðëçñïöïñéþí ôçò ïìÜäáò ðïõ Üíçêå
ç ñïÞ ðñéí êáé ìåôÜ ôçí åíçìÝñùóç (streams update), êáé (â) ôç óõíå÷Þ åíç-
ìÝñùóç ôçò ïìáäïðïßçóçò (clusters update). Ç Åéêüíá 4.6(â) ðáñïõóéÜæåé ôï
êüóôïò CPU ãéá ôá äýï âÞìáôá ÷ùñéóôÜ. Åßíáé ðñïöáíÝò, üôé ôï êõñéüôåñï
êüóôïò ôçò ìåèüäïõ åßíáé ôï ðñþôï âÞìá, áöïý ç åíçìÝñùóç ôçò ïìáäïðïßçóçò
áðáéôåß 2.5 äåõôåñüëåðôá ôï ðïëý. Óçìåéþóôå üôé üëåò ïé êéíïýìåíåò ÷ñïíïóåéñÝò
åíçìåñþíïíôáé óå êÜèå ÷ñïíéêÞ óôéãìÞ. ÁõôÞ åßíáé ç ÷åéñüôåñç åêäï÷Þ, êáé ãé'
áõôü ï ÷ñüíïò ôïõ ðñþôïõ âÞìáôïò áíáìÝíåôáé ìéêñüôåñïò óå Ýíá ñåáëéóôéêü
óåíÜñéï.
66 ÊÅÖÁËÁÉÏ 4. ÏÌÁÄÏÐÏÉÇÓÇ ÊÉÍÏÕÌÅÍÙÍ ×ÑÏÍÏÓÅÉÑÙÍ

4.5 ÓõìðåñÜóìáôá
Óå áõôü ôï êåöÜëáéï, ðñïôÜèçêå ìßá ðñùôüôõðç ìÝèïäïò ãéá ôçí åðßëõóç ôïõ
ðñïâëÞìáôïò ôçò óõíå÷ïýò ïìáäïðïßçóçò êéíïýìåíùí ÷ñïíïóåéñþí. Ï ðñïôåé-
íüìåíïò áëãüñéèìïò CTCS ÷ñçóéìïðïéåß ôéò PLAs ôùí êéíïýìåíùí ÷ñïíïóåéñþí
ðñïêåéìÝíïõ íá åðéôý÷åé ïìáäïðïßçóç âáóéóìÝíç óå ôÜóåéò. Ïé ôÜóåéò ðñïóäéï-
ñßæïíôáé áõôüìáôá êáé ïé PLAs åíçìåñþíïíôáé áõîçôéêÜ. ÅðéðëÝïí, ðñïôÜèçêå
ìßá íÝá óõíÜñôçóç áðüóôáóçò, ç DPLA. Åðéðñüóèåôá, ï áëãüñéèìïò CTCS äåí
áðáéôåß åê ôùí ðñïôÝñùí ôï ðëÞèïò ôùí ïìÜäùí, áöïý êñéôÞñéá äéá÷ùñéóìïý êáé
óõíÝíùóçò ÷ñçóéìïðïéïýíôáé ãéá ôçí áõôüìáôç ðñïóáñìïãÞ ôïõ ðëÞèïõò ôùí
ïìÜäùí. Ôá áðïôåëÝóìáôá ôçò ðåéñáìáôéêÞò áðïôßìçóçò êáôÝäåéîáí ôçí áíùôå-
ñüôçôá ôçò ðñïôåéíüìåíçò ìåèüäïõ Ýíáíôé ôçò ìåèüäïõ k-medoid ó÷åôéêÜ ôüóï
ìå ôï õðïëïãéóôéêü êüóôïò üóï êáé ìå ôçí ðïéüôçôá ôçò ðáñáãüìåíçò ïìáäï-
ðïßçóçò. ÅðéðëÝïí, åðéâåâáßùóáí ôçí éêáíüôçôá ôçò ðñïôåéíüìåíçò ìåèüäïõ íá
áíé÷íåýåé áõôüìáôá ôï ðëÞèïò ôùí ïìÜäùí.
ÊÅÖÁËÁÉÏ 5

Óõíå÷Þò Ïìáäïðïßçóç óå
Õðï÷þñïõò∗
Ðåñéå÷üìåíá
5.1 ÅÉÓÁÃÙÃÇ . . . . . . . . . . . . . . . . . . . . . . . 67
5.2 Ó×ÅÔÉÊÇ ÂÉÂËÉÏÃÑÁÖÉÁ . . . . . . . . . . . . . 71
5.3 ÁÕÎÇÔÉÊÇ ÏÌÁÄÏÐÏÉÇÓÇ . . . . . . . . . . . 72
5.4 ÁÕÎÇÔÉÊÏÓ ÕÐÏËÏÃÉÓÌÏÓ ÔÙÍ PCLUSTERS 87
5.5 ÐÅÉÑÁÌÁÔÉÊÇ ÁÐÏÔÉÌÇÓÇ . . . . . . . . . . . 88
5.6 ÓÕÌÐÅÑÁÓÌÁÔÁ . . . . . . . . . . . . . . . . . . 96

5.1 ÅéóáãùãÞ
¼ðùò áíáöÝñèçêå óôá ðñïçãïýìåíá êåöÜëáéá, ïé ñïÝò äåäïìÝíùí ðñïêÜëåóáí
ðñüóöáôá ôï åíäéáöÝñïí ôçò åñåõíçôéêÞò êïéíüôçôáò [16, 21, 35], ëüãù ôïõ ãåãï-
íüôïò üôé ðïëëÝò åöáñìïãÝò ÷åéñßæïíôáé äåäïìÝíá ðïõ ðïëý óõ÷íÜ ìåôáâÜëëïíôáé
÷ñïíéêÜ. ÁíáöÝñáìå Þäç óôï ÊåöÜëáéï 3 üôé ôï âáóéêüôåñï ÷áñáêôçñéóôéêü ôùí
ñïþí åßíáé üôé ðñüêåéôáé ãéá ìç-ðåðåñáóìÝíïõ ìÞêïõò ÷ñïíïóåéñÝò, äçëáäÞ äåäï-
ìÝíá ðñïóôßèåíôáé äéáñêþò óôï ôÝëïò ôçò ñïÞò êáé åðïìÝíùò áðáéôïýíôáé åéäéêÜ
ó÷åäéáóìÝíïé áëãüñéèìïé ãéá íá ÷åéñéóèïýí ôüóï ôç äõíáìéêÞ öýóç üóï êáé ôïí
ôåñÜóôéï üãêï äåäïìÝíùí.
Ëüãù ôçò ðïëý äõíáìéêÞò öýóçò ôùí ñïþí äåäïìÝíùí, ç ôõ÷áßá ðñïóðÝëáóç
åßíáé áðáãïñåõôéêÞ ëüãù êüóôïõò. ÅðïìÝíùò, êÜèå ñïÞ äåäïìÝíùí ìðïñåß íá äéá-
âáóèåß ìüíï ìßá öïñÜ (Þ ðåñéïñéóìÝíïõ áñéèìïý öïñÝò). Áõôü ôï ÷áñáêôçñéóôéêü
∗ Ôï êåöÜëáéï áíôëåß ôá ðåñéå÷üìåíÜ ôïõ áðü ôéò åñãáóßåò [104, 107].

67
68 ÊÅÖÁËÁÉÏ 5. ÓÕÍÅ×ÇÓ ÏÌÁÄÏÐÏÉÇÓÇ ÓÅ ÕÐÏ×ÙÑÏÕÓ

èÝôåé åðéðñüóèåôåò äõóêïëßåò óôçí åðåîåñãáóßá åñùôçìÜôùí, áöïý ðñáêôéêÜ ôá


äåäïìÝíá ìðïñïýí íá ðñïóðåëáóèïýí ìüíï ìå ôç óåéñÜ Üöéîçò ôïõò. ÅðéðëÝïí,
åðéðñüóèåôåò ìÝèïäïé áðáéôïýíôáé ãéá ðñïâëÞìáôá åîüñõîçò äåäïìÝíùí, üðùò ç
ïìáäïðïßçóç, ðñïêåéìÝíïõ íá ÷åéñéóèïýí ðéèáíÝò áëëáãÝò óôçí êáôáíïìÞ ôùí
äåäïìÝíùí.
Ìßá êéíïýìåíç ÷ñïíïóåéñÜ s åßíáé ìßá áêïëïõèßá ðñáãìáôéêþí ôéìþí ôçò
ìïñöÞò s[1]; s[2]; : : :, üðïõ íÝåò ôéìÝò äéáñêþò ðñïóôßèåíôáé ìå ôçí ðÜñïäï ôïõ
÷ñüíïõ. Óçìåéþóôå üôé ïé íÝåò ôéìÝò ðñïóôßèåíôáé ðÜíôá óôï ôÝëïò ôçò ñïÞò,
åßíáé äçëáäÞ ôáîéíïìçìÝíåò ìå âÜóç ôï ÷ñüíï Üöéîçò. Ãéá ðáñÜäåéãìá, èåùñåß-
óôå Ýíáí áéóèçôÞñá äéêôýïõ, ï ïðïßïò ðáñáêïëïõèåß äéÜöïñá ìåãÝèç óå ôáêôÜ
÷ñïíéêÜ äéáóôÞìáôá, üðùò ôç èåñìïêñáóßá, ôçí õãñáóßá, ôï åðßðåäï öùôüò, ôçí
ôá÷ýôçôá áÝñá. Ï áéóèçôÞñáò äçìéïõñãåß ìßá ñïÞ äåäïìÝíùí ôåóóÜñùí äéáóôÜ-
óåùí. Èåùñåßóôå åðéðëÝïí üôé Ýíáò åñåõíçôÞò åíäéáöÝñåôáé íá ìåëåôÞóåé ôéò ôéìÝò
áíÜ äéáóôÞìáôá, ãéá ðáñÜäåéãìá ðñùéíÝò Þ áðïãåõìáôéíÝò þñåò, ðñïêåéìÝíïõ íá
ìåëåôÞóåé ôçí áðïôåëåóìáôéêüôçôá ôçò êáôáíÜëùóçò íåñïý óå áãñïôéêÝò êáë-
ëéÝñãåéåò, åíäéáöÝñåôáé äçëáäÞ ãéá Ýíá õðï÷þñï.

5.1.1 Êßíçôñï ìåëÝôçò


Ç ïìáäïðïßçóç èåùñåßôáé ìßá óçìáíôéêÞ ëåéôïõñãßá ôçò åîüñõîçò äåäïìÝíùí.
Ó÷åôéêÜ áðïôåëÝóìáôá Ý÷ïõí áíáöåñèåß ãéá ðïëëïýò äéáöïñåôéêïýò ôýðïõò äå-
äïìÝíùí [77, 54]. Ç ðñüêëçóç óå Ýíá óýíïëï êéíïýìåíùí ÷ñïíïóåéñþí åßíáé íá
åíçìåñþíïõìå ôçí ðëçñïöïñßá ôçò ïìáäïðïßçóçò ìå ôçí ðÜñïäï ôïõ ÷ñüíïõ, áðï-
öåýãïíôáò Ýôóé ôç äéáäéêáóßá ôçò ïìáäïðïßçóçò áðü ôçí áñ÷Þ, ç ïðïßá åßíáé ðïëý
÷ñïíïâüñá. Óôéò êéíïýìåíåò ÷ñïíïóåéñÝò åßíáé åðéèõìçôü íá ÷ñçóéìïðïéïýìå áõ-
îçôéêïýò áëãïñßèìïõò ïìáäïðïßçóçò ãéá íá êáôáóôÞóïõìå äõíáôÞ êáé áðïäïôéêÞ
ôç óõíå÷Þ ïìáäïðïßçóç.
ÄåäïìÝíïõ åíüò óõíüëïõ êéíïýìåíùí ÷ñïíïóåéñþí, ç ïìáäïðïßçóç ìðïñåß íá
åöáñìïóèåß óå üëåò ôéò äéáèÝóéìåò ôéìÝò ìÝóá óå Ýíá êáèïñéóìÝíï ìÞêïò, ðïõ
åßíáé ãíùóôü ùò êéíïýìåíï ðáñÜèõñï. Ôï ìÞêïò ôïõ êéíïýìåíïõ ðáñáèýñïõ êá-
èïñßæåé ôï ðëÞèïò ôùí äéáóôÜóåùí ìßáò êéíïýìåíçò ÷ñïíïóåéñÜò. Ãéá ðáñÜäåéãìá,
Ýíá êéíïýìåíï ðáñÜèõñï ìÞêïõò 256 óçìáßíåé üôé ç ÷ñïíïóåéñÜ ìðïñåß íá èåù-
ñçèåß ùò Ýíá äéÜíõóìá óå Ýíá ÷þñï 256 äéáóôÜóåùí. ÊÜèå äéÜóôáóç áíôéóôïé÷åß
óå ìßá ÷ñïíéêÞ óôéãìÞ. Ç áíáæÞôçóç ïìÜäùí óå Ýíá ìåãÜëï óýíïëï äéáóôÜ-
óåùí åßíáé ðéèáíü íá ìçí åßíáé åðéôõ÷Þò, ãéáôß êáèþò áõîÜíåôáé ôï ìÝãåèïò ôïõ
êéíïýìåíïõ ðáñáèýñïõ, ôüóï ìåéþíåôáé ç ðéèáíüôçôá äýï ñïÝò íá áíÞêïõí óôçí
ßäéá ïìÜäá. Óå ðïëëÝò ðåñéðôþóåéò, ðáñüôé äýï Þ ðåñéóóüôåñåò ñïÝò äåí áíÞêïõí
óôçí ßäéá ïìÜäá ãéá ïëüêëçñï ôï ìÞêïò ôïõ êéíïýìåíïõ ðáñáèýñïõ, ìðïñåß íá
áíÞêïõí óôçí ßäéá ïìÜäá áí åîåôÜóïõìå Ýíá õðïóýíïëï ôùí äéáóôÜóåùí.
Ç Åéêüíá 5.1 áðåéêïíßæåé ôñåéò êéíïýìåíåò ÷ñïíïóåéñÝò A; B êáé C óå Ýíá
êéíïýìåíï ðáñÜèõñï ìÞêïõò 17. ÕðïèÝôïõìå üôé äýï ñïÝò áíÞêïõí óôçí ßäéá
ïìÜäá, áí ç äéáöïñÜ ôùí ôéìþí ôïõò óôéò áíôßóôïé÷åò äéáóôÜóåéò åßíáé ìéêñüôåñç
5.1. ÅÉÓÁÃÙÃÇ 69

Þ ßóç áðü 2. ÅîåôÜæïíôáò ôçí Åéêüíá 5.1, åßíáé Ýêäçëï üôé áõôÝò ïé ñïÝò äåí
ìðïñïýí íá áíÞêïõí óôçí ßäéá ïìÜäá, áöïý ç äéáöïñÜ ôùí ôéìþí ôïõò óå áñêåôÝò
äéáóôÜóåéò åßíáé ðåñéóóüôåñï áðü 2. Ãéá ðáñÜäåéãìá, ç äéáöïñÜ ôéìÞò ôùí A êáé
B óôç äåýôåñç äéÜóôáóç åßíáé 7{4=3. Ùóôüóï, èåùñþíôáò õðïóýíïëá äéáóôÜ-
óåùí, ïé ñïÝò A êáé B áíÞêïõí óôçí ßäéá ïìÜäá ãéá ôá äéáóôÞìáôá äéáóôÜóåùí
[d3 ; d6 ], ôï ïðïßï ðåñéÝ÷åé ôéò äéáóôÜóåéò d3 ; d4 ; d5 ; d6 êáé [d9 ; d17 ], ôï ïðïßï ðå-
ñéÝ÷åé d9 ; d10 ; d11 ; d12 ; d13 ; d14 ; d15 ; d16 ; d17 . Åßíáé Ýêäçëï, üôé ç äéáöïñÜ ôéìÞò
ôùí ñïþí A êáé B óå êÜèå ìßá áðü áõôÝò ôéò äéáóôÜóåéò åßíáé ìéêñüôåñç áðü Þ
ßóç ìå 2.

EIKONA 5.1. ÐáñÜäåéãìá ïìáäïðïßçóçò óå õðï÷þñïõò.

Ç âáóéêÞ ðñïûðüèåóç ãéá ôç äçìéïõñãßá ïìÜäùí óå õðï÷þñïõò åßíáé üôé êÜèå


ïìÜäá èá ðñÝðåé íá ðåñéÝ÷åé Ýíáí éêáíü áñéèìü ñïþí óå Ýíá éêáíü áñéèìü óõíå-
÷üìåíùí äéáóôÜóåùí. Ïé ðáñáãüìåíåò ïìÜäåò óå õðï÷þñïõò óõíåéóöÝñïõí óôçí
áíáêÜëõøç ÷ñÞóéìçò ãíþóçò, áöïý áðïêáëýðôïõí Ýíáí õøçëü âáèìü ïìïéüôç-
ôáò ìåôáîý ñïþí ðïõ áíÞêïõí óôçí ßäéá ïìÜäá. Ãéá ðáñÜäåéãìá, èåùñåßóôå Ýíá
óýíïëï êéíïýìåíùí ÷ñïíïóåéñþí ðïõ áíáöÝñïõí óõíå÷þò ìåôñÞóåéò èåñìïêñá-
óßáò. Áí Ýíáò éêáíüò áñéèìüò áéóèçôÞñùí áíáöÝñåé ðáñüìïéåò ôéìÝò ãéá Ýíá éêáíü
áñéèìü óõíå÷üìåíùí ÷ñïíéêþí óôéãìþí, ôüôå Ýíáò åéäéêüò ìðïñåß íá åîÜãåé ÷ñÞ-
óéìá óõìðåñÜóìáôá ìåëåôþíôáò ôï öáéíüìåíï áíáëõôéêüôåñá.
Ôï ðñïôåéíüìåíï ó÷Þìá ïìáäïðïßçóçò ìðïñåß íá ÷ñçóéìïðïéçèåß ìå äýï ôñü-
ðïõò. Ðñþôïí, ìðïñåß íá ÷ñçóéìïðïéçèåß ùò åñãáëåßï ïìáäïðïßçóçò óå õðï÷þ-
ñïõò óå ðïëëïýò ôïìåßò åöáñìïãþí üðùò:
➣ Ðáñáêïëïýèçóç áéóèçôÞñùí . Ïé áéóèçôÞñåò ðïõ äßíïõí ðáñüìïéåò ôé-
ìÝò óôéò ßäéåò ÷ñïíéêÝò ðåñéüäïõò, êáôáäåéêíýïõí üôé ïé ðåñéâáëëïíôéêÝò
óõíèÞêåò óôéò áíôßóôïé÷åò ôïðïèåóßåò åßíáé ðáñüìïéåò (ð.÷., èåñìïêñáóßá,
ôá÷ýôçôá áÝñá, óåéóìéêÞ óõìðåñéöïñÜ).
➣ ÁíÜëõóç êßíçóçò. Ìßá ôçëåöùíéêÞ åôáéñåßá ìðïñåß íá ïìáäïðïéÞóåé ôïõò
ðåëÜôåò ôçò áíÜëïãá ìå ôïí ôýðï ôùí ôçëåöùíçìÜôùí ôïõò Þ ôï ýøïò ôïõ
ôçëåöùíéêïý ôïõò ëïãáñéáóìïý. ÅéäéêÝò ôéìÝò ìðïñïýí íá ðñïóöåñèïýí óå
70 ÊÅÖÁËÁÉÏ 5. ÓÕÍÅ×ÇÓ ÏÌÁÄÏÐÏÉÇÓÇ ÓÅ ÕÐÏ×ÙÑÏÕÓ

Ýíá ðëÞèïò ïìÜäùí óå óõãêåêñéìÝíåò ÷ñïíéêÝò ðåñéüäïõò ðñïêåéìÝíïõ íá


áõîçèïýí ôá êÝñäç ôçò åôáéñåßáò.
Äåýôåñïí, ìðïñåß íá ÷ñçóéìïðïéçèåß ùò ôñüðïò áõîçôéêïý õðïëïãéóìïý ôùí
pClusters óå óõíå÷üìåíåò ìüíï äéáóôÜóåéò. Ïé pClusters [139, 163] Ý÷ïõí ðñïôá-
èåß óôï ðáñåëèüí ùò ìÝèïäïò åýñåóçò ïìÜäùí óå ïðïéïäÞðïôå õðïóýíïëï äéáóôÜ-
óåùí óå óôáôéêÜ äåäïìÝíá. Ùóôüóï, óôá äåäïìÝíá ôùí ñïþí, õðÜñ÷åé ôï âáóéêü
÷áñáêôçñéóôéêü ôçò ôáîéíüìçóçò ìå âÜóç ôï ÷ñüíï Üöéîçò. Ãé' áõôü ôï ëüãï, óå
áõôü ôï êåöÜëáéï, áó÷ïëïýìáóôå ìå ôçí åýñåóç pClusters ìüíï óå óõíå÷üìåíåò
äéáóôÜóåéò.

5.1.2 ÓõíåéóöïñÜ
Ðáñüôé ç âéâëéïãñáößá åßíáé ðëïýóéá óå ìåèüäïõò êáé ôå÷íéêÝò ïìáäïðïßçóçò
óå õðï÷þñïõò êáé óå óõíå÷Þ åðåîåñãáóßá åñùôçìÜôùí, äåí õðÜñ÷åé åñãáóßá óå
óõíå÷Þ ïìáäïðïßçóç óå õðï÷þñïõò óå äõíáìéêÜ äåäïìÝíá. ÅðïìÝíùò, ðáñïõóéÜ-
æïõìå ìßá ìåèïäïëïãßá ãéá ôçí åðßëõóç ôïõ ðñïâëÞìáôïò êáé ìåëåôïýìå áðïôåëå-
óìáôéêïýò áëãïñßèìïõò ãéá ôçí áðïäïôéêÞ áíß÷íåõóç -ïìÜäùí ãéá Ýíá óýíïëï
êéíïýìåíùí ÷ñïíïóåéñþí. Ðñïò áõôÞí ôçí êáôåýèõíóç, ðñïôåßíïõìå ìßá ìÝèïäï
ãéá ôçí åíçìÝñùóç ôùí ïìÜäùí üôáí íÝåò ôéìÝò ñïþí ãßíïíôáé äéáèÝóéìåò, áðï-
öåýãïíôáò ôç äéáäéêáóßá ïìáäïðïßçóçò áðü ôçí áñ÷Þ. Ïé ðáñáãüìåíåò -ïìÜäåò
ïñßæïíôáé óå óõíå÷üìåíåò ìüíï äéáóôÜóåéò.
ÅðéðëÝïí, ìåëåôïýìå ôïí áõîçôéêü õðïëïãéóìü ôùí pClusters óå óõíå÷üìåíåò
äéáóôÜóåéò, ï ïðïßïò âáóßæïíôáé óôç ÷ñÞóç ôçò ìåôñéêÞò pScore ðïõ ðñïôÜèçêå
óôéò åñãáóßåò [139, 163]. Áðïäåéêíýåôáé üôé ç ìÝèïäïò ãéá ôçí áíß÷íåõóç -
ïìÜäùí óå õðï÷þñïõò ìðïñåß åýêïëá íá ðñïóáñìïóèåß åðßóçò ãéá ôçí áíß÷íåõóç
pClusters. Ï áðïäïôéêüôåñïò áëãüñéèìïò ãéá ôçí áíß÷íåõóç pClusters óå ïðïéï-
äÞðïôå õðïóýíïëï áðü ôéò äéáèÝóéìåò äéáóôÜóåéò åßíáé ï MaPle [139]. Ùóôüóï,
ï MaPle áíé÷íåýåé pClusters ìüíï óå óôáôéêÝò ÷ñïíïóåéñÝò. Ç ðñïôåéíüìåíç
ìÝèïäïò ìðïñåß íá ÷ñçóéìïðïéçèåß ãéá ôçí áõîçôéêÞ pClusters. Åðéðñüóèåôá, ç
ðñïôåéíüìåíç ìÝèïäïò ìðïñåß åðßóçò íá ÷ñçóéìïðïéçèåß áðïôåëåóìáôéêÜ ãéá ôçí
áíß÷íåõóç pClusters óå óôáôéêÝò ÷ñïíïóåéñÝò îåðåñíþíôáò óçìáíôéêÜ ôïí áëãü-
ñéèìï MaPle áðü ôçí Üðïøç ôçò áðüäïóçò. Ùóôüóï, ç ðñïôåéíüìåíç ìÝèïäïò
áíé÷íåýåé pClusters ìüíï óå óõíå÷üìåíåò äéáóôÜóåéò óå áíôßèåóç ìå ôï MaPle
ðïõ áíé÷íåýåé pClusters óå ïðïéïäÞðïôå õðïóýíïëï äéáóôÜóåùí.
Óõíïøßæïíôáò, ç óõíåéóöïñÜ ôïõ êåöáëáßïõ åßíáé ç åîÞò:
(á) ç ìåëÝôç ôïõ ðñïâëÞìáôïò ôçò ïìáäïðïßçóçò óå õðï÷þñïõò óå êéíïýìåíåò
÷ñïíïóåéñÝò
(â) ç ìåëÝôç ôçò óõíå÷Þò ïìáäïðïßçóçò óå õðï÷þñïõò ëáìâÜíïíôáò õðüøç ôç
ìåôáâïëÞ ôùí ÷ñïíïóåéñþí,
(ã) ï áõîçôéêüò õðïëïãéóìüò ôùí pClusters óå óõíå÷üìåíåò äéáóôÜóåéò,
5.2. Ó×ÅÔÉÊÇ ÂÉÂËÉÏÃÑÁÖÉÁ 71

(ä) ç áðïôßìçóç ôçò áðüäïóçò ôçò ðñïôåéíüìåíçò ìåèüäïõ ôüóï óå ðñáãìáôéêÜ


üóï êáé óå óõíèåôéêÜ óýíïëá äåäïìÝíùí, êáé
(å) ç óýãêñéóç áðüäïóçò ôçò ðñïôåéíüìåíçò ìåèüäïõ êáé ôçò ìåèüäïõ MaPle,
ôçò êáëýôåñçò ìåèüäïõ ïìáäïðïßçóçò óå õðï÷þñïõò ãéá ôçí áíß÷íåõóç
pClusters.

5.2 Ó÷åôéêÞ Âéâëéïãñáößá


Ç ïìáäïðïßçóç åßíáé Ýíá óçìáíôéêüôáôï ðñüâëçìá ìå éäéáßôåñç åñåõíçôéêÞ áðï-
ôåëÝóìáôá [77, 54]. Óôéò åñãáóßåò [28] êáé [120] ðáñïõóéÜóèçêå üôé ç åýñåóç
ïìïéüôçôáò êáé ïìáäïðïßçóçò áíôßóôïé÷á åßíáé Üóêïðç ãéá ÷þñïõò ðïëý ìåãÜ-
ëïõ ðëÞèïõò äéáóôÜóåùí. ÁõôÞ ç ðáñáôÞñçóç ïäÞãçóå Ýíá ìåãÜëï áñéèìü åñåõ-
íçôþí íá ìåëåôÞóïõí åíáëëáêôéêÝò ìåèïäïëïãßåò ïìáäïðïßçóçò. Ìßá åñåõíçôéêÞ
êáôåýèõíóç ðïõ áêïëïõèÞèçêå åßíáé ç ïìáäïðïßçóç óå õðï÷þñïõò.
Óôçí åñãáóßá [9], ïé óõããñáöåßò ìåëÝôçóáí ôï ðñüâëçìá ôçò ïìáäïðïßç-
óçò óå õðï÷þñïõò óå ÷þñïõò ðïëëþí äéáóôÜóåùí êáé ðñüôåéíáí ôïí áëãüñéèìï
CLIQUE, ðïõ åßíáé Ýíáò bottom-up áëãüñéèìïò âáóéóìÝíïò óå ðëÝãìá ãéá ôçí
áíáêÜëõøç ïìÜäùí ìå âÜóç ôçí ðõêíüôçôá. Ï ÷þñïò ÷ùñßæåôáé óå ßóïõ ìåãÝ-
èïõò êåëéÜ êáé ç ðõêíüôçôá êÜèå êåëéïý õðïëïãßæåôáé ùò ôï êëÜóìá ôïõ áñéèìïý
ôùí áíôéêåéìÝíùí óôï êåëß ðñïò ôï óõíïëéêü áñéèìü áíôéêåéìÝíùí. Ï CLIQUE
åíôïðßæåé ôá ðõêíÜ êåëéÜ êáé ôá óõíåíþíåé ãéá íá äçìéïõñãÞóåé ïìÜäåò óå ÷þ-
ñïõò ðïëëþí äéáóôÜóåùí. Óôçí åñãáóßá [43], ÷ñçóéìïðïéÞèçêå ç Ýííïéá ôçò
åíôñïðßáò ãéá ôïí êáèïñéóìü ôùí ðõêíþí êåëéþí, åíþ óôçí åñãáóßá [94] ðñï-
ôÜèçêå ìßá ìÝèïäïò åíùìÝíçò-ðõêíüôçôáò âáóéóìÝíç óôïí áëãüñéèìï DBSCAN
[55]. Ìßá äéáöïñåôéêÞ ðñïóÝããéóç áêïëïõèÞèçêå óôçí åñãáóßá [89], üðïõ ðñï-
ôÜèçêå ç ìÝèïäïò Fascicle ùò ó÷Þìá ïìáäïðïßçóçò êáé óõìðßåóçò äåäïìÝíùí.
¼ëåò ïé ðñïáíáöåñèåßóåò ìÝèïäïé ðñïôÜèçêáí ãéá óôáôéêÜ óýíïëá äåäïìÝíùí,
êáé ç ðñïóáñìïãÞ ôïõò óôçí ðåñßðôùóç ôùí ñïþí äåí åßíáé ðñïöáíÞò.
Óôéò åñãáóßåò [6, 7, 173], ïé óõããñáöåßò ðñüôåéíáí áëãïñßèìïõò top-down
ãéá ôçí áíáêÜëõøç ïìÜäùí óå õðï÷þñïõò. Ôï âáóéêü ìåéïíÝêôçìá áõôþí ôùí
ìåèüäùí åßíáé ç ÷ñÞóç ôçò ðáñáìÝôñïõ k, ðïõ êáèïñßæåé ôï ðëÞèïò ôùí ïìÜäùí
óå õðï÷þñïõò ðïõ ðñÝðåé íá åîÜãåé ç ìÝèïäïò. Óå ðïëëÝò åöáñìïãÝò, áõôÞ ç
ôéìÞ äåí åßíáé ãíùóôÞ åê ôùí ðñïôÝñùí êáé åðéðëÝïí óôá äõíáìéêÜ ðåñéâÜëëïíôá,
üðùò åßíáé ïé ñïÝò, áõôÞ ôéìÞ åßíáé ðéèáíü íá ìåôáâÜëëåôáé.
ÁñêåôÝò åñåõíçôéêÝò óõíåéóöïñÝò Ý÷ïõí ÷ñçóéìïðïéÞóåé ôéò -ïìÜäåò ãéá ôçí
ïìáäïðïßçóç óå õðï÷þñïõò [44, 139, 163, 161, 173]. Ùóôüóï, ç Ýííïéá ôùí  -
ïìÜäùí ÷ñçóéìïðïéåßôáé äéáöïñåôéêÜ óå êÜèå ìßá åñãáóßá. Óôçí åñãáóßá [44], ïé
 -äéóïìÜäåò ðñïôÜèçêáí ãéá ôçí áíß÷íåõóç ïìÜäùí óå õðï÷þñïõò óå óýíïëá ãï-
íéäßùí êáé óõíèÞêåò ôïõ DNA. Óôçí åñãáóßá [163], ðñïôÜèçêå ç ìåôñéêÞ pScore
ãéá ôç ìÝôñçóç ôçò óõíåêôéêüôçôáò ìßáò ïìÜäáò. Ç ìÝèïäïò ðñïóäéïñßæåé ïìÜ-
äåò âáóéóìÝíùí óå æåýãç áíôéêåéìÝíïõ êáé ÷áñáêôçñéóôéêïý êáé áîéïðïéåß Ýíá
72 ÊÅÖÁËÁÉÏ 5. ÓÕÍÅ×ÇÓ ÏÌÁÄÏÐÏÉÇÓÇ ÓÅ ÕÐÏ×ÙÑÏÕÓ

pre x-tree ãéá íá áíé÷íåýóåé ïìÜäåò óå ÷þñïõò ðïëëþí äéáóôÜóåùí. Ç ßäéá ìå-
ôñéêÞ ÷ñçóéìïðïéÞèçêå óôçí åñãáóßá [139] ãéá ôçí åýñåóç ïìÜäùí âáóéóìÝíùí
óå æåýãç, ìáæß ìå Ýíáí áëãüñéèìï áíáæÞôçóçò êáôÜ âÜèïò (depth- rst-search)
ãéá íá áðïññßøåé ðåñéôôÝò ïìÜäåò. Óôçí åñãáóßá [161], ïé óõããñáöåßò Ýäåéîáí üôé
ïé ìÝèïäïé áõôÝò äåí êëéìáêþíïíôáé êáëÜ óå ìåãÜëá óýíïëá äåäïìÝíùí êáé ðñü-
ôåéíáí ìßá êáôÜëëçëç ìÝèïäï, ôç SeqClus, ðïõ âáóßæåôáé óå ìßá äïìÞ äåäïìÝíùí
Counting Tree êáé ðáñÝ÷åé ìßá óõìðéåóìÝíç óýíïøç ôùí ðõêíþí ðñïôýðùí óôï
óýíïëï äåäïìÝíùí. ×ñçóéìïðïéþíôáò ôéò åìöáíßóåéò åíüò ðõêíïý ðñïôýðïõ, ç
SeqClus ðáñÜãåé ïìÜäåò óå õðï÷þñïõò. Ïé ìÝèïäïé áõôÝò ëåéôïõñãïýí óå óôá-
ôéêÜ óýíïëá äåäïìÝíùí. Äåí åßíáé åýêïëç ç ðñïóáñìïãÞ áõôþí ôùí ìåèüäùí
óå äõíáìéêÜ ðåñéâÜëëïíôá, äéüôé åßôå âáóßæïíôáé: (á) óå ìåèüäïõò ðñïóðÝëáóçò,
ïé ïðïßåò ðñÝðåé íá åíçìåñþíïíôáé äéáñêþò ãéá íá ÷åéñßæïíôáé ôç óõíå÷Þ Üöéîç
ôéìþí, Þ (â) óå áëãüñéèìïõò ôùí ïðïßùí ç ðñïóáñìïãÞ ôïõò óå áõîçôéêïýò äåí
åßíáé äõíáôÞ.
Ðñüóöáôá, ôï ðñüâëçìá ôçò ïìáäïðïßçóçò óå ñïÝò äåäïìÝíùí Ý÷åé ðñïóåëêý-
óåé ôï åíäéáöÝñïí ôçò åñåõíçôéêÞò êïéíüôçôáò [4, 19, 38, 73, 75]. Ç ðëåéïøçößá
áõôþí ôùí óõíåéóöïñþí åöáñìüæïõí ðáñáëëáãÝò ôçò ôå÷íéêÞò ïìáäïðïßçóçò k-
median. ÁõôÝò ïé ìÝèïäïé áó÷ïëïýíôáé ìå ôçí ïìáäïðïßçóç ôùí ôéìþí ìßáò ìüíï
ñïÞò äåäïìÝíùí. Ùóôüóï, áí ëÜâïõìå õðüøç ôéò áðáéôÞóåéò ôùí óõã÷ñüíùí åöáñ-
ìïãþí, ïé ìÝèïäïé áõôÝò åßíáé áñêåôÜ ðåñéïñéóìÝíçò ðñáêôéêüôçôáò, áöïý ïëïÝíá
êáé ðåñéóóüôåñåò åöáñìïãÝò áðáéôïýí ôç äéá÷åßñéóç ðïëëþí ñïþí äåäïìÝíùí.
Ëüãù ôçò äõíáìéêÞò öýóçò ôùí ñïþí äåäïìÝíùí, ïé óõíå÷åßò êáé áõîçôé-
êïß áëãüñéèìïé åßíáé áðáñáßôçôïé ãéá ôçí åðåîåñãáóßá êéíïýìåíùí ÷ñïíïóåéñþí.
Ðñüóöáôåò åñåõíçôéêÝò åñãáóßåò óôç óõíå÷Þ åðåîåñãáóßá åñùôçìÜôùí åßíáé ïé
[4, 19, 73, 75]. ÁõôÝò ïé åñåõíçôéêÝò óõíåéóöïñÝò ìåëåôïýí äéÜöïñá æçôÞìáôá
ôçò óõíå÷ïýò åðåîåñãáóßáò åñùôçìÜôùí, ëáìâÜíïíôáò õðüøç ôïõò õøçëïýò ñõè-
ìïýò Üöéîçò íÝùí äåäïìÝíùí.
Åî üóùí åßíáé ãíùóôÜ, áõôÞ åßíáé ç ðñþôç ðñïóðÜèåéá åðßëõóçò ôïõ ðñïâëÞ-
ìáôïò ôçò óõíå÷ïýò êáé áõîçôéêÞò ïìáäïðïßçóçò óå õðï÷þñïõò óå êéíïýìåíåò
÷ñïíïóåéñÝò.

5.3 ÁõîçôéêÞ Oìáäïðïßçóç


Ãéá ëüãïõò ðáñïõóßáóçò, ïé ôéìÝò ôùí ñïþí óôéò ôåëåõôáßåò W äéáóôÜóåéò áíáðá-
ñßóôáíôáé áðü Ýíáí ðßíáêá, üðïõ ïé ãñáììÝò áíáðáñéóôïýí ôéò ñïÝò, åíþ ïé óôÞëåò
áíáðáñéóôïýí ôéò ôåëåõôáßåò W ÷ñïíéêÝò óôéãìÝò. Ï Ðßíáêáò 5.1 óõíïøßæåé ôá
âáóéêÜ óýìâïëá êáé ôïõò áíôßóôïé÷ïõò ïñéóìïýò ðïõ ÷ñçóéìïðïéïýíôáé óå áõôü
ôï êåöÜëáéï. Îåêéíïýìå ôç äéåñåýíçóç ôïõ ðñïâëÞìáôïò ìå Ýíá ðëÞèïò âáóéêþí
ïñéóìþí ðïõ èá ÷ñçóéìïðïéçèïýí óå áõôÞ ôç ìåëÝôç.
ÏÑÉÓÌÏÓ 5.1 (ÁðëÞ -ïìÜäá). Ìßá áðëÞ -ïìÜäá ðåñéÝ÷åé Ýíá ðëÞèïò ñïþí,
ôùí ïðïßùí ïé ìåôáîý ôïõò áðïóôÜóåéò åßíáé ôï ðïëý óå ìßá óõãêåêñéìÝíç
5.3. ÁÕÎÇÔÉÊÇ ÏÌÁÄÏÐÏÉÇÓÇ 73

Óýìâïëï ÐåñéãñáöÞ
s; si êéíïýìåíç ÷ñïíïóåéñÜ
s[i] ôéìÝò ôçò s óôçí i-ïóôÞ äéÜóôáóç
N ðëÞèïò ôùí ñïþí
W ìÝãåèïò êéíïýìåíïõ ðáñáèýñïõ
Ci ìÝãéóôç -ïìÜäá õðï÷þñïõ
ci;j j -ïóôÞ áðëÞ -ïìÜäá ôçò i-ïóôÞò äéÜóôáóçò
c; c0 áðëÞ -ïìÜäá
m ðëÞèïò ñïþí óå ìßá ïìÜäá
G; Gi óýíïëï õðïøÞöéùí -ïìÜäùí
minRows åëÜ÷éóôï åðéôñåðüìåíï ðëÞèïò ñïþí ðïõ ðåñéÝ÷ïíôáé óå ìßá
-ïìÜäá õðï÷þñïõ
minCols åëÜ÷éóôï åðéôñåðüìåíï ðëÞèïò óõíå÷üìåíùí äéáóôÜóåùí
ðïõ ðåñéÝ÷ïíôáé óå ìßá -ïìÜäá õðï÷þñïõ
ìÝãéóôç åðéôñåðüìåíç áðüóôáóç ìåôáîý ñïþí óå ìßá äéÜóôáóç

ΠINAKAΣ 5.1. ÂáóéêÜ óýìâïëá Êåöáëáßïõ 5.

äéÜóôáóç. Äåí õðÜñ÷åé ðåñéïñéóìüò ó÷åôéêÜ ìå ôïí áñéèìü ôùí ñïþí ðïõ ðåñéÝ÷åé
êÜèå ïìÜäá.
Ç j -ïóôÞ áðëÞ -ïìÜäá ôçò i-ïóôÞò äéÜóôáóçò óõìâïëßæåôáé ùò ci;j . Ï ïñé-
óìüò áõôüò äåí ëáìâÜíåé õðüøç ðéèáíïýò ðåñéïñéóìïýò ãéá ôï ðëÞèïò ôùí ñïþí
ìßáò ïìÜäáò êáé ôïí áñéèìü ôùí óõíå÷üìåíùí äéáóôÜóåùí. ÅîáíáãêÜæïíôáò
êÜèå ïìÜäá íá ðåñéÝ÷åé ôïõëÜ÷éóôïí minRows ñïÝò óå ôïõëÜ÷éóôïí minCols
äéáóôÜóåéò Ý÷ïõìå:
ÏÑÉÓÌÏÓ 5.2 ( -ïìÜäá õðï÷þñïõ). Ìßá -ïìÜäá õðï÷þñïõ ðåñéÝ÷åé ôïõëÜ÷é-
óôïí minRows ñïÝò, ôùí ïðïßùí ç ìÝãéóôç äéáöïñÜ ôéìÞò åßíáé ôï ðïëý óå
ôïõëÜ÷éóôïí minCols óõíå÷üìåíåò äéáóôÜóåéò.
Óôï ðáñÜäåéãìá ôçò Åéêüíáò 5.1, õðïèÝôïíôáò üôé minRows=2, minCols=3
êáé =2, Ý÷ïõìå äýï ðáñáãüìåíåò -ïìÜäåò õðï÷þñïõ, ðïõ ðåñéÝ÷ïõí ôéò ñïÝò
A êáé B , óôïõò õðï÷þñïõò [d3 ; d6 ] êáé [d9 ; d17 ]. Ùóôüóï, õðïèÝôïíôáò üôé
minCols=5, Ý÷ïõìå ìüíï ìßá -ïìÜäá õðï÷þñïõ ðïõ ïñßæåôáé óôéò äéáóôÜóåéò
[d9 ; d17 ]. ÅðéðëÝïí, õðïèÝôïíôáò üôé minRows=3, äåí õðÜñ÷åé êáìßá -ïìÜäá
õðï÷þñïõ, áöïý äåí ìðïñïýìå íá ðñïóäéïñßóïõìå ìßá -ïìÜäá õðï÷þñïõ ðïõ íá
ðåñéÝ÷åé ôïõëÜ÷éóôïí ôñåéò ñïÝò.
Ìßá -ïìÜäá õðï÷þñïõ C óõìâïëßæåôáé ùò Ýíá æåýãïò ôçò ìïñöÞò (S ; [di ; dj ]),
üðïõ S åßíáé Ýíá óýíïëï ñïþí êáé [di ; dj ] åßíáé Ýíá äßáóôçìá óõíïëéêÜ j − i + 1
óõíå÷üìåíùí äéáóôÜóåùí (÷ñïíéêþí óôéãìþí), üðïõ i ≤ j . Ðñïöáíþò, ôï ðëÞèïò
ôïõ S ðñÝðåé íá åßíáé ôïõëÜ÷éóôïí minRows, åíþ ôï ðëÞèïò ôùí óõíå÷üìåíùí
äéáóôÜóåùí ðñÝðåé íá åßíáé ôïõëÜ÷éóôïí minCols. ÕðïèÝôïõìå üôé ïé ñïÝò ðïõ
74 ÊÅÖÁËÁÉÏ 5. ÓÕÍÅ×ÇÓ ÏÌÁÄÏÐÏÉÇÓÇ ÓÅ ÕÐÏ×ÙÑÏÕÓ

ðåñéÝ÷ïíôáé óôï S áíáðáñßóôáíôáé áðü ôá áíôßóôïé÷á áíáãíùñéóôéêÜ ôïõò (IDs).


ÅðéðñïóèÝôùò, õðïèÝôïõìå üôé ôá IDs ôùí ñïþí áðïèçêåýïíôáé óôï S ìå áýîïõóá
óåéñÜ.
ÏÑÉÓÌÏÓ 5.3 (ìÝãéóôç -ïìÜäá õðï÷þñïõ). Ìßá -ïìÜäá õðï÷þñïõ (S ; [di ; dj ])
åßíáé ìÝãéóôç, áí: (á) äåí ìðïñïýìå íá åíôïðßóïõìå ìßá Üëëç -ïìÜäá (S ; [dk ; dl ])
ôÝôïéá þóôå k ≤ i êáé l ≥ j , êáé (â) äåí ìðïñïýìå íá åíôïðßóïõìå ìßá Üëëç -
ïìÜäá (T ; [di ; dj ]) ôÝôïéá þóôå S ⊂ T .
Ïé -ïìÜäåò õðï÷þñïõ Ý÷ïõí ìßá ðïý âïëéêÞ éäéüôçôá, ãíùóôÞ ùò closure
property. Ç åðüìåíç ðñüôáóç åîçãåß:
ÐÑÏÔÁÓÇ 5.4 (Closure property). ¸óôù C = (S ; [di ; dj ]) åßíáé ìßá -ïìÜäá
õðï÷þñïõ, ü÷é áðáñáßôçôá ìÝãéóôç. Ôüôå êÜèå ïìÜäá C 0 = (S 0 ; [dk ; dl ]) ôÝôïéá
þóôå S 0 ⊂ S ; k ≥ i; l ≤ j; |S 0 | ≥ minRows êáé l − k + 1 ≥ minCols, åßíáé åðßóçò
-ïìÜäá õðï÷þñïõ.
ÁÐÏÄÅÉÎÇ. Ðñþôá, èá äåßîïõìå üôé áí C = (S ; [di ; dj ]) åßíáé ìßá -ïìÜäá õðï-
÷þñïõ, ôüôå C 0 = (S 0 ; [di ; dj ]) åßíáé åðßóçò ìßá -ïìÜäá õðï÷þñïõ, áí S 0 ⊂ S .
ÕðïèÝóôå üôé ç C 0 äåí åßíáé -ïìÜäá õðï÷þñïõ. Åöüóïí |S 0 | ≥ minRows êáé
j − i + 1 ≥ minCols, ï ìüíïò ëüãïò ðáñáâßáóçò ôïõ ïñéóìïý åßíáé ç ýðáñîç
ôïõëÜ÷éóôïí äýï ñïþí s1 ∈ S 0 êáé s2 ∈ S 0 ôÝôïéùí þóôå ç äéáöïñÜ ôùí ôéìþí
ôïõò íá åßíáé ðåñéóóüôåñï áðü óå ôïõëÜ÷éóôïí ìßá äéÜóôáóç. ¼ìùò, áöïý
s1 ∈ S êáé s2 ∈ S , óõìðåñáßíïõìå üôé ç C äåí åßíáé -ïìÜäá õðï÷þñïõ, ãåãïíüò
ðïõ áíôéâáßíåé óôçí áñ÷éêÞ ìáò õðüèåóç.
ÌåôÜ, äåß÷íïõìå üôé áí C = (S ; [di ; dj ]) åßíáé ìßá -ïìÜäá õðï÷þñïõ, ôüôå
C = (S ; [dk ; dl ]) åßíáé åðßóçò ìßá -ïìÜäá õðï÷þñïõ, áí k ≥ i; l ≤ j . Êáé ðÜëé,
0

õðïèÝóôå üôé ç C 0 äåí åßíáé ìßá -ïìÜäá õðï÷þñïõ. Áõôü óçìáßíåé üôé õðÜñ÷ïõí
äýï ñïÝò s1 ∈ S ; s2 ∈ S êáé ìßá äéÜóôáóç dx ; k ≤ x ≤ l ôÝôïéá þóôå ç äéáöïñÜ ôùí
ôéìþí ôïõò íá åßíáé ðåñéóóüôåñï áðü . ¼ìùò, áöïý ç äéÜóôáóç dx ðåñéÝ÷åôáé
óôçí ïìÜäá C êáôáëÞãïõìå êáé ðÜëé üôé ç C äåí åßíáé -ïìÜäá õðï÷þñïõ. a
Ç äýíáìç ôçò closure property âñßóêåôáé óôï ãåãïíüò üôé äåí åßíáé áðá-
ñáßôçôï íá áíé÷íåýóïõìå üëåò ôéò ðéèáíÝò -ïìÜäåò õðï÷þñïõ, áëëÜ ìüíï Ýíá
õðïóýíïëï áðü áõôÝò. ÁõôÞ ç éäéüôçôá ìïéÜæåé ìå ôçí áñ÷Þ Apriori [12], ç ïðïßá
÷ñçóéìïðïéÞèçêå ãéá ôçí áíáêÜëõøç êáíüíùí óõó÷Ýôéóçò (association rule).
Ôþñá ìðïñïýìå íá ðñï÷ùñÞóïõìå ìå ôçí áíáëõôéêÞ ðåñéãñáöÞ ôçò ðñïôåéíü-
ìåíçò ìåèïäïëïãßáò, ðïõ åðéëýåé ôï åîÞò ðñüâëçìá:
ÄïäïìÝíïõ åíüò óõíüëïõ êéíïýìåíùí ÷ñïíïóåéñþí, ìßá ìÝãéóôç åðéôñåðôÞ
äéáöïñÜ , Ýíá ìÝãåèïò êéíïýìåíïõ ðáñáèýñïõ W êáé ïé äýï áêÝñáéåò ôéìÝò
minRows êáé minCols, åíôüðéóå óõíå÷þò üëåò ôéò ìÝãéóôåò -ïìÜäåò õðï÷þ-
ñïõ, üðïõ êÜèå ïìÜäá ðåñéÝ÷åé ôïõëÜ÷éóôïí minRows ñïÝò, êáé ç äéáöïñÜ ôùí
ôéìþí ôïõò åßíáé ìéêñüôåñç áðü Þ ßóç ìå , óå ôïõëÜ÷éóôïí minCols óõíå÷üìåíåò
äéáóôÜóåéò.
5.3. ÁÕÎÇÔÉÊÇ ÏÌÁÄÏÐÏÉÇÓÇ 75

Ç ðñïôåéíüìåíç ìåèïäïëïãßá áðïôåëåßôáé áðü ôéò åîÞò öÜóåéò: (á) ôç öÜóç


áñ÷éêïðïßçóçò, ç ïðïßá åíôïðßæåé Ýíá áñ÷éêü óýíïëï áðü ìÝãéóôåò -ïìÜäåò õðï-
÷þñïõ, êáé (â) ìßá óåéñÜ áðü öÜóåéò åíçìÝñùóçò, ïé ïðïßåò óõíôçñïýí áõîçôéêÜ
ôéò ïìÜäåò üôáí ãßíïíôáé äéáèÝóéìåò íÝåò ôéìÝò ãéá ôéò ñïÝò.

5.3.1 Áñ÷éêïðïßçóç ïìÜäùí


Ï óêïðüò ôçò öÜóçò áñ÷éêïðïßçóçò ïìÜäùí (cluster initialization phase - CI)
åßíáé íá åíôïðßóåé Ýíá áñ÷éêü óýíïëï ìÝãéóôùí -ïìÜäùí õðï÷þñïõ, âÜóåé ôùí
ôåëåõôáßùí W ôéìþí êÜèå êéíïýìåíçò ÷ñïíïóåéñÜò. ÊÜèå ïìÜäá ðñÝðåé íá ðåñéÝ-
÷åé ôïõëÜ÷éóôïí minRows ñïÝò êáé ôïõëÜ÷éóôïí minCols óõíå÷üìåíåò ÷ñïíéêÝò
óôéãìÝò.
Ç äéáäéêáóßá CI áðïôåëåßôáé áðü Ýíá óýíïëï âçìÜôùí. Óôï ðñþôï âÞìá, êÜèå
÷ñïíéêÞ óôéãìÞ (äéÜóôáóç) åîåôÜæåôáé ÷ùñéóôÜ ãéá íá åíôïðéóèïýí ïé áðëÝò -
ïìÜäåò (ðïõ ïñßæïíôáé óå ìßá äéÜóôáóç ìüíï). Óôï åðüìåíï âÞìá, ï áëãüñéèìïò
ðáñÜãåé üëåò ôéò ïìÜäåò ðïõ ðåñéÝ÷ïõí m=2 ñïÝò óôï ìÝãéóôï äõíáôü áñéèìü
óõíå÷üìåíùí äéáóôÜóåùí. Óå êÜèå åðüìåíï âÞìá, ï áëãüñéèìïò ðñïóðáèåß íá
áõîÞóåé ôï ðëÞèïò ôùí ñïþí ðïõ ðåñéÝ÷ïíôáé óôçí ïìÜäá (m=m+1), ìÝ÷ñé íá
ïëïêëçñùèåß ï åíôïðéóìüò üëùí ôùí õðáñ÷üíôùí ìÝãéóôùí -ïìÜäùí õðï÷þñïõ,
óýìöùíá ìå ôéò ôéìÝò ôùí ; minRows êáé minCols. Ïé ïìÜäåò ðïõ ðåñéÝ÷ïõí
ëéãüôåñåò áðü minCols äéáóôÜóåéò áðïññßðôïíôáé ìüíéìá óå êÜèå âÞìá ôïõ áëãï-
ñßèìïõ, áöïý äåí ìðïñïýí íá óõíåéóöÝñïõí óôï ôåëéêü áðïôÝëåóìá.
Èá åîçãÞóïõìå ôç äéáäéêáóßá CI ìå ôç âïÞèåéá åíüò ðáñáäåßãìáôïò, ðïõ áðåé-
êïíßæåôáé óôéò Åéêüíåò 5.2, 5.3 êáé 5.4. ÕðïèÝóôå üôé õðÜñ÷ïõí N =5 êéíïýìåíåò
÷ñïíïóåéñÝò ìå ìÝãåèïò êéíïýìåíïõ ðáñáèýñïõ W =4. ÅðéðëÝïí, èåùñåßóôå üôé
=2, minRows=4 êáé minCols=3. Ç Åéêüíá 5.2(a) äåß÷íåé ôéò ôéìÝò êÜèå ñïÞò
óå êÜèå äéÜóôáóç, ç Åéêüíá 5.2(b) äåß÷íåé ôá õðïóýíïëá ôùí ôéìþí ðïõ éêáíï-
ðïéïýí ôïí ðåñéïñéóìü ôïõ , åíþ ç Åéêüíá 5.2(c) äåß÷íåé ôéò ðáñáãüìåíåò áðëÝò
-ïìÜäåò ãéá =2.
Ãéá íá ðñïóäéïñßóïõìå ôéò áðëÝò -ïìÜäåò óå êÜèå äéÜóôáóç, ðñï÷ùñïýìå ùò
åîÞò. Ïé ôéìÝò óå êÜèå äéÜóôáóç ôáîéíïìïýíôáé ìå áýîïõóá óåéñÜ. Åðåîåñãá-
æüìáóôå ôçí ðáñáãüìåíç ôáîéíïìçìÝíç áêïëïõèßá S ìå ôç âïÞèåéá äýï äåéêôþí
pleft êáé pright . Áñ÷éêÜ, ïé äåßêôåò pleft êáé pright ôïðïèåôïýíôáé óôï ðñþôï
óôïé÷åßï ôçò ôáîéíïìçìÝíçò áêïëïõèßáò. Ï äåßêôçò pright áõîÜíåôáé ìÝ÷ñé íá
öôÜóåé Ýíá óôïé÷åßï üðïõ |S [pleft ] − S [pright ]| > . ¼ôáí óõìâåß áõôü, ôüôå üëá
ôá óôïé÷åßá S [pleft ]; S [pleft + 1]; : : : ; S [pright − 1] ó÷çìáôßæïõí ìßá áðëÞ ïìÜäá
óôç óõãêåêñéìÝíç äéÜóôáóç. Óôç óõíÝ÷åéá, ï äåßêôçò pleft áõîÜíåôáé êáôÜ Ýíá,
êáé ç ßäéá äéáäéêáóßá åðáíáëáìâÜíåôáé ìÝ÷ñé ï pright íá öôÜóåé ôï ôÝëïò ôçò áêï-
ëïõèßáò. Áí äýï ïìÜäåò ôåëåéþíïõí óôï ßäéï óôïé÷åßï, ôüôå áðïññßðôåôáé áõôüò
ìå ôá ëéãüôåñá óôïé÷åßá.
ÌåôÜ ôç äçìéïõñãßá ôïõ áñ÷éêïý óõíüëïõ ôùí áðëþí -ïìÜäùí, ôï åðüìåíï
âÞìá åîåôÜæåé æåýãç ñïþí êáé åíôïðßæåé áí áõôÝò ïé äýï ñïÝò áíÞêïõí óå ßäéåò
76 ÊÅÖÁËÁÉÏ 5. ÓÕÍÅ×ÇÓ ÏÌÁÄÏÐÏÉÇÓÇ ÓÅ ÕÐÏ×ÙÑÏÕÓ

! #$
" "

" "

" "

" "

! #$

EIKONA 5.2. Áñ÷éêïðïßçóç ïìÜäùí.

áðëÝò -ïìÜäåò óå óõíå÷üìåíåò äéáóôÜóåéò. Ç Åéêüíá 5.3(a) äåß÷íåé ôéò áðëÝò


-ïìÜäåò üðïõ áíÞêïõí ïé ñïÝò áíÜ äéÜóôáóç, åíþ ç Åéêüíá 5.3(b) áðåéêïíßæåé
üëåò ôéò ðáñáãüìåíåò ïìÜäåò 2-åðéðÝäïõ (m-åðéðÝäïõ ïìÜäá óçìáßíåé üôé ç ïìÜäá
ðåñéÝ÷åé m ñïÝò). ÊÜèå 2-åðéðÝäïõ ïìÜäá ó÷çìáôßæåôáé óõíäõÜæïíôáò äýï ñïÝò
ðïõ Ý÷ïõí êïéíÝò áðëÝò -ïìÜäåò óå ôïõëÜ÷éóôïí minCols óõíå÷üìåíåò äéá-
óôÜóåéò. Ïé êïéíÝò áðëÝò -ïìÜäåò öáßíïíôáé óôçí ôÝôáñôç óôÞëç ôçò Åéêüíáò
5.3(b). Ïé õðïøÞöéåò 2-åðéðÝäïõ ïìÜäåò ÷ùñßæïíôáé óå ôÝóóåñá äéáöïñåôéêÜ óý-
íïëá, üðùò õðïäåéêíýïõí ïé äéáêåêïììÝíåò ãñáììÝò óôçí Åéêüíá 5.3(b). ¼ëåò
ïé õðïøÞöéåò ïìÜäåò óå Ýíá óýíïëï ðñÝðåé íá Ý÷ïõí m{1 êïéíÝò ñïÝò êáé ìðïñïýí
íá äéáöÝñïõí ìüíï óôçí ôåëåõôáßá ñïÞ. Óôç óõíÝ÷åéá åðåîåñãáæüìáóôå êÜèå óý-
íïëï ÷ùñéóôÜ êáé åðïìÝíùò, îåêéíïýìå ìå ôï ðñþôï óýíïëï ðïõ áðïôåëåßôáé áðü
õðïøÞöéåò ïìÜäåò ìå êïéíÞ ôç ñïÞ s1 . ÊÜðïéåò ïìÜäåò èá áðïññéöèïýí, åíþ Üëëåò
èá ÷ñçóéìïðïéçèïýí ãéá íá ó÷çìáôßóïõí 3-åðéðÝäïõ ïìÜäåò.
ÐÑÏÔÁÓÇ 5.5 (ÊñéôÞñéï áðüññéøçò ïìÜäáò). Áí ï áñéèìüò ôùí õðïøÞöéùí m-
åðéðÝäïõ ïìÜäùí åíüò óõíüëïõ åßíáé ìéêñüôåñïò áðü minRows{m+1, ôüôå üëåò
ïé ïìÜäåò áõôïý ôïõ óõíüëïõ ìðïñïýí íá áðïññéöèïýí ìå áóöÜëåéá.
ÁÐÏÄÅÉÎÇ. Èåùñåßóôå üôé Ý÷ïõìå Ýíá óýíïëï G ðïõ áðïôåëåßôáé áðü x m-
åðéðÝäïõ ïìÜäåò, ìå x < minRows − m + 1. Áí ç ðñþôç m-åðéðÝäïõ ïìÜäá ôïõ
óõíüëïõ óõíäõáóèåß ìå üëåò ôéò õðüëïéðåò x{1 m-åðéðÝäïõ ïìÜäåò ôïõ ßäéïõ óõíü-
ëïõ, ôüôå Ýíá íÝï óýíïëï ó÷çìáôßæåôáé ðïõ ðåñéÝ÷åé x{1 (m+1)-åðéðÝäïõ ïìÜäåò.
Áí ç äåýôåñç m-åðéðÝäïõ ïìÜäá ôïõ G óõíäõáóèåß ìå üëåò ôéò x{2 m-åðéðÝäïõ
5.3. ÁÕÎÇÔÉÊÇ ÏÌÁÄÏÐÏÉÇÓÇ 77

#
"
$
%
&

EIKONA 5.3. Áñ÷éêïðïßçóç ïìÜäùí (óõíÝ÷åéá).

ïìÜäåò ôïõ G, ôüôå ó÷çìáôßæåôáé Ýíá Üëëï óýíïëï ìå x{2 (m+1)-åðéðÝäïõ ïìÜ-
äåò. ÅðïìÝíùò, óôï (m+1)-ïóôü åðßðåäï, ï ìÝãéóôïò áñéèìüò (m+1)-åðéðÝäïõ
ïìÜäùí ðïõ ðåñéÝ÷ïíôáé óå Ýíá óýíïëï èá åßíáé ôï ðïëý x{1. Óôï minRows-
åðßðåäï, Ýíá óýíïëï èá Ý÷åé ôï ðïëý x − minRows + m ïìÜäåò, êáé åðïìÝíùò
x < minRows − m + 1 ⇒ x − minRows + m < 1. Áõôü óçìáßíåé üôé äåí åßíáé
äõíáôü íá Ý÷ïõìå ìßá -ïìÜäá õðï÷þñïõ êáé Ýôóé ôï G ìðïñåß íá äéáãñáöåß. a
Åßíáé ðñïöáíÝò, üôé üëåò ïé õðïøÞöéåò ïìÜäåò ôïõ ðñþôïõ óõíüëïõ åðéâéþ-
íïõí ôïõ êñéôçñßïõ áðüññéøçò ïìÜäùí. Ìå ìéá ðñþôç ìáôéÜ, öáßíåôáé üôé êáé ïé
ôÝóóåñéò ïìÜäåò ìðïñïýí íá ÷ñçóéìïðïéçèïýí óôï åðüìåíï âÞìá, áöïý êÜèå ìßá
áðü áõôÝò ðåñéÝ÷åé ôïõëÜ÷éóôïí ôñåéò äéáóôÜóåéò. Ùóôüóï, ìå ìßá ðñïóåêôéêü-
ôåñç ìáôéÜ ðáñáôçñïýìå üôé ç äéÜóôáóç d4 ìðïñåß íá áðïññéöèåß. Ç áêüëïõèç
ðñüôáóç åîçãåß:
ÐÑÏÔÁÓÇ 5.6 (ÊñéôÞñéï áðüññéøçò äéÜóôáóçò). Áí êÜèå õðïøÞöéá -ïìÜäá
óå Ýíá óýíïëï G ðåñéÝ÷åé áêñéâþò m ñïÝò êáé ôï ðëÞèïò ôùí åìöáíßóåùí ìßáò
äéÜóôáóçò óôï G åßíáé ëéãüôåñï áðü minRows{m+1, ôüôå áõôÞ ç äéÜóôáóç äåí
ìðïñåß íá óõíåéóöÝñåé óôç äçìéïõñãßá -ïìÜäùí õðï÷þñïõ.
ÁÐÏÄÅÉÎÇ. Èåùñåßóôå Ýíá óýíïëï G ìå m-ïìÜäåò. ÕðïèÝóôå üôé ïé åìöáíßóåéò
ìßáò äéÜóôáóçò di óôï G åßíáé om < minRows − m + 1. Ôüôå, óôï åðüìåíï
åðßðåäï, ïé (m+1)-åðéðÝäïõ ïìÜäåò ïðïéïõäÞðïôå óõíüëïõ èá åßíáé ôï ðïëý x{1
78 ÊÅÖÁËÁÉÏ 5. ÓÕÍÅ×ÇÓ ÏÌÁÄÏÐÏÉÇÓÇ ÓÅ ÕÐÏ×ÙÑÏÕÓ

(äåßôå ôçí áðüäåéîç ôçò Ðñüôáóçò 5.5) êáé ï áñéèìüò åìöáíßóåùí ôçò äéÜóôáóçò
di óôï G èá åßíáé ôï ðïëý om+1 =om {1. Ç áðüäåéîç åßíáé ðáñüìïéá ìå áõôÞí ôçò
Ðñüôáóçò 5.5 êáé ðáñáëåßðåôáé.
Óôï minRows-åðßðåäï, ôï ðëÞèïò ôùí åìöáíßóåùí ôçò di èá åßíáé ôï ðïëý
ominRows = om − minRows + m. ÅðïìÝíùò, ominRows < minRows − m + 1 −
minRows + m ⇒ ominRows < 1, êáé áõôü óçìáßíåé üôé ç äéÜóôáóç di äåí ìðïñåß
íá óõììåôÝ÷åé óå ìßá -ïìÜäá õðï÷þñïõ. a

Áí ç åöáñìïãÞ ôïõ êñéôçñßïõ áðüññéøçò äéÜóôáóçò åðçñåÜæåé êÜðïéá õðÜñ-


÷ïõóá ïìÜäá, ôüôå åßôå ç ïìÜäá èá áðïññéöèåß áí ôï ðëÞèïò ôùí äéáóôÜóåùí
åßíáé ìéêñüôåñï áðü minCols, Þ ç ïìÜäá èá óõññéêíùèåß (óõññßêíùóç äéáóôÜ-
óåùí) áí ï áñéèìüò ôùí äéáóôÜóåùí åßíáé ôïõëÜ÷éóôïí minCols. Åöáñìüæïíôáò
ôï êñéôÞñéï áðüññéøçò äéÜóôáóçò óôï ðáñÜäåéãìÜ ìáò, åßíáé ðñïöáíÝò üôé ç äéÜ-
óôáóç d4 ðïõ Ý÷åé äýï ìüíï åìöáíßóåéò (äåßôå ôçí Åéêüíá 5.3(c), èá áðïññéöèåß
áðü ôçí ðåñáéôÝñù äéáäéêáóßá. Áõôü óçìáßíåé üôé ç ïìÜäá 3 èá ðåñéÝ÷åé ðëÝïí
ôéò ñïÝò {s1 ; s2 } êáé ôéò äéáóôÜóåéò d2 êáé d3 . ¼ìùò, áöïý minCols=3 áõôÞ
ç ïìÜäá áðïññßðôåôáé áðü ôç óõíÝ÷åéá ôïõ áëãïñßèìïõ (óêéáãìÝíç ãñáììÞ ôçò
Åéêüíáò 5.3(b)).

EIKONA 5.4. Áñ÷éêïðïßçóç ïìÜäùí (óõíÝ÷åéá).

Óôï åðüìåíï âÞìá, ç ìÝèïäïò ðñïóðáèåß íá åíþóåé ïìÜäåò ðïõ åðéâßùóáí áðü
ôï ðñïçãïýìåíï âÞìá, ìå óêïðü ôç äçìéïõñãßá ïìÜäùí ðïõ ðåñéÝ÷ïõí m +1 ñïÝò.
ÅðïìÝíùò, ðñïóðáèïýìå íá åíþóïõìå ôéò ïìÜäåò 1 ìå 2, 1 ìå 4 êáé 2 ìå 4 (ç
ïìÜäá 3 Ý÷åé áðïññéöèåß). Áõôïß ïé óõíäõáóìïß åìöáíßæïíôáé óå ìïñöÞ ðßíáêá
óôçí Åéêüíá 5.4(a). Ïé ïìÜäåò ÷ùñßæïíôáé óå äéáöïñåôéêÜ óýíïëá. ÊÜèå óýíïëï
ðñÝðåé íá ðåñéÝ÷åé ôéò ïìÜäåò ðïõ Ý÷ïõí êïéíÜ üëá ôá IDs ñïþí, åêôüò áðü ôï
ôåëåõôáßï. Ãéá ðáñÜäåéãìá, ïé õðïøÞöéåò ïìÜäåò 1 êáé 2 ðåñéÝ÷ïíôáé óôï ðñþôï
óýíïëï áöïý äéáöÝñïõí ìüíï óôçí ôåëåõôáßá ñïÞ êáé Ý÷ïõí äýï êïéíÝò ñïÝò s1 êáé
s2 . Êáé ðÜëé, ìå ìéá ðñþôç ìáôéÜ öáßíåôáé üôé êáé ïé ôñåéò õðïøÞöéåò ïìÜäåò ôçò
Åéêüíáò 5.4(a) ìðïñïýí íá ÷ñçóéìïðïéçèïýí óôç óõíÝ÷åéá. Ùóôüóï, ç ïìÜäá 3
ìðïñåß íá áðïññéöèåß, óýìöùíá ìå ôï êñéôÞñéï áðüññéøçò ïìÜäáò (Ðñüôáóç 5.5).
Áõôü áðåéêïíßæåôáé ìå ôç óêéáãìÝíç ãñáììÞ óôçí Åéêüíá 5.4(a).
ÅîåôÜæïíôáò ôéò ïìÜäåò 1 êáé 2 ôïõ ðñþôïõ óõíüëïõ, åßíáé öáíåñü üôé êáé
ïé äýï ïìÜäåò åðéâéþíïõí áðü ôá êñéôÞñéá áðüññéøçò. ÅðïìÝíùò, áõôÝò ïé äýï
ïìÜäåò óõíäõÜæïíôáé ó÷çìáôßæïíôáò ìßá 4-åðéðÝäïõ ïìÜäá, üðùò öáßíåôáé óôçí
5.3. ÁÕÎÇÔÉÊÇ ÏÌÁÄÏÐÏÉÇÓÇ 79

Åéêüíá 5.4(b). Èõìçèåßôå, üôé minRows=4 êáé minCols=3. ÅðïìÝíùò, áõôÞ


ç ïìÜäá óõììåôÝ÷åé óôçí áðÜíôçóç, åöüóïí ðåñéÝ÷åé ôÝóóåñéò ñïÝò êáé áõôÝò ïé
ñïÝò ó÷çìáôßæïõí ìßá -ïìÜäá õðï÷þñïõ óå ôñåéò äéáóôÜóåéò.
Ôþñá áò åðéóôñÝøïõìå íá åîåôÜóïõìå ôï äåýôåñï óýíïëï ïìÜäùí ôçò Åéêüíáò
5.3(b). Ç õðïøÞöéá ïìÜäá 6 äåí èá ðáñáãüôáí ðïôÝ áðü ôïí áëãüñéèìï, áöïý äåí
éêáíïðïéåß ôïí ðåñéïñéóìü ôùí minCols äéáóôÜóåùí. Åìöáíßæåôáé åäþ ìüíï ãéá
ëüãïõò ðáñïõóßáóçò. Áõôü óçìáßíåé üôé õðÜñ÷ïõí ìüíï äýï õðïøÞöéåò ïìÜäåò
óå áõôü ôï óýíïëï. Óýìöùíá ìå ôï êñéôÞñéï áðüññéøçò ïìÜäáò, áõôÝò ïé ïìÜäåò
áðïññßðôïíôáé.
ÌÝ÷ñé áõôü ôï óçìåßï, åîåôÜóáìå üëåò ôéò õðïøÞöéåò ïìÜäåò ôùí ñïþí s1 êáé
s2 . Åßíáé áðáñáßôçôï íá åëÝãîïõìå ôéò ïìÜäåò ôùí ñïþí s3 ; s4 êáé s5 ; Ç áðÜíôçóç
åßíáé áñíçôéêÞ, áöïý äåí åðéâéþíåé êÜðïéá ïìÜäá åíüò óõíüëïõ áðü ôï êñéôÞñéï
áðüññéøçò ïìÜäáò. Óôçí ðñáãìáôéêüôçôá, åöüóïí õðÜñ÷ïõí ôñåéò åíáðïìåßíáóåò
ñïÝò, äåí åßíáé äõíáôÞ ç äçìéïõñãßá ìßáò 4-åðéðÝäïõ ïìÜäáò (minRows=4), üðùò
êáôáäåéêíýåôáé áðü ôçí åîÞò ðñüôáóç:
ÐÑÏÔÁÓÇ 5.7 (ÊñéôÞñéï áðüññéøçò ñïÞò). Áí ôï ðëÞèïò ôùí õðïëïßðùí ñïþí
åßíáé ìéêñüôåñï áðü minRows, ôüôå üëá ôá óýíïëá ôùí õðïøÞöéùí ïìÜäùí ðïõ
ðáñÜ÷èçêáí áðü áõôÝò ôéò ñïÝò ìðïñïýí íá áðïññéöèïýí ìå áóöÜëåéá, åöüóïí
äåí åßíáé äõíáôÞ ç äçìéïõñãßá -ïìÜäáò õðï÷þñïõ áðü áõôÜ.
ÁÐÏÄÅÉÎÇ. ÕðïèÝóôå üôé õðÜñ÷ïõí x åíáðïìåßíáóåò ñïÝò ãéá åðåîåñãáóßá, üðïõ
éó÷ýåé x < minRows. Áí m=2, ôï ðëÞèïò ôùí ïìÜäùí ðïõ ìðïñïýí íá ó÷çìáôé-
óèïýí óå Ýíá óýíïëï åßíáé ôï ðïëý x{1 (äåßôå áðüäåéîç ôçò Ðñüôáóçò 5.5). ÌåôÜ
áðü minRows{2 åðßðåäá, üðïõ m=minRows, ôï ðëÞèïò ôùí ïìÜäùí óå Ýíá óý-
íïëï èá åßíáé ôï ðïëý x −1− minRows +2 = x − minRows +1 < 1, ðïõ óçìáßíåé
üôé x < minRows ñïÝò äåí ìðïñïýí íá ó÷çìáôßóïõí -ïìÜäá õðï÷þñïõ. a

Ï áëãüñéèìïò CI ôåñìáôßæåé óå áõôü ôï óçìåßï êáé áíáöÝñåé ùò áðÜíôçóç


ôçí ïìÜäá ðïõ áðåéêïíßæåôáé óôçí Åéêüíá 5.4(b). Èõìçèåßôå üôé êÜèå óýíïëï
õðïøÞöéùí ïìÜäùí ìåëåôÞèçêå ÷ùñéóôÜ. Åßíáé äõíáôü ï áëãüñéèìïò CI íá ìçí
åíôïðßóåé êÜðïéá -ïìÜäá õðï÷þñïõ; Ç áðÜíôçóç åßíáé áñíçôéêÞ üðùò áðïäåé-
êíýåôáé áðü ôçí åðüìåíç ðñüôáóç.
ÐÑÏÔÁÓÇ 5.8 (Ïñèüôçôá áëãïñßèìïõ CI). ÅîåôÜæïíôáò ÷ùñéóôÜ êÜèå óýíïëï
õðïøÞöéùí ïìÜäùí, äåí åßíáé äõíáôü íá ìçí åíôïðéóèåß êÜðïéá ìÝãéóôç -ïìÜäá
õðï÷þñïõ.

ÁÐÏÄÅÉÎÇ. ÕðïèÝóôå üôé Ý÷ïõìå äýï õðïøÞöéåò -ïìÜäåò C1 = (S1 ; [di ; dj ])


êáé C2 = (S2 ; [di ; dj ]), üðïõ S1 = {s1 ; : : : , sj ; sk ; sj +1 ; : : : ; sj +i } êáé S2 =
{s1 ; : : : ; sj ; sl ; sj +1 ; : : : ; sj +i }. ÁõôÝò ïé ïìÜäåò äéáöÝñïõí óå ìßá ìüíï ñïÞ ðïõ
äåí åßíáé ç ôåëåõôáßá êáé ãé' áõôü ôï ëüãï áíÞêïõí óå äéáöïñåôéêÜ óýíïëá. ÊÜèå
ìßá ðåñéÝ÷åé áêñéâþò m = j + i + 1 ñïÝò.
80 ÊÅÖÁËÁÉÏ 5. ÓÕÍÅ×ÇÓ ÏÌÁÄÏÐÏÉÇÓÇ ÓÅ ÕÐÏ×ÙÑÏÕÓ

¸óôù C3 = (S3 ; [di ; dj ]) åßíáé ìßá -ïìÜäá, ðïõ ìðïñåß íá ðáñá÷èåß áðü ôï
óõíäõáóìü ôùí C1 êáé C2 , üðïõ S3 = {s1 ; : : : ; sj ; sk ; sl ; sj +1 ; : : : ; sj +i }. Ôüôå,
ëüãù ôçò closure property, õðÜñ÷ïõí åðßóçò ïé åîÞò ïìÜäåò: C4 = (S4 ; [di ; dj ])
êáé C5 = (S5 ; [di ; dj ]), üðïõ S4 = s1 ; : : : ; sj ; sk ; sl ; sj +1 ; : : : ; sj +i−2 ; sj +i−1 êáé
S5 = s1 ; : : : ; sj ; sk ; sl ; sj +1 ; : : : ; sj +i−2 ; sj +i . Óçìåéþóôå üôé ïé ïìÜäåò C4 êáé
C5 áíÞêïõí óôï ßäéï óýíïëï, áöïý äéáöÝñïõí ìüíï óôç ôåëåõôáßá ñïÞ. Áõôü

Algorithm CI (S ; , minRows, minCols, W )


Input
S: set of streams,
: maximum value di erence for a dimension in a cluster,
minRows: minimum number of streams per cluster,
minCols: minimum number of dimensions per cluster,
W : sliding window size
Output
A: set of maximal subspace -clusters

1. for i=1 to W
2. compute all simple -clusters for dimension di ;
3. end for
4. for i=1 to N − minRows + 1
5. set m = 2;
6. generate m-level candidate -clusters for stream i;
7. apply cluster pruning;
8. apply dimension pruning;
9. while there exist m-level candidates do
10. generate m + 1-level candidate -clusters that
contain minCols or more dimensions;
11. increase m;
12. if m ≥ minRows and
13. C is maximal subspace -cluster then
14. update A;
15. end if
16. apply cluster pruning;
17. apply dimension pruning;
18. end while
19. end for
20. report A;

EIKONA 5.5. ÐåñéãñáöÞ áëãïñßèìïõ CI.


5.3. ÁÕÎÇÔÉÊÇ ÏÌÁÄÏÐÏÉÇÓÇ 81

óçìáßíåé, üôé ç ïìÜäá C3 èá ðáñá÷èåß áðü ôï óõíäõáóìü ôùí ïìÜäùí C4 êáé C5 ,


êáé åðïìÝíùò, äåí áðáéôåßôáé ï óõíäõáóìüò ôùí C1 êáé C2 . a

Ìå ôç âïÞèåéá ôçò Ðñüôáóçò 5.8, ï áëãüñéèìïò CI õðïëïãßæåé üëåò ôéò ìÝãé-


óôåò -ïìÜäåò õðï÷þñïõ, èåùñþíôáò ìüíï õðïøÞöéåò ïìÜäåò ðïõ áíÞêïõí óôï
ßäéï óýíïëï. Ìå áõôüí ôïí ôñüðï, åßíáé áäýíáôï íá áíáêáëýøïõìå ôçí ßäéá ïìÜäá
ðåñéóóüôåñåò áðü ìßá öïñÝò êáé êáôÜ óõíÝðåéá, áðáéôåßôáé ìéêñüôåñï õðïëïãé-
óôéêü êüóôïò. Ç ðåñéãñáöÞ ôïõ Áëãïñßèìïõ CI ðáñïõóéÜæåôáé óôçí Åéêüíá 5.5.

5.3.2 ÓõíôÞñçóç ïìÜäùí


Ï óêïðüò ôçò öÜóçò óõíôÞñçóçò ïìÜäùí (cluster maintenance phase - CM) åßíáé
íá äéáôçñÞóåé åíÞìåñç ôçí ðëçñïöïñßá ôçò ïìáäïðïßçóçò, ëáìâÜíïíôáò õðüøç
óõíå÷þò ôéò íÝåò ôéìÝò ôùí ñïþí. ÁõôÞ ç öÜóç åêôåëåßôáé üðïôå íÝåò ôéìÝò ãéá
ïðïéáäÞðïôå ñïÞ ãßíåôáé äéáèÝóéìç. Äéá÷ùñßæïõìå äýï äéáöïñåôéêÝò ðåñéðôþóåéò
ðïõ áíôéìåôùðßæïíôáé áðü äéáöïñåôéêïýò áëãïñßèìïõò:
1. Óå êÜèå ÷ñïíéêÞ óôéãìÞ åíçìåñþíïíôáé ìå íÝåò ôéìÝò üëåò ïé ñïÝò, êáé
2. Óå êÜèå ÷ñïíéêÞ óôéãìÞ åíçìåñþíåôáé ìå íÝá ôéìÞ ìüíï ìßá ñïÞ.

5.3.2.1 ÐïëëáðëÝò åíçìåñþóåéò áíÜ äéÜóôáóç


Óå áõôÞí ôçí ðåñßðôùóç åíçìåñþíïíôáé ïé ôéìÝò üëùí ôùí ñïþí óå êÜèå ÷ñïíéêÞ
óôéãìÞ 1 . Åöüóïí ç åðåîåñãáóßá ÷ñçóéìïðïéåß ôï ìïíôÝëï ôïõ êéíïýìåíïõ ðáñá-
èýñïõ, ç áñéóôåñüôåñç äéÜóôáóç èá ðñÝðåé íá äéáãñáöåß êáé ç íÝá íá åíóùìáôùèåß
óôï ôÝëïò. ¸íá ðáñÜäåéãìá öáßíåôáé óôçí Åéêüíá 5.6(a), üðïõ ïé ôéìÝò ôùí ñïþí
óôç äéÜóôáóç d1 ðñÝðåé íá äéáãñáöïýí, åíþ ïé ôéìÝò ôùí ñïþí óôç äéÜóôáóç d5
ðñÝðåé íá ðñïóôåèïýí êáé íá ëçöèïýí õðüøç ãéá ôçí åíçìÝñùóç ôçò ðëçñïöïñßáò
ôçò ïìáäïðïßçóçò. Áõôü óõíåðÜãåôáé ôç äéáãñáöÞ üëùí ôùí áðëþí -ïìÜäùí
ôçò äéÜóôáóçò d1 êáé ôïí ðñïóäéïñéóìü üëùí ôùí áðëþí -ïìÜäùí ôçò äéÜóôáóçò
d5 . ÁõôÝò ïé ïìÜäåò öáßíïíôáé óôçí Åéêüíá 5.6(b).
Ï áëãüñéèìïò äéáôÞñçóçò ïìÜäùí CM-UPALL, ï ïðïßïò ðáñïõóéÜæåôáé óôçí
Åéêüíá 5.7, ëåéôïõñãåß óå äýï âÞìáôá:
1. Áñ÷éêÜ, ïé õðÜñ÷ïõóåò ìÝãéóôåò -ïìÜäåò õðï÷þñïõ åëÝã÷ïíôáé, åðåéäÞ
êÜðïéåò áðü áõôÝò ßóùò ðñÝðåé íá áðïññéöèïýí, ëüãù ôçò äéáãñáöÞò ôçò d1 .
ÅðéðëÝïí, êÜðïéåò áðü ôéò õðÜñ÷ïõóåò ïìÜäåò ßóùò ìðïñïýí íá åðåêôáèïýí,
ëüãù ôçò ðñïóèÞêçò ôçò íÝáò äéÜóôáóçò d5 .
2. Óôç óõíÝ÷åéá, ï áëãüñéèìïò øÜ÷íåé ãéá íÝåò ìÝãéóôåò -ïìÜäåò õðï÷þñïõ,
ïé ïðïßåò ìðïñåß íá äçìéïõñãÞèçêáí ëüãù ôçò d5 .
1 Áõôü äåí óçìáßíåé áðáñáßôçôá üôé ïé íÝåò ôéìÝò èá åßíáé äéáöïñåôéêÝò áðü ôéò ðñïçãïýìåíåò.
82 ÊÅÖÁËÁÉÏ 5. ÓÕÍÅ×ÇÓ ÏÌÁÄÏÐÏÉÇÓÇ ÓÅ ÕÐÏ×ÙÑÏÕÓ

!"

EIKONA 5.6. ÁðëÝò -ïìÜäåò ìåôÜ ôçí Üöéîç ôçò d5 .

Áñ÷éêÜ, êÜèå ïìÜäá ðïõ ðåñéÝ÷åé ôç äéÜóôáóç d4 åëÝã÷åôáé ãéá ðéèáíÞ åðÝ-
êôáóç óôç äéÜóôáóç d5 . Áí ç ïìÜäá ìðïñåß íá åðåêôáèåß, ôüôå ðåñéëáìâÜíåôáé
óôçí áðÜíôçóç. Óôç óõíÝ÷åéá, ç äéÜóôáóç d1 äéáãñÜöåôáé áðü üëåò ôéò ïìÜäåò
ðïõ ôçí ðåñéÝ÷ïõí. Áí ìå ôç äéáãñáöÞ êÜðïéá ïìÜäá ìåßíåé ìå ëéãüôåñåò áðü
minCols äéáóôÜóåéò, ôüôå äéáãñÜöåôáé. ÔÝëïò, üëåò ïé Üëëåò ïìÜäåò ðïõ äåí
åðçñåÜæïíôáé áðü ôç äéáãñáöÞ ôçò d1 êáé ôçí ðñïóèÞêç ôçò d5 èåùñïýíôáé ìÝñïò
ôçò áðÜíôçóçò.
ÐñïêåéìÝíïõ íá åíôïðßóïõìå íÝåò ïìÜäåò ðïõ Ý÷ïõí ó÷çìáôéóèåß áðü ôçí
ðñïóèÞêç ôçò äéÜóôáóçò d5 , ï áëãüñéèìïò åîåôÜæåé ìüíï ôéò ôåëåõôáßåò minCols
äéáóôÜóåéò. Ï ëüãïò ãé' áõôü åîçãåßôáé áðü ôçí åîÞò ðñüôáóç.

ÐÑÏÔÁÓÇ 5.9 (Ïñèüôçôá ôïõ áëãïñßèìïõ CM-UPALL). ¸óôù dnew åßíáé ç


íÝá äéÜóôáóç. Ãéá ôïí åíôïðéóìü íÝùí ïìÜäùí åßíáé áñêåôü íá åîåôÜóïõìå ôéò
ôåëåõôáßåò minCols äéáóôÜóåéò (äçë., dnew−minCols+1 ; dnew−minCols+2 ; : : : ; dnew ).

ÁÐÏÄÅÉÎÇ. ÕðïèÝóôå üôé åîåôÜæïõìå ôéò ôåëåõôáßåò minCols + k äéáóôÜóåéò,


üðïõ k ≥ 1 êáé minCols + k ≤ W . Áí õðÜñ÷åé ìßá ïìÜäá C óôéò ôåëåõôáßåò
minCols + k äéáóôÜóåéò, ôüôå õðÜñ÷åé åðßóçò ìßá ïìÜäá óôéò minCols + k − 1
äéáóôÜóåéò (ëüãù ôçò Ðñüôáóçò 5.4) êáé ãé' áõôü ç ïìÜäá äåí åßíáé íÝá. Óõíå-
ðþò, åßíáé áóöáëÝò íá áíáæçôïýìå íÝåò ïìÜäåò ìüíï óôéò ôåëåõôáßåò minCols
äéáóôÜóåéò. a

Ëüãù ôçò Ðñüôáóçò 5.9, ç ìÝèïäïò åîåôÜæåé ìüíï ôéò ôåëåõôáßåò minCols
äéáóôÜóåéò. ÅðïìÝíùò, áí ìßá äéÜóôáóç äåí óõììåôÝ÷åé óå ìßá ïìÜäá, ôüôå ç
ïìÜäá áðïññßðôåôáé ëüãù ôçò ðáñáâßáóçò ôïõ ðåñéïñéóìïý ôïõ åëÜ÷éóôïõ ðëÞ-
èïõò äéáóôÜóåùí. Áõôü óçìáßíåé üôé ôï êñéôÞñéï áðüññéøçò äéÜóôáóçò äåí åßíáé
áíáãêáßï êáé åöáñìüæåôáé ìüíï ôï êñéôÞñéï áðüññéøçò ïìÜäáò.
5.3. ÁÕÎÇÔÉÊÇ ÏÌÁÄÏÐÏÉÇÓÇ 83

Algorithm CM-UPALL (S , , minRows, minCols, W )


Input
S: set of streams,
: maximum value di erence for a dimension in a cluster,
minRows: minimum number of streams per cluster,
minCols: minimum number of dimensions per cluster,
W : sliding window size
Output
A: set of maximal subspace -clusters

1. delete all the simple -clusters of the rst dimension;


2. nd all the simple -clusters for the new dimension;
3. update and expand the existing maximal subspace -clusters;
4. delete the clusters that have less than minCols
dimensions;
5. for i=1 to N − minRows + 1
6. set m = 2;
7. generate m-level candidate -clusters of
stream i only for the last minCols dimensions;
8. apply cluster pruning;
9. while there exist m-level candidates do
10. generate m + 1-level candidate -clusters that
contain minCols dimensions;
11. increase m;
12. if m ≥ minRows and
13. C is maximal subspace -cluster then
14. update A;
15. end if
16. apply cluster pruning;
17. end while
18. end for
19. report A;

EIKONA 5.7. ÐåñéãñáöÞ áëãïñßèìïõ CM-UPALL.

5.3.2.2 Ìßá åíçìÝñùóç áíÜ äéÜóôáóç


Óå áõôÞí ôçí ðåñßðôùóç, ìüíï ìßá ñïÞ Ý÷åé êáéíïýñãéá ôéìÞ óå êÜèå ÷ñïíéêÞ
óôéãìÞ. ¼ðùò êáé óôçí ðñïçãïýìåíç ðåñßðôùóç, ç ìÝèïäïò ðñþôá åíçìåñþíåé
ôéò áðëÝò -ïìÜäåò êáé óôç óõíÝ÷åéá åêôåëåß áëëáãÝò óôéò õðÜñ÷ïõóåò ìÝãéóôåò
-ïìÜäåò õðï÷þñïõ, áí ÷ñåéÜæåôáé. Ç ðåñéãñáöÞ ôïõ Áëãïñßèìïõ CM-UPONE
84 ÊÅÖÁËÁÉÏ 5. ÓÕÍÅ×ÇÓ ÏÌÁÄÏÐÏÉÇÓÇ ÓÅ ÕÐÏ×ÙÑÏÕÓ

Algorithm CM-UPONE (si , S , , minRows, minCols, W )


Input
si :
the updated stream si ,
S: set of streams,
: maximum value di erence for a dimension in a cluster,
minRows: minimum number of streams per cluster,
minCols: minimum number of dimensions per cluster,
W : sliding window size
Output
A: set of maximal subspace -clusters

1. for i=1 to W
2. update all simple -clusters for dimension di ;
3. end for
4. delete existing maximal subspace -clusters which contain si ;
5. set m = 2;
6. generate m-level candidate -clusters for stream si ;
7. apply cluster pruning;
8. apply dimension pruning;
9. while there exist m-level candidates do
10. generate m + 1-level candidate -clusters that
contain minCols or more dimensions;
11. increase m;
12. if m ≥ minRows and
13. C is maximal subspace -cluster then
14. update A;
15. end if
16. apply cluster pruning;
17. apply dimension pruning;
18. end while
19. report A;

EIKONA 5.8. ÐåñéãñáöÞ áëãïñßèìïõ CM-UPONE.

ðáñïõóéÜæåôáé óôçí Åéêüíá 5.8.


¸óôù s ìßá ñïÞ ðïõ åíçìåñþíåé ôçí ôéìÞ ôçò. Ãéá íá åíçìåñþóïõìå ôéò áðëÝò
-ïìÜäåò, ï áëãüñéèìïò åêôåëåß ôá åîÞò âÞìáôá ãéá êÜèå äéÜóôáóç:
1. Ðñþôïí, ç ñïÞ s äéáãñÜöåôáé áðü ôéò áðëÝò -ïìÜäåò üðïõ áíÞêåé, ÷ñçóé-
ìïðïéþíôáò ôçí ôéìÞ ðïõ åß÷å óôçí áíôßóôïé÷ç äéÜóôáóç.
2. Äåýôåñïí, ç ñïÞ s åéóÜãåôáé åßôå óôéò õðÜñ÷ïõóåò áðëÝò -ïìÜäåò Þ óå ìßá
5.3. ÁÕÎÇÔÉÊÇ ÏÌÁÄÏÐÏÉÇÓÇ 85

íÝá äçìéïõñãïýìåíç ïìÜäá, ÷ñçóéìïðïéþíôáò ôç íÝá ôéìÞ ôçò äéÜóôáóçò.


ÊÜèå áðëÞ -ïìÜäá cij ðåñéÝ÷åé ôçí åëÜ÷éóôç êáé ôç ìÝãéóôç ôéìÞ ôùí ñïþí
ôçò. Ïé áðëÝò -ïìÜäåò åßíáé ôáîéíïìçìÝíåò, äçëáäÞ ç åëÜ÷éóôç (ìÝãéóôç) ôéìÞ
ìßá ïìÜäáò åßíáé ðÜíôá ìåãáëýôåñç áðü ôçí åëÜ÷éóôç (ìÝãéóôç) ôçò ðñïçãïýìå-
íçò. ¸ôóé, ç ìÝèïäïò åíôïðßæåé åýêïëá ôéò ïìÜäåò ðïõ ðåñéÝ÷ïõí ôçí ðáëéÜ ôéìÞ
óáñþíïíôáò ôéò.
Ãéá ôçí åéóáãùãÞ ôçò s, óå êÜèå äéÜóôáóç ç ìÝèïäïò óáñþíåé êáé ðÜëé ôéò
äéáèÝóéìåò áðëÝò -ïìÜäåò. Ç ñïÞ s ìðïñåß íá åéóá÷èåß óå ìßá ïìÜäá, ôçò ïðïßáò
ôá üñéá ðåñéÝ÷ïõí Þ ìðïñïýí íá åðåêôáèïýí þóôå íá ðåñéÝ÷ïõí ôç íÝá ôéìÞ ôçò
ñïÞò. ÕðïèÝóôå üôé ç íÝá ôéìÞ ôçò s åßíáé v êáé üôé ç åëÜ÷éóôç êáé ç ìÝãéóôç ôéìÞ
ìßáò áðëÞò -ïìÜäáò c åßíáé minc êáé maxc áíôßóôïé÷á. Áí v > minc + , ôüôå ç
s äåí ìðïñåß íá åéóá÷èåß óôç c. Ç ìÝèïäïò óõíå÷ßæåé óôéò åðüìåíåò ïìÜäåò, ìÝ÷ñé
íá âñåèåß ìßá ïìÜäá c0 ôÝôïéá þóôå v < maxc − . Ç ñïÞ s åéóÜãåôáé óå üëåò ôéò
0

áðëÝò -ïìÜäåò c00 ìåôáîý ôùí c êáé c0 åöüóïí éó÷ýåé maxc − ≤ v ≤ minc +
00 00

êáé ôá üñéá ôïõò åíçìåñþíïíôáé, áí ÷ñåéÜæåôáé. Áí ïé ïìÜäåò c êáé c0 åßíáé


óõíå÷üìåíåò, ðñÝðåé íá äçìéïõñãçèåß ìßá íÝá ïìÜäá ãéá íá åéóá÷èåß ç s. Ç íÝá
ïìÜäá åéóÜãåôáé ìåôáîý ôùí c êáé c0 .
Ôï åðüìåíï âÞìá åßíáé íá åíçìåñþóïõìå ôéò ìÝãéóôåò -ïìÜäåò õðï÷þñïõ.
¼ëåò ïé ïìÜäåò ðïõ ðåñéÝ÷ïõí ôçí åíçìåñùìÝíç ñïÞ äéáãñÜöïíôáé. Ïé õðüëïéðåò
ïìÜäåò äåí åðçñåÜæïíôáé. Ãéá íá âñïýìå íÝåò ìÝãéóôåò -ïìÜäåò õðï÷þñïõ, ç
ìÝèïäïò õðïëïãßæåé 2-åðéðÝäïõ õðïøÞöéåò -ïìÜäåò óõíäõÜæïíôáò ôçí åíçìåñù-
ìÝíç ñïÞ ìå üëåò ôéò Üëëåò. Óôá áêüëïõèá âÞìáôá, ï áëãüñéèìïò ðñïóðáèåß íá
áõîÞóåé ôï ðëÞèïò ôùí ñïþí ðïõ áíÞêïõí óå êÜèå ïìÜäá.

5.3.3 ÆçôÞìáôá áðüäïóçò


Åäþ ìåëåôïýìå êÜðïéá æçôÞìáôá áðüäïóçò ó÷åôéêÜ ìå ôçí ðñïôåéíüìåíç ìÝèïäï
óõæçôþíôáò ôéò áðáñáßôçôåò âïçèçôéêÝò äïìÝò äåäïìÝíùí, ïé ïðïßåò áðáéôïýíôáé
ãéá ôçí åããýçóç ôçò áðïäïôéêÞò óõíå÷ïýò ïìáäïðïßçóçò. ÅîåôÜæïõìå êÜèå öÜóç
ôïõ áëãïñßèìïõ ÷ùñéóôÜ.
Ç öÜóç áñ÷éêïðïßçóçò ïìÜäùí (CI) áðáéôåß ôïí ðñïóäéïñéóìü üëùí ôùí
áðëþí -ïìÜäùí ãéá êÜèå äéÜóôáóç. Ôï ðëÞèïò ôùí äéáóôÜóåùí ôùí êéíïý-
ìåíùí ÷ñïíïóåéñþí êáèïñßæåôáé áðü ôçí ðáñÜìåôñï W , ç ïðïßá êáèïñßæåé ôï
ìÝãåèïò ôïõ êéíïýìåíïõ ðáñáèýñïõ. Ãéá íá ðñïóäéïñßóïõìå ôéò áðëÝò -ïìÜäåò
ãéá ïðïéáäÞðïôå äéÜóôáóç, áðáéôåßôáé üôé ïé ôéìÝò óôçí áíôßóôïé÷ç äéÜóôáóç èá åß-
íáé ôáîéíïìçìÝíåò ìå áýîïõóá óåéñÜ. ÅíáëëáêôéêÜ, ìðïñïýìå íá áîéïðïéÞóïõìå
ìßá äïìÞ äåäïìÝíùí óùñïý ãéá íá áðïèçêåýóïõìå ôéò ôéìÝò êÜèå äéÜóôáóçò. Óå
êÜèå ðåñßðôùóç, ç áðáéôïýìåíç ðïëõðëïêüôçôá åßíáé O(W · N · log N ). Ç ðñïå-
ðåîåñãáóßá êÜèå äéÜóôáóçò ìðïñåß íá ðñáãìáôïðïéçèåß üôáí ãßíïõí äéáèÝóéìåò
ïé íÝåò ôéìÝò.
Ôï ðñïçãïýìåíï êüóôïò åßíáé áìåëçôÝï óõãêñéíüìåíï ìå ôï áðáéôïýìåíï êü-
86 ÊÅÖÁËÁÉÏ 5. ÓÕÍÅ×ÇÓ ÏÌÁÄÏÐÏÉÇÓÇ ÓÅ ÕÐÏ×ÙÑÏÕÓ

600000 250000
total total
cluster pruning cluster pruning
dimension pruning dimension pruning
500000 dimensionality shrinkage dimensionality shrinkage
200000

400000
number of clusters

number of clusters
150000

300000

100000
200000

50000
100000

0 0
0 5 10 15 20 25 2 4 6 8 10 12 14 16 18
streams per cluster streams per cluster

(á) = 0:2; minRows = 15, (â) = 0:2; minRows = 5,


minCols = 3; W = 100 minCols = 6; W = 100

EIKONA 5.9. Åðßäñáóç êñéôçñßùí áðüññéøçò ãéá óýíïëï äåäïìÝíùí STOCKS.

óôïò ãéá ôç äçìéïõñãßá ôùí ïìÜäùí óå êÜèå åðßðåäï. Èõìçèåßôå üôé ãéá ôçí
ðáñáãùãÞ ôùí m-åðéðÝäïõ -ïìÜäùí, áðáéôïýíôáé ïé (m{1)-åðéðÝäïõ ïìÜäåò.
Ìðïñåß íá áðïäåé÷èåß üôé ï óõíïëéêüò áñéèìüò ôùí ðéèáíüí ïìÜäùí ðïõ ìðïñïýí
íá ðáñá÷èïýí åßíáé 2N {1, üðïõ N åßíáé ôï ðëÞèïò ôùí êéíïýìåíùí ÷ñïíïóåéñþí.
Ùóôüóï, ç åöáñìïãÞ ôùí êñéôçñßùí áðüññéøçò êáôïñèþíåé íá åëáôôþóåé äñáóôéêÜ
ôïí áñéèìü ôùí ðáñáãüìåíùí ïìÜäùí. Ç åðßäñáóç ôïõò öáßíåôáé óôçí Åéêüíá
5.9 ðïõ áðåéêïíßæåé: (1) ôï óõíïëéêü áñéèìü ôùí ïìÜäùí óå êÜèå åðßðåäï, (2)
ôïí áñéèìü ôùí ïìÜäùí ðïõ áðïññßöèçêáí ëüãù ôïõ êñéôçñßïõ áðüññéøçò ïìÜäáò,
(3) ôïí áñéèìü ôùí ïìÜäùí ðïõ áðïññßöèçêáí ëüãù ôïõ êñéôçñßïõ áðüññéøçò äéÜ-
óôáóçò, êáé (4) ôïí áñéèìü ôùí ïìÜäùí ðïõ óõññéêíþèçêáí ëüãù ôïõ êñéôçñßïõ
áðüññéøçò äéÜóôáóçò. Åßíáé Ýêäçëï, üôé áðïññßðôåôáé ç ðëåéïíüôçôá ôùí õðïøç-
ößùí -ïìÜäùí. Ç áðüññéøç ïìÜäáò åßíáé ðïëý ðéï óçìáíôéêÞ üôáí óõìâáßíåé óôá

Áëãüñéèìïò Áðáéôïýìåíåò ëåéôïõñãßåò


1. åýñåóç áðëÞò -ïìÜäáò üðïõ áíÞêåé ìßá ñïÞ
CI 2. åýñåóç ñïþí ðïõ ðåñéÝ÷ïíôáé óå ìßá -ïìÜäá õðï÷þñïõ
3. åýñåóç äéáóôÜóåùí ðïõ ðåñéÝ÷ïíôáé óå ìßá -ïìÜäá õðï÷þñïõ
4. åýñåóç ôùí áðëþí -ïìÜäùí ìßáò -ïìÜäáò õðï÷þñïõ
1. åýñåóç áðëþí -ïìÜäùí ðïõ Ý÷ïõí ôç äéáãñáöüìåíç äéÜóôáóç
CM-UPALL 2. åýñåóç -ïìÜäùí õðï÷þñïõ ðïõ Ý÷ïõí ôç äéáãñáöüìåíç äéÜóôáóç
3. åýñåóç -ïìÜäùí õðï÷þñïõ ðïõ Ý÷ïõí ôçí ôåëåõôáßá äéÜóôáóç
4. üëåò ôéò ëåéôïõñãßåò ôïõ CI
CM-UPONE 1. åýñåóç ôùí -ïìÜäùí õðï÷þñïõ ðïõ Ý÷ïõí ôçí åíçìåñùìÝíç ñïÞ
2. üëåò ôéò ëåéôïõñãßåò ôïõ CI

ΠINAKAΣ 5.2: Óôïé÷åéþäåéò ëåéôïõñãßåò áðáéôïýìåíåò áðü ôïõò áëãïñßèìïõò CI, CM-UPALL êáé CM-
UPONE.
5.4. ÁÕÎÇÔÉÊÏÓ ÕÐÏËÏÃÉÓÌÏÓ ÔÙÍ PCLUSTERS 87

ðñþôá åðßðåäá, äéüôé ëéãüôåñåò ïìÜäåò èá ðáñá÷èïýí óå üëá ôá åðüìåíá åðßðåäá.


Ïé Áëãüñéèìïé CI, CM-UPALL êáé CM-UPONE áðáéôïýí ôçí õðïóôÞñéîç
êÜðïéùí óôïé÷åéùäþí ëåéôïõñãéþí ìå óêïðü ôç ãñÞãïñç åýñåóç ñïþí, ïìÜäùí
êáé äéáóôÜóåùí. Äåí ðáñïõóéÜæïõìå êÜèå ëåéôïõñãßá ìå ëåðôïìÝñåéá, äéüôé üëåò
ôïõò ìðïñïýí íá õëïðïéçèïýí áðïäïôéêÜ ìå ó÷Þìáôá êáôáêåñìáôéóìïý. Ïé áðáé-
ôïýìåíåò ëåéôïõñãßåò óõíïøßæïíôáé óôïí Ðßíáêá 5.2.

5.4 Áõîçôéêüò Õðïëïãéóìüò ôùí pClusters


Óå áõôÞí ôçí åíüôçôá, ìåëåôïýìå ôï ðñüâëçìá ôïõ áõîçôéêïý õðïëïãéóìïý ôùí
pClusters ðïõ ïñßæïíôáé ìå ôç âïÞèåéá ôçò ìåôñéêÞò pScore. Ç ìåôñéêÞ pScore
ðñïôÜèçêå óôçí åñãáóßá [163] ãéá íá êáèïñßóåé ôçí ïìïéüôçôá óå õðï÷þñïõò
ðïëõäéÜóôáôùí äåäïìÝíùí. Ðéï óõãêåêñéìÝíá, ç ìåôñéêÞ pScore Ý÷åé ÷ñçóéìï-
ðïéçèåß áðïôåëåóìáôéêÜ óôçí ïìáäïðïßçóç ãïíéäßùí [139, 163].
¸óôù ri;j åßíáé ç ôéìÞ ôçò i-ïóôÞò ñïÞò (ãñáììÞ) óôç j -ïóôÞ äéÜóôáóç
(óôÞëç). Ç ìåôñéêÞ pScore ïñßæåôáé ùò åîÞò:
pScore = |(rx;a − ry;a ) − (rx;b − ry;b )|
Óõíå÷ßæïõìå ìå ôïí ïñéóìü ôùí pClusters. ¸óôù S Ýíá õðïóýíïëï ñïþí êáé
D Ýíá õðïóýíïëï äéáóôÜóåùí. Ôá S êáé D ó÷çìáôßæïõí Ýíá  -pCluster, áí
ãéá ïðïéåóäÞðïôå äýï ñïÝò x; y ∈ S êáé ãéá ïðïéåóäÞðïôå äýï äéáóôÜóåéò a; b ∈
D; pScore ≤  , üðïõ  ≥ 0. ÅðéðëÝïí, ãéá ôçí áðïöõãÞ ðáñáãùãÞò áóÞìáíôùí
óôáôéóôéêÜ ïìÜäùí pClusters, ïé óõããñáöåßò ðñüôåéíáí ôç ÷ñÞóç äýï ðáñáìÝ-
ôñùí minRows êáé minCols, ïé ïðïßåò êáèïñßæïõí ôï åëÜ÷éóôï ðëÞèïò ñïþí
êáé äéáóôÜóåùí áíôßóôïé÷á ðïõ ìðïñåß íá ðåñéÝ÷åé Ýíáò pCluster.
Ìðïñïýìå íá ÷ñçóéìïðïéÞóïõìå ôïõò ðñïôåéíüìåíïõò áëãïñßèìïõò ãéá íá
ðñïóäéïñßóïõìå ôïõò pClusters óå óõíå÷üìåíåò äéáóôÜóåéò åöáñìüæïíôáò ìßá
áðëÞ ìåôáôñïðÞ. Áí áëëÜîïõìå ôïí ïñéóìü ôùí áðëþí -ïìÜäùí, ôüôå ôï áðïôÝ-
ëåóìá ôùí ðñïôåéíüìåíùí áëãïñßèìùí èá åßíáé -pClusters. Ç åðüìåíç ðñüôáóç
åîçãåß:
ÐÑÏÔÁÓÇ 5.10 (ÌåôáôñïðÞ áðëþí -ïìÜäùí). Áí õðïëïãßóïõìå ôéò äéáöïñÝò
ìåôáîý ôùí äéáóôÜóåùí dj −1 êáé dj , êáé ÷ñçóéìïðïéïýìå ôéò ðáñáãüìåíåò ôéìÝò
ãéá ôïí õðïëïãéóìü ôùí áðëþí -ïìÜäùí, ôüôå ïé ìÝãéóôåò -ïìÜäåò õðï÷þ-
ñïõ ðïõ ðáñÜãïíôáé áðü ôéò ðñïôåéíüìåíåò ìåèüäïõò åßíáé ßäéåò ìå ôéò ìÝãéóôåò
ïìÜäåò -pClusters óå Ýíá ðëÞèïò óõíå÷üìåíùí äéáóôÜóåùí, üðïõ  = .
ÁÐÏÄÅÉÎÇ. ¸óôù Di;j ç äéáöïñÜ ôùí ôéìþí ôçò ñïÞò i óôéò äéáóôÜóåéò j êáé
j − 1, äçëáäÞ Di;j = |ri;j − ri;j −1 |. ÕðïèÝóôå üôé Ý÷ïõìå äýï ñïÝò x êáé y óå äýï
óõíå÷üìåíåò äéáóôÜóåéò a êáé b. Èåùñþíôáò ôï íÝï ïñéóìü ôùí áðëþí -ïìÜäùí,
ïé ñïÝò x êáé y èá åßíáé óôçí ßäéá áðëÞ -ïìÜäá áí:
|Dx;b − Dy;b | ≤
88 ÊÅÖÁËÁÉÏ 5. ÓÕÍÅ×ÇÓ ÏÌÁÄÏÐÏÉÇÓÇ ÓÅ ÕÐÏ×ÙÑÏÕÓ

ÁõôÝò ïé ñïÝò èá åßíáé óôçí ßäéá ïìÜäá -pCluster áí éó÷ýåé:


|(rx;a − ry;a ) − (rx;b − ry;b )| ≤ ⇒

|(ry;b − ry;a ) − (rx;b − rx;a )| ≤ ⇒


|Dy;b − Dx;b | ≤ ⇒
|Dx;b − Dy;b | ≤
a

Ç ðñïçãïýìåíç ðñüôáóç õðïíïåß üôé áí åíäéáöåñüìáóôå ãéá ôïí ðñïóäéïñéóìü


 -pClusters óå óõíå÷üìåíåò äéáóôÜóåéò, ìðïñïýìå íá ÷ñçóéìïðïéÞóïõìå ôïõò
ðñïôåéíüìåíïõò ôñïðïðïéçìÝíïõò áëãïñßèìïõò, áñêåß íá èÝóïõìå ôçí ðáñÜìåôñï
ßóç ìå ôçí åðéèõìçôÞ ôéìÞ ôçò ðáñáìÝôñïõ  . Ïé ôñïðïðïéçìÝíïé áëãüñéèìïé
äéáöÝñïõí áðü ôïõò áñ÷éêïýò CI, CM-UPALL êáé CM-UPONE ìüíï óôç ãñáììÞ
2, üðïõ ïé áðëÝò -ïìÜäåò õðïëïãßæïíôáé Þ åíçìåñþíïíôáé.
Ãéá íá áðïóáöçíßóïõìå ôçí ðñïçãïýìåíç ðáñáôÞñçóç, äßíïõìå Ýíá áðëü ðá-
ñÜäåéãìá. ÕðïèÝóôå îáíÜ, üôé Ý÷ïõìå äýï ñïÝò x êáé y óå äýï óõíå÷üìåíåò
äéáóôÜóåéò a êáé b. Ïé ôéìÝò ôçò x åßíáé 5 êáé 17 ãéá ôéò äéáóôÜóåéò a êáé b áíôß-
óôïé÷á êáé ïé ôéìÝò ôçò y åßíáé 3 êáé 16. Áí minRows = 2; minCols = 2 êáé =1,
áõôÝò ïé ñïÝò áíÞêïõí óôïí ßäéï pCluster, áöïý pScore = |(5−3)−(17−16)| = 1.
×ñçóéìïðïéþíôáò ôéò ßäéåò ðáñáìÝôñïõò ( =1) êáé ôïí áñ÷éêü ïñéóìü ôùí áðëþí
-ïìÜäùí, áõôÝò ïé ñïÝò äåí áíÞêïõí óôçí ßäéá ìÝãéóôç -ïìÜäá õðï÷þñïõ, äéüôé
óôç äéÜóôáóç a ç äéáöïñÜ ôïõò åßíáé 2 êáé åðïìÝíùò äåí áíÞêïõí óôçí ßäéá áðëÞ
-ïìÜäá. ×ñçóéìïðïéþíôáò üìùò ôéò ßäéåò ðáñáìÝôñïõò ( =1) êáé ôïí ôñïðï-
ðïéçìÝíï ïñéóìü ôùí áðëþí -ïìÜäùí, áõôÝò ïé ñïÝò ó÷çìáôßæïõí ìßá ìÝãéóôç
-ïìÜäá õðï÷þñïõ. Ïé äéáöïñÝò ôùí ôéìþí ôïõò åßíáé |5 − 17| = 12 ãéá ôç ñïÞ x
êáé |3 − 16| = 13 ãéá ôç ñïÞ y. ÅðïìÝíùò, áíÞêïõí óôçí ßäéá áðëÞ -ïìÜäá. Ç
ìÝãéóôç -ïìÜäá õðï÷þñïõ åßíáé ßäéá áêñéâþò ìå ôç ìÝãéóôç ïìÜäá  -pCluster.
Åî üóùí ãíùñßæïõìå, ï áðïäïôéêüôåñïò áëãüñéèìïò ãéá ôïí õðïëïãéóìü ôùí
 -pClusters, ðïõ âáóßæåôáé óôç ìåôñéêÞ pScore, åßíáé ï MaPle [139]. Ùóôüóï,
ï áëãüñéèìïò MaPle ìðïñåß íá åöáñìïóèåß ìüíï óå óôáôéêÜ äåäïìÝíá, åíþ ïé
ìÝèïäïé ìáò åöáñìüæïíôáé êáé óå äåäïìÝíá êéíïýìåíùí ÷ñïíïóåéñþí. ÅðéðëÝïí,
åðåéäÞ ï MaPle ðáñÜãåé ïìÜäåò õðï÷þñïõ óå ïðïéïäÞðïôå õðïóýíïëï ôùí äéáèÝ-
óéìùí äéáóôÜóåùí, ôïí ôñïðïðïéÞóáìå Ýôóé þóôå íá õðïëïãßæåé ïìÜäåò ìüíï óå
óõíå÷üìåíåò äéáóôÜóåéò. ¼ðùò êáôáäåéêíýåôáé óôçí åðüìåíç åíüôçôá, ïé ðñï-
ôåéíüìåíïé áëãüñéèìïé åßíáé óçìáíôéêÜ áðïäïôéêüôåñïé áðü ôïí áëãüñéèìï MaPle
óå üëá ôá ðåéñÜìáôá ðïõ ðñáãìáôïðïéÞóáìå.

5.5 ÐåéñáìáôéêÞ Áðïôßìçóç


Ïé ðñïôåéíüìåíïé áëãüñéèìïé êáé ï áëãüñéèìïò MaPle õëïðïéÞèçêáí óå C++
êáé üëá ôá ðåéñÜìáôá äéåîÞ÷èçóáí óå õðïëïãéóôÞ Pentium IV óôá 3.6 GHz, ìå
5.5. ÐÅÉÑÁÌÁÔÉÊÇ ÁÐÏÔÉÌÇÓÇ 89

1 GBytes RAM êáé ëåéôïõñãéêü óýóôçìá Windows XP Professional. Óôç óõíÝ-


÷åéá, ðáñïõóéÜæïõìå ôá óýíïëá äåäïìÝíùí ðïõ ÷ñçóéìïðïéÞèçêáí óôá ðåéñÜìáôÜ
ìáò êáé ôá áðïôåëÝóìáôá ôçò ðåéñáìáôéêÞò ìåëÝôçò.

5.5.1 Óýíïëá äåäïìÝíùí


Ç ðåéñáìáôéêÞ áðïôßìçóç Ýãéíå ôüóï óå ðñáãìáôéêÜ óýíïëá äåäïìÝíùí (STOCKS,
ECG, TAO, YEAST), üóï êáé óå óõíèåôéêÜ (SYNTHETIC). Áêïëïõèåß ìßá ìé-
êñÞ ðåñéãñáöÞ êÜèå óõíüëïõ äåäïìÝíùí:
SYNTHETIC. Ôï óýíïëï äåäïìÝíùí SYNTHETIC Ý÷åé ðáñá÷èåß ìå ôç
âïÞèåéá ìßáò ãåííÞôñéáò äåäïìÝíùí. Ç ãåííÞôñéá äåäïìÝíùí ðáßñíåé ùò åßóïäï
áñêåôÝò ðáñáìÝôñïõò, üðùò: ôï ðëÞèïò ôùí ñïþí, ôï ìÝãåèïò ôïõ êéíïýìåíïõ
ðáñáèýñïõ, ôï ìÞêïò ôçò êÜèå ñïÞò, ôï ðëÞèïò ôùí ìÝãéóôùí -ïìÜäùí õðï-
÷þñïõ, ôéò ôéìÝò minRows; minCols êáé . Ç ãåííÞôñéá ðáñÜãåé ôïí áêñéâÞ
áñéèìü ìÝãéóôùí -ïìÜäùí õðï÷þñïõ ìå minRows ñïÝò óå minCols äéáóôÜ-
óåéò. Ïé õðüëïéðåò ôéìÝò õðïëïãßæïíôáé ôõ÷áßá ìå ôÝôïéï üìùò ôñüðï þóôå íá
ìçí åðçñåÜæåôáé ôï ðëÞèïò êáé ôï ìÝãåèïò ôùí ïìÜäùí.
STOCKS. Ôï óýíïëï äåäïìÝíùí STOCKS áðïôåëåßôáé áðü Ýíá ðëÞèïò ÷ñï-
íïóåéñþí ðïõ áðïôåëïýí ôéìÝò äéáöüñùí ìåôï÷þí êáé áðïêôÞèçêå áðü ôïí éóôï-
÷þñï http://finance.yahoo.com. ÊÜèå ìåôï÷Þ ÷ùñßóèçêå óå Ýíá ðëÞèïò ÷ñï-
íïóåéñþí ìÞêïõò 200 ðñïêåéìÝíïõ íá ó÷çìáôéóôïýí 2313 äéáöïñåôéêÝò êéíïýìå-
íåò ÷ñïíïóåéñÝò.
ECG. Ôï óýíïëï äåäïìÝíùí ECG ðåñéÝ÷åé çëåêôñïäéáãñÜììáôá äýï óç-
ìÜôùí êáé áðïêôÞèçêå áðü ôç MIT-BIH Arrhythmia Database (http://www.
physionet.org/physiobank/database/mitdb/). ÊÜèå óÞìá øçöéïðïéÞèçêå óôá
360 äåßãìáôá ôï äåõôåñüëåðôï. ÅðéëÝîáìå Ýíá çëåêôñïäéÜãñáììá åíüò Üíôñá åîÞ-
íôá åííÝá åôþí, ðïõ ðåñéÝ÷åé 650000 äåßãìáôá. Ãéá íá ó÷çìáôéóèåß ôï óýíïëï
äåäïìÝíùí, åðéëÝîáìå 30000 áðü ôá 650000 óôïé÷åßá ôõ÷áßá êáé êÜèå ÷ñïíïóåéñÜ
ó÷çìáôßóèçêå áðü ôá 200 åðüìåíá óôïé÷åßá ôïõ åðéëåãìÝíïõ óôïé÷åßïõ. Ôï óý-
íïëï äåäïìÝíùí áðïôåëåßôáé áðü 30000 äéáöïñåôéêÝò ñïÝò.
TAO. Ôï óýíïëï äåäïìÝíùí TAO (Tropical Atmosphere Ocean) ðåñéÝ÷åé
ìåôñÞóåéò ôçò ôá÷ýôçôáò áÝñá 65 ôïðïèåóéþí ôïõ Åéñçíéêïý êáé ôïõ Áôëáíôé-
êïý ùêåáíïý. Ôá äåäïìÝíá áðïêôÞèçêáí áðü ôï Paci c Marine Environmental
Laboratory (http://www.pmal.noaa.gov/tao). ×ñçóéìïðïéÞóáìå ôçí õøçëü-
ôåñç äõíáôÞ áíÜëõóç äåäïìÝíùí (äçëáäÞ, ôï äéÜóôçìá äåéãìáôïëçøßáò). Ðåñßðïõ
4000 ñïÝò ó÷çìáôßæïõí ôï óýíïëï äåäïìÝíùí êáé ôï ìÞêïò ôçò êÜèå ìßáò åßíáé
200.
YEAST. Ôï óýíïëï äåäïìÝíùí YEAST ðåñéÝ÷åé åðßðåäá Ýêöñáóçò 2884
ãïíéäßùí êÜôù áðü 17 óõíèÞêåò. Ôá äåäïìÝíá áðïêôÞèçêáí áðü ôïí éóôï÷þñï
http://arep.med.harvard.edu/biclustering/yeast.matrix.
90 ÊÅÖÁËÁÉÏ 5. ÓÕÍÅ×ÇÓ ÏÌÁÄÏÐÏÉÇÓÇ ÓÅ ÕÐÏ×ÙÑÏÕÓ

5.5.2 ÐåéñáìáôéêÜ áðïôåëÝóìáôá


Óôç óõíÝ÷åéá, ðáñïõóéÜæïõìå ôá ðåéñáìáôéêÜ áðïôåëÝóìáôá ðïõ ðñïÝêõøáí áðü:
(á) ôç óýãêñéóç ìåôáîý ôùí ðñïôåéíüìåíùí ìåèüäùí CI, CM-UPALL êáé CM-
UPONE, êáé (â) ôç óýãêñéóç ôïõ áëãïñßèìïõ MaPle êáé ôùí ðñïôåéíüìåíùí
áõîçôéêþí áëãïñßèìùí, ëáìâÜíïíôáò õðüøh êáé ôï êüóôïò áñ÷éêïðïßçóçò ôùí
ïìÜäùí.

5.5.2.1 Áðüäïóç ðñïôåéíüìåíùí ìåèüäùí


Åêôüò áí êáèïñßæåôáé äéáöïñåôéêÜ, ïé ôéìÝò ôùí ðáñáìÝôñùí ðïõ ÷ñçóéìïðïéÞ-
èçêáí óôï óõíèåôéêü óýíïëï äåäïìÝíùí åßíáé: ôï ðëÞèïò ôùí ñïþí N =5000,
ôï ìÝãåèïò ôïõ êéíïýìåíïõ ðáñáèýñïõ W =100, ç ðáñÜìåôñïò =0.0, ôï ðëÞèïò
ôùí åìöõôåõìÝíùí ìÝãéóôùí -ïìÜäùí õðï÷þñïõ åßíáé 100, êáé êÜèå Ýíáò áðü
áõôïýò ðåñéÝ÷åé 50 ñïÝò óå 10 äéáóôÜóåéò.
100 10000
CI CI
CM-UPALL CM-UPALL
CM-UPONE 1000 CM-UPONE
10
100
time (sec)

time (sec)

1 10

0.1
0.1

0.01
0.01
30 60 90 120 150 0 5000 10000 15000 20000
sliding window number of streams

(á) (â)

EIKONA 5.10: ×ñüíïò áðüêñéóçò ùò ðñïò: (á) ôï ìÝãåèïò êéíïýìåíïõ ðáñáèýñïõ êáé (â) ôï ðëÞèïò ôùí
ñïþí.

Óôï ðñþôï ðåßñáìá, åîåôÜæïõìå ôçí êëéìÜêùóç ôùí ìåèüäùí óå ó÷Ýóç ìå ôï


ìÝãåèïò ôïõ êéíïýìåíïõ ðáñáèýñïõ W êáé ôï ðëÞèïò ôùí ñïþí N . Ôá áíôßóôïé÷á
áðïôåëÝóìáôá öáßíïíôáé óôçí Åéêüíá 5.10. Óå áõôü ôï ðåßñáìá ç ìÝèïäïò CI
åöáñìüóèçêå óå êÜèå åíçìÝñùóç êáé åðïìÝíùò ôï êüóôïò ôçò CI õðïäåéêíýåé ôï
êüóôïò ôçò ïìáäïðïßçóçò ôùí êéíïýìåíùí ÷ñïíïóåéñþí áðü ôçí áñ÷Þ. Ãéá ôéò
ìåèüäïõò CM-UPALL êáé CM-UPONE, äßíïõìå ìüíï ôï êüóôïò åíçìÝñùóçò,
äéüôé ôï êüóôïò áñ÷éêïðïßçóçò åöáñìüæåôáé ìüíï ìßá öïñÜ óôçí áñ÷Þ êáé ãéá
ôéò äýï. Ç Åéêüíá 5.10(á) äåß÷íåé ôçí êëéìÜêùóç ôùí ìåèüäùí óå ó÷Ýóç ìå
ôï ìÝãåèïò êéíïýìåíïõ ðáñáèýñïõ. Ï áðáéôïýìåíïò ÷ñüíïò ãéá ôç öÜóç áñ÷é-
êïðïßçóçò ôùí ïìÜäùí åßíáé óçìáíôéêÜ ðåñéóóüôåñïò áðü ôï ÷ñüíï åíçìÝñùóçò
ôùí CM-UPALL êáé CM-UPONE. ÅðéðëÝïí, ôï êüóôïò ôçò CM-UPONE áõîÜ-
íåé óå ó÷Ýóç ìå ôï W áëëÜ ôï êüóôïò åíçìÝñùóçò ôçò CM-UPALL åßíáé ó÷åäüí
óôáèåñü. Áõôü óõìâáßíåé äéüôé ç CM-UPONE åíçìåñþíåé ôéò áðëÝò -ïìÜäåò
5.5. ÐÅÉÑÁÌÁÔÉÊÇ ÁÐÏÔÉÌÇÓÇ 91

ðïõ ðåñéÝ÷ïõí ôçí åíçìåñùìÝíç ñïÞ üëùí ôùí äéáóôÜóåùí, åíþ ç CM-UPALL
åíçìåñþíåé ìüíï ôéò áðëÝò -ïìÜäåò ìüíï ôçò íÝáò äéÜóôáóçò. Ç Åéêüíá 5.10(â)
äåß÷íåé ôçí êëéìÜêùóç ôùí ìåèüäùí óå ó÷Ýóç ìå ôï ðëÞèïò ôùí ñïþí. Ðñï-
êåéìÝíïõ íá Ý÷ïõìå ðáñüìïéá ðáñáìåôñïðïßçóç, ÷ñçóéìïðïéÞóáìå äéáöïñåôéêÜ
óõíèåôéêÜ óýíïëá äåäïìÝíùí ðïõ áðïôåëïýíôáé áðü 1000 Ýùò 20000 ñïÝò. Óå
êÜèå óýíïëï äåäïìÝíùí, åìöõôåýóáìå 100 ìÝãéóôåò -ïìÜäåò õðï÷þñïõ, áëëÜ
ìåôáâÜëëáìå ôçí ðáñÜìåôñï minRows Ýôóé þóôå ï áñéèìüò ôùí ôéìþí ðïõ ÷ñçóé-
ìïðïéïýíôáé óôéò ïìÜäåò íá åßíáé áíÜëïãïò ìå ôï óõíïëéêü áñéèìü ôéìþí. ¼ôáí
ôï ðëÞèïò ôùí ñïþí áõîÜíåôáé óçìáíôéêÜ, ôï êüóôïò ôçò CM-UPALL îåðåñíÜ
áõôü ôçò CM-UPONE. Áõôü óõìâáßíåé ãéáôß: (á) ôï êüóôïò õðïëïãéóìïý ôùí
áðëþí -ïìÜäùí ôçò ôåëåõôáßáò äéÜóôáóçò áõîÜíåôáé ìå ôï ðëÞèïò ôùí ñïþí,
êáé (â) ç CM-UPALL ðñïóðáèåß íá âñåé íÝåò -ïìÜäåò õðï÷þñïõ ãéá üëåò ôéò
ñïÝò, åíþ ç CM-UPONE ðñïóðáèåß íá âñåé íÝåò -ïìÜäåò õðï÷þñïõ ìüíï ãéá
ôçí åíçìåñùìÝíç ñïÞ. Êáé ðÜëé, ôï êüóôïò óõíôÞñçóçò ôùí ïìÜäùí åßíáé ðïëý
ìéêñüôåñï ôïõ êüóôïõò áñ÷éêïðïßçóçò ôùí ïìÜäùí. Áõôü ìáñôõñÜ üôé ç ïìáäï-
ðïßçóç áðü ôçí áñ÷Þ ðñÝðåé íá áðïöåýãåôáé, áöïý ôï áíôßóôïé÷ï õðïëïãéóôéêü
êüóôïò åßíáé áðáãïñåõôéêÜ õøçëü. Óôá áêüëïõèá áðïôåëÝóìáôá, ôï êüóôïò ôçò
áñ÷éêïðïßçóçò ôùí ïìÜäùí ðáñáëåßðåôáé ãéá ëüãïõò óáöÞíåéáò.
Óôï äåýôåñï ðåßñáìá, ìåëåôïýìå ôçí áðüäïóç ôùí ìåèüäùí óå ó÷Ýóç ìå ôéò
ðáñáìÝôñïõò minRows êáé minCols. Èõìçèåßôå, üôé áí åíçìåñþíïíôáé üëåò ïé
ñïÝò, ôüôå ç ìÝèïäïò åîåôÜæåé ìüíï ôéò ôåëåõôáßåò minCols äéáóôÜóåéò, åíþ áí
åíçìåñþíåôáé ìüíï ìßá ñïÞ, ôüôå ç ìÝèïäïò øÜ÷íåé ãéá íÝåò ìÝãéóôåò -ïìÜäåò
õðï÷þñïõ ìüíï ãéá ôçí åíçìåñùìÝíç ñïÞ. Ç Åéêüíá 5.11 ðáñïõóéÜæåé ôçí åðß-
äñáóç ôùí ðáñáìÝôñùí óôïõò áëãüñéèìïõò óõíôÞñçóçò. ¼ðùò áíáìåíüôáí, ôï
êüóôïò ôïõ CM-UPALL åëáôôþíåôáé üóï áõîÜíïíôáé ïé minRows êáé minCols,
åíþ áõôü äåí óõìâáßíåé ãéá ôïí áëãüñéèìï CM-UPONE. Ï ëüãïò åßíáé üôé ôï êü-
óôïò ôçò åíçìÝñùóçò ôùí áðëþí -ïìÜäùí åßíáé õøçëüôåñï áðü ôçí åýñåóç íÝùí

2 2
CM-UPALL CM-UPALL
CM-UPONE CM-UPONE

1.5 1.5
time (sec)

time (sec)

1 1

0.5 0.5

0 0
10 20 30 40 50 2 4 6 8 10
minRows minCols

(á) (â)

EIKONA 5.11. ×ñüíïò áðüêñéóçò ùò ðñïò: (á) minRows, êáé (â) minCols.
92 ÊÅÖÁËÁÉÏ 5. ÓÕÍÅ×ÇÓ ÏÌÁÄÏÐÏÉÇÓÇ ÓÅ ÕÐÏ×ÙÑÏÕÓ

-ïìÜäùí õðï÷þñïõ ãéá ìßá óõãêåêñéìÝíç ñïÞ, êé Ýôóé ðáñüôé ï CM-UPONE


åíôïðßæåé ëéãüôåñåò ïìÜäåò êáèþò áõîÜíïíôáé ïé minRows êáé minCols, ôï óõ-
íïëéêü êüóôïò êõñéáñ÷åßôáé áðü ôçí åíçìÝñùóç ôùí áðëþí -ïìÜäùí. Ôï êüóôïò
ôçò ïìáäïðïßçóçò áðü ôçí áñ÷Þ (äåí åìöáíßæåôáé) åßíáé óçìáíôéêÜ õøçëüôåñï.
Óôï åðüìåíï ðåßñáìá, ìåëåôïýìå ôçí áðüäïóç óå ó÷Ýóç ìå ôéò ðáñáìÝôñïõò
minRows êáé minCols ãéá ôï óýíïëï äåäïìÝíùí STOCKS. Ç Åéêüíá 5.12 äåß-
÷íåé ôçí åðßäñáóç ôùí ðáñáìÝôñùí óôç äéáäéêáóßá åíçìÝñùóçò. Ôï ìÝãåèïò ôïõ
êéíïýìåíïõ ðáñáèýñïõ åßíáé W = 100, åíþ = 0:2. Óôçí Åéêüíá 5.12(á) éó÷ýåé
minCols=5, åíþ óôçí Åéêüíá 5.12(â) éó÷ýåé minRows=15. Ôá áðïôåëÝóìáôá
åßíáé ðáñüìïéá ìå áõôÜ ôïõ óõíèåôéêïý óõíüëïõ äåäïìÝíùí.
2
1.4 CM-UPALL CM-UPALL
CM-UPONE CM-UPONE
1.2
1.5
1
time (sec)

time (sec)

0.8
1
0.6

0.4 0.5

0.2

0 0
11 13 15 17 19 3 4 5 6 7
minRows minCols

(á) (â)

EIKONA 5.12. ×ñüíïò áðüêñéóçò ùò ðñïò: (á) minRows, êáé (â) minCols (STOCKS).

Óôç óõíÝ÷åéá, åîåôÜæïõìå ôç ó÷Ýóç ìåôáîý ôùí ðáñáìÝôñùí ; minRows êáé


minCols. Ç Åéêüíá 5.13 áðåéêïíßæåé ôá áðïôåëÝóìáôá ìüíï ãéá ôç ìÝèïäï CM-
UPALL. Ôï ìÝãåèïò êéíïýìåíïõ ðáñáèýñïõ åßíáé W =100. Óôçí Åéêüíá 5.13(á),

1 10
minCols=4 a=0.0
minCols=5 a=0.1
minCols=6 a=0.2
0.8 minCols=7

1
0.6
time (sec)

time (sec)

0.4
0.1

0.2

0 0.01
11 13 15 17 19 11 13 15 17 19
minRows minRows

(á) (â)

EIKONA 5.13: ×ñüíïò áðüêñéóçò ùò ðñïò: (á) minRows; minCols ìå =0.2, êáé (â) minRows; ìå
minCols=5 (STOCKS).
5.5. ÐÅÉÑÁÌÁÔÉÊÇ ÁÐÏÔÉÌÇÓÇ 93

öáßíåôáé üôé ôï êüóôïò åëáôôþíåôáé êáèþò ïé ðáñÜìåôñïé minRows êáé minCols


áõîÜíïõí ôçí ôéìÞ ôïõò. Óôçí Åéêüíá 5.13(â), öáßíåôáé üôé ôï êüóôïò åëáôôþ-
íåôáé êáèþò áõîÜíåôáé ç minRows êáé åëáôôþíåôáé ç . Ìßá ìéêñÞ ôéìÞ ôïõ
äßíåé ìåãÜëï ðëÞèïò áðëþí -ïìÜäùí êáé åðïìÝíùò åëáôôþíåôáé ç ðéèáíüôçôá
äýï ñïÝò íá áíÞêïõí óôçí ßäéá áðëÞ -ïìÜäá. Ãé' áõôü, ôï ðëÞèïò ôùí ìÝãéóôùí
-ïìÜäùí õðï÷þñïõ ìåéþíåôáé êáé ôï óõíïëéêü êüóôïò åëáôôþíåôáé.
ðëÞèïò ïìÜäùí êáé ìÝóïò ÷ñüíïò åíçìÝñùóçò, ìåôÜ áðü
minRowsminCols áñ÷éêïðïßçóç 30 åíçìåñþóåéò 50 åíçìåñþóåéò 70 åíçìåñþóåéò
0.1 11 2 494 5.84 438 0.08 384 0.06 449 0.11
0.2 15 4 328 14.61 268 0.29 245 0.21 382 0.80
0.2 20 2 616 63.05 574 1.07 539 0.48 680 1.89
0.3 30 2 287 289.66 243 4.21 251 2.85 389 25.79

ΠINAKAΣ 5.3. ÐëÞèïò ïìÜäùí êáé ìÝóïò ÷ñüíïò åíçìÝñùóçò (STOCKS).

ðëÞèïò ïìÜäùí êáé ìÝóïò ÷ñüíïò åíçìÝñùóçò, ìåôÜ áðü


minRowsminCols áñ÷éêïðïßçóç 10 åíçìåñþóåéò 15 åíçìåñþóåéò 20 åíçìåñþóåéò
0.0 30 3 984 2695.75 984 68.41 979 68.15 986 68.90
0.0 150 2 76 8211.28 72 64.60 71 86.40 69 76.88
1.0 10 9 335 1362.11 314 75.27 310 76.06 311 77.31
1.0 35 5 220 9879.22 203 231.61 201 231.60 194 237.57

ΠINAKAΣ 5.4. ÐëÞèïò ïìÜäùí êáé ìÝóïò ÷ñüíïò åíçìÝñùóçò (ECG).

Óôï åðüìåíï ðåßñáìá, ìåëåôïýìå ôï ðëÞèïò ôùí ðáñáãüìåíùí ìÝãéóôùí -


ïìÜäùí õðï÷þñïõ. ÌåñéêÜ áíôéðñïóùðåõôéêÜ áðïôåëÝóìáôá äßíïíôáé óôïõò Ðß-
íáêåò 5.3 êáé 5.4 ãéá ôá óýíïëá äåäïìÝíùí STOCKS êáé ECG áíôßóôïé÷á. Ôï
ìÝãåèïò ôïõ êéíïýìåíïõ ðáñáèýñïõ åßíáé W =100. Ïé ðßíáêåò ðáñïõóéÜæïõí ôï
ðëÞèïò ôùí ïìÜäùí, ôï êüóôïò áñ÷éêïðïßçóçò ïìÜäùí, ôï ðëÞèïò ôùí ïìÜäùí
ìåôÜ áðü êÜðïéï ðëÞèïò åíçìåñþóåùí êáé ôï ìÝóï ÷ñüíï åíçìÝñùóçò ãé' áõôÝò
ôéò åíçìåñþóåéò. Óå êÜèå åíçìÝñùóç üëåò ïé ñïÝò åíçìåñþíïíôáé. Ðáñáôçñþ-
íôáò ôïõò ðßíáêåò, ìðïñïýìå íá äïýìå ðùò ïé ïìÜäåò ìåôáâÜëëïíôáé ÷ñïíéêÜ.
ÅðéðëÝïí, åßíáé Ýêäçëï üôé õðÜñ÷ïõí ðïëëÝò ïìÜäåò óå ó÷Ýóç ìå ôï ðñïôåéíü-
ìåíï ìïíôÝëï ôùí -ïìÜäùí óôá ðñáãìáôéêÜ äåäïìÝíá. Áõôü ìáò äåß÷íåé ôç
äõíáôüôçôá áîéïðïßçóçò ôùí -ïìÜäùí óå åöáñìïãÝò åîüñõîçò äåäïìÝíùí.
Ç Åéêüíá 5.14 áðåéêïíßæåé êÜðïéåò ïìÜäåò ðïõ åíôïðßóèçêáí áðü ôïí ðñïôåé-
íüìåíï áëãüñéèìï óôï óýíïëï äåäïìÝíùí ECG. ÊÜèå åéêüíá äåß÷íåé ìßá ðáñáãü-
ìåíç ìÝãéóôç -ïìÜäá õðï÷þñïõ ( =2). Ãéá ðáñÜäåéãìá, ç ðñþôç åéêüíá äåß÷íåé
ìßá ìÝãéóôç -ïìÜäá õðï÷þñïõ ìå 4 ñïÝò óå 7 óõíå÷üìåíåò äéáóôÜóåéò. Åßíáé
Ýêäçëï, üôé õðÜñ÷åé ìåãÜëïò âáèìüò ïìïéüôçôáò ìåôáîý ñïþí ðïõ áíÞêïõí óôçí
94 ÊÅÖÁËÁÉÏ 5. ÓÕÍÅ×ÇÓ ÏÌÁÄÏÐÏÉÇÓÇ ÓÅ ÕÐÏ×ÙÑÏÕÓ

954 954

952 952
data values

data values
950 950

948 948

946 946

20 22 24 26 28 30 19 20 21 22 23 24 25 26 27 28
dimensions dimensions
960 970

958 968
data values

data values
956 966

954 964

952 962

950 960
57 58 59 60 61 62 63 64 65 66 61 62 63 64 65 66 67 68 69 70
dimensions dimensions

EIKONA 5.14. Ðáñáäåßãìáôá ìÝãéóôùí -ïìÜäùí õðï÷þñïõ óôï ECG.

ßäéá ïìÜäá ãéá ôéò óõãêåêñéìÝíåò äéáóôÜóåéò.

5.5.2.2 Óýãêñéóç ìå ôç ìÝèïäï MaPle


Óå áõôÞí ôçí åíüôçôá, óõãêñßíïõìå ôïõò ðñïôåéíüìåíïõò áëãïñßèìïõò ìå ôïí
áëãüñéèìï MaPle. Ãéá ëüãïõò óýãêñéóçò, ôñïðïðïéÞóáìå ôïí áëãüñéèìï MaPle
þóôå íá åíôïðßæåé -pClusters ìüíï óå óõíå÷üìåíåò äéáóôÜóåéò. ÅðéðëÝïí, ôñï-
ðïðïéÞóáìå ôéò öÜóåéò áñ÷éêïðïßçóçò êáé åíçìÝñùóçò üðùò ðåñéãñÜöåôáé óôçí
Åíüôçôá 5.4, ðñïêåéìÝíïõ íá õðïëïãßæïõìå -pClusters óå óõíå÷üìåíåò äéáóôÜ-
óåéò. Ïé óõíôìÞóåéò ãéá ôïõò ôñïðïðïéçìÝíïõò áëãïñßèìïõò åßíáé CI-pScore êáé
CM-UPALL-pScore.
Óõãêñßíáìå ôçí áðüäïóç ôùí áëãïñßèìùí CI-pScore êáé CM-UPALL-pScore
óå ó÷Ýóç ìå áõôÞ ôïõ MaPle, ÷ñçóéìïðïéþíôáò ôá óýíïëá äåäïìÝíùí TAO,
STOCKS êáé SYNTHETIC. Ôá áðïôåëÝóìáôá ðáñïõóéÜæïíôáé óôéò Åéêüíåò
5.15, 5.16 êáé 5.17. Óå áõôÜ ôá ðåéñÜìáôá, ÷ñçóéìïðïéÞóáìå =0. ÐñïêåéìÝ-
íïõ íá óõãêñßíïõìå ôïí áëãüñéèìï CI-pScore ìå ôïí Maple, åêôåëÝóáìå êÜèå
ìÝèïäï 10 öïñÝò êáé äßíïõìå ôï ìÝóï ÷ñüíï åêôÝëåóçò. ÐñïêåéìÝíïõ íá óõãêñß-
íïõìå ôïí CM-UPALL-pScore ìå ôïí Maple, åöáñìüóáìå ôïí Maple óå êÜèå
åíçìÝñùóç êáé äßíïõìå ôï ìÝóï ÷ñüíï åêôÝëåóçò ôùí åíçìåñþóåùí. Ï ÷ñüíïò
åêôÝëåóçò ôïõ CM-UPALL-pScore äåí ðåñéëáìâÜíåé ôï êüóôïò ôïõ CI-pScore,
äéüôé ï CI-pScore åöáñìüæåôáé ìüíï ìßá öïñÜ óôçí áñ÷Þ. ¼ðùò áíáìåíüôáí, ôï
êüóôïò ôïõ CM-UPALL-pScore åßíáé óçìáíôéêÜ ìéêñüôåñï áðü áõôü ôïõ Maple
áíåîÜñôçôá áðü ôï ðëÞèïò ôùí ñïþí, ôï ìÝãåèïò ôïõ êéíïýìåíïõ ðáñáèýñïõ êáé
5.5. ÐÅÉÑÁÌÁÔÉÊÇ ÁÐÏÔÉÌÇÓÇ 95

ôùí Üëëùí ðáñáìÝôñùí. Ïé áëãüñéèìïé åîåôÜóèçêáí äéåîïäéêÜ. Óå üëåò ôéò ðå-


ñéðôþóåéò ôá áðïôåëÝóìáôá åßíáé ðáñüìïéá êáé ãé' áõôü áíáöÝñïõìå ìüíï ìåñéêÜ
áíôéðñïóùðåõôéêÜ. ÅðéðëÝïí, ï áëãüñéèìïò CI-pScore åßíáé áðïäïôéêüôåñïò áðü
ôïí MaPle óå üëá ôá ðåéñÜìáôá. Áõôü ìáò ðáñáêßíçóå íá óõãêñßíïõìå ôïí
áëãüñéèìï CI-pScore ìå ôïí MaPle óå óôáôéêÜ äåäïìÝíá. Ç Åéêüíá 5.18 ðáñïõ-
óéÜæåé ôá áðïôåëÝóìáôá áõôÞò ôçò óýãêñéóçò ãéá ôï óýíïëï äåäïìÝíùí YEAST,
÷ñçóéìïðïéþíôáò minRows=30 êáé minCols=9.
1000 1000
CI-pScore CM-UPALL-pScore
MAPLE MAPLE

100 100
time (sec)

time (sec)
10 10

1 1

0.1 0.1
14 16 18 20 22 24 14 16 18 20 22 24
minRows minRows

EIKONA 5.15. ×ñüíïò áðüêñéóçò ùò ðñïò minRows ìå minCols=4, W =30 (TAO).

800
CI-pScore CM-UPALL-pScore
MAPLE MAPLE
700 1000

600
100
500
time (sec)

time (sec)

400 10

300 1
200
0.1
100

0 0.01
30 60 90 120 150 30 60 90 120 150
sliding window sliding window

EIKONA 5.16: ×ñüíïò áðüêñéóçò ùò ðñïò ìÝãåèïò êéíïýìåíïõ ðáñáèýñïõ ìå minRows = 25; minCols =
5 (STOCKS).

Óôçí Åéêüíá 5.19 äßíïõìå êÜðïéá ðáñáäåßãìáôá ôùí ðáñáãüìåíùí -pClusters


óôï óýíïëï äåäïìÝíùí STOCKS ( = =1). Áðü ôç óýãêñéóç ôùí Åéêüíùí 5.19
êáé 5.14 åîÜãïíôáé ÷ñÞóéìá óõìðåñÜóìáôá. Ìßá -ïìÜäá õðï÷þñïõ ðåñéÝ÷åé
ñïÝò ìå öáíåñÞ ôç ìåôáîý ôïõò ïìïéüôçôá. Ãé' áõôü, ç áðåéêüíéóç ôùí -ïìÜäùí
õðï÷þñïõ, ðïõ åßíáé ðïëý óçìáíôéêÞ ðñïêåéìÝíïõ íá ãßíåé ìßá áðïôåëåóìáôéêÞ
áíÜëõóç áðü ôïõò åéäéêïýò, åßíáé åýêïëç. Áðü ôçí Üëëç, ìßá ïìÜäá -pCluster
ìðïñåß íá áíáãíùñßóåé êëéìáêþóåéò êáé ìåôáôïðßóåéò óôá äåäïìÝíá, üðùò Ý÷åé
äåßîåé ç åñãáóßá [139]. ¸ôóé áêüìá êáé óôçí ðåñßðôùóç óôáôéêþí äåäïìÝíùí,
96 ÊÅÖÁËÁÉÏ 5. ÓÕÍÅ×ÇÓ ÏÌÁÄÏÐÏÉÇÓÇ ÓÅ ÕÐÏ×ÙÑÏÕÓ

450
CI-pScore 1000 CM-UPALL-pScore
400 MAPLE MAPLE

350 100
300
time (sec)

time (sec)
10
250

200
1
150

100 0.1

50
0.01
0
0 5000 10000 15000 20000 0 5000 10000 15000 20000
number of streams number of streams

EIKONA 5.17. ×ñüíïò áðüêñéóçò ùò ðñïò ôï ðëÞèïò ôùí ñïþí ìå W =30, minCols=5 (SYNTHETIC).

CI-pScore
MAPLE
100
time (sec)

10

0.1
0 1 2 3 4
parameter delta

EIKONA 5.18. CI-pScore vs. MaPle (YEAST).

ìðïñïýìå íá ÷ñçóéìïðïéÞóïõìå áðïôåëåóìáôéêÜ êáé áðïäïôéêÜ ôïí áëãüñéèìï


CI-pScore, áí åíäéáöåñüìáóôå ãéá -pClusters óå óõíå÷üìåíåò äéáóôÜóåéò.
Óõíïøßæïíôáò, ïé ðñïôåéíüìåíïé áõîçôéêïß áëãüñéèìïé ïìáäïðïßçóçò õðï÷ù-
ñþí êëéìáêþíïíôáé êáëÜ óå ó÷Ýóç ìå ôïí áñéèìü ôùí ñïþí êáé ôï ìÝãåèïò ôïõ
êéíïýìåíïõ ðáñáèýñïõ. ÅðéðëÝïí, ôï êüóôïò åíçìÝñùóçò ôùí ïìÜäùí ÷ñçóé-
ìïðïéþíôáò ôçí áõîçôéêÞ ðñïóÝããéóç åßíáé óçìáíôéêü ëéãüôåñï áðü áõôü ôçò
åöáñìïãÞò ôçò öÜóçò áñ÷éêïðïßçóçò óå êÜèå åíçìÝñùóç. ÔÝëïò, ç ðåéñáìá-
ôéêÞ áðïôßìçóç Ýäåéîå üôé ïé ôñïðïðïéçìÝíïé áëãüñéèìïé åßíáé ðïëý ôá÷ýôåñïé ôïõ
MaPle, ãé' áõôü ìðïñïýí åðßóçò íá ÷ñçóéìïðïéçèïýí ãéá ôçí ðáñáãùãÞ ïìÜäùí
óå óôáôéêÜ (ìç-ìåôáâáëëüìåíá) óýíïëá äåäïìÝíùí.

5.6 ÓõìðåñÜóìáôá
Óå áõôü ôï êåöÜëáéï, ìåëåôÞóáìå ôï ðñüâëçìá ôçò óõíå÷ïýò ïìáäïðïßçóçò óå
õðï÷þñïõò óå êéíïýìåíåò ÷ñïíïóåéñÝò. Ðéï óõãêåêñéìÝíá, ðñïôÜèçêå ìéá ðñù-
ôüôõðç ìÝèïäïò ðñïò ôçí êáôåýèõíóç ôçò áðïäïôéêÞò ðáñáãùãÞò êáé åíçìÝñù-
óçò ïìÜäùí. ÊÜèå ïìÜäá áðïôåëåßôáé áðü Ýíá ðëÞèïò êéíïýìåíùí ÷ñïíïóåéñþí,
5.6. ÓÕÌÐÅÑÁÓÌÁÔÁ 97
30 30

25 25

data values

data values
20 20

15 15

10 10
2 4 6 8 10 5 7 9 11 13
dimensions dimensions
22 30

25
20

20
data values

data values
18
15
16
10

14
5

12 0
10 12 14 16 18 5 7 9 11 13
dimensions dimensions

EIKONA 5.19. Ðáñáäåßãìáôá  -pClusters (STOCKS).

üðïõ ïé ìåôáîý ôùí ôéìþí ôïõò äéáöïñÝò ìÝóá óå ìßá ïìÜäá åßíáé ôï ðïëý , åíþ
õðüêåéôáé óôïõò ðåñéïñéóìïýò ôïõ åëÜ÷éóôïõ ðëÞèïõò ñïþí (minRows) êáé ôïõ
åëÜ÷éóôïõ ðëÞèïõò äéáóôÜóåùí (minCols).
Ç ìÝèïäïò óõíå÷Þò ïìáäïðïßçóçò áðïôåëåßôáé áðü Ýíá ðëÞèïò äéáöïñåôéêþí
öÜóåùí: (á) ìßá öÜóç áñ÷éêïðïßçóçò, ç ïðïßá åßíáé õðåýèõíç ãéá ôçí áñ÷éêÞ
ðáñáãùãÞ ôùí ïìÜäùí, êáé (â) ìßá áêïëïõèßá áðü öÜóåéò óõíôÞñçóçò, ïé ïðïßåò
÷ñçóéìïðïéïýíôáé ãéá ôçí åíçìÝñùóç ôçò ðëçñïöïñßáò ïìáäïðïßçóçò óôï ðÝñá-
óìá ôïõ ÷ñüíïõ. ÊÜèå öÜóç óõíôÞñçóçò åêôåëåßôáé üôáí åßôå åßíáé äéáèÝóéìåò
íÝåò ôéìÝò ãéá üëåò ôéò ñïÝò, Þ üôáí åßíáé äéáèÝóéìç ìüíï ìßá ôéìÞ ãéá ìßá ñïÞ äå-
äïìÝíùí. Óôï êåöÜëáéï áõôü êáôáäåß÷èçêå üôé ôá ðñïôåéíüìåíá êñéôÞñéá áðüññé-
øçò (ïìÜäáò, äéÜóôáóçò êáé ñïÞò), åðéôõã÷Üíïõí óçìáíôéêÞ åëÜôôùóç ôïõ ÷þñïõ
áíáæÞôçóçò.
ÅðéðëÝïí, äåßîáìå üôé ïé ðñïôåéíüìåíåò ìÝèïäïé ìðïñïýí åýêïëá íá ðñïóáñ-
ìïóèïýí ãéá íá åíôïðßæïõí pClusters óå óõíå÷üìåíåò äéáóôÜóåéò. Ç ðåéñáìáôéêÞ
óýãêñéóç ìå ôïí áëãüñéèìï MaPle, ôïí êáëýôåñï áëãüñéèìï ãéá ôçí ðáñáãùãÞ
pCluster óå óôáôéêÜ äåäïìÝíá, Ýäåéîå üôé ïé ðñïôåéíüìåíåò ìÝèïäïé åßíáé áðïäïôé-
êüôåñåò ôüóï óôçí ðåñßðôùóç ôùí äõíáìéêþí üóï êáé ôùí óôáôéêþí äåäïìÝíùí.
ÊÅÖÁËÁÉÏ 6

Åýñåóç Ïìïéüôçôáò óå
Êéíïýìåíåò ×ñïíïóåéñÝò∗
Ðåñéå÷üìåíá
6.1 ÅÉÓÁÃÙÃÇ . . . . . . . . . . . . . . . . . . . . . . . 99
6.2 Ó×ÅÔÉÊÇ ÂÉÂËÉÏÃÑÁÖÉÁ . . . . . . . . . . . . . 101
6.3 IDC-INDEX . . . . . . . . . . . . . . . . . . . . . . 103
6.4 ÐÅÉÑÁÌÁÔÉÊÇ ÌÅËÅÔÇ . . . . . . . . . . . . . 118
6.5 ÓÕÌÐÅÑÁÓÌÁÔÁ . . . . . . . . . . . . . . . . . . 133
6.6 ÐÁÑÁÑÔÇÌÁ . . . . . . . . . . . . . . . . . . . . . 133

6.1 ÅéóáãùãÞ
Ôç óçìåñéíÞ åðï÷Þ Ýíá óçìáíôéêü ðëÞèïò åöáñìïãþí áðáéôåß ôç äéá÷åßñéóç ñïþí
äåäïìÝíùí [21, 16, 35, 123, 47, 73]. Ðáñáäåßãìáôá ôÝôïéùí åöáñìïãþí åßíáé ç
áíÜëõóç ìåôï÷þí óå ðñáãìáôéêü ÷ñüíï, ç ðáñáêïëïýèçóç äéêôýïõ õðïëïãéóôþí,
ç äéá÷åßñéóç êßíçóçò äéêôýïõ, ç ðñüâëåøç óåéóìþí. Ôï âáóéêü êïéíü ÷áñáêôçñé-
óôéêü üëùí ôùí ðñïçãïýìåíùí åöáñìïãþí åßíáé üôé üëåò åßíáé ÷ñïíéêÜ êñßóéìåò
(time-critical). ÅðïìÝíùò, Ýíá ÓÄÂÄ ðñÝðåé íá åíéó÷õèåß ìå áðïôåëåóìáôéêÜ êáé
áðïäïôéêÜ åñãáëåßá ãéá ôçí åðåîåñãáóßá ñïþí äåäïìÝíùí, Ýôóé þóôå íá äéá÷åéñß-
æåôáé åðáñêþò ëåéôïõñãßåò üðùò ç åéóáãùãÞ, ç åíçìÝñùóç êáé óõíå÷Þ åñùôÞìáôá.
Ëüãù ôçò ðïëý äõíáìéêÞò öýóçò ôùí ñïþí äåäïìÝíùí, ç ôõ÷áßá ðñïóðÝëáóç åß-
íáé áðáãïñåõôéêÞ. ÊáôÜ óõíÝðåéá, êÜèå ñïÞ äåäïìÝíùí åßíáé äõíáôü íá äéáâáóèåß
∗ Ôï êåöÜëáéï áíôëåß ôá ðåñéå÷üìåíÜ ôïõ áðü ôéò åñãáóßåò [102, 101, 105].

99
100 ÊÅÖÁËÁÉÏ 6. ÅÕÑÅÓÇ ÏÌÏÉÏÔÇÔÁÓ ÓÅ ÊÉÍÏÕÌÅÍÅÓ ×ÑÏÍÏÓÅÉÑÅÓ

ìüíï ìßá öïñÜ (Þ ðïëý ðåñéïñéóìÝíåò öïñÝò). Áõôü ôï ÷áñáêôçñéóôéêü èÝôåé


åðéðñüóèåôåò äõóêïëßåò óôçí åðåîåñãáóßá åñùôÞìáôïò, áöïý ôá äåäïìÝíá ðñá-
êôéêÜ ìðïñïýí íá ðñïóðåëáóèïýí ìüíï ìå ôç óåéñÜ Üöéîçò ôïõò êáé åðïìÝíùò
ïé ñïÝò äåäïìÝíùí äåí åßíáé óõìâáôÝò ìå ôéò ðáñáäïóéáêÝò ðñïóåããßóåéò åðå-
îåñãáóßáò åñùôçìÜôùí ðïõ Ý÷ïõí ÷ñçóéìïðïéçèåß óôá óõóôÞìáôá Åðåîåñãáóßáò
Óõíáëëáãþí Ðñáãìáôéêïý ×ñüíïõ (Online Transaction Processing - OLTP) êáé
ÁíáëõôéêÞò Åðåîåñãáóßáò Ðñáãìáôéêïý ×ñüíïõ (Online Analytical Processing
- OLAP). ÊáôÜ óõíÝðåéá íÝïé áëãüñéèìïé êáé íÝá åñãáëåßá áðáéôïýíôáé ãéá ôçí
åðåîåñãáóßá ñïþí äåäïìÝíùí.
¸íáò óçìáíôéêüò ôýðïò åñùôÞìáôïò, ï ïðïßïò Ý÷åé ìåëåôçèåß äéåîïäéêÜ óôç
âéâëéïãñáößá ôùí ðáñáäïóéáêþí âÜóåùí äåäïìÝíùí åßíáé ôï åñþôçìá ïìïéüôçôáò
(similarity query). ÄåäïìÝíïõ åíüò áíôéêåéìÝíïõ åñþôçóçò Q, ôï åñþôçìá ïìïéü-
ôçôáò øÜ÷íåé üëá ôá áíôéêåßìåíá Ox ðïõ åßíáé ðáñüìïéá ìå ôï Q óå Ýíáí åðáñêÞ
âáèìü. Ôá åñùôÞìáôá ïìïéüôçôáò Ý÷ïõí ìåëåôçèåß ãéá ðïëõäéÜóôáôá áíôéêåß-
ìåíá, åéêüíåò, ÷ñïíïóåéñÝò êáé ãéá Üëëïõò ìç-ðáñáäïóéáêïýò ôýðïõò äåäïìÝíùí.
Óôéò ñïÝò äåäïìÝíùí ôï ðñüâëçìá áðïôåëåß ðñüêëçóç äéüôé ôï áíôéêåßìåíï åñþ-
ôçóçò, ôá äåäïìÝíá Þ êáé ôá äýï ìðïñåß íá ìåôáâÜëëïíôáé ÷ñïíéêÜ. Ç ïìïéüôçôá
ìåôáîý äýï áíôéêåéìÝíùí åêöñÜæåôáé ìå ôç âïÞèåéá ìßáò ìåôñéêÞò áðüóôáóçò dist
(ð.÷., Åõêëåßäåéá, Manhattan). ÃåíéêÜ, õðÜñ÷ïõí ôñåéò ôýðïé åñùôçìÜôùí ðïõ
Ý÷ïõí êõñßùò ÷ñçóéìïðïéçèåß óôç âéâëéïãñáößá: (á) ôá åñùôÞìáôá äéáóôÞìáôïò,
(â) ôá åñùôÞìáôá êïíôéíüôåñïõ ãåßôïíá, êáé (ã) åñùôÞìáôá óýíäåóçò.
Óå áõôü ôï êåöÜëáéï, ìåëåôïýìå ôá åñùôÞìáôá äéáóôÞìáôïò êáé k-êïíôéíüôå-
ñùí ãåéôüíùí óå êéíïýìåíåò ÷ñïíïóåéñÝò, üðïõ ôüóï ç ÷ñïíïóåéñÜ-åñþôçìá üóï
êáé ïé ÷ñïíïóåéñÝò-äåäïìÝíá ìåôáâÜëëïíôáé ÷ñïíéêÜ. Ôï ìÞêïò ìßáò ñïÞò äåäï-
ìÝíùí ìðïñåß íá åßíáé ðïëý ìåãÜëï, áöïý íÝåò ôéìÝò ðñïóôßèåíôáé óõíå÷þò. Ãé'
áõôü ôï ëüãï, ç ïìïéüôçôá ìåôáîý äýï ñïþí åêöñÜæåôáé ìå ôç âïÞèåéá ôùí ôå-
ëåõôáßùí ôéìþí ìßá ñïÞò äåäïìÝíùí (ð.÷. ôùí ôåëåõôáßùí 128, 256, 1024 ôéìþí),
÷ñçóéìïðïéþíôáò ôï ìïíôÝëï êéíïýìåíïõ ðáñáèýñïõ ó÷çìáôßæïíôáò êéíïýìåíåò
÷ñïíïóåéñÝò. ÊÜèå ñïÞ ìðïñåß íá áíáðáñáóôáèåß ùò Ýíá äéÜíõóìá óå Ýíáí ðï-
ëõäéÜóôáôï ÷þñï. ÄéÜöïñåò ôå÷íéêÝò ìåßùóçò äéáóôÜóåùí (ð.÷. Äéáêñéôüò Ìå-
ôáó÷çìáôéóìüò Fourier, Ìåôáó÷çìáôéóìüò Karhunen-Loeve) ìðïñïýí íá ÷ñç-
óéìïðïéçèïýí ãéá íá åëáôôþóïõí ôï ðëÞèïò ôùí äéáóôÜóåùí, åðéôñÝðïíôáò Ýôóé
ôçí áîéïðïßçóç áðïäïôéêþí ìåèüäùí ðñïóðÝëáóçò ðïëõäéÜóôáôùí áíôéêåéìÝíùí.
Ùóôüóï, êÜèå äéÜíõóìá áëëÜæåé ÷ñïíéêÜ êáèþò óõíå÷þò ðñïóôßèåíôáé íÝåò ôéìÝò.
Ç áðëïýóôåñç ðñïóÝããéóç åßíáé íá äéáãñÜøïõìå ôï ðñïçãïýìåíï äéÜíõóìá åíç-
ìåñþíïíôáò ôç ìÝèïäï ðñïóðÝëáóçò, íá åöáñìüóïõìå áðü ôçí áñ÷Þ ôçí ôå÷íéêÞ
ìåßùóçò äéáóôÜóåùí óôï íÝï äéÜíõóìá êáé ôÝëïò, íá áðïèçêåýóïõìå ôï ðáñáãü-
ìåíï äéÜíõóìá óôç ìÝèïäï ðñïóðÝëáóçò. ÁõôÞ ç äéáäéêáóßá åßíáé áðáãïñåõôéêÞ
ôüóï óå õðïëïãéóôéêü êüóôïò üóï êáé óôï ðëÞèïò ðñïóðåëÜóåùí äßóêïõ (disk
accesses) êáé åðïìÝíùò åßíáé áêáôÜëëçëç ãéá ôçí ðåñßðôùóÞ ìáò.
Áíáðôýîáìå ìßá ðñùôüôõðç ìÝèïäï ðñïêåéìÝíïõ íá åðåîåñãáóèïýìå åñùôÞ-
6.2. Ó×ÅÔÉÊÇ ÂÉÂËÉÏÃÑÁÖÉÁ 101

ìáôá ïìïéüôçôáò óå ñïÝò äåäïìÝíùí ìå ôç ÷ñÞóç êéíïýìåíïõ ðáñáèýñïõ. Ôá


âáóéêÜ ÷áñáêôçñéóôéêÜ ôçò ðñïôåéíüìåíçò ðñïóÝããéóçò óõíïøßæïíôáé óôá åîÞò:
➣ Õðïóôçñßæïíôáé äõíáìéêÜ åñùôÞìáôá ïìïéüôçôáò óå äõíáìéêÜ äåäïìÝíá.
ÓõãêåêñéìÝíá, ìåëåôÞóáìå ôá äýï âáóéêüôåñá åñùôÞìáôá ïìïéüôçôáò, ôá
åñùôÞìáôá äéáóôÞìáôïò êáé ôá åñùôÞìáôá k-êïíôéíüôåñùí ãåéôüíùí.
➣ ÁîéïðïéÞèçêáí ìÝèïäïé ðñïóðÝëáóçò âáóéóìÝíåò óôçí ïéêïãÝíåéá ôïõ R-
äÝíäñïõ [146, 24], ç ïðïßá Ý÷åé ìåëåôçèåß áíáëõôéêÜ óôç âéâëéïãñáößá êáé
Ý÷åé Þäç ÷ñçóéìïðïéçèåß óå åìðïñéêÜ ÓÄÂÄ.
➣ Ç ìÝèïäïò ìåßùóçò äéáóôÜóåùí ëåéôïõñãåß ìå áõîçôéêü ôñüðï, ìåéþíïíôáò
Ýôóé äñáóôéêÜ ôï õðïëïãéóôéêü êüóôïò áõôÞò ôçò äéáäéêáóßáò.
➣ Ïé åíçìåñþóåéò ôçò äïìÞò ðñïóðÝëáóçò åßôå áðïöåýãïíôáé åíôåëþò Þ ðñáã-
ìáôïðïéïýíôáé áðü êÜôù ðñïò ôá åðÜíù, ðñïóÝããéóç ðïõ âåëôéþíåé ôüóï ôçí
ôá÷ýôçôá åíçìÝñùóçò üóï êáé ôçí áðüäïóç ôçò äïìÞò. ÅðéðëÝïí, ðñïôåß-
íåôáé ìßá ôå÷íéêÞ ãéá ôïí Ýëåã÷ï ôïõ ñõèìïý åíçìÝñùóçò, ï ïðïßïò ìðïñåß
íá ìåôáâëçèåß áíÜëïãá ìå ôçí êáôÜóôáóç ôïõ óõóôÞìáôïò áëëÜ êáé ôéò
áðáéôÞóåéò ôçò åêÜóôïôå åöáñìïãÞò.
➣ Ïé áðáéôÞóåéò ìíÞìçò åßíáé óçìáíôéêÜ ëéãüôåñåò óå óýãêñéóç ìå áõôÝò Üë-
ëùí ôå÷íéêþí êáé åðïìÝíùò åßíáé åöéêôÞ ç äéáôÞñçóç ôçò ìåèüäïõ ðñïóðÝ-
ëáóçò óôçí êýñéá ìíÞìç.
➣ Ï óõíïëéêüò ÷ñüíïò áðüêñéóçò åßíáé ðïëý ìéêñüôåñïò áðü áõôüí Üëëùí
ìåèüäùí ôçò âéâëéïãñáößáò, äßíïíôáò Ýíá áêüìá ðëåïíÝêôçìá óôçí ðñïôåé-
íüìåíç ìÝèïäï ãéá ôç ÷ñÞóç ôçò óå åöáñìïãÝò ñïþí äåäïìÝíùí.

6.2 Ó÷åôéêÞ Âéâëéïãñáößá


Ôá åñùôÞìáôá ïìïéüôçôáò ìåëåôÞèçêáí óå êéíïýìåíåò ÷ñïíïóåéñÝò óôçí åñãáóßá
[64], üðïõ åîåôÜóèçêáí åñùôÞìáôá ðëÞñïõò áíôéóôïß÷éóçò ÷ñçóéìïðïéþíôáò ôçí
Åõêëåßäåéá áðüóôáóç ùò ìÝôñï ïìïéüôçôáò. Ãéá ôçí åðåîåñãáóßá ôïõ åñùôÞìá-
ôïò ÷ñçóéìïðïéÞèçêå ìßá ðñïóÝããéóç ðïõ âáóßæåôáé óôçí ðñüâëåøç ôéìþí. Ïé
áðïóôÜóåéò ìåôáîý ôïõ åñùôÞìáôïò êáé ôùí ÷ñïíïóåéñþí-äåäïìÝíùí õðïëïãßæï-
íôáé ÷ñçóéìïðïéþíôáò ôéò ôéìÝò ðïõ ðñïâëÝöèçêáí. ¼ôáí ãßíïõí äéáèÝóéìåò ïé
ðñáãìáôéêÝò ôéìÝò ôïõ åñùôÞìáôïò, õðïëïãßæåôáé Ýíá áíþôáôï êáé êáôþôáôï üñéï
ëÜèïõò ôçò ðñüâëåøçò êáé âÜóåé áõôïý ó÷çìáôßæåôáé Ýíá óýíïëï áðü õðïøÞöéåò
÷ñïíïóåéñÝò. Ïé ßäéïé óõããñáöåßò Ý÷ïõí ðñïôåßíåé äýï äéáöïñåôéêÝò ðñïóåããßóåéò
ðïõ âáóßæïíôáé óôï prefetching [66, 65]. Êáé ïé äýï ðñïáíáöåñèåßóåò åñåõíçôéêÝò
ðñïóðÜèåéåò åîåôÜæïõí ôçí ðåñßðôùóç åñùôçìÜôùí ðëÞñçò áíôéóôïß÷éóçò, üðïõ
ôï óýíïëï äåäïìÝíùí áðáñôßæåôáé áðü óôáôéêÝò ÷ñïíïóåéñÝò êáé ôï åñþôçìá åßíáé
äõíáìéêü (ìåôáâÜëëåôáé ÷ñïíéêÜ).
102 ÊÅÖÁËÁÉÏ 6. ÅÕÑÅÓÇ ÏÌÏÉÏÔÇÔÁÓ ÓÅ ÊÉÍÏÕÌÅÍÅÓ ×ÑÏÍÏÓÅÉÑÅÓ

Ìßá êáôçãïñßá áëãïñßèìùí ãéá åðåîåñãáóßá ñïþí åðéêåíôñþíïíôáé óôï ðñü-


óöáôï ðáñåëèüí åöáñìüæïíôáò ôï ìïíôÝëï êéíïýìåíïõ ðáñáèýñïõ óå ìßá ñïÞ
äåäïìÝíùí [19, 64, 101, 123, 167]. ¸ôóé ìüíï ïé ôåëåõôáßåò W ôéìÝò ìßáò ñïÞò
äåäïìÝíùí èåùñïýíôáé åíåñãÝò êáé ÷ñçóéìïðïéïýíôáé óôçí åðåîåñãáóßá åñùôÞ-
ìáôïò. Óýìöùíá ìå áõôü ôï ìïíôÝëï, ïé ðáëéüôåñåò ôéìÝò áãíïïýíôáé ôåëåßùò.
¼ðùò áðåéêïíßæåôáé êáé óôçí Åéêüíá 6.1, ñïÝò ïé ïðïßåò äåí ìïéÜæïõí ãéá Ýíá
÷ñïíéêü óôéãìéüôõðï ôïõ êéíïýìåíïõ ðáñáèýñïõ ìÞêïõò W , ìðïñåß íá ìïéÜæïõí
ìßá Üëëç ÷ñïíéêÞ óôéãìÞ.
W

Stream 1

Stream 2

W t

EIKONA 6.1. Ïìïéüôçôá êéíïýìåíùí ÷ñïíïóåéñþí.

Óôçí åñãáóßá [123], ïé óõããñáöåßò ðáñïõóßáóáí ìßá ìÝèïäï åðåîåñãáóßáò


åñùôÞìáôïò óå êéíïýìåíåò ÷ñïíïóåéñÝò, üðïõ ôüóï ç ÷ñïíïóåéñÜ-åñþôçìá üóï
ïé ÷ñïíïóåéñÝò-äåäïìÝíá åßíáé äõíáìéêÝò. ÐñïôÜèçêáí ïé ìÝèïäïé ðñïóðÝëáóçò
VA-stream êáé VA+ -stream, ïé ïðïßåò åßíáé ðáñáëëáãÝò ôïõ áñ÷åßïõ ðñïóÝããéóçò
äéáíýóìáôïò (Vector Approximation le - VA- le) [165]. ÁõôÝò ïé äïìÝò Ý÷ïõí ôç
äõíáôüôçôá íá ðáñÜãïõí óõíüøåéò ôùí äåäïìÝíùí êáé íá åíçìåñþíïíôáé áõîçôéêÜ
üðïôå õðÜñ÷ïõí íÝåò äéáèÝóéìåò ôéìÝò. ×ñçóéìïðïéïýìå áõôÞ ôçí áíùôÝñù ìÝ-
èïäï ãéá íá áîéïëïãÞóïõìå ôçí ðñïôåéíüìåíç ìÝèïäï áõôïý ôïõ êåöáëáßïõ, äéüôé
ìåëåôïýí ôï ßäéï ðñüâëçìá, êáèþò ôï åñþôçìá êáé ôá äåäïìÝíá åßíáé êéíïýìåíåò
÷ñïíïóåéñÝò. Áñãüôåñá óå áõôü ôï êåöÜëáéï äßíïõìå ìßá óýíôïìç ðåñéãñáöÞ êáé
óõæçôïýìå êÜðïéá æçôÞìáôá õëïðïßçóçò ôçò áíôáãùíéóôéêÞò ìåèüäïõ.
Ç ó÷åäßáóç åíüò áðïäïôéêïý ó÷Þìáôïò äåéêôïäüôçóçò óå ó÷Ýóç ìå ôï ðëÞèïò
êáé ôç óõ÷íüôçôá ôùí åíçìåñþóåùí Ý÷åé ðñïóåëêýóåé ôï åíäéáöÝñïí ôùí åñåõíç-
ôþí. Óôçí åñãáóßá [113] ïé óõããñáöåßò ðñüôåéíáí ìßá ðáñáëëáãÞ ôïõ R∗ -äÝíäñïõ.
×ñçóéìïðïéåßôáé ìßá âïçèçôéêÞ äïìÞ äåäïìÝíùí ðáñÝ÷ïíôáò åðéðñüóèåôá ìïíï-
ðÜôéá ðñïóðÝëáóçò óôï R∗ -äÝíäñï. ÅðéðëÝïí, ç åðáíáåéóáãùãÞ (reinsertion)
áíôéêåéìÝíùí óôç äïìÞ äåéêôïäüôçóçò äåí åöáñìüæåôáé óôç ñßæá áëëÜ óôïõò åóù-
ôåñéêïýò êüìâïõò. Óôçí åñãáóßá [116] ïé óõããñáöåßò ðñüôåéíáí ìßá ðáñáëëáãÞ
ôïõ R∗ -äÝíäñïõ, ç ïðïßá ó÷åäéÜóèçêå ðñïò ôçí êáôåýèõíóç ôçò áðïäïôéêüôå-
ñçò äåéêôïäüôçóçò óôçí ðåñßðôùóç ðáñïõóßáò ðïëëþí êáé óõ÷íþí åíçìåñþóåùí.
6.3. IDC-INDEX 103

×ñçóéìïðïéïýíôáé äýï åðéðñüóèåôåò âïçèçôéêÝò äïìÝò ðÝñá áðü ôï R∗ -äÝíäñï: (á)


Ýíáò ðßíáêáò êáôáêåñìáôéóìïý, ï ïðïßïò áíôéóôïé÷åß áíáãíùñéóôéêÜ áíôéêåéìÝ-
íùí óå öýëëá ôïõ äÝíäñïõ, êáé (â) ìßá äïìÞ äåäïìÝíùí, ç ïðïßá ÷ñçóéìïðïéåßôáé
ãéá íá åðéôåõ÷èåß ç ðñïóðÝëáóç åóùôåñéêþí êüìâïõ ôïõ äÝíäñïõ. ÁõôÝò ïé ðñï-
óåããßóåéò äåí åßíáé åöáñìüóéìåò óå äõíáìéêÜ äåäïìÝíá, åðåéäÞ âáóéêüò óôü÷ïò
ôïõò åßíáé íá åðéôá÷ýíïõí ôç äéáäéêáóßá åíçìÝñùóçò ðáñÜ íá åëáôôþóïõí ôï ðëÞ-
èïò ôùí åíçìåñþóåùí. Óôçí ðåñßðôùóç ôùí ñïþí äåäïìÝíùí, åßíáé áðáñáßôçôïò
ï Ýëåã÷ïò ôçò óõ÷íüôçôáò åíçìÝñùóçò ôçò äïìÞò ðñïêåéìÝíïõ íá áðïöåõ÷èåß
ðôþóç ôçò áðüäïóçò ôïõ óõóôÞìáôïò.

6.3 IDC-Index
Ìßá ñïÞ óõìâïëßæåôáé ùò Sx êáé ìßá ðåðåñáóìÝíç ÷ñïíïóåéñÜ óõìâïëßæåôáé ùò
Sx [i : j ], üðïõ i åßíáé ç áñ÷éêÞ ÷ñïíéêÞ óôéãìÞ ôçò ÷ñïíïóåéñÜò êáé j åßíáé ç
ôåëåõôáßá. Ôï ðëÞèïò ôùí ôéìþí ìßáò ÷ñïíïóåéñÜò åßíáé åðïìÝíùò j {i+1 êáé
áíôéóôïé÷ïýí óå Ýíá ðáñÜèõñï ìÞêïõò W . Ôï óýìâïëï Sx (i) áíôéóôïé÷åß óôçí i-
ïóôÞ ôéìÞ ôçò ÷ñïíïóåéñÜò. Ï Ðßíáêáò 6.1 óõíïøßæåé ôïõò ïñéóìïýò ôùí âáóéêþí
óõìâüëùí ðïõ ÷ñçóéìïðïéïýíôáé óå áõôü ôï êåöÜëáéï.
Óýìâïëï ÐåñéãñáöÞ
S; T; Sx ; Sy êéíïýìåíåò ÷ñïíïóåéñÝò
Sq êéíïýìåíç ÷ñïíïóåéñÜ åñþôçìá
S [i : j ] ðåðåñáóìÝíç ÷ñïíïóåéñÜ ìåôáîý ÷ñïíéêþí óôéãìþí i êáé j
S (i) i-ïóôÞ ôéìÞ êéíïýìåíçò ÷ñïíïóåéñÜò
DF T (S ); DF T (Sx ) DFT êéíïýìåíùí ÷ñïíïóåéñþí S; Sx
DF Ti (S ) i-ïóôüò DFT óõíôåëåóôÞò ôçò S
DE (Sx ; Sy ) Åõêëåßäåéá áðüóôáóç ìåôáîý ôùí êéíïýìåíùí
÷ñïíïóåéñþí Sx êáé Sy
∆u ôéìÞ êáôùöëßïõ åíçìÝñùóçò
∆q ôéìÞ åðÝêôáóçò åñùôÞìáôïò
k áðáéôïýìåíï ðëÞèïò êïíôéíüôåñùí ãåéôüíùí
dk k-ïóôÞ êáëýôåñç áðüóôáóç
e áêôßíá êõêëéêïý åñùôÞìáôïò äéáóôÞìáôïò
W ìÞêïõò êéíïýìåíïõ ðáñáèýñïõ
U åðéèõìçôÞ óõ÷íüôçôá åíçìÝñùóçò

ΠINAKAΣ 6.1. ÂáóéêÜ óýìâïëá Êåöáëáßïõ 6.

Óôç ìåëÝôç ìáò ÷ñçóéìïðïéÞèçêå ùò ìÝôñï ïìïéüôçôáò ç Åõêëåßäåéá áðü-


óôáóç ìåôáîý äýï ðåðåñáóìÝíùí ÷ñïíïóåéñþí. Ç áðüóôáóç ìåôáîý äýï êéíïý-
ìåíùí ÷ñïíïóåéñþí Sx êáé Sy ïñßæåôáé áðü ôçí Åõêëåßäåéá áðüóôáóç ìåôáîý ôùí
ôåëåõôáßùí W ôéìþí ôçò Sx êáé ôçò Sy , êáé óõìâïëßæåôáé ùò DE (Sx ; Sy ).
104 ÊÅÖÁËÁÉÏ 6. ÅÕÑÅÓÇ ÏÌÏÉÏÔÇÔÁÓ ÓÅ ÊÉÍÏÕÌÅÍÅÓ ×ÑÏÍÏÓÅÉÑÅÓ

Áò õðïèÝóïõìå ôçí ýðáñîç n êéíïýìåíùí ÷ñïíïóåéñþí, üðïõ êÜèå ìßá åíçìå-


ñþíåôáé ÷ñïíéêÜ. Ãéá íá êáèïñßóïõìå ðáñüìïéåò êéíïýìåíåò ÷ñïíïóåéñÝò, ÷ñçóé-
ìïðïéïýìå ìüíï ôéò ôåëåõôáßåò W ôéìÝò ôçò êÜèå ìßáò êáé ôéò åíçìåñþíïõìå üôáí
Ýñ÷åôáé ìßá íÝá ôéìÞ. ÄåäïìÝíçò ìßáò êéíïýìåíçò ÷ñïíïóåéñÜò-åñþôçóçò, áðï-
ôåëåß ðñüêëçóç ï ðñïóäéïñéóìüò ôùí ðáñüìïéùí êéíïýìåíùí ÷ñïíïóåéñþí êáèþò
ôá äåäïìÝíá ìåôáâÜëëïíôáé ÷ñïíéêÜ.
Ç áðëïúêÞ ðñïóÝããéóç åßíáé ç ÓåéñéáêÞ ÓÜñùóç (Sequential Scan - SS).
Óå êÜèå åíçìÝñùóç, õðïëïãßæïíôáé üëåò ïé áðïóôÜóåéò ìåôáîý ôçò êéíïýìåíçò
÷ñïíïóåéñÜò-åñþôçóçò êáé üëùí ôùí êéíïýìåíùí ÷ñïíïóåéñþí-äåäïìÝíùí. ÌåôÜ
áíáöÝñïíôáé ïé ðáñüìïéåò êéíïýìåíåò ÷ñïíïóåéñÝò. Ïé ñïÝò äåäïìÝíùí èÝôïõí
íÝåò ðñïêëÞóåéò óôéò åöáñìïãÝò üðùò áðåñéüñéóôåò áðáéôÞóåéò ìíÞìçò, õøçëïýò
ñõèìïýò Üöéîçò äåäïìÝíùí, êáé ôá÷ýôáôïõò ÷ñüíïõò áðüêñéóçò. ÊáôÜ óõíÝðåéá
åßíáé áðáñáßôçôåò ðïëõðëïêüôåñåò ðñïóåããßóåéò ðïõ ü÷é ìüíï èá êáôáóôÞóïõí
äõíáôÞ ôç äéáäéêáóßá ïìïéüôçôáò áëëÜ èá ôçí åðéôá÷ýíïõí.
Ç åîáãùãÞ ÷áñáêôçñéóôéêþí (feature extraction) êáé ç ìåßùóç äéáóôÜóåùí
åßíáé äýï ðïëý ãíùóôÝò êáé êáèéåñùìÝíåò ôå÷íéêÝò áðëïðïßçóçò ðïëýðëïêùí ðñï-
âëçìÜôùí. Ôï ìÝôñï ïìïéüôçôáò åöáñìüæåôáé óôá åîá÷èÝíôá ÷áñáêôçñéóôéêÜ.
ÅðéðëÝïí, ìßá ìÝèïäïò äåéêôïäüôçóçò ÷ñçóéìïðïéåßôáé ãéá íá áðïññßøåé êÜðïéåò
÷ñïíïóåéñÝò êáé êáôÜ óõíÝðåéá íá åëáôôþóåé ôïõò õðïëïãéóìïýò áðïóôÜóåùí.
Óå óôáôéêÜ ðåñéâÜëëïíôá, ïëüêëçñç ç äéáäéêáóßá ãéá ôá åñùôÞìáôá ïìïéüôçôáò
ðåñéëáìâÜíåé ôá áêüëïõèá âÞìáôá: (á) åöáñìüæåôáé ç åîáãùãÞ ÷áñáêôçñéóôé-
êþí óôéò ÷ñïíïóåéñÝò, (â) ôá åîá÷èÝíôá ÷áñáêôçñéóôéêÜ åéóÜãïíôáé óôç äïìÞ
äåéêôïäüôçóçò, (ã) ç ôå÷íéêÞ åîáãùãÞò ÷áñáêôçñéóôéêþí åöáñìüæåôáé êáé óôç
÷ñïíïóåéñÜ-åñþôçóç, (ä) ç äïìÞ äåéêôïäüôçóçò ÷ñçóéìïðïéåßôáé ãéá íá áíáêôÞ-
óåé õðïøÞöéåò ÷ñïíïóåéñÝò ìå âÜóç ôï êáôþöëé ðïõ Ý÷åé ïñßóåé ï ÷ñÞóôçò ( Þ k
áíÜëïãá ôï åñþôçìá ïìïéüôçôáò), êáé (å) ïé áðïóôÜóåéò ìåôáîý ôïõ åñùôÞìáôïò
êáé ôùí õðïøÞöéùí ÷ñïíïóåéñþí õðïëïãßæïíôáé óôï ìåôÜ-åðåîåñãáóôéêü âÞìá
(post processing step) ãéá íá áðïññßøåé ôéò ëáíèáóìÝíá õðïøÞöéåò ÷ñïíïóåéñÝò.
Áêïëïõèþíôáò ôï ðñïçãïýìåíï ó÷Þìá, óå áõôü ôï êåöÜëáéï ðñïôåßíïõìå ìßá
ìÝèïäï ðïõ ÷ñçóéìïðïéåß ôïõò óõíôåëåóôÝò DFT ùò ÷áñáêôçñéóôéêÜ ôùí ÷ñï-
íïóåéñþí êáé äïìÝò äåéêôïäüôçóçò âáóéóìÝíåò óôï R∗ -äÝíäñï. Ãéá íá éêáíï-
ðïéçèïýí ïé ðåñéïñéóìïß ðïõ ôßèåíôáé áðü ôï äõíáìéêü ðåñéâÜëëïí: (á) ðáñïõ-
óéÜæïõìå Ýíáí áõîçôéêü õðïëïãéóìü ôïõ DFT ðñïêåéìÝíïõ íá áðïöýãïõìå ôï
÷ñïíïâüñï õðïëïãéóìü ôïõ DFT, êáé (â) ðáñïõóéÜæïõìå äéÜöïñåò áíáâëçôéêÝò
ðïëéôéêÝò åíçìÝñùóçò ðñïêåéìÝíïõ íá áðïöýãïõìå ôçí ðôþóç ôçò áðüäïóçò ôïõ
óõóôÞìáôïò ëüãù ôçò ÷ñÞóçò ôçò äïìÞò äåéêôïäüôçóçò êáé ôïõ õøçëïý áñéèìïý
åíçìåñþóåùí.
Ç Åéêüíá 6.2 áðåéêïíßæåé ôçí áñ÷éôåêôïíéêÞ ôïõ óõóôÞìáôïò. Ïé ôåëåõôáßåò
W ôéìÝò êÜèå ñïÞò áðïèçêåýïíôáé óôï äßóêï. Ïé óõíôåëåóôÝò ôïõ DFT êÜèå
ñïÞò åéóÜãïíôáé óôç äïìÞ äåéêôïäüôçóçò. Óôï ôåëåõôáßï åðßðåäï (åðßðåäï öýë-
ëùí) ôçò äïìÞò, Ýíáò äåßêôçò óõó÷åôßæåé ôïõò óõíôåëåóôÝò ôïõ DFT ìå êÜèå
6.3. IDC-INDEX 105

! "
!"

EIKONA 6.2. Áñ÷éôåêôïíéêÞ óõóôÞìáôïò.

ñïÞ. Åðéðñüóèåôá êÜèå ñïÞ äéáôçñåß Ýíá äåßêôç ðïõ äåß÷íåé óôï öýëëï ðïõ åß-
íáé áðïèçêåõìÝíïé ïé áíôßóôïé÷ïé óõíôåëåóôÝò ôïõ DFT. ¼ôáí Ýñ÷åôáé ìßá ôéìÞ,
ìåôáêéíåßôáé ôï ðáñÜèõñï ôçò ñïÞò, åîÜãïíôáé áõîçôéêÜ ôá íÝá ÷áñáêôçñéóôéêÜ
êáé ïé íÝïé óõíôåëåóôÝò ôïõ DFT áíôéêáèéóôïýí ôïõò ðáëéïýò ÷ñçóéìïðïéþíôáò
ôï äåßêôç \ñïÞ óå öýëëï" (\stream to leaf" link). ÌåôÜ ç áíáâëçôéêÞ ðïëéôéêÞ
åíçìÝñùóçò áðïöáóßæåé áí ç äïìÞ èá åíçìåñùèåß Þ ü÷é. Áí íáé, åöáñìüæåôáé
ìßá ðñïóáñìïãÞ áðü êÜôù ðñïò ôá åðÜíù (áðü ôï öýëëï ðñïò ôç ñßæá) ìÝ÷ñé
ôï áðáéôïýìåíï åðßðåäï. Ôï åñþôçìá åöáñìüæåôáé óôç äïìÞ äåéêôïäüôçóçò ãéá
íá áíáêôÞóïõìå õðïøÞöéåò ÷ñïíïóåéñÝò ÷ñçóéìïðïéþíôáò ôï äåßêôç \öýëëï óå
ñïÞ" (\leaf to stream" link). Óôç óõíÝ÷åéá, ïé ðñáãìáôéêÝò áðïóôÜóåéò õðï-
ëïãßæïíôáé ìåôáîý ôçò ÷ñïíïóåéñÜò åñþôçóçò êáé ôùí õðïøÞöéùí ÷ñïíïóåéñþí,
÷ñçóéìïðïéþíôáò ôéò ðñáãìáôéêÝò ôïõò ôéìÝò, ãéá íá áðïññéöèïýí ïé ëáíèáóìÝíá
õðïøÞöéåò ÷ñïíïóåéñÝò. Ç áñ÷éôåêôïíéêÞ ôïõ óõóôÞìáôïò ìðïñåß íá ÷ùñéóèåß
óå ôñßá ôìÞìáôá: ôçí áõîçôéêÞ åîáãùãÞ ÷áñáêôçñéóôéêþí, ôçí áíáâëçôéêÞ ðï-
ëéôéêÞ åíçìÝñùóçò êáé ôç äïìÞ äåéêôïäüôçóçò. Ïé åðüìåíåò åíüôçôåò ðáñÝ÷ïõí
ëåðôïìÝñåéåò ãéá êÜèå Ýíá áðü áõôÜ ôá ôìÞìáôá.
106 ÊÅÖÁËÁÉÏ 6. ÅÕÑÅÓÇ ÏÌÏÉÏÔÇÔÁÓ ÓÅ ÊÉÍÏÕÌÅÍÅÓ ×ÑÏÍÏÓÅÉÑÅÓ

6.3.1 Áõîçôéêüò õðïëïãéóìüò DFT


Ùò ìÝèïäïò åîáãùãÞò ÷áñáêôçñéóôéêþí ÷ñçóéìïðïéåßôáé ï DFT ðïõ äéáôçñåß ôçí
Åõêëåßäåéá áðüóôáóç ìåôáîý äýï áêïëïõèéþí. Ïé ÷ñïíïóåéñÝò ðñáãìáôéêþí äå-
äïìÝíùí ðïëëþí åöáñìïãþí óõãêåíôñþíïõí ôçí åíÝñãåéá ôïõò óôïõò ðñþôïõò
óõíôåëåóôÝò DFT. Áñá ÷ñåéáæüìáóôå ëßãç ó÷åôéêÜ ðëçñïöïñßá ãéá ôçí áðï-
ôýðøóç ôùí âáóéêþí ÷áñáêôçñéóôéêþí ôïõ áñ÷éêïý äéáíýóìáôïò. ¸íá áêüìá
óçìáíôéêü ÷áñáêôçñéóôéêü ôïõ DFT åßíáé üôé äéáôçñåß ßóç ôçí Åõêëåßäåéá áðü-
óôáóç óôï ðåäßï ôïõ ÷ñüíïõ ìå áõôÞ óôï ðåäßï ôçò óõ÷íüôçôáò. ËáìâÜíïíôáò
õðüøç ìüíï ôïõò ðñþôïõò óõíôåëåóôÝò DFT, ç ðáñáãüìåíç áðüóôáóç ìåôáîý äýï
äéáíõóìÜôùí åëáôôþíåôáé êáé åðïìÝíùò äåí ìðïñïýí íá ÷áèïýí ÷ñïíïóåéñÝò áðü
ôçí áðÜíôçóç (false dismissals) êáôÜ ôç äéÜñêåéá åðåîåñãáóßáò åíüò åñùôÞìáôïò
äéáóôÞìáôïò [8, 57]. Ðñïöáíþò õðÜñ÷åé Ýíá óõìâéâáóìüò ìåôáîý ôïõ ðëÞèïõò
ôùí ÷ñçóéìïðïéïýìåíùí óõíôåëåóôþí DFT êáé ôçò ðñïóÝããéóçò ôçò ðñáãìá-
ôéêÞò áðüóôáóçò. Áí ÷ñçóéìïðïéïýíôáé ðåñéóóüôåñïé óõíôåëåóôÝò DFT, ôüôå ï
áñéèìüò ôùí õðïøÞöéùí ÷ñïíïóåéñþí åëáôôþíåôáé êáôÜ ôç äéÜñêåéá åðåîåñãáóßáò
ôïõ åñùôÞìáôïò. ¸ôóé ç åðåîåñãáóßá åðéôá÷ýíåôáé áëëÜ áðáéôåßôáé ðåñéóóüôåñç
ìíÞìç ãéá ôçí áðïèÞêåõóÞ ôïõò.
ÃåíéêÜ, êÜèå öïñÜ ðïõ Ýñ÷åôáé ìßá ôéìÞ ãéá ìßá ñïÞ, ôï äéÜíõóìá ôïõ DFT
ðñÝðåé íá õðïëïãßæåôáé áðü ôçí áñ÷Þ ÷ñçóéìïðïéþíôáò ôéò ôåëåõôáßåò W ôéìÝò
ôçò ñïÞò. Áõôü ìðïñåß íá ïäçãÞóåé óå õøçëü êüóôïò åíçìÝñùóçò, äéüôé ï õðï-
ëïãéóìüò ôïõ DFT åßíáé áñêåôÜ ÷ñïíïâüñïò. Ùóôüóï, üðùò åîçãåß ç åðüìåíç
ðñüôáóç, ï õðïëïãéóìüò ôïõ DFT ìðïñåß íá ðñáãìáôïðïéçèåß áõîçôéêÜ, áðï-
öåýãïíôáò ôïí õðïëïãéóìü áðü ôçí áñ÷Þ, ÷ñçóéìïðïéþíôáò ôïõò ðñïçãïýìåíá
õðïëïãéóìÝíïõò óõíôåëåóôÝò ôïõ DFT.
ÐÑÏÔÁÓÇ 6.1 (Áõîçôéêüò õðïëïãéóìüò DFT). ¸óôù S ìßá êéíïýìåíç ÷ñï-
íïóåéñÜ ìå ôéìÝò S (0); S (1); : : : ; S (W {1) êáé ìÞêïò W . ÅðéðëÝïí, Ýóôù üôé ôá
óýìâïëá DF T0 (S ); DF T1 (S ); : : : ; DF TW −1 (S ) õðïäçëþíïõí ôïõò óõíôåëåóôÝò
ôïõ DFT ôçò S . Áí ìßá íÝá ôéìÞ Ýñèåé ãé' áõôÞ ôç ñïÞ, Ý÷ïõìå ôçí áêïëïõ-
èßá T (1); T (2); : : : ; T (W ), üðïõ S (i)=T (i) ãéá 1 ≤ i ≤ W {1 êáé T (W ) åßíáé ç
íÝá ôéìÞ. Ïé óõíôåëåóôÝò ôïõ DFT ôçò T ìðïñïýí íá õðïëïãéóèïýí áðü ôïõò
óõíôåëåóôÝò ôïõ DFT ôçò S ìå ôçí åîßóùóç:
1 √
DF Tn (T ) = √ ·( W · DF Tn (S )− S (0)+ T (W ))· ej 2n=W ; (0 ≤ n ≤ W −1)
W
(6.1)
ÁÐÏÄÅÉÎÇ. Äåßôå ôçí Åíüôçôá 6.6. a
ÊÜèå óõíôåëåóôÞò ôïõ DFT Ý÷åé Ýíá ðñáãìáôéêü êáé Ýíá öáíôáóôéêü ôìÞìá.
¸íá æÞôçìá õëïðïßçóçò ðïõ ðñÝðåé íá åðéëõèåß åßíáé ðùò ìðïñïýìå íá õðïëï-
ãßóïõìå ÷ùñéóôÜ êÜèå ôìÞìá ôùí óõíôåëåóôþí ôïõ DFT. Ç åðüìåíç ðñüôáóç
åîçãåß.
6.3. IDC-INDEX 107

ÐÑÏÔÁÓÇ 6.2 (Áõîçôéêüò õðïëïãéóìüò ôìçìÜôùí DFT). ¸óôù S ìßá êéíïý-


ìåíç ÷ñïíïóåéñÜ ìå ôéìÝò S (0); S (1); : : : ; S (W {1) êáé ìÞêïò W . ÅðéðëÝïí, Ýóôù
üôé ôá óýìâïëá DF T0 (S ); DF T1 (S ); : : : ; DF TW −1 (S ) õðïäçëþíïõí ôïõò óõíôå-
ëåóôÝò ôïõ DFT ôçò S . Áí ìßá íÝá ôéìÞ Ýñèåé ãé' áõôÞ ôç ñïÞ, Ý÷ïõìå ôçí áêï-
ëïõèßá T (1); T (2); : : : ; T (W ), üðïõ S (i)=T (i) ãéá 1 ≤ i ≤ W {1 êáé T (W ) åßíáé
ç íÝá ôéìÞ. Ôï ðñáãìáôéêü (DF Tn (T )real ) êáé ôï öáíôáóôéêü (DF Tn (T )imag )
ôìÞìá ôùí óõíôåëåóôþí ôïõ DFT ôçò T ìðïñïýí íá õðïëïãéóèïýí áðü ôïõò óõ-
íôåëåóôÝò ôïõ DFT ôçò S óýìöùíá ìå ôéò åîéóþóåéò:

DF Tn (T )real =
1 √ 2n 2n
√ · ( W · DF Tn (S )real − S (0) + T (W )) · cos( ) − DF Tn (S )imag · sin( )
W W W
(6.2)
êáé
DF Tn (T )imag =
1 √ 2n 2n
√ · ( W · DF Tn (S )real − S (0) + T (W )) · sin( ) + DF Tn (S )imag · cos( )
W W W
(6.3)
üðïõ (0 ≤ n ≤ W − 1)
ÁÐÏÄÅÉÎÇ. Äåßôå ôçí Åíüôçôá 6.6. a

Ç ðñïçãïýìåíç ðñüôáóç ìðïñåß íá ÷ñçóéìïðïéçèåß ãéá íá õðïëïãéóèïýí áõ-


îçôéêÜ ïé íÝïé óõíôåëåóôÝò ôïõ DFT ìßáò êéíïýìåíçò ÷ñïíïóåéñÜò, ëáìâÜíïíôáò
õðüøç ôïõò ðñïçãïýìåíïõò, êáé áðïöåýãïíôáò Ýôóé ôïí õðïëïãéóìü ôùí óõíôå-
ëåóôþí áðü ôçí áñ÷Þ.

ÐÁÑÁÄÅÉÃÌÁ (Áõîçôéêüò õðïëïãéóìüò óõíôåëåóôþí DFT). ÕðïèÝóôå ìßá êé-


íïýìåíç ÷ñïíïóåéñÜ S : 3, 2, 1, 3 ìå W =4. Ï äåýôåñïò óõíôåëåóôÞò ôïõ DFT
ôçò S åßíáé DF T1 (S )= 2+2 j Þ DF T1 (S )real =1 êáé DF T1 (S )imag = 12 . ÅðéðëÝïí
õðïèÝóôå üôé Ýñ÷åôáé ìßá íÝá ôéìÞ (ð.÷. 4) êáé ó÷çìáôßæåé ìßá íÝá êéíïýìåíç
÷ñïíïóåéñÜ T : 2, 1, 3, 4. ¸ôóé, áí ãéá ðáñÜäåéãìá èÝëïõìå íá õðïëïãßóïõìå ôï
óõíôåëåóôÞ DF T1 (T ), ìðïñïýìå √ íá ÷ñçóéìïðïéÞóïõìå ôï óõíôåëåóôÞ DF T1 (S ).
ÅðïìÝíùò, DF T1 (T )real = 4 · ( 4 · 1 − 3 + 4) · cos( 24 ) − 12 · sin( 24 ) = − 21 êáé
√1

DF T1 (T )imag = √14 · ( 4 · 1 − 3 + 4) · sin( 24 ) + 12 · cos( 24 ) = 23 .

6.3.2 ÁíáâëçôéêÞ ðïëéôéêÞ åíçìÝñùóçò


Åöüóïí ï áñéèìüò ôùí ñïþí ìðïñåß íá åßíáé áñêåôÜ ìåãÜëïò, åßíáé åðéèõìçôÞ
ç ÷ñÞóç ìßáò äïìÞò äåéêôïäüôçóçò, þóôå íá áðïöýãïõìå ôïí õðïëïãéóìü ôùí
áðïóôÜóåùí ôçò ÷ñïíïóåéñÜò åñþôçóçò ìå üëåò ôéò ÷ñïíïóåéñÝò äåäïìÝíá. ×ñç-
óéìïðïéïýìå ôï R∗ -äÝíäñï ùò äïìÞ äåéêôïäüôçóçò ãéá ôïõò óõíôåëåóôÝò ôïõ DFT
108 ÊÅÖÁËÁÉÏ 6. ÅÕÑÅÓÇ ÏÌÏÉÏÔÇÔÁÓ ÓÅ ÊÉÍÏÕÌÅÍÅÓ ×ÑÏÍÏÓÅÉÑÅÓ

ôùí êéíïýìåíùí ÷ñïíïóåéñþí. Óôçí ðåñßðôùóÞ ìáò ôï ðñüâëçìá åßíáé üôé ïé óõ-
íôåëåóôÝò DFT ìßáò êéíïýìåíçò ÷ñïíïóåéñÜò ðñÝðåé íá åíçìåñþíïíôáé êÜèå öïñÜ
ðïõ Ýñ÷åôáé ìßá íÝá ôéìÞ ãé' áõôÞ ôç ÷ñïíïóåéñÜ. Áí åíçìåñþíïõìå ôç äïìÞ êÜèå
öïñÜ ðïõ ãßíåôáé äéáèÝóéìç ìßá ôéìÞ, ôï êüóôïò èá åßíáé áðáãïñåõôéêü. Ãéá íá
áðïöýãïõìå óõíå÷åßò äéáãñáöÝò êáé åéóáãùãÝò óôï R∗ -äÝíäñï, ÷ñçóéìïðïéïýìå
ìßá áíáâëçôéêÞ ðïëéôéêÞ åíçìÝñùóçò. Ìßá ðáñÜìåôñïò ∆u ÷ñçóéìïðïéåßôáé ãéá
íá åëÝãîåé ôéò åíçìåñþóåéò. Áí ç áðüóôáóç ìåôáîý ôùí íÝùí êáé ôùí ðáëéþí
óõíôåëåóôþí ôïõ DFT åßíáé ìåãáëýôåñç ôçò ôéìÞò ôçò ðáñáìÝôñïõ ∆u , ôüôå åíç-
ìåñþíåôáé ôï R∗ -äÝíäñï. Áëëéþò, äåí ðñáãìáôïðïéåßôáé ç åíçìÝñùóç. ÁõôÞ ç
ôå÷íéêÞ ïäçãåß óå óçìáíôéêÞ ìåßùóç ôïõ êüóôïõò. Ïé ôåëåõôáßïé êáôáãåãñáì-
ìÝíïé óõíôåëåóôÝò ôïõ DFT áðïèçêåýïíôáé óôï ôÝëïò ôçò óåëßäáò äßóêïõ êÜèå
êéíïýìåíçò ÷ñïíïóåéñÜò, Ýôóé þóôå íá åßíáé äéáèÝóéìïé üôáí èá Ýñèïõí íÝåò ôéìÝò.
Ôï áíôßóôïé÷ï ôßìçìá ãéá ôç ìåßùóç ôïõ êüóôïõò åßíáé üôé ç äïìÞ äåéêôïäüôçóçò
ìðïñåß íá ìçí åßíáé ðëÞñùò åíçìåñùìÝíç êáé êáôÜ óõíÝðåéá íá ìçí Ý÷åé áðïèç-
êåõìÝíåò ôéò ðñáãìáôéêÝò ôñÝ÷ïõóåò ôéìÝò. Ç ÷ñÞóç ôçò ðáñáìÝôñïõ ∆u åãåßñåé
äýï åñùôÞìáôá: (á) áí ïäçãåß óôçí åìöÜíéóç false dismissals, êáé (â) áí åðé-
äñÜ óôçí áðüäïóç ôçò åðåîåñãáóßáò ôïõ åñùôÞìáôïò. ¼ðùò èá äïýìå áñãüôåñá,
ìå ôéò êáôÜëëçëåò ôñïðïðïéÞóåéò óôçí åðåîåñãáóßá ôïõ åñùôÞìáôïò, ïýôå false
dismissals ìðïñïýí íá óõìâïýí áëëÜ ïýôå êáé ç áðüäïóç ôçò åðåîåñãáóßáò ôïõ
åñùôÞìáôïò åðçñåÜæåôáé óçìáíôéêÜ.
¸óôù S åßíáé ìßá êéíïýìåíç ÷ñïíïóåéñÜ. Ïé ôåëåõôáßåò W ôéìÝò ó÷çìáôßæïõí
ìßá áêïëïõèßá ðïõ óõìâïëßæåôáé ìå S1 [N −W +1 : N ], üðïõ N åßíáé ç èÝóç ôçò ôå-
ëåõôáßáò ôéìÞò ôçò ÷ñïíïóåéñÜò. ¼ôáí Ýñèåé ìßá íÝá ôéìÞ ãéá ôç S , ó÷çìáôßæåôáé
ìßá íÝá áêïëïõèßá S2 [N − W + 2 : N + 1]. ÕðïèÝóôå åðéðëÝïí üôé DF T (S1 ) åßíáé
ç ôåëåõôáßá êáôáãåãñáììÝíç áêïëïõèßá óõíôåëåóôþí DFT ðïõ áíôéóôïé÷åß óôç
S1 [N − W + 1 : N ], åíþ DF T (S2 ) åßíáé ç áêïëïõèßá ôùí óõíôåëåóôþí DFT ðïõ
áíôéóôïé÷åß óôç S2 [N − W + 2 : N + 1], êáé ç ïðïßá õðïëïãßæåôáé áõîçôéêÜ ÷ñçóé-
ìïðïéþíôáò ôç DF T (S1 ). Áí DE (DF T (S1 ); DF T (S2 )) ≤ ∆u , ôüôå ç áêïëïõèßá
DF T (S2 ) áðïèçêåýåôáé ùò ç ðéï ðñüóöáôç áêïëïõèßá óõíôåëåóôþí DFT (áíôé-
êáèéóôþíôáò ôç DF T (S1 )) áëëÜ äåí åéóÜãåôáé óôç äïìÞ ôïõ R∗ -äÝíäñïõ. ÕðïèÝ-
óôå ôþñá üôé ìßá íÝá ôéìÞ öèÜíåé ãéá ôç ÷ñïíïóåéñÜ. ¸óôù S3 [N − W +3 : N +2]
åßíáé ç íÝá ÷ñïíïóåéñÜ êáé DF T (S3 ) åßíáé ïé DFT óõíôåëåóôÝò ôçò, ïé ïðïßïé õðï-
ëïãßæïíôáé áõîçôéêÜ ÷ñçóéìïðïéþíôáò ôïõò DF T (S2 ). Ç áêïëïõèßá DF T (S3 )
áíôéêáèéóôÜ ôç DF T (S2 ) ùò ç ðéï ðñüóöáôç áêïëïõèßá óõíôåëåóôþí DFT. Áí
DE (DF T (S3 ); DF T (S1 )) ≤ ∆u , ôüôå äåí ðñáãìáôïðïéåßôáé åíçìÝñùóç óôï R∗ -
äÝíäñï. Áðü ôçí Üëëç ìåñéÜ, áí DE (DF T (S3 ); DF T (S1 )) > ∆u , ôüôå ç áêïëïõ-
èßá DF T (S3 ) áíôéêáèéóôÜ ôçí áêïëïõèßá DF T (S1 ) óôï äÝíäñï, êáé åðïìÝíùò
ðñáãìáôïðïéåßôáé åíçìÝñùóç ôçò äïìÞò.
Óõíïøßæïíôáò, ÷ñåéáæüìáóôå ôüóï ôïõò ôåëåõôáßïõò êáôáãåãñáììÝíïõò óõ-
íôåëåóôÝò DFT, üóï êáé ôïõò ðñïçãïýìåíá õðïëïãéóìÝíïõò óõíôåëåóôÝò DFT.
Ïé ðñþôïé ÷ñçóéìïðïéïýíôáé ãéá íá áðïöáóßóïõìå áí èá åíçìåñþóïõìå ôç äïìÞ
6.3. IDC-INDEX 109

Þ ü÷é, åíþ ïé äåýôåñïé ÷ñçóéìïðïéïýíôáé ãéá ôïí áõîçôéêü õðïëïãéóìü ôùí íÝùí
DFT óõíôåëåóôþí. Ç Åéêüíá 6.3 ðåñéãñÜöåé ôá âÞìáôá ôçò áíáâëçôéêÞò ðïëéôé-
êÞò åíçìÝñùóçò. Ôï âÞìá 1 åßíáé ç áõîçôéêÞ åîáãùãÞ ÷áñáêôçñéóôéêþí (incre-
mental feature extraction) ôçò Åéêüíá 6.2. Ôï âÞìá 3 ÷ñçóéìïðïéåß ôï äåßêôç
\stream to leaf" ãéá íá õðïëïãßóåé ôçí áðüóôáóç ìåôáîý ôùí óõíôåëåóôþí DFT.
Ôï âÞìá 4 åíçìåñþíåé ôïõò åóùôåñéêïýò êüìâïõò ôçò äïìÞò.

When a new value arrives:


1. Compute the DFT coecients of the new streaming time series using
the coecients of the previous streaming time series.
2. Replace the previous DFT coecients with the new DFT coecients.
3. Compute the distance between the new DFT coecients and the coe-
cients that are stored in the index (i.e. the last recorded coecients).
4. If the distance is more than ∆u , update the index.

EIKONA 6.3. ÁíáâëçôéêÞ ðïëéôéêÞ åíçìÝñùóçò.

6.3.3 Ç äïìÞ IDC-Index ìå ãåíéêÞ åðÝêôáóç åñùôÞìáôïò


Ç ôéìÞ ôïõ êáôùöëßïõ åíçìÝñùóçò ∆u ìðïñåß åßôå íá åßíáé óôáèåñÞ Þ íá ìåôá-
âÜëëåôáé ìå ôéò áðáéôÞóåéò ôçò åöáñìïãÞò. Ç ÷ñÞóç ìßáò óôáèåñÞò ôéìÞò ãéá
ôçí ðáñÜìåôñï ∆u áðáéôåß ôç óôáôéóôéêÞ áíÜëõóç ôùí êéíïýìåíùí ÷ñïíïóåéñþí
ãéá ôçí åðéëïãÞ ìßáò ôéìÞò ðïõ èá åããõÜôáé ôçí áðïäïôéêÞ ëåéôïõñãßá. Ùóôüóï,
åðåéäÞ ôá ÷áñáêôçñéóôéêÜ ôùí êéíïýìåíùí ÷ñïíïóåéñþí áëëÜæïõí ÷ñïíéêÜ, ç åðé-
ëïãÞ ìßáò óôáèåñÞò ôéìÞò ãéá ôçí ðáñÜìåôñï ∆u åßíáé ðïëý ðåñéïñéóôéêÞ. Óôéò
åðüìåíåò åíüôçôåò, èá äåßîïõìå ðùò ìðïñïýìå íá ìåôáâÜëëïõìå ôçí ôéìÞ ôçò ∆u
êáèþò ïé ñïÝò ìåôáâÜëëïíôáé ÷ñïíéêÜ.

6.3.3.1 ÅðéëÝãïíôáò ôï êáôþöëé åíçìÝñùóçò ∆u


Óå áõôÞ ôçí åíüôçôá, åðåîåñãáæüìáóôå ëåðôïìåñþò ôï æÞôçìá ôçò ðñïóáñìïãÞò
ôïõ êáôùöëßïõ åíçìÝñùóçò áíÜëïãá ìå ôçí åðéèõìçôÞ óõ÷íüôçôá åíçìÝñùóçò U
ðïõ ôßèåôáé áðü ìßá óõãêåêñéìÝíç åöáñìïãÞ. Ç óõ÷íüôçôá åíçìÝñùóçò õðïäçëþ-
íåé ôï ìÝãéóôï åðéôñåðôü áñéèìü åíçìåñþóåùí ðïõ ìðïñïýí íá ðñáãìáôïðïéçèïýí
óôç äïìÞ ÷ùñßò íá åëáôôùèåß ç áðüäïóç. ËáìâÜíïíôáò õðüøç üôé ìðïñåß íá áðáé-
ôåßôáé Ýíá ðïëý ìåãÜëï ðëÞèïò åíçìåñþóåùí êáèþò íÝåò ôéìÝò Ýñ÷ïíôáé óõíå÷þò,
ç ðáñÜìåôñïò U ÷ñçóéìïðïéåßôáé ãéá íá áíôéóôáèìßóåé ôçí õðÝñìåôñç áðáßôçóç
åíçìÝñùóçò. ÁõôÞ ç ðáñÜìåôñïò ìðïñåß íá ôåèåß áðü ôçí åöáñìïãÞ, Þ ìðïñåß íá
ìåôáâÜëëåôáé áíÜëïãá ìå ôçí \êéíçôéêüôçôá" ôùí ñïþí. Ãéá ðáñÜäåéãìá, üôáí
110 ÊÅÖÁËÁÉÏ 6. ÅÕÑÅÓÇ ÏÌÏÉÏÔÇÔÁÓ ÓÅ ÊÉÍÏÕÌÅÍÅÓ ×ÑÏÍÏÓÅÉÑÅÓ

ïé íÝåò ôéìÝò Ýñ÷ïíôáé ìå ðïëý áñãü ñõèìü, ôüôå ôï óýóôçìá ìðïñåß íá áíôá-
ðåîÝëèåé óå ðïëý ìåãÜëï ðëÞèïò åíçìåñþóåùí ôçò äïìÞò. Áðü ôçí Üëëç, üôáí
ïé íÝåò ôéìÝò Ýñ÷ïíôáé ìå ðïëý õøçëïýò ñõèìïýò, ç óõ÷íüôçôá åíçìÝñùóçò ôçò
äïìÞò ðñÝðåé íá åëáôôùèåß ãéá íá áðïôñÝøåé åíäå÷üìåíç õðïâÜèìéóç ôçò áðüäï-
óçò ôïõ óõóôÞìáôïò. Óôç óõíÝ÷åéá, åîçãïýìå ìå ëåðôïìÝñåéåò ðùò ìðïñïýìå íá
õðïëïãßóïõìå äõíáìéêÜ ôçí ôéìÞ ôçò ∆u Ýôóé þóôå íá ðñïóåããßóïõìå ôç U .
Ï óêïðüò åßíáé íá äéáôçñÞóïõìå ôçí ôéìÞ ôçò U üóï ôï äõíáôü êáëýôåñá,
âáóéæüìåíïé óôéò ðñüóöáôåò ôéìÝò ôùí êéíïýìåíùí ÷ñïíïóåéñþí. Ìå áõôü ôïí
ôñüðï, ìðïñïýìå íá ðñïóäéïñßóïõìå ìßá âïëéêÞ ôéìÞ ãéá ôçí ðáñÜìåôñï ∆u ãéá
ôï Üìåóï ìÝëëïí. ÐñïêåéìÝíïõ íá ôï åðéôý÷ïõìå áõôü, åöáñìüæåôáé Ýíáò ðñï-
óáñìïóôéêüò õðïëïãéóìüò ôçò ∆u . Ïé ôåëåõôáßåò u ôéìÝò ÷ñçóéìïðïéïýíôáé ãéá
íá êáèïñßóïõìå ôç ∆u . Ãéá ðáñÜäåéãìá, Ýóôù üôé ç U åßíáé 20%, ðïõ óçìáßíåé
üôé êÜèå 100 íÝåò ôéìÝò êáé óõíåðþò áéôÞóåéò ãéá åíçìÝñùóç ôçò äïìÞò ìüíï
20 åíçìåñþóåéò ôçò äïìÞò èá ðñáãìáôïðïéïýíôáé. Ãéá ôéò åðüìåíåò u=10 ôéìÝò
ðáñáôçñïýìå ôçí Åõêëåßäåéá áðüóôáóç ìåôáîý ôùí ðñïçãïýìåíùí êáé ôùí íÝùí
óõíôåëåóôþí DFT ôùí åðçñåáæüìåíùí êéíïýìåíùí ÷ñïíïóåéñþí. ÐñïêåéìÝíïõ
íá åðéôý÷ïõìå ôï 20% óôéò åíçìåñþóåéò ôçò äïìÞò, ç ôéìÞ ôçò ∆u ðñÝðåé íá ôåèåß
ßóç ìå 3, üðùò ðáñïõóéÜæåôáé óôçí Åéêüíá 6.4. Ìå áõôü ôïí ôñüðï, ìüíï 2 óôéò
10 åíçìåñþóåéò åðçñåÜæïõí ôç äïìÞ êáé åðéôõã÷Üíåôáé ôï 20%. ×ñçóéìïðïéïýìå
áõôÞ ôçí ôéìÞ ôçò ∆u ãéá ôéò åðüìåíåò u=10 ôéìÝò. ÅðéðëÝïí, óõíå÷ßæïõìå íá
ðáñáêïëïõèïýìå ôéò áðïóôÜóåéò ôùí óõíôåëåóôþí DFT ãé' áõôÝò ôéò u ôéìÝò.
ÎáíÜ, åðéëÝãïõìå ôç äåýôåñç ìéêñüôåñç ôéìÞ ãéá ôç ∆u Ýôóé þóôå íá åðéôý÷ïõìå
ôçò åðéèõìçôÞ óõ÷íüôçôá åíçìÝñùóçò ãéá ôçí åðüìåíç ðåñßïäï. ÁõôÞ ç äéáäéêá-
óßá åðáíáëáìâÜíåôáé óõíå÷þò. ¸íá óçìáíôéêü æÞôçìá ðïõ ðñÝðåé íá óçìåéùèåß,
åßíáé üôé ï áñéèìüò u ðñÝðåé íá åðéëåãåß Ýôóé þóôå íá õðÜñ÷åé Ýíáò óçìáíôéêüò
áñéèìüò ôéìþí ôùí ñïþí ãéá ôïí ðñïóäéïñéóìü ôçò ∆u . ¸ôóé, óôá ðåéñÜìáôÜ ìáò
÷ñçóéìïðïéÞóáìå ðëÞèïò ôéìþí u ìåôáîý 500 êáé 1000 ãéá íá õðïëïãßóïõìå ôçí
ôéìÞ ôçò ∆u .

EIKONA 6.4. Ðñïóäéïñéóìüò ôçò ∆u .

Áí ç ôéìÞ ôçò U ðáñáìÝíåé óôáèåñÞ, ôüôå äåí áðáéôïýíôáé éäéáßôåñåò äïìÝò


äåäïìÝíùí. Óôï ðñïçãïýìåíï ðáñÜäåéãìá, áí U =20% êáé u=10, ôüôå ÷ñåéÜæå-
ôáé íá óõíôçñÞóïõìå ôéò äýï ìéêñüôåñåò ôéìÝò. ¼ìùò, áõôü äåí åßíáé ñåáëéóôéêü
6.3. IDC-INDEX 111

óåíÜñéï, äéüôé ç ðáñÜìåôñïò U ìðïñåß íá áõîçèåß üôáí ç êéíçôéêüôçôá ôùí ñïþí


åßíáé ÷áìçëÞ êáé íá ìåéùèåß üôáí ç êéíçôéêüôçôá åßíáé õøçëÞ. Ãéá íá õðïóôçñé÷èåß
ìßá äõíáìéêÜ ìåôáâáëëüìåíç U , áîéïðïéåßôáé ìßá äïìÞ óùñïý åëá÷ßóôùí (min-
heap). Èõìçèåßôå üôé Ýíáò óùñüò åëá÷ßóôùí áðïèçêåýåé ôç ìéêñüôåñç ôéìÞ óôç
ñßæá. Áõôü óçìáßíåé üôé ç ìéêñüôåñç ôéìÞ åßíáé äéáèÝóéìç óå O(1) ÷ñüíï. Äéá-
ãñÜöïíôáò ôç ìéêñüôåñç ôéìÞ, ï óùñüò ðñïóáñìüæåôáé óå ÷ñüíï O(log n) (üðïõ
n åßíáé ôï ìÝãåèïò ôïõ óùñïý) êáé ç åðüìåíç ìéêñüôåñç ôéìÞ ôïðïèåôåßôáé óôç
ñßæá. ÅðïìÝíùò, áí ðñÝðåé íá âñåèåß ç x-ïóôÞ ìéêñüôåñç ôéìÞ, ðñïóðåëáýíïõìå
ôï óùñü x{1 öïñÝò, ìÝ÷ñé ç x-ïóôÞ ìéêñüôåñç ôéìÞ íá öôÜóåé óôç ñßæá. Óôçí
Åéêüíá 6.4 âëÝðïõìå üôé ãéá íá åðéôý÷ïõìå 20% ôùí åíçìåñþóåùí ôçò äïìÞò,
åíôïðßæåôáé ç äåýôåñç ìéêñüôåñç ôéìÞ. ÁõôÞ ç ôéìÞ åßíáé ç 3, êáé öôÜíåé óôç
ñßæá ìåôÜ ôç äéáãñáöÞ ôïõ óôïé÷åßïõ 2. ÅðïìÝíùò, èÝôïõìå ôç ∆u ßóç ìå 3. Ç
÷ñÞóç ôùí ðñüóöáôùí ôéìþí ôùí ñïþí þóôå íá ðñïâëÝøïõìå ôï êïíôéíü ìÝëëïí
áðïäåß÷èçêå ðïëý áêñéâÞò, üðùò áðåéêïíßæåôáé êáé óôçí ðåéñáìáôéêÞ áðïôßìçóç.
ÅëÝã÷ïíôáò ôç óõ÷íüôçôá åíçìÝñùóçò ôçò äïìÞò IDC-Index, ç ìÝèïäïò áðï-
öåýãåé ôçí õðïâÜèìéóç ôçò áðüäïóçò ôïõ óõóôÞìáôïò ëüãù ôïõ õøçëïý ñõèìïý
Üöéîçò ôéìþí ôùí ñïþí. ÅðéðëÝïí, üðùò Ý÷ïõìå Þäç áíáöÝñåé, èá äåßîïõìå üôé
ç ÷ñÞóç ôçò ∆u äåí ïäçãåß óôçí åìöÜíéóç false dismissals êáé åðïìÝíùò äåí
åðçñåÜæåé ôçí ðïéüôçôá ôçò áðÜíôçóçò.

6.3.3.2 Åíçìåñþíïíôáò ôç äïìÞ


Ç ðáñáäïóéáêÞ ìÝèïäïò åíçìÝñùóçò ôïõ R∗ -äÝíäñïõ áðáéôåß ôïí åíôïðéóìü ôçò
èÝóçò ôïõ ó÷åôéêïý áíôéêåéìÝíïõ óôá öýëëá, ôç äéáãñáöÞ áõôÞò ôçò åããñáöÞò êáé
ôçí åéóáãùãÞ ôçò íÝáò åããñáöÞò ìå ôïí êëáóéêü áëãüñéèìï åéóáãùãÞò. ¼ìùò,
áõôÞ ç äéáäéêáóßá åßíáé õðïëïãéóôéêÜ ðïëý áêñéâÞ êáé ìðïñåß íá ïäçãÞóåé óå
õðïâÜèìéóç ôçò áðüäïóçò ôïõ óõóôÞìáôïò, åéäéêÜ üôáí ç êéíçôéêüôçôá ôùí ñïþí
åßíáé õøçëÞ.
Èõìçèåßôå üôé óôçí ðåñßðôùóÞ ìáò, åíçìÝñùóç ôçò äïìÞò èá óõìâåß ìüíï áí ç
Åõêëåßäåéá áðüóôáóç ìåôáîý ôùí íÝùí óõíôåëåóôþí DFT êáé ôùí ôåëåõôáßá êá-
ôáãåãñáììÝíùí óõíôåëåóôþí DFT ìßáò ñïÞò åßíáé ìåãáëýôåñç áðü ∆u . Óå áõôÞ
ôçí ðåñßðôùóç, áíôß íá ÷ñçóéìïðïéÞóïõìå ôçí ðáñáäïóéáêÞ äéáäéêáóßá åíçìÝñù-
óçò ôçò äïìÞò, åöáñìüæåôáé ìßá Üëëç ìÝèïäïò åðéôõã÷Üíïíôáò êáëýôåñç áðüäïóç
ó÷åôéêÜ ìå ôï õðïëïãéóôéêü êüóôïò.
ÊÜèå ñïÞ äéáôçñåß Ýíá äåßêôç óôï öýëëï üðïõ âñßóêïíôáé áðïèçêåõìÝíïé ïé
áíôßóôïé÷ïé DFT óõíôåëåóôÝò. ÅðïìÝíùò, äåí õðÜñ÷åé áíÜãêç ãéá ôçí åýñåóç
ìßáò óõãêåêñéìÝíçò åããñáöÞò ìå ôï ãíùóôü ôñüðï áðü åðÜíù ðñïò ôá êÜôù.
¼ôáí Ýñ÷åôáé ìßá íÝá ôéìÞ, ôüôå ïé íÝïé óõíôåëåóôÝò DFT ôçò óõãêåêñéìÝíçò
ñïÞò áðïèçêåýïíôáé óôï öýëëï áíôéêáèéóôþíôáò ôïõò ôåëåõôáßá êáôáãåãñáììÝ-
íïõò óõíôåëåóôÝò. Áí ç Åõêëåßäåéá áðüóôáóç ìåôáîý ôùí íÝùí êáé ôùí ôåëåõôáßá
êáôáãåãñáììÝíùí óõíôåëåóôþí DFT åßíáé ìéêñüôåñç áðü Þ ßóç ìå ∆u , ôüôå äåí
ðñáãìáôïðïéïýíôáé ðåñáéôÝñù áëëáãÝò óôï R∗ -äÝíäñï. Áëëéþò, ðñáãìáôïðïéåß-
112 ÊÅÖÁËÁÉÏ 6. ÅÕÑÅÓÇ ÏÌÏÉÏÔÇÔÁÓ ÓÅ ÊÉÍÏÕÌÅÍÅÓ ×ÑÏÍÏÓÅÉÑÅÓ

ôáé ìßá ðñïóáñìïãÞ áðü êÜôù ðñïò ôá åðÜíù ôùí ïñèïãùíßùí åëÜ÷éóôïõ ïñßïõ
(minimum bounding rectangles - MBRs), õðïëïãßæïíôáò åê íÝïõ ôá MBRs áðü
ôá öýëëá ìÝ÷ñé ôç ñßæá, áí ÷ñåéÜæåôáé. Ãéá ôç äéÜó÷éóç áðü êÜôù ðñïò ôá åðÜíù
(áðü Ýíá êüìâï ðáéäß óôïí ðáôÝñá ôïõ), áðáéôïýíôáé äåßêôåò ðñïò ôïí ðáôÝñá.
Åöáñìüæïíôáò áõôÞ ôçí ôå÷íéêÞ, ç ÷ñÞóç ôçò ðáñáìÝôñïõ ∆u äåí åðçñåÜæåé ôçí
áðüäïóç ôçò åðåîåñãáóßáò ôïõ åñùôÞìáôïò, äéüôé ôá öýëëá ðÜíôá ðåñéÝ÷ïõí ôïõò
ðéï ðñüóöáôïõò óõíôåëåóôÝò ôïõ DFT êáé Ýôóé ôï óýíïëï ôùí õðïøÞöéùí ÷ñï-
íïóåéñþí åßíáé ðÜíôá ôï ßäéï, åßôå ÷ñçóéìïðïéåßôáé ç ∆u åßôå ü÷é.
Ãéá ðáñÜäåéãìá, õðïèÝóôå üôé ìßá íÝá ôéìÞ Ýñ÷åôáé ãéá ôç ñïÞ 1 ôçò Åéêüíáò
6.2. Ïé íÝïé óõíôåëåóôÝò DFT õðïëïãßæïíôáé ôçí áõîçôéêÞ åîáãùãÞ ÷áñáêôçñé-
óôéêþí, êáé ï äåßêôçò \stream to leaf" ÷ñçóéìïðïéåßôáé ãéá íá åíçìåñþóåé ôïõò
DFT óõíôåëåóôÝò ôïõ öýëëïõ ôçò äïìÞò. ÌåôÜ ç áíáâëçôéêÞ ðïëéôéêÞ åíçìÝñù-
óçò áðïöáóßæåé áí ç äïìÞ ðñÝðåé íá åíçìåñùèåß. Áí íáé, ôüôå ðñáãìáôïðïéåßôáé
ìßá ðñïóáñìïãÞ MBRs áðü êÜôù ðñïò ôá åðÜíù, Ýôóé þóôå üëá ôá MBRs ôïõ ìï-
íïðáôéïý áðü ôï öýëëï óôç ñßæá íá ðåñéÝ÷ïõí ôïõò íÝïõò óõíôåëåóôÝò ôïõ DFT.
Óçìåéþóôå, üôé ç áíôéêáôÜóôáóç ôùí óõíôåëåóôþí DFT ôïõ öýëëïõ åöáñìüæåôáé
ðÜíôá áíåîÜñôçôá áðü ôçí áðüöáóç ôçò áíáâëçôéêÞò ðïëéôéêÞò åíçìÝñùóçò ãéá
ôçí åíçìÝñùóç ôçò äïìÞò Þ ü÷é.

6.3.3.3 ÆçôÞìáôá åðåîåñãáóßáò åñùôÞìáôïò


ÌÝ÷ñé óôéãìÞò, åðéêåíôñùèÞêáìå óôç ëåðôïìåñÞ ðåñéãñáöÞ ôçò äéáäéêáóßáò åîá-
ãùãÞò ÷áñáêôçñéóôéêþí, óôïí ôñüðï åíçìÝñùóçò ôçò äïìÞò êáé óôçí ðñïóáñìïãÞ
ôïõ êáôùöëßïõ åíçìÝñùóçò ∆u . Óõíå÷ßæïõìå ôþñá, ðåñéãñÜöïíôáò ôç äéáäéêáóßá
ç åðåîåñãáóßáò åíüò åñùôÞìáôïò. ÅîåôÜæïõìå ôüóï ôá åñùôÞìáôá äéáóôÞìáôïò
üóï êáé ôá åñùôÞìáôá êïíôéíüôåñïõ ãåßôïíá êáé äßíïõìå áíáëõôéêïýò áëãïñßè-
ìïõò. Êáé ïé äýï áëãüñéèìïé åðåîåñãáóßáò åñùôÞìáôïò áêïëïõèïýí ôï êëáóéêü
ðáñÜäåéãìá ôçò ÷ñÞóçò åíüò ìåôÜ-åðåîåñãáóôéêïý âÞìáôïò ãéá ôçí áðüññéøç ôùí
ëáíèáóìÝíá õðïøÞöéùí ÷ñïíïóåéñþí ðïõ ðñïêýðôïõí åî áéôßáò ôçò õðåéóåñ÷üìå-
íçò ðñïóÝããéóçò ëüãù ôçò ÷ñÞóçò ôùí óõíôåëåóôþí ôïõ DFT. Ç ðåñéãñáöÞ ôçò
áñ÷éôåêôïíéêÞò ôçò åðåîåñãáóôÞ åñùôçìÜôùí ðáñïõóéÜæåôáé óôçí Åéêüíá 6.2.

6.3.3.3.1 Åðåîåñãáóßá åñùôÞìáôïò äéáóôÞìáôïò. ÐñïêåéìÝíïõ ôá åñùôÞ-


ìáôá äéáóôÞìáôïò íá ðáñÜãïõí óùóôÜ áðïôåëÝóìáôá, ç ïñéóìÝíç áðü ôï ÷ñÞóôç
áðüóôáóç e ðñÝðåé íá åðåêôáèåß êáôÜ ôçí ôéìÞ ∆q , ðïõ åßíáé ç ìÝãéóôç ÷ñçóéìï-
ðïéïýìåíç ôéìÞ ôçò ∆u ìÝ÷ñé ôþñá. Ìå áõôü ôïí ôñüðï, ç ìÝèïäïò åããõÜôáé üôé
äåí èá åìöáíéóôïýí false dismissals.
ÐÑÏÔÁÓÇ 6.3 (Ïñèüôçôá åñùôÞìáôïò äéáóôÞìáôïò). Áí ç áêôßíá ôïõ åñùôÞìá-
ôïò e åðåêôáèåß êáôÜ ∆q óôïõò åóùôåñéêïýò êüìâïõò ôïõ R∗ -äÝíäñïõ, üðïõ ∆q
åßíáé ç ìÝãéóôç ÷ñçóéìïðïéïýìåíç ôéìÞ ôçò ∆u ìÝ÷ñé ôþñá, ôüôå äåí èá ÷áèåß
êÜðïéá áðÜíôçóç.
6.3. IDC-INDEX 113

ÁÐÏÄÅÉÎÇ. ¸óôù üôé Ý÷ïõìå ôïõò óõíôåëåóôÝò DFT ôçò ñïÞò åñùôÞìáôïò
DF T (Sq ), ôï MBRLR ðïõ ó÷çìáôßóôçêå áðü ôïõò ôåëåõôáßá êáôáãåãñáììÝíïõò
óõíôåëåóôÝò DFT êáé ìßá ñïÞ Sx ðïõ áíÞêåé óôï MBRLR . ÅðéðëÝïí õðïèÝóôå
üôé Ý÷ïõìå ôïõò ôåëåõôáßá êáôáãåãñáììÝíïõò DFT óõíôåëåóôÝò DF T (Sx )LR
ôçò ñïÞò Sx êáé ôïõò ôñÝ÷ïíôåò DFT óõíôåëåóôÝò DF T (Sx ) ôçò ñïÞò Sx .

DE (DF T (Sq ); DF T (Sx )) ≤ e ⇒


DE (DF T (Sq ); DF T (Sx )) + ∆q ≤ e + ∆q ⇒
DE (DF T (Sq ); DF T (Sx )) + DE (DF T (Sx ); DF T (Sx )LR ) ≤ e + ∆q ⇒
DE (DF T (Sq ); DF T (Sx )LR ) ≤ e + ∆q (triangular inequality) ⇒
MinDist(DF T (Sq ); MBRLR ) ≤ e + ∆q

Ç Ðñüôáóç 6.3 õðïäçëþíåé üôé áí ïé ôñÝ÷ïíôåò DFT óõíôåëåóôÝò ìßáò ñïÞò


åðéêáëýðôïíôáé ìå ôçí ðåñéï÷Þ ôïõ åñùôÞìáôïò, ôüôå ôï áíôßóôïé÷ï MBRLR (Ýíá
MBR ðïõ ó÷çìáôßæåôáé áðü ôïõò ôåëåõôáßá êáôáãåãñáììÝíïõò DFT óõíôåëåóôÝò
ôçò ñïÞò) èá åðéêáëýðôåé ôçí åêôåôáìÝíç ðåñéï÷Þ ôïõ åñùôÞìáôïò. ÐñïóÝîôå üôé
ç Ðñüôáóç 6.3 åöáñìüæåôáé ìüíï óôïõò åóùôåñéêïýò êüìâïõò ôïõ R∗ -äÝíäñïõ,
äéüôé ôá öýëëá ðåñéÝ÷ïõí ðÜíôá ôïõò ôñÝ÷ïíôåò DFT óõíôåëåóôÝò. Ç ðåñéãñáöÞ
ôïõ áëãïñßèìïõ åðåîåñãáóßáò åñùôÞìáôïò äéáóôÞìáôïò áðåéêïíßæåôáé óôçí Åé-
êüíá 6.5.

Algorithm RangeQuery (Sq [N − W + 1 : N ], e)


Input: Sq [N − W + 1 : N ] is the last W values of the query time series,
e is the query radius.
Output: the IDs of the relevant streams are stored in A.
1. Calculate the DFT vector DF T (Sq ) of Sq [N − W + 1 : N ];
2. Set r=e+∆q ;
3. Perform a range query using the R∗ -tree with DF T (Sq ) and r in the
internal nodes and e in the leaves; // ltering
4. Store candidate streams to C ;
5. foreach DFT vector DF T (Sx ) ∈ C ; // re nement
6. Get the original time series Sx ;
7. if DE (Sx [N − W + 1 : N ]; Sq [N − W + 1 : N ]) ≤ e then add Sx to A;
8. endfor
9. Report A;

EIKONA 6.5. ÐåñéãñáöÞ áëãïñßèìïõ åðåîåñãáóßáò åñùôÞìáôïò äéáóôÞìáôïò.


114 ÊÅÖÁËÁÉÏ 6. ÅÕÑÅÓÇ ÏÌÏÉÏÔÇÔÁÓ ÓÅ ÊÉÍÏÕÌÅÍÅÓ ×ÑÏÍÏÓÅÉÑÅÓ

6.3.3.3.2 Åðåîåñãáóßá åñùôÞìáôïò êïíôéíüôåñïõ ãåßôïíá. Ãéá ôá åñù-


ôÞìáôá êïíôéíüôåñïõ ãåßôïíá, ÷ñçóéìïðïéïýìå ôïí áëãüñéèìï ðïëëáðëþí âçìÜ-
ôùí k-NN ôçò åñãáóßáò [145]. Ï áëãüñéèìïò åëáôôþíåé ôï ðëÞèïò ôùí õðïøÞöéùí
÷ñïíïóåéñþí åëáôôþíïíôáò ôçí ôéìÞ ôçò áðüóôáóçò ôïõ k-ïóôïý êïíôéíüôåñïõ
ãåßôïíá ìå ôçí ðáñÜëëçëç åðáêñéâÞ áðïôßìçóç ôùí õðïøçößùí. Ãéá ôçí áðïöõãÞ
false dismissals, üðùò êáé óôá åñùôÞìáôá äéáóôÞìáôïò, åðåêôåßíïõìå ôçí k-ïóôÞ
áðüóôáóç êáôÜ ∆q .
ÐÑÏÔÁÓÇ 6.4 (Ïñèüôçôá åñùôÞìáôïò êïíôéíüôåñïõ ãåßôïíá). Áí ç áðüóôáóç
k-ïóôïý êïíôéíüôåñïõ ãåßôïíá åðåêôáèåß êáôÜ ∆q êáôÜ ôç äéÜñêåéá ôçò áíáæÞ-
ôçóçò óôïõò åóùôåñéêïýò êüìâïõò ôïõ R∗ -äÝíäñïõ, ôüôå äåí èá ÷áèåß êÜðïéá
áðÜíôçóç.
ÁÐÏÄÅÉÎÇ. ¸óôù üôé Ý÷ïõìå ôïõò óõíôåëåóôÝò DFT ôçò ñïÞò åñùôÞìáôïò
DF T (Sq ), ôï MBRLR ðïõ ó÷çìáôßóèçêå áðü ôïõò ôåëåõôáßá êáôáãåãñáììÝíïõò
óõíôåëåóôÝò DFT êáé ìßá ñïÞ Sx ðïõ áíÞêåé óôï MBRLR . ÅðéðëÝïí õðïèÝóôå
üôé Ý÷ïõìå ôïõò ôåëåõôáßá êáôáãåãñáììÝíïõò DFT óõíôåëåóôÝò DF T (Sx )LR
ôçò ñïÞò Sx êáé ôïõò ôñÝ÷ïíôåò DFT óõíôåëåóôÝò DF T (Sx ) ôçò ñïÞò Sx . Ç
áðüóôáóç k-ïóôïý êïíôéíüôåñïõ ãåßôïíá åßíáé dk .
DE (DF T (Sq ); DF T (Sx )) ≤ dk ⇒
DE (DF T (Sq ); DF T (Sx )) + ∆q ≤ dk + ∆q ⇒
DE (DF T (Sq ); DF T (Sx )) + DE (DF T (Sx ); DF T (Sx )LR ) ≤ dk + ∆q ⇒
DE (DF T (Sq ); DF T (Sx )LR ) ≤ dk + ∆q (triangular inequality) ⇒
MinDist(DF T (Sq ); MBRLR ) ≤ dk + ∆q
a
Ç Ðñüôáóç 6.4 õðïäçëþíåé üôé áí ïé ôñÝ÷ïíôåò DFT óõíôåëåóôÝò ìßáò ñïÞò
åßíáé êïíôéíüôåñá óôï åñþôçìá áðü ôïí k-ïóôü ãåßôïíá, ôüôå ôï áíôßóôïé÷ï
MBRLR èá åéóá÷èåß óôï óùñü ãéá ðåñáéôÝñù åîÝôáóç, áí åðåêôåßíïõìå ôçí áðü-
óôáóç ôïõ k-ïóôïý êïíôéíüôåñïõ ãåßôïíá êáôÜ ∆q .
Ï áëãüñéèìïò åðåîåñãáóßáò ôïõ åñùôÞìáôïò k êïíôéíüôåñùí ãåéôüíùí ìðïñåß
íá âåëôéùèåß ðåñáéôÝñù, áí ÷ñçóéìïðïéçèåß Ýíá ðéï åîåëéãìÝíï êáé ðïëýðëïêï
ó÷Þìá ãéá ôçí áñ÷éêïðïßçóç ôçò k-ïóôÞò áðüóôáóçò dk . Ãéá ðáñÜäåéãìá, ìðï-
ñïýìå íá åðéóêåöèïýìå ôéò ðñþôåò k ñïÝò êáé íá õðïëïãßóïõìå ôéò ðñáãìáôéêÝò
ôïõò áðïóôÜóåéò áðü ôï åñþôçìá. Ç ìÝãéóôç áðüóôáóç áðü áõôÝò ìðïñåß íá ÷ñç-
óéìïðïéçèåß ãéá ôçí áñ÷éêïðïßçóç ôçò dk , áíôß ôïõ ∞. Ç ðåñéãñáöÞ ôïõ áëãï-
ñßèìïõ åðåîåñãáóßáò åñùôÞìáôïò k êïíôéíüôåñùí ãåéôüíùí áðåéêïíßæåôáé óôçí
Åéêüíá 6.6.

6.3.4 Ç äïìÞ IDC-Index ìå ôïðéêÞ åðÝêôáóç åñùôÞìáôïò


Óôç äïìÞ IDC-Index ìå ãåíéêÞ åðÝêôáóç åñùôÞìáôïò, äéáôçñåßôáé ìüíï ìßá ôéìÞ
ãéá ôçí ðáñÜìåôñï ∆q ãéá üëïõò ôïõò åóùôåñéêïýò êüìâïõò ôïõ R∗ -äÝíäñïõ.
6.3. IDC-INDEX 115

Algorithm NNQuery (Sq [N − W + 1 : N ], k)


Input: Sq [N − W + 1 : N ] is the last W values of the query time series,
k is the number of NNs.
Output: Heapk is the heap of the best k answers.

1. Calculate the DFT vector DF T (Sq ) of Sq [N − W + 1 : N ];


2. Set dk =∞; Set Heapk =∅; // dk is the distance to the k-th nn
3. Set node = the root of the R∗ -tree;
4. foreach entry e of node
5. if node is internal then
6. Check if mindist(DF T (Sq ); e) ≤ dk +∆q ;
7. else
8. Check if mindist(DF T (Sq ); e) ≤ dk ;
9. endfor
10. Sort relevant entries wrt mindist values;
11. Search subtrees recursively;
12. if a leaf node is reached then
13. Use the multi-step k-NN algorithm to update Heapk if required

EIKONA 6.6. ÐåñéãñáöÞ áëãïñßèìïõ åðåîåñãáóßáò åñùôÞìáôïò k êïíôéíüôåñùí ãåéôüíùí.

ÅðéðëÝïí, ç ðáñÜìåôñïò ∆q äåí ìðïñåß íá åëáôôùèåß ðñïêåéìÝíïõ íá åîáóöáëß-


óïõìå ôçí ïñèüôçôá ôïõ áëãïñßèìïõ. Åöüóïí ç ôéìÞ ôçò ∆q êáèïñßæåôáé áðü ôç
ìÝãéóôç ÷ñçóéìïðïéïýìåíç ôéìÞ ôçò ∆u ìÝ÷ñé ôþñá, áí êÜðïéá ÷ñïíéêÞ óôéãìÞ
ç ∆u ðÜñåé ìßá ìåãÜëç ôéìÞ, ç áðüäïóç ôùí åñùôçìÜôùí èá õðïâáèìéóèåß. Åðé-
ðëÝïí, áí ëßãåò ñïÝò ÷áñáêôçñßæïíôáé áðü Ýíôïíåò äéáêõìÜíóåéò, áõôü èá Ý÷åé
Üìåóç åðßðôùóç óôéò ôéìÝò ôçò ∆u (êáé åðïìÝíùò êáé óôéò ôéìÝò ôçò ∆q ), ðáñÜ
ôï ãåãïíüò üôé ç ðëåéïíüôçôá ôùí ñïþí ìðïñåß íá ìçí áëëÜæåé äñáóôéêÜ ôéò ôé-
ìÝò ôçò. Óçìåéþóôå üôé, ìßá ìåãÜëç ôéìÞ ôçò ∆q õðïäçëþíåé ìåãáëýôåñç áêôßíá
åñùôÞìáôïò e. Áõôü óçìáßíåé üôé ðåñéóóüôåñá MBRs ôçò äïìÞò èá åðéêáëýðôï-
íôáé ìå ôçí ðåñéï÷Þ ôïõ åñùôÞìáôïò, ïäçãþíôáò óå ðéï áõîçìÝíï õðïëïãéóôéêü
êüóôïò ôçò åðåîåñãáóßáò.
Ãéá ðáñÜäåéãìá, õðïèÝóôå üôé ç ðáñÜìåôñïò ∆u åßíáé 10 êáé ç ðáñÜìåôñïò
∆q åßíáé åðßóçò 10. ÅðéðëÝïí, õðïèÝóôå üôé Ýíá ðëÞèïò ñïþí Ý÷ïõí ðñïóùñéíÜ
Ýíôïíåò äéáêõìÜíóåéò, êé' Ýôóé ç ðáñÜìåôñïò ∆u áõîÜíåé óôï 20 ãéá íá äéáôçñÞóåé
óôáèåñÞ ôç óõ÷íüôçôá åíçìÝñùóçò ôçò äïìÞò. Óôç äïìÞ IDC-Index ìå ãåíéêÞ
åðÝêôáóç åñùôÞìáôïò, ç ðáñÜìåôñïò ∆q èá áõîçèåß óôï 20 åðßóçò ðñïêåéìÝíïõ íá
Ý÷åé ôç ìÝãéóôç ÷ñçóéìïðïéïýìåíç ôéìÞò ôçò ∆u ìÝ÷ñé ôþñá. ¼ôáí ôåëåéþóïõí
ïé Ýíôïíåò äéáêõìÜíóåéò, ç ∆u èá ìåéùèåß óôï 10 áëëÜ ç ∆q äåí èá åëáôôùèåß
ðñïêåéìÝíïõ íá åîáóöáëßóåé ôçí ïñèüôçôá ôïõ áëãïñßèìïõ.
116 ÊÅÖÁËÁÉÏ 6. ÅÕÑÅÓÇ ÏÌÏÉÏÔÇÔÁÓ ÓÅ ÊÉÍÏÕÌÅÍÅÓ ×ÑÏÍÏÓÅÉÑÅÓ

Áíôß ôçò ÷ñÞóçò ìßáò ãåíéêÞò ∆q ãéá üëåò ôéò ñïÝò, ìðïñïýìå íá äéáôçñÞ-
óïõìå ìßá ôïðéêÞ ∆q ãéá êÜèå åããñáöÞ ôïõ R∗ -äÝíäñïõ. Ìßá åããñáöÞ ðáôÝñá
Ý÷åé ôç äéêÞ ôçò ôïðéêÞ ∆q , ç ïðïßá åßíáé ßóç ìå ôç ìÝãéóôç ∆q üëùí ôùí åããñá-
öþí óôï õðïäÝíäñï ôïõ. ×ñçóéìïðïéþíôáò ôçí ôïðéêÞ ∆q , Ýíá åñþôçìá êáëýðôåé
ôçí åëÜ÷éóôç ðåñéï÷Þ, äéüôé ç åðÝêôáóç ôïõ åñùôÞìáôïò åßíáé ç ìéêñüôåñç äõ-
íáôÞ. Áõôü õðïäçëþíåé üôé ëéãüôåñá MBRs èá åðéêáëýðôïíôáé ìå ôçí ðåñéï÷Þ
ôïõ åñùôÞìáôïò, ïäçãþíôáò óå Ýíá áðïäïôéêüôåñï ó÷Þìá åðåîåñãáóßáò.
Áðü ôçí Üëëç, ç äéáôÞñçóç ìßáò ôïðéêÞò ∆q ãéá êÜèå åããñáöÞ áðáéôåß êÜðïéï
åðéðñüóèåôï êüóôïò. ¼ðùò êáôáäåéêíýåôáé óôá ðåéñáìáôéêÜ áðïôåëÝóìáôá, ç
÷ñÞóç ôçò ôïðéêÞò ∆q ðñïôåßíåôáé ìüíï üôáí ôï ðëÞèïò ôùí åñùôçìÜôùí åßíáé
óçìáíôéêÜ ìåãáëýôåñï áðü ôï ðëÞèïò ôùí åíçìåñþóåùí óôï öüñôï åñãáóßáò.

6.3.4.1 Åíçìåñþíïíôáò ôç äïìÞ


¼ðùò óôçí ðåñßðôùóç ôçò äïìÞò IDC-Index ìå ãåíéêÞ åðÝêôáóç åñùôÞìáôïò,
ç äïìÞ IDC-Index ìå ôïðéêÞ åðÝêôáóç åñùôÞìáôïò ÷ñçóéìïðïéåß ôçí ðáñÜìåôñï
∆u . Ç äéáäéêáóßá åðéëïãÞò êáé äéáôÞñçóçò ôçò ôéìÞò áõôÞò ôçò ðáñáìÝôñïõ åßíáé
ç ßäéá êáé óå áõôÞí ôçí ðåñßðôùóç. Èõìçèåßôå üôé ìå ôç ãåíéêÞ ∆q , ïé óõíôåëåóôÝò
DFT ôùí öýëëùí åíçìåñþíïíôáé êÜèå öïñÜ. Ìßá åíçìÝñùóç áðü êÜôù ðñïò ôá
åðÜíù ðñáãìáôïðïéåßôáé ìüíï üôáí ç äéáöïñÜ ìåôáîý ôùí íÝùí óõíôåëåóôþí DFT
êáé ôùí ôåëåõôáßá êáôáãåãñáììÝíùí óõíôåëåóôþí DFT îåðåñíÜ ôï êáôþöëé ∆u .
Óôç äïìÞ IDC-Index ìå ôïðéêÞ ∆q , ç ðáñÜìåôñïò ∆q åíçìåñþíåôáé êÜèå
öïñÜ, áíåîÜñôçôá áðü ôï áí èá ðñáãìáôïðïéçèåß åíçìÝñùóç ôçò äïìÞò Þ ü÷é, ìå
óêïðü ôçí åîáóöÜëéóç ôçò ïñèüôçôáò ôïõ áëãïñßèìïõ åðåîåñãáóßáò åñùôÞìáôïò.
Ç åíçìÝñùóç ôùí ôïðéêþí ∆q ðñáãìáôïðïéåßôáé ìå ìßá äéáäéêáóßá áðü êÜôù
ðñïò ôá åðÜíù. ÐñïóÝîôå üôé ôï êüóôïò åíçìÝñùóçò ôùí ôïðéêþí ∆q , ïé ïðïßåò
åßíáé ðñáãìáôéêÝò ôéìÝò, åßíáé ðïëý ëéãüôåñï áðü ôï êüóôïò åíçìÝñùóçò ôùí
MBRs ôïõ R∗ -äÝíäñïõ. ÅðïìÝíùò, ìðïñåß íá åðéôåõ÷èåß óçìáíôéêÞ ìåßùóç ôïõ
õðïëïãéóôéêïý êüóôïõò.
¼ôáí óõìâåß ìßá åíçìÝñùóç, êáèþò åíçìåñþíïõìå ôá MBRs ôùí åóùôåñéêþí
êüìâùí, åíçìåñþíïõìå åðßóçò êáé ôéò ôïðéêÝò ∆q åðéëÝãïíôáò ùò ôïðéêÞ ∆q ôçò
åããñáöÞò ðáôÝñá ôç ìÝãéóôç ôïðéêÞ ∆q ôïõ êüìâïõ ðáéäß. Áí Ýñèåé ìßá ôéìÞ êáé
äåí ÷ñåéÜæåôáé íá åíçìåñþóïõìå ôá MBRs (óýìöùíá ìå ôçí áíáâëçôéêÞ ðïëéôéêÞ
åíçìÝñùóçò), åíçìåñþíïõìå ìüíï ôéò ôïðéêÝò ∆q . Ðñþôá, åíçìåñþíïõìå ôçí
ôïðéêÞ ∆q ôçò åããñáöÞò ôïõ öýëëïõ. Ãéá íá ðñï÷ùñÞóïõìå óôá ðñïçãïýìåíá
åðßðåäá, ðñÝðåé íá éêáíïðïéïýíôáé ïé åîÞò óõíèÞêåò:
((∆qNEW < ∆qOLD ) ∧ (∆qP ARENT = ∆qOLD ))∨
((∆qNEW > ∆qOLD ) ∧ (∆qP ARENT < ∆qNEW ))
Ç Åéêüíá 6.7 äåß÷íåé Ýíá ðáñÜäåéãìá ãéá íá áðïóáöçíßóåé ôçí ðñïçãïýìåíç
óõíèÞêç. Ãéá íá áðëïðïéÞóïõìå ôï ðáñÜäåéãìá, ÷ñçóéìïðïéïýìå ôïðéêÞ ∆q ìüíï
6.3. IDC-INDEX 117

EIKONA 6.7. ÄïìÞ IDC-Index ìå ôïðéêÞ ∆q .

ãéá ôïõò êüìâïõò êáé ü÷é ãéá ôéò åðéìÝñïõò åããñáöÝò. Åßíáé öáíåñü, üôé ç ôï-
ðéêÞ ∆q åíüò êüìâïõ åßíáé ßóç ìå ôç ìåãáëýôåñç ôïðéêÞ ∆q ôùí åããñáöþí ôïõ.
Ðñþôá åîåôÜæïõìå ôçí ðåñßðôùóç üðïõ ç íÝá ôïðéêÞ ∆q åßíáé ìéêñüôåñç áðü ôçí
ðáëéüôåñç ôïðéêÞ ∆q ôïõ êüìâïõ. Áí ç íÝá ôïðéêÞ ∆q ôïõ êüìâïõ 5 åßíáé 4, ôüôå
ç ôïðéêÞ ∆q ôïõ ðáôÝñá (êüìâïò 2) ðñÝðåé íá åëáôôùèåß (åðåéäÞ ç íÝá ôïðéêÞ ∆q
åßíáé ßóç ìå ôçí ôïðéêÞ ∆q ôïõ ðáôÝñá). Ïé ôñïðïðïéÞóåéò ðñï÷ùñïýí ìÝ÷ñé ôç
ñßæá (êüìâïò 1). Áí ç íÝá ôïðéêÞ ∆q ôïõ êüìâïõ 4 åßíáé 2, ôüôå äåí ÷ñåéÜæïíôáé
ôñïðïðïéÞóåéò óôïí ðáôÝñá áöïý ç ôïðéêÞ ∆q ôïõ ðáôÝñá åßíáé ìåãáëýôåñç áðü ôç
íÝá ôïðéêÞ ∆q êáé åðïìÝíùò ç ôéìÞ ôçò åîáñôÜôáé áðü ôçí ôïðéêÞ ∆q ôïõ êüìâïõ
5. Ôþñá åîåôÜæïõìå ôçí ðåñßðôùóç üðïõ ç íÝá ôïðéêÞ ∆q åßíáé ìåãáëýôåñç áðü
ôçí ðáëéÜ ôïðéêÞ ∆q ôïõ êüìâïõ. Áí ç íÝá ôïðéêÞ ∆q ôïõ êüìâïõ 5 åßíáé 6, ôüôå
ç ôïðéêÞ ∆q ôïõ ðáôÝñá ðñÝðåé íá áõîçèåß. Áí ç íÝá ôïðéêÞ ∆q ôïõ êüìâïõ 4
åßíáé 4, ôüôå äåí ÷ñåéÜæïíôáé ôñïðïðïéÞóåéò óôïí ðáôÝñá áöïý ç ôïðéêÞ ôïõ ∆q
åßíáé ìåãáëýôåñç áðü ôç íÝá ôïðéêÞ ∆q êáé åðïìÝíùò ç ôéìÞ ôçò åîáñôÜôáé áðü
ôçí ôïðéêÞ ∆q ôïõ êüìâïõ 5.

6.3.4.2 ÆçôÞìáôá åðåîåñãáóßáò åñùôÞìáôïò


Ïé áëãüñéèìïé ôüóï ãéá ôá åñùôÞìáôá äéáóôÞìáôïò üóï êáé ãéá ôá åñùôÞìáôá
k êïíôéíüôåñùí ãåéôüíùí óôç äïìÞ IDC-Index ìå ôïðéêÞ ∆q åßíáé ðáñüìïéïé ìå
áõôïýò ôùí Åéêüíùí 6.5 êáé 6.6 áíôßóôïé÷á. Ç äéáöïñÜ ãéá ôá åñùôÞìáôá äéá-
óôÞìáôïò (ãñáììÝò 2 êáé 3 ôçò Åéêüíáò 6.5) åßíáé üôé äåí ÷ñçóéìïðïéåßôáé ìßá
óôáèåñÞ ðåñéï÷Þ åñùôÞìáôïò r. Ç ðåñéï÷Þ åñùôÞìáôïò áñ÷éêïðïéåßôáé ìå r=e,
êáé åðåêôåßíåôáé ãéá êÜèå åããñáöÞ áðü ôçí ôïðéêÞ ôçò ∆q . Ðáñïìïßùò, ç äéá-
öïñÜ ãéá ôá åñùôÞìáôá k êïíôéíüôåñùí ãåéôüíùí (ãñáììÞ 6 ôçò Åéêüíáò 6.6)
åßíáé üôé ç MinDist ìåôáîý ôïõ åñùôÞìáôïò êáé ôçò åããñáöÞò óõãêñßíåôáé ìå
118 ÊÅÖÁËÁÉÏ 6. ÅÕÑÅÓÇ ÏÌÏÉÏÔÇÔÁÓ ÓÅ ÊÉÍÏÕÌÅÍÅÓ ×ÑÏÍÏÓÅÉÑÅÓ

ôï Üèñïéóìá ôçò áðüóôáóçò ôïõ k-ïóôïý êïíôéíüôåñïõ ãåßôïíá êáé ôçò ôïðéêÞò
∆q ôçò åããñáöÞò. Ïé ÐñïôÜóåéò 6.3 êáé 6.4 ìðïñïýí íá ôñïðïðïéçèïýí áíôéêáèé-
óôþíôáò ôç ∆q ìå ôçí ôïðéêÞ ∆q . ÊáôÜ óõíÝðåéá áðïäåéêíýåôáé ç ïñèüôçôá ôùí
áëãïñßèìùí åðåîåñãáóßáò åñùôçìÜôùí.

6.4 ÐåéñáìáôéêÞ ÌåëÝôç


6.4.1 Ç ìÝèïäïò VA+ -stream
Ðñéí ðáñïõóéÜóïõìå ôá ðåéñáìáôéêÜ áðïôåëÝóìáôá, ðåñéãñÜöïõìå óõíïðôéêÜ ôç
ìÝèïäï VA+ -stream, ç ïðïßá Ý÷åé ðñïôáèåß óôçí åñãáóßá [123] ãéá ôçí åýñåóç
ïìïéüôçôáò óå êéíïýìåíåò ÷ñïíïóåéñÝò. Ç ìÝèïäïò VA+ -stream âáóßæåôáé óôç
äïìÞ VA+ - le [165], ðïõ ðñïôÜèçêå ùò ìÝèïäïò äåéêôïäüôçóçò ãéá ðïëõäéÜóôáôá
äåäïìÝíá êáé ãéá ôçí áðïäïôéêÞÜ õðïóôÞñéîç ôçò åýñåóçò ðáñüìïéùí ÷ñïíïóåéñþí
óå ìç-ïìïéüìïñöá äåäïìÝíá.
Åöüóïí ìßá êéíïýìåíç áêïëïõèßá ðåñéÝ÷åé Ýíá ìåãÜëï ðëÞèïò ôéìþí, ç ïìïéü-
ôçôá åêöñÜæåôáé óå ó÷Ýóç ìå ôéò ôåëåõôáßåò W ôéìÝò ôùí ñïþí. Ôï ßäéï åöáñìü-
æåôáé êáé óôçí áêïëïõèßá-åñþôçóç. ÅðïìÝíùò, áí W =256, ôüôå êÜèå áêïëïõèßá
áíáðáñßóôáôáé ùò óçìåßï óå Ýíá ÷þñï 256 äéáóôÜóåùí.
Ç ìÝèïäïò VA+ -stream ÷ùñßæåé ôï ÷þñï óå 2b êåëéÜ, üðïõ b åßíáé ìßá ðáñÜ-
ìåôñïò ïñéóìÝíç áðü ôï ÷ñÞóôç. Ç ìÝèïäïò VA+ -stream äåóìåýåé äéáöïñåôéêü
ðëÞèïò bits ãéá êÜèå äéÜóôáóç. Ôï Üèñïéóìá üëùí áõôþí ôùí bits åßíáé ßóï ìå
b. ÊÜèå êåëß åßíáé ìßá ðñïóÝããéóç ôùí äåäïìÝíùí ðïõ ðÝöôïõí ìÝóá óå áõôü ôï
êåëß êáé áíáðáñßóôáôáé áðü ìßá áêïëïõèßá bits ìÞêïõò b. ¸íá ðáñÜäåéãìá ìå
Ýîé áêïëïõèßåò óôï äéóäéÜóôáôï ÷þñï äßíåôáé óôçí Åéêüíá 6.8 (W =2).
15
5

1 4

Data Point Cell Vector


10 1 (2,4) 00 0
2 (6,6) 01 0
2 3 (7,4) 01 0
4 (10,12) 10 1
0
1 3
5 (13,14) 11 1
6
6 (14,2) 11 0

0
0 00 4 01 9 10 12 11 15

EIKONA 6.8. ÐáñÜäåéãìá ìåèüäïõ VA+ -stream.


6.4. ÐÅÉÑÁÌÁÔÉÊÇ ÌÅËÅÔÇ 119

Ïé åíåñãÝò ôéìÝò ôùí ñïþí äåäïìÝíùí êáèïñßæïíôáé áðü Ýíá êéíïýìåíï ðá-
ñÜèõñï ðïõ ðÜíôá ðåñéÝ÷åé ôéò ôåëåõôáßåò W ôéìÝò. ÐñïêåéìÝíïõ ç äïìÞ íá
ðñïóáñìïóèåß óå íÝåò ôéìÝò, åöáñìüæåôáé ìßá ìÝèïäïò áíáêáôáíïìÞò ôùí bits.
ÊÜèå äéÜóôáóç êâáíôéêïðïéåßôáé áíåîÜñôçôá ìå ôá bits ðïõ ôçò Ý÷ïõí áíáôåèåß,
ìå óêïðü íá åðéôåõ÷èåß åëÜ÷éóôï ëÜèïò áíáðáñáãùãÞò. ¸íá ìåéïíÝêôçìá áõôÞò
ôçò ìåèüäïõ åßíáé üôé áðáéôåß üëåò ïé ñïÝò íá Ý÷ïõí íÝåò ôéìÝò ðñïêåéìÝíïõ íá
ðñïóáñìïóèåß ç äïìÞ, óå áíôßèåóç ìå ôç äïìÞ IDC-Index ðïõ ìðïñåß íá ÷åéñéóèåß
ñïÝò ìå äéáöïñåôéêïýò ñõèìïýò Üöéîçò äåäïìÝíùí. Ç ìÝèïäïò VA+ -stream ìðï-
ñåß íá áðáíôÞóåé ôüóï åñùôÞìáôá äéáóôÞìáôïò üóï êáé åñùôÞìáôá êïíôéíüôåñïõ
ãåßôïíá.
Ç áðüäïóç áõôÞò ôçò ðñïóÝããéóçò åîáñôÜôáé éäéáßôåñá áðü ôïí áñéèìü ôùí
bits ðïõ áíáôßèåôáé óå êÜèå äéÜóôáóç. Ç äïìÞ VA+ -stream ÷ùñßæåé ôï ÷þñï óå
2b êåëéÜ, üðïõ b åßíáé ï óõíïëéêüò áñéèìüò ôùí bits. Åöüóïí ðïëëÜ áðü áõôÜ ôá
êåëéÜ äåí ÷ñçóéìïðïéïýíôáé, ïé óõããñáöåßò ðñüôåéíáí ôç ÷ñÞóç ìßáò äïìÞò ðïõ
ïíüìáóáí CSET êáé ç ïðïßá áðïèçêåýåé ôá êåëéÜ üðïõ âñßóêïíôáé ïé ñïÝò. Ôï
ìåéïíÝêôçìá áõôÞò ôçò äïìÞò åßíáé ôï ìÝãåèüò ôçò. Ãéá ôïí ðñïóäéïñéóìü åíüò
êåëéïý, áí ÷ñçóéìïðïéïýíôáé d äéáóôÜóåéò (äçëáäÞ, ôï ìÝãåèïò ôïõ ðáñáèýñïõ
åßíáé d), áðáéôïýíôáé d áêÝñáéïé áñéèìïß. ÅðïìÝíùò, ôï ìÝãåèïò ôçò äïìÞò CSET
åßíáé n · d áêÝñáéïé, üðïõ n åßíáé ôï ðëÞèïò ôùí ñïþí. ×ñçóéìïðïéÞóáìå ôç äïìÞ
CSET ðïõ ðåñéãñÜöèçêå óôçí åñãáóßá [123].

6.4.2 ÐåéñáìáôéêÜ áðïôåëÝóìáôá


Óå áõôÞ ôçí åíüôçôá, áíáöÝñïõìå ôá áðïôåëÝóìáôá ôùí ðåéñáìÜôùí ðïõ ðñáã-
ìáôïðïéÞèçêáí óå ðñáãìáôéêÜ óýíïëá äåäïìÝíùí. ¼ëåò ïé ìÝèïäåò õëïðïéÞèç-
êáí óå C++ êáé ôá ðåéñÜìáôá äéåîÞ÷èçóáí óå Ýíáí õðïëïãéóôÞ Pentium IV ìå
3GHz, 1GB êýñéáò ìíÞìçò ìå ëåéôïõñãéêü óýóôçìá Windows XP. ÅêôåëÝóáìå
ìßá óåéñÜ ðåéñáìÜôùí ãéá ôçí áðïôßìçóç ôçò áðüäïóçò ôçò äïìÞò IDC-Index êáé
ôùí ðáñáëëáãþí ôçò. ×ñçóéìïðïéÞóáìå ôéò ìåèüäïõò VA+ -stream êáé ôç óåé-
ñéáêÞ óÜñùóç ùò áíôáãùíéóôÝò ôçò ðñïôåéíüìåíçò ìåèüäïõ. ×ñçóéìïðïéïýìå ôá
áêñùíýìéá SS ãéá ôç óåéñéáêÞ óÜñùóç, IDC-INDEX ãéá ôï ó÷Þìá ìå ôç ãåíéêÞ
∆q êáé IDC-LOCAL ãéá ôï ó÷Þìá ìå ôçí ôïðéêÞ ∆q .
¼ðùò Ý÷ïõìå Þäç áíáöÝñåé, Ýíá âáóéêü ìåéïíÝêôçìá ôçò VA+ -stream åßíáé
üôé áðáéôåß üëåò ïé ñïÝò íá Ý÷ïõí íÝá ôéìÞ ðñïêåéìÝíïõ íá åíçìåñùèåß ç äïìÞ
VA. Áðü ôçí Üëëç ìåñéÜ, ç ôïðéêÞ IDC-Index (IDC-Index ìå ôïðéêÞ ∆q ) ìðï-
ñåß íá ÷ñçóéìïðïéçèåß áðïôåëåóìáôéêÜ ìüíï óå ðåñéðôþóåéò üðïõ Ýíá ìÝñïò ôùí
ñïþí åíçìåñþíåôáé êÜèå ÷ñïíéêÞ óôéãìÞ. Ãé' áõôü, ÷ùñßæïõìå ôá ðåéñÜìáôá óå
äýï êáôçãïñßåò: óå ðåéñÜìáôá üðïõ üëåò ïé ñïÝò åíçìåñþíïíôáé óå êÜèå ÷ñïíéêÞ
óôéãìÞ êáé ðåéñÜìáôá üðïõ ìüíï Ýíá ôìÞìá ôùí ñïþí åíçìåñþíåôáé êÜèå ÷ñïíéêÞ
óôéãìÞ. Óôçí ðñþôç êáôçãïñßá óõãêñßíïõìå ôç ãåíéêÞ IDC-Index (IDC-Index
ìå ãåíéêÞ ∆q ), ôç VA+ -stream êáé ôç SS êáé óôç äåýôåñç êáôçãïñßá óõãêñß-
íïõìå ôç ãåíéêÞ êáé ôïðéêÞ IDC-Index. ¼ëåò ïé áðáéôïýìåíåò äïìÝò äåäïìÝíùí
120 ÊÅÖÁËÁÉÏ 6. ÅÕÑÅÓÇ ÏÌÏÉÏÔÇÔÁÓ ÓÅ ÊÉÍÏÕÌÅÍÅÓ ×ÑÏÍÏÓÅÉÑÅÓ

äéáôçñïýíôáé óôçí êýñéá ìíÞìç.


ÅîåôÜæïíôáé êáé ôá åñùôÞìáôá äéáóôÞìáôïò êáé ôá åñùôÞìáôá k êïíôéíüôå-
ñùí ãåéôüíùí (k-NN). Ç ìÝèïäïò VA+ -stream ðñïôÜèçêå ãéá k-NN åñùôÞìáôá
[123], ïðüôå ôñïðïðïéÞóáìå ôç ìÝèïäï þóôå íá ÷åéñßæåôáé ôçí åðåîåñãáóßá åñù-
ôçìÜôùí äéáóôÞìáôïò. ÌåëåôÞóáìå ôçí áðüäïóç ôùí ìåèüäùí ìåôáâÜëëïíôáò
áñêåôÝò áðü ôéò ðéï óçìáíôéêÝò ðáñáìÝôñïõò, üðùò ôçí áðüóôáóç åñùôÞìáôïò e
óôá åñùôÞìáôá äéáóôÞìáôïò, ôçí ôéìÞ k ãéá ôá k-NN åñùôÞìáôá, ôï åðéèõìçôü
ðïóïóôü åíçìÝñùóçò, ôï ìÝãåèïò ôçò åíäéÜìåóçò ìíÞìçò, ôï ìÞêïò ôïõ êéíïý-
ìåíïõ ðáñáèýñïõ, ôï ðëÞèïò ôùí óõíôåëåóôþí DFT ðïõ ÷ñçóéìïðïéïýíôáé êáé ï
öüñôïò åñãáóéþí. Ï öüñôïò åñãáóéþí óõãêñïôåßôáé áðü åñùôÞìáôá êáé áðü åíç-
ìåñþóåéò. Ìßá ëåéôïõñãßá åíçìÝñùóçò ðåñéëáìâÜíåé üëåò ôéò åíçìåñþóåéò ñïþí
óå ìßá óõãêåêñéìÝíç ÷ñïíéêÞ óôéãìÞ. ¸÷ïõìå ìåôñÞóåé ôï õðïëïãéóôéêü êü-
óôïò áíÜ åñþôçìá êáé áíÜ åíçìÝñùóç, ôï ðëÞèïò ôùí ðñïóðåëÜóåùí äßóêïõ êáé
ôï ðëÞèïò ôùí õðïøçößùí ÷ñïíïóåéñþí. ÅðéðëÝïí, ìåëåôÞóáìå ôç óõìðåñéöïñÜ
ôïõ R∗ -äÝíäñïõ êáé ôéò áðáéôÞóåéò ÷þñïõ ôùí äïìþí äåäïìÝíùí.
Áí äåí áíáöÝñåôáé äéáöïñåôéêÜ, ïé ðñïêáèïñéóìÝíåò ôéìÝò ãéá ôéò ðáñáìÝôñïõò
åßíáé: (á) ç áðüóôáóç e Ý÷åé åðéëåãåß Ýôóé þóôå ôï 1% ôùí ñïþí íá åßíáé óôçí
áðÜíôçóç, (â) ôï åðéèõìçôü ðïóïóôü åíçìÝñùóçò åßíáé 0.1%, ïðüôå ìüíï 0.1%
ôùí ñïþí èá åíçìåñþíïíôáé ðñáãìáôéêÜ óå êÜèå ÷ñïíéêÞ óôéãìÞ, (ã) ìåôáîý
ôùí óõíôåëåóôþí DFT ÷ñçóéìïðïéïýíôáé ïé ðñþôïé ôÝóóåñéò êáé ïé ôåëåõôáßïé
ôÝóóåñéò (ï÷ôþ óõíïëéêÜ) ([133]), (ä) ôï ìÝãåèïò ôçò åíäéÜìåóçò ìíÞìçò åßíáé
10% ôïõ óõíïëéêïý áñéèìïý ôùí óåëßäùí ôïõ äßóêïõ, êáé (å) ôï ìÝãåèïò ôïõ
êéíïýìåíïõ ðáñáèýñïõ åßíáé 256. ÔÝëïò, ï öüñôïò åñãáóéþí åßíáé ìßá áêüìç
óçìáíôéêÞ ðáñÜìåôñïò. ¸÷ïõìå åðéëÝîåé äýï äéáöïñåôéêïýò öüñôïõò åñãáóéþí:
(á) Ýíáò \âáñýò" öüñôïò åñãáóßáò áðïôåëïýìåíïò áðü 20% åñùôÞìáôá êáé 80%
åíçìåñþóåéò, êáé (â) Ýíáò \åëáöñýò" öüñôïò åñãáóßáò áðïôåëïýìåíïò áðü 80%
åñùôÞìáôá êáé 20% åíçìåñþóåéò. Óôç óõíÝ÷åéá ðåñéãñÜöïíôáé óýíôïìá ôá ðñáã-
ìáôéêÜ óýíïëá äåäïìÝíùí ðïõ ÷ñçóéìïðïéÞèçêáí,:
➣ STOCKS: ðåñéÝ÷åé êáèçìåñéíÝò ôéìÝò ìåôï÷þí, ïé ïðïßåò áðïêôÞèçêáí
áðü ôïí éóôï÷þñï http://finance.yahoo.com. ÐñïêåéìÝíïõ íá Ý÷ïõìå
Ýíáí åðáñêÞ áñéèìü ñïþí, äçìéïõñãÞóáìå ñïÝò áëëçëïìåôáèÝôïíôáò ôéìÝò
ôùí ðñáãìáôéêþí ñïþí. Ôï óýíïëï äåäïìÝíùí áðïôåëåßôáé áðü 50000 ÷ñï-
íéêÝò áêïëïõèßåò, ç êÜèå ìßá ìÞêïõò 1500.
➣ TAO (Tropical Atmosphere Ocean): ðåñéÝ÷åé ôéò ôéìÝò ôçò ôá÷ýôç-
ôáò áÝñá óå 65 ôïðïèåóßåò óôïí Åéñçíéêü êáé Áôëáíôéêü Ùêåáíü áðü ôï
1974. Ôï óýíïëï äåäïìÝíùí äéáôßèåôáé áðü ôï åñãáóôÞñéï Paci c Marine
Environmental Laboratory (http://www.pmal.noaa.gov/tao), êáé áðï-
ôåëåßôáé áðü 12200 áêïëïõèßåò, êÜèå ìßáò ìÞêïõò 1000.

6.4.2.0.1 Áêñßâåéá åêôßìçóçò Èõìçèåßôå üôé ôï ðïóïóôü åíçìÝñùóçò U


êáèïñßæåé ôï ðëÞèïò ôùí åíçìåñþóåùí ðïõ èá ðñáãìáôïðïéçèïýí óôç äïìÞ, óå
6.4. ÐÅÉÑÁÌÁÔÉÊÇ ÌÅËÅÔÇ 121

Öüñôïò åñãáóéþí / 100 åñùôÞìáôá - 400 åíçìåñþóåéò 400 åñùôÞìáôá - 100 åíçìåñþóåéò
Ðïóïóôü åíçìåñþóåùí Åêôéìïýìåíï Ðñáãìáôéêü Åêôéìïýìåíï Ðñáãìáôéêü
0.05 12079 12078 4519 4514
0.1 21159 21160 6039 6038
1 201695 201708 50498 50526
5 1007999 1007991 252014 252009
10 2015969 2015949 503999 503993
20 4031924 4031888 1007984 1007914
50 10079801 10079624 2519951 2519790
100 20159600 20159600 5039900 5039900

ΠINAKAΣ 6.2. Áêñßâåéá åêôßìçóçò ãéá ôï STOCKS.

ó÷Ýóç ìå ôï óõíïëéêü áñéèìü ôùí åíçìåñþóåùí. Ãé' áõôü ôï ëüãï, ÷ñçóéìï-


ðïéåßôáé ç ðáñÜìåôñïò ∆u . Ï ôñüðïò õðïëïãéóìïý ôçò ôéìÞò ôçò ∆u ðåñéãñÜöçêå
óå ðñïçãïýìåíç åíüôçôá. Åäþ, êáôáäåéêíýïõìå ôçí áêñßâåéá óôçí ðñïóÝããéóç
ôïõ áðáéôïýìåíïõ ðïóïóôïý åíçìÝñùóçò. Ïé Ðßíáêåò 6.2 êáé 6.3 äåß÷íïõí ôá
áðïôåëÝóìáôá ãéá ôá óýíïëá äåäïìÝíùí STOCKS êáé TAO áíôßóôïé÷á. Ãéá
êÜèå óýíïëï äåäïìÝíùí ÷ñçóéìïðïéÞèçêáí äýï äéáöïñåôéêïß öüñôïé åñãáóéþí.
Ï ðñþôïò öüñôïò åñãáóéþí áðïôåëåßôáé áðü 100 åñùôÞìáôá äéáóôÞìáôïò êáé 400
ëåéôïõñãßåò åíçìåñþóåùí, åíþ ï äåýôåñïò öüñôïò åñãáóéþí áðïôåëåßôáé áðü 400
åñùôÞìáôá äéáóôÞìáôïò êáé 100 åíçìåñþóåéò. Óçìåéþóôå üôé üëåò ïé ñïÝò åíçìå-
ñþíïõí ôéò ôéìÝò ôïõò, ôï ïðïßï óçìáßíåé üôé ï áñéèìüò ôùí ëåéôïõñãéþí åíçìå-
ñþóåùí ðïëëáðëáóéÜæåôáé ìå ôïí áñéèìü ôùí ñïþí ãéá íá ðñïêýøåé ï óõíïëéêüò
áñéèìüò åíçìåñþóåùí. Ç ðñþôç óôÞëç ðåñéÝ÷åé ôï åðéèõìçôü ðïóïóôü åíçìåñþ-
óåùí. Ç óôÞëç \Åêôéìïýìåíï" ðåñéÝ÷åé ôï åêôéìïýìåíï ðëÞèïò åíçìåñþóåùí ôçò

Öüñôïò åñãáóéþí / 100 åñùôÞìáôá - 400 åíçìåñþóåéò 400 åñùôÞìáôá - 100 åíçìåñþóåéò
Ðïóïóôü åíçìåñþóåùí Åêôéìïýìåíï Ðñáãìáôéêü Åêôéìïýìåíï Ðñáãìáôéêü
0.05 4442 4445 2610 2680
0.1 5885 5889 2221 2233
1 48963 48958 12315 12317
5 244339 244328 61099 61099
10 488649 488654 122169 122172
20 977284 977284 244324 244325
50 2443201 2443205 610801 610802
100 4886400 4886400 1221600 1221600

ΠINAKAΣ 6.3. Áêñßâåéá åêôßìçóçò ãéá ôï TAO.


122 ÊÅÖÁËÁÉÏ 6. ÅÕÑÅÓÇ ÏÌÏÉÏÔÇÔÁÓ ÓÅ ÊÉÍÏÕÌÅÍÅÓ ×ÑÏÍÏÓÅÉÑÅÓ

äïìÞò ðïõ ðñÝðåé íá ðñáãìáôïðïéçèïýí ãéá íá äéáôçñÞóïõìå ôï åðéèõìçôü ðïóï-


óôü åíçìåñþóåùí. Ç óôÞëç \Ðñáãìáôéêü" äåß÷íåé ôï ðëÞèïò ôùí åíçìåñþóåùí
ðïõ üíôùò ðñáãìáôïðïéÞèçêáí. Åßíáé Ýêäçëï üôé ôï ðëÞèïò ôùí åíçìåñþóåùí
ðïõ ðñáãìáôïðïéÞèçêáí åßíáé ðïëý êïíôÜ óôçí åêôéìïýìåíç ôéìÞ. Áõôü óçìáß-
íåé üôé ç åêôßìçóç ôïõ ∆u êáôáöÝñíåé íá äéá÷åéñßæåôáé ìå ìåãÜëç áêñßâåéá ôï
åðéèõìçôü ðïóïóôü åíçìÝñùóçò.

6.4.2.0.2 Áðüäïóç åñùôçìÜôùí äéáóôÞìáôïò Óå áõôÞ ôçí åíüôçôá, äåß-


÷íïõìå ôá ðåéñáìáôéêÜ áðïôåëÝóìáôá ãéá ôá åñùôÞìáôá äéáóôÞìáôïò ãéá ôçí
ðñþôç êáôçãïñßá üðïõ üëåò ïé ñïÝò åíçìåñþíïíôáé êÜèå ÷ñïíéêÞ óôéãìÞ. Óôï
ðñþôï ðåßñáìá, äåß÷íïõìå ôçí áðüäïóç ôùí ôñéþí ìåèüäùí óå ó÷Ýóç ìå ôçí áðü-
óôáóç e. Ïé Åéêüíåò 6.9-6.12 ðáñïõóéÜæïõí ôá áðïôåëÝóìáôá ãéá ôá óýíïëá
äåäïìÝíùí STOCKS êáé TAO áíôßóôïé÷á. XñçóéìïðïéÞèçêáí káé ïé äýï öüñôïé
åñãáóéþí. Óôéò Åéêüíåò 6.9-6.10 ÷ñçóéìïðïéåßôáé ï \åëáöñýò" öüñôïò åñãáóéþí,
åíþ óôéò Åéêüíåò 6.11-6.12 ÷ñçóéìïðïéåßôáé ï \âáñýò" öüñôïò åñãáóéþí. Ôüóï ôï
õðïëïãéóôéêü êüóôïò üóï êáé ïé ðñïóðåëÜóåéò äßóêïõ äßíïíôáé óå êÜèå ðåßñáìá.
Ôï êüóôïò CPU äßíåôáé óå äåõôåñüëåðôá. Ï Üîïíáò y êëéìáêþíåôáé ëïãáñéèìéêÜ.
Total CPU vs. e of e-range query Total Disk Accesses vs. e of e-range query

IDC-INDEX IDC-INDEX
VA+-STREAM VA+-STREAM
SS SS
1e+007
1000

1e+006
100
Total Disk Accesses
Total CPU

100000

10

10000

1
1000

0.1 100
30 40 50 60 70 80 90 100 30 40 50 60 70 80 90 100
e e

(á) (â)

EIKONA 6.9: (á) Êüóôïò CPU, êáé (â) ðñïóðåëÜóåéò äßóêïõ ùò ðñïò e ãéá STOCKS (\åëáöñýò" öüñôïò
åñãáóéþí).

Ç äïìÞ IDC-Index õðåñôåñåß ôùí Üëëùí äýï ìåèüäùí. Óçìåéþóôå üôé ôï êü-
óôïò CPU ôçò SS åßíáé ëéãüôåñï áðü áõôü ôçò IDC-Index, üôáí ï áñéèìüò ôùí
åñùôçìÜôùí åßíáé ÷áìçëüò. Áõôü åßíáé áíáìåíüìåíï äéüôé ç SS äåí áðáéôåß åíç-
ìåñþóåéò ôçò äïìÞò. Ôïíßæïõìå üôé ôï ðñüâëçìá êõñéáñ÷åßôáé áðü ôï äßóêï êáé
åðïìÝíùò ôï ðëÞèïò ôùí ðñïóðåëÜóåùí äßóêïõ êáèïñßæåé ôçí ôåëéêÞ áðüäïóç ôçò
ìåèüäïõ. Êáèþò áõîÜíåé ç e, ç äéáöïñÜ ìåôáîý ôùí ôñéþí ìåèüäùí åëáôôþíåôáé
åðåéäÞ áõîÜíåôáé ñáãäáßá ï áñéèìüò ôùí ñïþí ðïõ ðåñéÝ÷ïíôáé óôçí áðÜíôçóç.
ÅðéðëÝïí óôïí \åëáöñý" öüñôï åñãáóéþí, ç äéáöïñÜ ìåôáîý ôçò IDC-Index êáé
ôçò VA+ -stream åßíáé ìåãáëýôåñç, åðåéäÞ ç ìÝèïäïò IDC-Index åðåîåñãÜæåôáé ôá
åñùôÞìáôá ãñçãïñüôåñá áðü ôç ìÝèïäï VA+ -stream, äéüôé ç IDC-Index åìöá-
6.4. ÐÅÉÑÁÌÁÔÉÊÇ ÌÅËÅÔÇ 123
Total CPU vs. e of e-range query Total Disk Accesses vs. e of e-range query
1000 1e+007
IDC-INDEX IDC-INDEX
VA+-STREAM VA+-STREAM
SS SS

100

1e+006

Total Disk Accesses


Total CPU

10

100000

0.1 10000
14 16 18 20 22 24 26 28 14 16 18 20 22 24 26 28
e e

(á) (â)

EIKONA 6.10: (á) Êüóôïò CPU. êáé (â) ðñïóðåëÜóåéò äßóêïõ ùò ðñïò e ãéá TAO (\åëáöñýò" öüñôïò
åñãáóéþí).

íßæåé ëéãüôåñåò ëáíèáóìÝíá õðïøÞöéåò ÷ñïíïóåéñÝò, üðùò èá äåßîïõìå áñãüôåñá


óôá ðåéñÜìáôá.
Total CPU vs. e of e-range query Total Disk Accesses vs. e of e-range query

IDC-INDEX IDC-INDEX
VA+-STREAM VA+-STREAM
SS SS
1000 1e+006

100 100000
Total Disk Accesses
Total CPU

10 10000

1 1000

0.1 100
30 40 50 60 70 80 90 100 30 40 50 60 70 80 90 100
e e

(á) (â)

EIKONA 6.11: (á) Êüóôïò CPU, êáé (â) ðñïóðåëÜóåéò äßóêïõ ùò ðñïò e ãéá STOCKS (\âáñýò" öüñôïò
åñãáóéþí).

Ç Åéêüíá 6.13 ðáñïõóéÜæåé ôçí áðüäïóç ôùí ìåèüäùí óå ó÷Ýóç ìå Ýíá ìå-
ôáâëçôü öüñôï åñãáóéþí. Ç ìÝèïäïò IDC-Index åßíáé óôáèåñÜ áðïäïôéêüôåñç
áðü ôéò ìåèüäïõò VA+ -stream êáé SS. Êáé ðÜëé ôï êüóôïò CPU ôçò SS åßíáé
ëéãüôåñï áðü áõôü ôçò IDC-Index ãéá ÷áìçëü áñéèìüò åñùôçìÜôùí. ¼ðùò áíá-
öÝñáìå ðñïçãïõìÝíùò, áõôü åßíáé áíáìåíüìåíï äéüôé ç SS äåí ÷ñçóéìïðïéåß äïìÞ
äåéêôïäüôçóçò. Ôï êÝñäïò áðü ôéò ðñïóðåëÜóåéò äßóêïõ îåðåñíÜ ôï õðïëïãéóôéêü
êüóôïò. Ç ìÝèïäïò IDC-Index õðåñíéêÜ ôç VA+ -stream åéäéêÜ üôáí ï áñéèìüò
ôùí åñùôçìÜôùí åßíáé õøçëüò. Áõôü óõìâáßíåé ãéáôß, üðùò Þäç áíáöÝñèçêå óôï
ðñïçãïýìåíï ðåßñáìá, ç IDC-Index åðéôõã÷Üíåé êáëýôåñï ðïóïóôü ðñáãìáôéêþí
áðáíôÞóåùí ðñïò ôï ðëÞèïò ôùí õðïøçößùí ÷ñïíïóåéñþí (hit ratio) áðü áõôü ôçò
124 ÊÅÖÁËÁÉÏ 6. ÅÕÑÅÓÇ ÏÌÏÉÏÔÇÔÁÓ ÓÅ ÊÉÍÏÕÌÅÍÅÓ ×ÑÏÍÏÓÅÉÑÅÓ

Total CPU vs. e of e-range query Total Disk Accesses vs. e of e-range query
1000 1e+006
IDC-INDEX IDC-INDEX
VA+-STREAM VA+-STREAM
SS SS

100

100000

Total Disk Accesses


Total CPU

10

10000

0.1 1000
14 16 18 20 22 24 26 28 14 16 18 20 22 24 26 28
e e

(á) (â)

EIKONA 6.12: (á) Êüóôïò CPU, êáé (â) ðñïóðåëÜóåéò äßóêïõ ùò ðñïò e ãéá TAO (\âáñýò" öüñôïò åñãáóéþí).

Total CPU vs. Workload Total Disk Accesses vs. Workload


1000 1e+007
IDC-INDEX IDC-INDEX
VA+-STREAM VA+-STREAM
SS SS

100 1e+006
Total Disk Accesses
Total CPU

10 100000

1 10000

0.1 1000
10 20 30 40 50 60 70 80 90 10 20 30 40 50 60 70 80 90
Percentage of Queries Percentage of Queries

(á) (â)

EIKONA 6.13. (á) Êüóôïò CPU, êáé (â) ðñïóðåëÜóåéò äßóêïõ ùò ðñïò ôï öüñôï åñãáóéþí ãéá TAO.

Answers / Candidates ratio vs. Number of Coefficients Answers / Candidates ratio vs. Number of Coefficients
10 10
IDC-INDEX IDC-INDEX
VA+-STREAM VA+-STREAM

1
Answers / Candidates ratio

Answers / Candidates ratio

0.1

0.1

0.01

0.001 0.01
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Number of Coefficients Number of Coefficients

(á) (â)

EIKONA 6.14. Hit ratio ùò ðñïò ôï ðëÞèïò óõíôåëåóôþí DFT ãéá: (á) STOCKS, êáé (â) TAO.
6.4. ÐÅÉÑÁÌÁÔÉÊÇ ÌÅËÅÔÇ 125
Total CPU vs. Number of Coefficients Total Disk Accesses vs. Number of Coefficients
1000 1e+006
IDC-INDEX IDC-INDEX
VA+-STREAM VA+-STREAM
SS SS

100

100000

Total Disk Accesses


Total CPU

10

10000

0.1 1000
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Number of Coefficients Number of Coefficients

(á) (â)

EIKONA 6.15: (á) Êüóôïò CPU, êáé (â) ðñïóðåëÜóåéò äßóêïõ ùò ðñïò ôï ðëÞèïò óõíôåëåóôþí DFT ãéá
TAO.

VA+ -stream. Áõôü åðçñåÜæåé ôï ðëÞèïò ôùí ðñïóðåëÜóåùí äßóêïõ êáé ãé' áõôü
áõîÜíåé ç äéáöïñÜ ìåôáîý ôçò IDC-Index êáé ôùí Üëëùí äýï ìåèüäùí. Èõìçèåßôå
üôé ï Üîïíáò y êëéìáêþíåôáé ëïãáñéèìéêÜ.
Ôï ðëÞèïò ôùí óõíôåëåóôþí DFT Ý÷åé óçìáíôéêÞ åðßäñáóç óôçí áðüäïóç
ôçò ìåèüäïõ. Êáèþò áõîÜíåôáé ôï ðëÞèïò ôùí óõíôåëåóôþí DFT ðïõ ÷ñçóé-
ìïðïéïýíôáé, ôüóï êáëýôåñç åßíáé ç ðñïóÝããéóç ôçò áðüóôáóçò êáé åðïìÝíùò
ðáñïõóéÜæïíôáé ëéãüôåñåò ëáíèáóìÝíá õðïøÞöéåò ÷ñïíïóåéñÝò. Ç Åéêüíá 6.14
äåß÷íåé ôï hit ratio óå ó÷Ýóç ìå ðëÞèïò ôùí óõíôåëåóôþí DFT êáé ãéá ôá äýï
óýíïëá äåäïìÝíùí STOCKS êáé TAO. Ãéá ôï óýíïëï äåäïìÝíùí STOCKS, ôï
hit ratio ôçò IDC-Index åßíáé ðïëý êáëýôåñï áðü áõôü ôçò VA+ -stream åðåéäÞ ïé
ôéìÝò ìåôï÷þí ôáéñéÜæïõí ìå ôéò éäéüôçôåò ôïõ DFT. Áíôßèåôá, ãéá íá åðéôý÷ïõìå
Ýíá êáëü hit ratio ãéá ôï óýíïëï äåäïìÝíùí TAO, áðáéôïýíôáé ðåñéóóüôåñïé
óõíôåëåóôÝò DFT. ¸íá åýëïãï åñþôçìá åßíáé ðùò ï áñéèìüò ôùí óõíôåëåóôþí
åðçñåÜæåé ôï êüóôïò CPU. Ç Åéêüíá 6.15 äåß÷íåé ôï êüóôïò CPU êáé ôéò ðñï-
óðåëÜóåéò äßóêïõ ãéá ôï óýíïëï äåäïìÝíùí TAO. Ôï êÝñäïò áðü ôç ìåßùóç ôïõ
áñéèìïý ôùí ðñïóðåëÜóåùí äßóêïõ åßíáé ðåñéóóüôåñï áðü ôçí åðéâÜñõíóç ðïõ
ôßèåôáé áðü ôï êüóôïò CPU. Ãéá ðáñÜäåéãìá, óôçí Åéêüíá 6.15 ç äéáöïñÜ ìåôáîý
ôçò ÷ñÞóçò äýï êáé ï÷ôþ óõíôåëåóôþí, åßíáé ðåñßðïõ 8 äåõôåñüëåðôá ãéá ôç CPU
êáé 100000 ãéá ôï ðëÞèïò ôùí ðñïóðåëÜóåùí äßóêïõ. Ãé' áõôü åßíáé ðñïôéìü-
ôåñï íá ÷ñçóéìïðïéÞóïõìå Ýíáí åðáñêÞ áñéèìü óõíôåëåóôþí DFT èõóéÜæïíôáò
ëßãï êüóôïò CPU. Åðéôõã÷Üíïíôáò Ýíá êáëü hit ratio âåëôéþíïõìå éäéáßôåñá
ôç óõíïëéêÞ áðüäïóç ôçò ìåèüäïõ, äéüôé ôï hit ratio åðéäñÜ óôçí áðüäïóç ôïõ
åñùôÞìáôïò.
ÌåëåôÞóáìå åðßóçò ôç óõìðåñéöïñÜ ôçò ìåèüäïõ óå ó÷Ýóç ìå ôï êáèïñéóìÝíï
ðïóïóôü åíçìåñþóåùí. Êáèþò ôï ðïóïóôü åíçìåñþóåùí áõîÜíåé, ôï êüóôïò
åíçìÝñùóçò áõîÜíåé êáé ôï êüóôïò åñùôÞìáôïò åëáôôþíåôáé. Áõôü óõìâáßíåé
åðåéäÞ ïé ðáñÜìåôñïé ∆u êáé ∆q Ý÷ïõí ìéêñÞ ôéìÞ êáé åðïìÝíùò ôï R∗ -äÝíäñï
126 ÊÅÖÁËÁÉÏ 6. ÅÕÑÅÓÇ ÏÌÏÉÏÔÇÔÁÓ ÓÅ ÊÉÍÏÕÌÅÍÅÓ ×ÑÏÍÏÓÅÉÑÅÓ

åßíáé ðéï åíçìåñùìÝíï. ¸ôóé ç äéÜó÷éóç äÝíäñïõ ðåñéïñßæåôáé óå ëéãüôåñïõò


êüìâïõò (èõìçèåßôå üôé ôï åñþôçìá åðåêôåßíåôáé êáôÜ ∆q ). ÅðéëÝîáìå ðïëý
÷áìçëü ðïóïóôü åíçìÝñùóçò óôá ðåéñÜìáôá, åðåéäÞ ç Åéêüíá 6.16 äåß÷íåé üôé ôï
êÝñäïò ãéá ôá åñùôÞìáôá äåí åßíáé óçìáíôéêü. ÅðéðëÝïí ôï ðïóïóôü åíçìÝñùóçò
äåí åðçñåÜæåé ôï ðïóïóôü ôùí õðïøÞöéùí ÷ñïíïóåéñþí áöïý ôá öýëëá ôçò äïìÞò
Ý÷ïõí ðÜíôá ôïõò ôñÝ÷ïíôåò óõíôåëåóôÝò DFT êáé êáôÜ óõíÝðåéá ôï ðëÞèïò ôùí
ðñïóðåëÜóåùí äßóêïõ äåí åðçñåÜæåôáé áðü ôï êáèïñéóìÝíï ðïóïóôü åíçìÝñùóçò.
Query CPU vs. specified Update Ratio
1000
IDC-INDEX
VA+-STREAM

100
Query CPU

10

0.1
0 20 40 60 80 100
specified Update Ratio

EIKONA 6.16. Êüóôïò CPU ùò ðñïò ôï ðïóïóôü åíçìÝñùóçò (U ) ãéá TAO.

¸íá ðëåïíÝêôçìá ôçò ìåèüäïõ IDC-Index åßíáé üôé ìðïñåß íá ÷åéñéóèåß äéá-
öïñåôéêÜ ìåãÝèç ðáñáèýñïõ. Ç Åéêüíá 6.17 äåß÷íåé ôï êüóôïò CPU êáé ôï ðëÞ-
èïò ôùí ðñïóðåëÜóåùí äßóêïõ óå ó÷Ýóç ìå ôï ìÝãåèïò ðáñáèýñïõ. Ç ìÝèïäïò
IDC-Index åßíáé ðÜëé áðïäïôéêüôåñç áðü ôéò Üëëåò äýï ìåèüäïõò. Ôï êüóôïò
CPU åßíáé ó÷åäüí áíåðçñÝáóôï áðü ôï ìÝãåèïò ðáñáèýñïõ ãéá ôç IDC-Index,
áöïý ï áñéèìüò ôùí óõíôåëåóôþí DFT åßíáé óôáèåñüò. ÁíáìÝíåôáé ôï ðëÞèïò
ôùí ðñïóðåëÜóåùí äßóêïõ íá áõîçèåß êáèþò áõîÜíåôáé ôï ìÝãåèïò ðáñáèýñïõ,
áöïý åëáôôþíåôáé ç éêáíüôçôá áðüññéøçò ÷ñïíïóåéñþí ôïõ R∗ -äÝíäñïõ. Ïé Üë-

Total CPU vs. Window Size Total Disk Accesses vs. Window Size
1e+007
IDC-INDEX IDC-INDEX
VA+-STREAM VA+-STREAM
SS SS
1000

1e+006
100
Total Disk Accesses
Total CPU

10

100000

0.1 10000
50 100 150 200 250 300 350 400 450 500 50 100 150 200 250 300 350 400 450 500
Window Size Window Size

(á) (â)

EIKONA 6.17. (á) Êüóôïò CPU, êáé (â) ðñïóðåëÜóåéò äßóêïõ ùò ðñïò ôï ìÝãåèïò ðáñáèýñïõ ãéá TAO.
6.4. ÐÅÉÑÁÌÁÔÉÊÇ ÌÅËÅÔÇ 127

ëåò äýï ìÝèïäïé åðçñåÜæïíôáé áðü ôï ìÝãåèïò ðáñáèýñïõ, áöïý ðñáãìáôïðïéïýí


ëåéôïõñãßåò óå êÜèå äéÜóôáóç. ÊáôÜ óõíÝðåéá üóï áõîÜíåôáé ôï ðëÞèïò ôùí
äéáóôÜóåùí, ôüóï áõîÜíåôáé êáé ôï êüóôïò CPU.
250 30
IDC-INDEX IDC-INDEX
VA+-STREAM VA+-STREAM

25
200

20
Space Requisites(MB)

Space Requisites(MB)
150

15

100

10

50
5

0 0
0 200 400 600 800 1000 0 100 200 300 400 500
Window Size Window Size

(á) (â)

EIKONA 6.18: ÁðáéôÞóåéò ÷þñïõ ôùí IDC-Index êáé VA+ -stream ùò ðñïò ìÝãåèïò êéíïýìåíïõ ðáñáèýñïõ
ãéá: (á) STOCKS, êáé (â) TAO.

Ç Åéêüíá 6.18 ðáñïõóéÜæåé ôéò áðáéôÞóåéò ÷þñïõ ãéá ôéò äýï ìåèüäïõò ãéá ôá
óýíïëá äåäïìÝíùí STOCKS êáé TAO, óå ó÷Ýóç ìå ôï ìÝãåèïò ôïõ êéíïýìåíïõ
ðáñáèýñïõ. Ïé áðáéôÞóåéò ÷þñïõ ôçò ìåèüäïõ IDC-Index ðáñáìÝíïõí ó÷åäüí
óôáèåñÝò. Áðü ôçí Üëëç, ôï ìÝãåèïò ôçò äïìÞò CSET ôçò ìåèüäïõ VA+ -stream
áõîÜíåé ãñáììéêÜ óå ó÷Ýóç ìå ôï ìÝãåèïò êéíïýìåíïõ ðáñáèýñïõ. Èõìçèåßôå
üôé ç äïìÞ CSET ÷ñçóéìïðïéåß Ýíáí áêÝñáéï ãéá êÜèå äéÜóôáóç ðñïêåéìÝíïõ íá
êáèïñßóåé ôï êåëß êÜèå ñïÞò.

6.4.2.0.3 Áðüäïóç k-NN åñùôçìÜôùí Óôç óõíÝ÷åéá, ìåëåôÞóáìå ôçí áðü-


äïóç ôùí ôñéþí ìåèüäùí óôçí åðåîåñãáóßá k-NN åñùôçìÜôùí. Ôï ðñþôï ðåßñáìá
ìåëåôÜ ôçí áðüäïóç ôùí ìåèüäùí óå ó÷Ýóç ìå ôï k. Ïé Åéêüíåò 6.19-6.20 äåß-
÷íïõí ôá áðïôåëÝóìáôá ãéá ôá óýíïëá äåäïìÝíùí STOCKS êáé TAO áíôßóôïé÷á.
Ç ìÝèïäïò IDC-Index åßíáé óôáèåñÜ áðïäïôéêüôåñç áðü ôéò SS êáé VA+ -stream.
Åßíáé Ýêäçëï üôé ç åðßäñáóç ôïõ k äåí åßíáé óçìáíôéêÞ. Ïé ìÝèïäïé Ý÷ïõí ôçí
ßäéá óõìðåñéöïñÜ ôüóï óôá k-NN åñùôÞìáôá üóï êáé óôá åñùôÞìáôá äéáóôÞìá-
ôïò. Êáé ðÜëé ôï êüóôïò CPU ôçò SS åßíáé ìéêñüôåñï áðü áõôü ôçò IDC-Index
áëëÜ ôï êÝñäïò áðü ôéò ðñïóðåëÜóåéò äßóêïõ îåðåñíÜ áõôü ôï êüóôïò. ÅðéðëÝïí
ç ìÝèïäïò IDC-Index åßíáé êáëýôåñç áðü ôç VA+ -stream, äéüôé ç IDC-Index
åðéôõã÷Üíåé êáëýôåñï hit ratio.
Ç Åéêüíá 6.21 áðåéêïíßæåé ôçí áðüäïóç óå ó÷Ýóç ìå ôï öüñôï åñãáóéþí. Ãéá
Üëëç ìéá öïñÜ ôá ßäéá óõìðåñÜóìáôá ìðïñïýí íá åîá÷èïýí. Ôï êüóôïò CPU
ôçò SS åßíáé ëéãüôåñï áðü áõôü ôùí Üëëùí ìåèüäùí, áëëÜ ôï óõíïëéêü êüóôïò
êõñéáñ÷åßôáé áðü ôéò ðñïóðåëÜóåéò äßóêïõ. Ç ìÝèïäïò IDC-Index õðåñíéêÜ ôç
VA+ -stream, äéüôé ç IDC-Index åðåîåñãÜæåôáé ôá åñùôÞìáôá ôá÷ýôåñá áðü ôç
128 ÊÅÖÁËÁÉÏ 6. ÅÕÑÅÓÇ ÏÌÏÉÏÔÇÔÁÓ ÓÅ ÊÉÍÏÕÌÅÍÅÓ ×ÑÏÍÏÓÅÉÑÅÓ

Total CPU vs. k of kNN query Total Disk Accesses vs. k of kNN query
1e+007
IDC-INDEX IDC-INDEX
VA+-STREAM VA+-STREAM
SS SS
1000
1e+006

100

Total Disk Accesses


100000
Total CPU

10
10000

1 1000

0.1 100
10 20 30 40 50 60 70 80 90 100 10 20 30 40 50 60 70 80 90 100
k k

(á) (â)

EIKONA 6.19. (á) Êüóôïò CPU, êáé (â) ðñïóðåëÜóåéò äßóêïõ ùò ðñïò k (STOCKS).

Total CPU vs. k of kNN query Total Disk Accesses vs. k of kNN query
1e+007
IDC-INDEX IDC-INDEX
VA+-STREAM VA+-STREAM
SS SS

100 1e+006
Total Disk Accesses

100000
Total CPU

10

10000

1000

0.1 100
10 20 30 40 50 60 70 80 90 100 10 20 30 40 50 60 70 80 90 100
k k

(á) (â)

EIKONA 6.20. (á) Êüóôïò CPU, êáé (â) ðñïóðåëÜóåéò äßóêïõ ùò ðñïò k (TAO).

Total CPU vs. Workload Total Disk Accesses vs. Workload


1e+007
IDC-INDEX IDC-INDEX
VA+-STREAM VA+-STREAM
SS SS

100
1e+006
Total Disk Accesses
Total CPU

10
100000

1
10000

0.1 1000
10 20 30 40 50 60 70 80 90 10 20 30 40 50 60 70 80 90
Percentage of Queries Percentage of Queries

(á) (â)

EIKONA 6.21. (á) Êüóôïò CPU, êáé (â) ðñïóðåëÜóåéò äßóêïõ ùò ðñïò öüñôï åñãáóéþí (TAO).
6.4. ÐÅÉÑÁÌÁÔÉÊÇ ÌÅËÅÔÇ 129

VA+ -stream. Ç óõíïëéêÞ áðüäïóç ôçò IDC-Index åßíáé êáëýôåñç áðü áõôÞ êáé
ôùí äýï Üëëùí ðñïóåããßóåùí.
¼ðùò Þäç áíáöÝñáìå, ÷ñçóéìïðïéÞóáìå åíäéÜìåóç ìíÞìç ôüóï ãéá ôç ìÝèïäï
IDC-Index üóï êáé ãéá ôç ìÝèïäï VA+ -stream. Ãéá ôç ìÝèïäï SS, ç ÷ñÞóç ôçò
åíäéÜìåóçò ìíÞìçò åßíáé Üóêïðç, äéüôé êÜèå åñþôçìá ðñïóðåëáýíåé üëåò ôéò ñïÝò
óåéñéáêÜ. Ç åíäéÜìåóç ìíÞìç Ý÷åé óçìáíôéêü ñüëï óôçí áðüäïóç. ÌåëåôÞóáìå
ôçí áðüäïóç óå ó÷Ýóç ìå ôï ìÝãåèïò ôçò åíäéÜìåóçò ìíÞìçò ,üðùò öáßíåôáé
óôçí Åéêüíá 6.22. Ôï ìÝãåèïò ôçò åíäéÜìåóçò ìíÞìçò åêöñÜæåôáé ùò ðïóïóôü
ôùí óõíïëéêþí óåëßäùí äßóêïõ ðïõ êáôáëáìâÜíïõí ôá äåäïìÝíá. Ç Åéêüíá 6.22
äåß÷íåé üôé êáé ïé äýï ìÝèïäïé åðçñåÜæïíôáé ó÷åäüí ôï ßäéï áðü ôï ìÝãåèïò ôçò
åíäéÜìåóçò ìíÞìçò.
Total Disk Accesses vs. Buffer Size
1e+007
IDC-INDEX
VA+-STREAM
SS

1e+006
Total Disk Accesses

100000

10000

1000
0 5 10 15 20
Buffer Size

EIKONA 6.22. ÐñïóðåëÜóåéò äßóêïõ ùò ðñïò ìÝãåèïò åíäéÜìåóçò ìíÞìçò (TAO).

Ôï åðüìåíï ðåßñáìá ìåëåôÜ ôçí åðßäñáóç ôïõ áñéèìïý ôùí óõíôåëåóôþí DFT
ðïõ ÷ñçóéìïðïéïýíôáé. Ç Åéêüíá 6.23 ðáñïõóéÜæåé ôï ðëÞèïò ôùí õðïøÞöéùí
÷ñïíïóåéñþí óå ó÷Ýóç ìå ôï áñéèìü ôùí óõíôåëåóôþí ãéá ôá óýíïëá äåäïìÝ-
íùí STOCKS êáé TAO. Ôï ðëÞèïò ôùí õðïøçößùí ÷ñïíïóåéñþí ÷ñçóéìïðïéåß-
ôáé ãéá íá êáôáäåßîåé ôçí åðßäñáóç ôïõ áñéèìïý ôùí õðïøçößùí ÷ñïíïóåéñþí.
ÄéáöïñåôéêÜ óýíïëá äåäïìÝíùí åíäå÷ïìÝíùò íá áðáéôïýí äéáöïñåôéêü ðëÞèïò
óõíôåëåóôþí ãéá íá åðéôåõ÷èåß ç êáëýôåñç äõíáôÞ áðüäïóç. Ç åðéëïãÞ ôïõ áñéè-
ìïý ôùí óõíôåëåóôþí ìå âÜóç ôéò éäéüôçôåò ôïõ óõíüëïõ äåäïìÝíùí áðïôåëåß Ýíá
åíäéáöÝñïí ðñüâëçìá. ¼ðùò êáé óôá åñùôÞìáôá äéáóôÞìáôïò, ï áñéèìüò ôùí óõ-
íôåëåóôþí DFT ðïõ áðáéôïýíôáé ãéá ôï TAO åßíáé ìåãáëýôåñïò áðü áõôüí ðïõ
áðáéôïýíôáé ãéá ôï STOCKS. Ôï êÝñäïò ôçò ÷ñÞóçò ðåñéóóüôåñùí óõíôåëåóôþí
DFT îåðåñíÜ ôï åðéðëÝïí õðïëïãéóôéêü êüóôïò, üðùò åßäáìå óå ðñïçãïýìåíï
ðåßñáìá, êáé Ýôóé åðéëÝãïíôáò åðáñêÝò ðëÞèïò óõíôåëåóôþí DFT, ç óõíïëéêÞ
áðüäïóç ôçò IDC-Index åßíáé êáëýôåñç áðü áõôÞ ôùí Üëëùí äýï ìåèüäùí.
ÔÝëïò, åîåôÜóáìå ôçí åðßäñáóç ôïõ ìåãÝèïõò ôïõ êéíïýìåíïõ ðáñáèýñïõ óôçí
áðüäïóç ôùí ìåèüäùí. ¼ðùò áíáìåíüôáí, ôï õðïëïãéóôéêü êüóôïò ôçò IDC-
Index äåí åðçñåÜæåôáé óçìáíôéêÜ, äéüôé ï áñéèìüò ôùí óõíôåëåóôþí ðáñáìÝíåé
óôáèåñüò. Ôï ðëÞèïò ôùí ðñïóðåëÜóåùí äßóêïõ ôçò áõîÜíåé ëüãù ôçò áðþ-
130 ÊÅÖÁËÁÉÏ 6. ÅÕÑÅÓÇ ÏÌÏÉÏÔÇÔÁÓ ÓÅ ÊÉÍÏÕÌÅÍÅÓ ×ÑÏÍÏÓÅÉÑÅÓ

Number of Candidates vs. Number of Coefficients Number of Candidates vs. Number of Coefficients
1e+006
IDC-INDEX IDC-INDEX
VA+-STREAM VA+-STREAM

1e+007
Number of Candidates

Number of Candidates
1e+006

100000

100000

10000 10000
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Number of Coefficients Number of Coefficients

(á) (â)

EIKONA 6.23: ÐëÞèïò õðïøÞöéùí ÷ñïíïóåéñþí ùò ðñïò ðëÞèïò óõíôåëåóôþí DFT ãéá: (á) STOCKS, êáé
(â) TAO.

Total CPU vs. Window Size Total Disk Accesses vs. Window Size

IDC-INDEX IDC-INDEX
VA+-STREAM VA+-STREAM
SS SS
1e+007
1000

1e+006
100
Total Disk Accesses
Total CPU

100000

10

10000

1
1000

0.1 100
100 200 300 400 500 600 700 800 900 1000 100 200 300 400 500 600 700 800 900 1000
Window Size Window Size

(á) (â)

EIKONA 6.24: (á) Êüóôïò CPU, êáé (â) ðñïóðåëÜóåéò äßóêïõ ùò ðñïò ìÝãåèïò êéíïýìåíïõ ðáñáèýñïõ
(STOCKS).

ëåéáò ðëçñïöïñßáò êáèþò ôï ìÝãåèïò ðáñáèýñïõ áõîÜíåé. Åíôïýôïéò, ç ìÝèïäïò


IDC-Index åßíáé áðïäïôéêüôåñç áðü ôéò VA+ -stream êáé SS, üðùò öáßíåôáé óôçí
Åéêüíá 6.24.

6.4.2.0.4 Óýãêñéóç ôùí ìåèüäùí ãåíéêÞò êáé ôïðéêÞò IDC-Index Óå


áõôÞ ôçí åíüôçôá ðáñïõóéÜæïõìå ôá ðåéñáìáôéêÜ áðïôåëÝóìáôá ôçò óýãêñéóçò
ôçò ãåíéêÞò ìå ôçí ôïðéêÞ IDC-Index. Óå áõôÜ ôá ðåéñÜìáôá, ìüíï Ýíá ôìÞìá
ôùí ñïþí åíçìåñþíåôáé óå êÜèå ÷ñïíéêÞ óôéãìÞ. Ôï êáèïñéóìÝíï ðïóïóôü åíç-
ìÝñùóçò ôÝèçêå ßóï ìå 1%. ÌåëåôÞóáìå ôçí áðüäïóç ôùí äýï ìåèüäùí ãéá
åñùôÞìáôá äéáóôÞìáôïò êáé k-NN åñùôÞìáôá. ÐñïóÝîôå üôé êáé ïé äýï ìÝèïäïé
Ý÷ïõí äåßêôåò ðïõ áíôéóôïé÷ïýí ñïÝò óå óõíôåëåóôÝò DFT óôá öýëëá êáé óõíå-
ðþò ôá öýëëá Ý÷ïõí ôïõò ôñÝ÷ïíôåò DFT óõíôåëåóôÝò. ÅðïìÝíùò ôï ðëÞèïò ôùí
ðñïóðåëÜóåùí äßóêïõ åßíáé ðÜíôá ôï ßäéï.
6.4. ÐÅÉÑÁÌÁÔÉÊÇ ÌÅËÅÔÇ 131

Ôï ðñþôï ðåßñáìá äåß÷íåé ôï êüóôïò CPU ôùí ìåèüäùí üóïí áöïñÜ ôçí
åðåîåñãáóßá k-NN åñùôçìÜôùí óå ó÷Ýóç ìå ôï ðïóïóôü ôùí ñïþí ðïõ åíçìå-
ñþíïíôáé êÜèå ÷ñïíéêÞ óôéãìÞ. Ôï ðïóïóôü ìåôáâÜëëåôáé áðü 0.1% óå 10%.
×ñçóéìïðïéÞóáìå äýï äéáöïñåôéêïýò öüñôïõò åñãáóéþí: (á) 20% åñùôÞìáôá êáé
80% åíçìåñþóåéò, êáé (â) 80% åñùôÞìáôá êáé 20% åíçìåñþóåéò. Ç Åéêüíá 6.25
äåß÷íåé ôá áðïôåëÝóìáôá ãéá k=10 ãéá ôï óýíïëï äåäïìÝíùí TAO. Ðáñáôçñïýìå
üôé ç ôïðéêÞ IDC-Index Ý÷åé êáëýôåñç áðüäïóç, åéäéêÜ üôáí ï öüñôïò åñãá-
óéþí ðåñéÝ÷åé ðåñéóóüôåñá åñùôÞìáôá áðü åíçìåñþóåéò êáé ôï ðïóïóôü ñïþí ðïõ
åíçìåñþíåôáé åßíáé ÷áìçëü. Èõìçèåßôå üôé ç ìÝèïäïò IDC-Index ìå ôïðéêÞ ∆q
åíçìåñþíåé ôéò ôïðéêÝò ∆q ôùí öýëëùí êÜèå öïñÜ ðïõ Ýñ÷åôáé ìßá íÝá ôéìÞ. Áõôü
ìðïñåß íá ðñïêáëÝóåé ìßá åíçìÝñùóç ôùí åóùôåñéêþí ôïðéêþí ∆q áðü êÜôù ðñïò
ôá åðÜíù. Áí ôï ðëÞèïò ôùí åíçìåñþóåùí åßíáé ðïëý ðåñéóóüôåñï áðü ôï ðëÞèïò
ôùí åñùôçìÜôùí Þ ôï ðïóïóôü ôùí ñïþí ðïõ åíçìåñþíåôáé êÜèå ÷ñïíéêÞ óôéãìÞ
åßíáé õøçëü, ôüôå ç ìÝèïäïò IDC-Index ìå ôïðéêÞ ∆q äåí ðáñïõóéÜæåé êáëÞ áðü-
äïóç. Ç Åéêüíá 6.26 äåß÷íåé ôá ßäéá áðïôåëÝóìáôá ãéá k=1000 ãéá ôï óýíïëï
äåäïìÝíùí TAO. Ôá óõìðåñÜóìáôá åßíáé ðáñüìïéá ìå ôï ðñïçãïýìåíï ðåßñáìá.
Total CPU vs. Percentage of the Updated Streams Total CPU vs. Percentage of the Updated Streams
3.5 6
IDC-INDEX IDC-INDEX
IDC-LOCAL IDC-LOCAL

3
5.5

2.5
5

2
Total CPU

Total CPU

4.5

1.5

4
1

3.5
0.5

0 3
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
Percentage of the Updated Streams Percentage of the Updated Streams

(á) 20% åñùôÞìáôá, 80% åíçìåñþóåéò (â) 80% åñùôÞìáôá, 20% åíçìåñþóåéò

EIKONA 6.25. Êüóôïò CPU ùò ðñïò ðïóïóôü ñïþí ðïõ åíçìåñþíïíôáé (TAO, k=10).

Ìßá óçìáíôéêÞ ðáñÜìåôñïò ôçò ìåèüäïõ IDC-Index åßíáé ôï êáèïñéóìÝíï ðï-


óïóôü åíçìåñþóåùí. Áí ôï ðïóïóôü åíçìåñþóåùí åßíáé ÷áìçëü, ôüôå ç ëåé-
ôïõñãßá åíçìÝñùóçò åßíáé ãñÞãïñç, áëëÜ ç åðåîåñãáóßá ôïõ åñùôÞìáôïò ìðïñåß
íá åðçñåáóèåß áñíçôéêÜ. Åöüóïí ç ëåéôïõñãßá åíçìÝñùóçò õëïðïéåßôáé áðü êÜôù
ðñïò ôá åðÜíù, ç åñþôçóç ðïõ ðñïêýðôåé åßíáé ðùò áõôÞ ç ôñïðïðïßçóç åðç-
ñåÜæåé ôçí áðüäïóç ôïõ R∗ -äÝíäñïõ êáé óõíåðþò ôï óõíïëéêü ÷ñüíï åêôÝëåóçò
åñùôÞìáôïò. Ôï ôåëåõôáßï ðåßñáìá óõãêñßíåé ôçí áðüäïóç ôïõ ðñïôåéíüìåíïõ
ôñïðïðïéçìÝíïõ R∗ -äÝíäñïõ óå ó÷Ýóç ìå ôï êáíïíéêü R∗ -äÝíäñï, ôï ïðïßï äç-
ìéïõñãåßôáé áðü ôçí áñ÷Þ óå êÜèå ÷ñïíéêÞ óôéãìÞ ðñïêåéìÝíïõ íá åããõçèïýìå
ôçí ðïéüôçôá ôçò äïìÞò. ×ñçóéìïðïéÞóáìå êáé ôç ãåíéêÞ áëëÜ êáé ôçí ôïðéêÞ
IDC-Index. Ç Åéêüíá 6.27 áðåéêïíßæåé ôï êüóôïò CPU ôïõ åñùôÞìáôïò êáé ôï
óõíïëéêü êüóôïò CPU óå ó÷Ýóç ìå ôï k, ãéá ôïí \åëáöñý" öüñôï åñãáóéþí.
132 ÊÅÖÁËÁÉÏ 6. ÅÕÑÅÓÇ ÏÌÏÉÏÔÇÔÁÓ ÓÅ ÊÉÍÏÕÌÅÍÅÓ ×ÑÏÍÏÓÅÉÑÅÓ

Total CPU vs. Percentage of the Updated Streams Total CPU vs. Percentage of the Updated Streams
5 12.5
IDC-INDEX IDC-INDEX
IDC-LOCAL IDC-LOCAL

12
4.5

11.5
4
Total CPU

Total CPU
11

3.5

10.5

3
10

2.5 9.5
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
Percentage of the Updated Streams Percentage of the Updated Streams

(á) 20% åñùôÞìáôá, 80% åíçìåñþóåéò (â) 80% åñùôÞìáôá, 20% åíçìåñþóåéò

EIKONA 6.26. Êüóôïò CPU ùò ðñïò ðïóïóôü ñïþí ðïõ åíçìåñþíïíôáé (TAO, k=1000).

Query CPU vs. k of kNN query Total CPU vs. k of kNN query
8
IDC-LOCAL IDC-LOCAL
IDC-INDEX IDC-INDEX
REC REC
7
1000

5 100
Query CPU

Total CPU

10
3

2
1

0 0.1
10 20 30 40 50 60 70 80 90 100 10 20 30 40 50 60 70 80 90 100
k k

(á) (â)

EIKONA 6.27: (á) Êüóôïò CPU åñùôÞìáôïò, êáé (â) óõíïëéêü êüóôïò ùò ðñïò k (\åëáöñýò" öüñôïò åñãá-
óéþí).

¼ðùò áíáìåíüôáí, ç äçìéïõñãßá ôïõ R∗ -äÝíäñïõ áðü ôçí áñ÷Þ Ý÷åé åëáöñþò
êáëýôåñç áðüäïóç üóïí áöïñÜ óôï êüóôïò CPU ôïõ åñùôÞìáôïò, äéüôé ç ðïéü-
ôçôá ôçò äïìÞò åßíáé êáëýôåñç, áëëÜ äåí åßíáé áñêåôÞ þóôå íá õðåñíéêÞóåé ôçí
åðéâÜñõíóç óôï óõíïëéêü êüóôïò CPU. ÐñïóÝîôå üôé ç äéáöïñÜ ìåôáîý ôïõ R∗ -
äÝíäñïõ ðïõ äçìéïõñãåßôáé áðü ôçí áñ÷Þ êáé ôùí ðñïôåéíüìåíùí ôñïðïðïéÞóåùí
åßíáé ôï ðïëý 4 äåõôåñüëåðôá. Óå áíôßèåóç, ç äéáöïñÜ ãéá ôï óõíïëéêü êüóôïò
CPU öôÜíåé ôá 1500 äåõôåñüëåðôá, äéüôé ç äçìéïõñãßá ôçò äïìÞò åßíáé õðïëï-
ãéóôéêÜ ðïëý áêñéâÞ ëåéôïõñãßá. ÅðéðëÝïí, ç ìÝèïäïò IDC-Index ìå ôïðéêÞ ∆q
åßíáé êáëýôåñç áðü ôç IDC-Index ìå ãåíéêÞ ∆q . Áõôü áíáìåíüôáí, äéüôé ç ÷ñÞóç
ôçò ôïðéêÞò ∆q ðåñéïñßæåé ôçí åðÝêôáóç ôïõ åñùôÞìáôïò êáé åðïìÝíùò ðñïóðå-
ëáýíïíôáé ëéãüôåñïé êüìâïé.
6.5. ÓÕÌÐÅÑÁÓÌÁÔÁ 133

6.5 ÓõìðåñÜóìáôá
Ç åðåîåñãáóßá ñïþí äåäïìÝíùí åßíáé ìßá åíåñãÞ ðåñéï÷Þ Ýñåõíáò, ç ïðïßá óôü÷ï
Ý÷åé ôï ó÷åäéáóìü áðïäïôéêþí ìåèüäùí ãéá ôï ÷åéñéóìü äõíáìéêþí äåäïìÝíùí ìå
ðïëý óõ÷íÝò åíçìåñþóåéò. Ïé êéíïýìåíåò ÷ñïíïóåéñÝò áðïôåëïýí ìßá åéäéêÞ êá-
ôçãïñßá ñïþí äåäïìÝíùí, ïé ïðïßåò åìöáíßæïíôáé óå ðïëëÝò åöáñìïãÝò üðùò ðá-
ñáêïëïýèçóç äéêôýïõ, äßêôõá áéóèçôÞñùí, ÷ñçìáôïïéêïíïìéêÝò åöáñìïãÝò, äéá-
÷åßñéóç äåäïìÝíùí ôçëåðéêïéíùíéþí.
Ìßá óçìáíôéêÞ ëåéôïõñãßá óôéò êéíïýìåíåò ÷ñïíïóåéñÝò åßíáé íá åíôïðßóïõìå
ðáñüìïéåò ÷ñïíïóåéñÝò óå ó÷Ýóç ìå ìßá ÷ñïíïóåéñÜ åñþôçóç. Ç ïìïéüôçôá
åêöñÜæåôáé ìå ôç âïÞèåéá ôùí ôåëåõôáßùí W ôéìþí ôçò ñïÞò. Óå áõôü ôï êå-
öÜëáéï, ìåëåôÞóáìå ôïõò äýï âáóéêüôåñïõò ôýðïõò åñùôçìÜôùí ïìïéüôçôáò óå
êéíïýìåíåò ÷ñïíïóåéñÝò: ôá åñùôÞìáôá äéáóôÞìáôïò êáé ôá åñùôÞìáôá êïíôéíü-
ôåñïõ ãåßôïíá. Ðéï óõãêåêñéìÝíá, áó÷ïëçèÞêáìå ìå ôá æçôÞìáôá: (1) áõîçôéêÞ
åîáãùãÞ ÷áñáêôçñéóôéêþí, (2) áðïäïôéêÞ äåéêôïäüôçóç óôçí êýñéá ìíÞìç ìå ôç
âïÞèåéá ìåèüäùí ðñïóðÝëáóçò âáóéóìÝíåò óôï R∗ -äÝíäñï, (3) áëãüñéèìïé ãéá ôçí
åðåîåñãáóßá åñùôçìÜôùí äéáóôÞìáôïò êáé êïíôéíüôåñïõ ãåßôïíá, êáé (4) áõôü-
ìáôç ðñïóáñìïãÞ ôïõ ó÷Þìáôïò äåéêôïäüôçóçò ãéá ôçí ðñïóÝããéóç ôçò åðéèõ-
ìçôÞò óõ÷íüôçôáò åíçìÝñùóçò. Ôá áðïôåëÝóìáôá ôçò ðåéñáìáôéêÞò áðïôßìçóçò
Ýäåéîáí üôé åðéôõã÷Üíåôáé óçìáíôéêÞ âåëôßùóç óå ó÷Ýóç ìå ðñüóöáôá ðñïôåéíü-
ìåíç ìÝèïäï ðïõ âáóßæåôáé óôç äïìÞ VA-File, ôüóï óå áðáéôÞóåéò ÷þñïõ üóï óå
ôá÷ýôçôá åðåîåñãáóßáò åñùôÞìáôïò.

6.6 ÐáñÜñôçìá
ÐÑÏÔÁÓÇ 6.5 (Áõîçôéêüò õðïëïãéóìüò DFT). ¸óôù S ìßá êéíïýìåíç ÷ñï-
íïóåéñÜ ìå ôéìÝò S (0); S (1); : : : ; S (W {1) êáé ìÞêïò W . ÅðéðëÝïí, Ýóôù üôé ôá
óýìâïëá DF T0 (S ); DF T1 (S ); : : : ; DF TW −1 (S ) õðïäçëþíïõí ôïõò óõíôåëåóôÝò
ôïõ DFT ôçò S . Áí ìßá íÝá ôéìÞ Ýñèåé ãé' áõôÞ ôç ñïÞ, Ý÷ïõìå ôçí áêïëïõ-
èßá T (1); T (2); : : : ; T (W ), üðïõ S (i)=T (i) ãéá 1 ≤ i ≤ W {1 êáé T (W ) åßíáé ç
íÝá ôéìÞ. Ïé óõíôåëåóôÝò ôïõ DFT ôçò T ìðïñïýí íá õðïëïãéóèïýí áðü ôïõò
óõíôåëåóôÝò ôïõ DFT ôçò S óýìöùíá ìå ôçí åîßóùóç:
1 √
DF Tn (T ) = √ ·( W · DF Tn (S )− S (0)+ T (W ))· ej 2n=W ; (0 ≤ n ≤ W −1)
W
(6.4)
ÁÐÏÄÅÉÎÇ. Óçìåéþóôå üôé S (i)=T (i) ãéá 1 ≤ i ≤ W {1. Ï n-ïóôüò óõíôåëåóôÞò
DFT ôçò êéíïýìåíçò ÷ñïíïóåéñÜò S äßíåôáé áðü ôïí ôýðï:
W
X −1
1
DF Tn (S ) = √ S (k) · e−j 2kn=W (6.5)
W k=0
134 ÊÅÖÁËÁÉÏ 6. ÅÕÑÅÓÇ ÏÌÏÉÏÔÇÔÁÓ ÓÅ ÊÉÍÏÕÌÅÍÅÓ ×ÑÏÍÏÓÅÉÑÅÓ

Ðáñïìïßùò, ï n-ïóôüò óõíôåëåóôÞò DFT ôçò êéíïýìåíçò ÷ñïíïóåéñÜò T äßíåôáé


áðü ôïí ôýðï:
W
X −1
1
DF Tn (T ) = √ T (k + 1) · e−j 2kn=W (6.6)
W k=0

Îåêéíïýìå ìå ôçí ðñïçãïýìåíç åîßóùóç êáé áíôéêáèéóôïýìå ôéò ôéìÝò DF T (Sn )


üðùò áêïëïõèåß:
1
DF Tn (T ) = √ (S (0) + S (1)e−j 2n=W + :::+
W
+S (W − 1)e−j 2(W −1)n=W − S (0) + T (W ))ej 2n=W
ÌåôÜ áðü áëãåâñéêÝò ðñÜîåéò óôçí ðñïçãïýìåíç åîßóùóç êáé ëáìâÜíïíôáò õðüøç
üôé S (i)=T (i) ãéá 1 ≤ i ≤ W {1, êáé üôé ej 2n=W = e−j 2(W −1)n=W ðáßñíïõìå:
1
DF Tn (T ) = √ (T (1) + T (2)e−j 2n=W + :::+
W
+T (W − 1)e−j 2(W −2)n=W + T (W )e−j 2(W −1)n=W )
ðïõ åßíáé áêñéâþò ç Åîßóùóç 6.4. a

ÐÑÏÔÁÓÇ 6.6 (Áõîçôéêüò õðïëïãéóìüò ôìçìÜôùí DFT). ¸óôù S ìßá êéíïý-


ìåíç ÷ñïíïóåéñÜ ìå ôéìÝò S (0); S (1); : : : ; S (W {1) êáé ìÞêïò W . ÅðéðëÝïí, Ýóôù
üôé ôá óýìâïëá DF T0 (S ); DF T1 (S ); : : : ; DF TW −1 (S ) õðïäçëþíïõí ôïõò óõíôå-
ëåóôÝò ôïõ DFT ôçò S . Áí ìßá íÝá ôéìÞ Ýñèåé ãé' áõôÞ ôç ñïÞ, Ý÷ïõìå ôçí áêï-
ëïõèßá T (1); T (2); : : : ; T (W ), üðïõ S (i)=T (i) ãéá 1 ≤ i ≤ W {1 êáé T (W ) åßíáé
ç íÝá ôéìÞ. Ôï ðñáãìáôéêü (DF Tn (T )real ) êáé ôï öáíôáóôéêü (DF Tn (T )imag )
ôìÞìá ôùí óõíôåëåóôþí ôïõ DFT ôçò T ìðïñïýí íá õðïëïãéóèïýí áðü ôïõò óõ-
íôåëåóôÝò ôïõ DFT ôçò S óýìöùíá ìå ôéò åîÞò åîéóþóåéò:

DF Tn (T )real =
1 √ 2n 2n
√ · ( W · DF Tn (S )real − S (0) + T (W )) · cos( ) − DF Tn (S )imag · sin( )
W W W
(6.7)
êáé
DF Tn (T )imag =
1 √ 2n 2n
√ · ( W · DF Tn (S )real − S (0) + T (W )) · sin( ) + DF Tn (S )imag · cos( )
W W W
(6.8)
üðïõ (0 ≤ n ≤ W − 1)
6.6. ÐÁÑÁÑÔÇÌÁ 135

ÁÐÏÄÅÉÎÇ. ×ñçóéìïðïéþíôáò ôçí Åîßóùóç 6.4, áíôéêáèéóôïýìå ôéò ôéìÝò DF Tn (S )


ìå ôï ðñáãìáôéêü êáé ôï öáíôáóôéêü ìÝñïò:
1 √
DF Tn (T ) = √ ·( W ·(DF Tn (S )real +j ·DF Tn (S )imag )−S (0)+T (W ))·ej 2n=W
W
×ñçóéìïðïéþíôáò ôïí ôýðï ôïõ Euler, ðáßñíïõìå:

DF Tn (T ) = √1

√ 2n 2n
( W ·(DF Tn (S )real +j ·DF Tn (S )imag )−S (0)+ T (W ))·(cos( )+j ·sin( ))
W W
ÌåôÜ áðü áëãåâñéêÝò ðñÜîåéò óôçí ðñïçãïýìåíç åîßóùóç ðáßñíïõìå ôéò Åîéóþ-
óåéò 6.7 êáé 6.8. a
ÊÅÖÁËÁÉÏ 7

Óõíå÷Þ ÅñùôÞìáôá
k -dominant Skyline ∗
Ðåñéå÷üìåíá
7.1 ÅÉÓÁÃÙÃÇ . . . . . . . . . . . . . . . . . . . . . . . 137
7.2 Ó×ÅÔÉÊÇ ÂÉÂËÉÏÃÑÁÖÉÁ . . . . . . . . . . . . . 140
7.3 ÕÐÏÂÁÈÑÏ . . . . . . . . . . . . . . . . . . . . . . 141
7.4 ÓÕÍÅ×Ç k-DOMINANT SKYLINES . . . . . . . 143
7.5 ÐÅÉÑÁÌÁÔÉÊÇ ÁÐÏÔÉÌÇÓÇ . . . . . . . . . . . 154
7.6 ÓÕÆÇÔÇÓÇ . . . . . . . . . . . . . . . . . . . . . . 158
7.7 ÓÕÌÐÅÑÁÓÌÁÔÁ . . . . . . . . . . . . . . . . . . 160

7.1 ÅéóáãùãÞ
Ðñüóöáôá, ôá åñùôÞìáôá ðñïôßìçóçò ðñïóÝëêõóáí óçìáíôéêÜ ôï åñåõíçôéêü åí-
äéáöÝñïí. Ôá åñùôÞìáôá ðñïôßìçóçò ÷ñçóéìïðïéïýíôáé óõ÷íÜ óå åöáñìïãÝò õðï-
óôÞñéîçò áðïöÜóåùí ðïëëþí êñéôçñßùí, üðïõ Ýíá ðëÞèïò (óõíÞèùò) áíôéöáôéêþí
êñéôçñßùí óõììåôÝ÷ïõí ãéá ôçí åðéëïãÞ ôçò êáôÜëëçëçò áðÜíôçóçò ôïõ ÷ñÞóôç.
ÊÜèå áíôéêåßìåíï áíáðáñßóôáôáé ùò Ýíá óçìåßï óå ðïëõäéÜóôáôï ÷þñï.
ÕðïèÝóôå üôé Ýíáò ðåëÜôçò åíäéáöÝñåôáé ãéá ôçí áãïñÜ ìßáò óõóêåõÞò ðñïóù-
ðéêïý øçöéáêïý âïçèïý (Personal Digital Assistant - PDA). Äõóôõ÷þò, õðÜñ-
÷ïõí ðïëëÜ êñéôÞñéá ðïõ ðñÝðåé íá ëçöèïýí õðüøç ðñïêåéìÝíïõ íá ëçèåß ç óùóôÞ
áðüöáóç. ÅðéðëÝïí, õðïèÝóôå üôé ï ðåëÜôçò åíäéáöÝñåôáé ãéá äýï óçìáíôéêÜ ÷á-
ñáêôçñéóôéêÜ ôùí PDA, ôï ìÝãåèïò ôçò ïèüíçò êáé ôï ÷ñüíï áõôïíïìßáò (÷ñïíéêü
∗ Ôï êåöÜëáéï áíôëåß ôá ðåñéå÷üìåíÜ ôïõ áðü ôçí åñãáóßá [106].

137
138 ÊÅÖÁËÁÉÏ 7. ÓÕÍÅ×Ç ÅÑÙÔÇÌÁÔÁ K -DOMINANT SKYLINE

äéÜóôçìá ìåôáîý äýï äéáäï÷éêþí öïñôßóåùí ôçò ìðáôáñßáò). Ðñïöáíþò, ç êá-


ëýôåñç åðéëïãÞ ãé' áõôüí ôïí ðåëÜôç åßíáé ïé óõóêåõÝò ðïõ Ý÷ïõí ìåãÜëç ïèüíç
êáé ìåãÜëç áõôïíïìßá. Äõóôõ÷þò, áõôÜ ôá äýï êñéôÞñéá åßíáé áíôéêñïõüìåíá
(üóï ìåãáëýôåñç ç ïèüíç ôüóï ìåãáëýôåñç åßíáé êáé ç êáôáíÜëùóç åíÝñãåéáò
êáé óõíåðþò ôüóï ìéêñüôåñïò ï ÷ñüíïò áõôïíïìßáò), ãé' áõôü ç óõóêåõÞ ç ïðïßá
êáëýðôåé åðáñêþò ôéò áíÜãêåò ôïõ ðåëÜôç ðñÝðåé íá åðéëå÷èåß ðñïóåêôéêÜ.
Óå áõôü ôï ðáñÜäåéãìá, êÜèå PDA áíáðáñßóôáôáé ùò ìßá åããñáöÞ ðïõ ðåñéÝ-
÷åé äýï ÷áñáêôçñéóôéêÜ (äçëáäÞ, ìÝãåèïò ïèüíçò êáé áõôïíïìßá), åíþ ï ðåëÜôçò
åíäéáöÝñåôáé ãéá áíôéêåßìåíá (åããñáöÝò) ðïõ ìåãéóôïðïéïýí áõôÜ ôá äýï ÷áñá-
êôçñéóôéêÜ. ÁíÜëïãá ìå ôç óçìáóéïëïãßá êÜèå ÷áñáêôçñéóôéêïý, óå ìåñéêÝò
ðåñéðôþóåéò ï ðåëÜôçò ìðïñåß íá åíäéáöÝñåôáé ãéá ôçí åëá÷éóôïðïßçóç ôùí ÷áñá-
êôçñéóôéêþí, Þ ôç ìåãéóôïðïßçóç, Þ ïðïéïõäÞðïôå óõíäõáóìïý (åëá÷éóôïðïßçóç
êÜðïéùí ÷áñáêôçñéóôéêþí êáé ìåãéóôïðïßçóç Üëëùí). Ãéá ðáñÜäåéãìá, áí ï ðå-
ëÜôçò åíäéáöåñüôáí ãéá ôçí ôéìÞ êáé ôç äéáèÝóéìç ìíÞìç, ç êáëýôåñç óõóêåõÞ
èá Þôáí áõôÞ ìå ôç ìéêñüôåñç äõíáôÞ ôéìÞ êáé ôç ìÝãéóôç äõíáôÞ ÷ùñçôéêü-
ôçôá ìíÞìçò. Óå áõôÞ ôçí ðåñßðôùóç, ï ðåëÜôçò ÷ñåéÜæåôáé ôçí åëá÷éóôïðïßçóç
ôïõ ÷áñáêôçñéóôéêïý ôéìÞ êáé ôç ìåãéóôïðïßçóç ôïõ ÷áñáêôçñéóôéêïý ìíÞìç.
×ùñßò íá ðåñéïñßæïõìå ôç ãåíéêüôçôá ôçò ðñïôåéíüìåíçò ìåèüäïõ, óôç óõíÝ÷åéá
åóôéÜæïõìå óôç ìåãéóôïðïßçóç ôùí ÷áñáêôçñéóôéêþí. Ùóôüóï, ïé ðñïôåéíüìåíåò
ôå÷íéêÝò åöáñìüæïíôáé Üìåóá óå üëåò ôéò ðåñéðôþóåéò.
¸íá èåìåëéþäåò åñþôçìá ðñïôßìçóçò åßíáé ôï åñþôçìá skyline. Ôï skyline
åíüò óõíüëïõ åããñáöþí T áðïôåëåßôáé áðü üëåò åêåßíåò ôéò åããñáöÝò ðïõ äåí
êõñéáñ÷ïýíôáé1 áðü ïðïéáäÞðïôå Üëëç åããñáöÞ, ôï ïðïßï óôï åîÞò èá ïíïìÜæïõìå
áðëü skyline. Ìßá åããñáöÞ ti êõñéáñ÷åß ìßá Üëëç åããñáöÞ tj , áí ç ti åßíáé
ôüóï êáëÞ üóï ç tj óå üëá ôá ÷áñáêôçñéóôéêÜ êáé åßíáé êáëýôåñç áðü ôç tj óå
ôïõëÜ÷éóôïí Ýíá áðü ôá ÷áñáêôçñéóôéêÜ. ¸óôù d åßíáé ï óõíïëéêüò áñéèìüò
÷áñáêôçñéóôéêþí (äéáóôÜóåùí) êáé ôï óýìâïëï ti :a õðïäçëþíåé ôçí ôéìÞ ôïõ
÷áñáêôçñéóôéêïý a ôçò åããñáöÞò ti . Åöüóïí Ý÷ïõìå õðïèÝóåé üôé ôï \ìåãáëýôåñï
åßíáé êáëýôåñï", ç ti åßíáé êáëýôåñç ôçò tj óôï ÷áñáêôçñéóôéêü a áí ti :a > tj :a.
Ôï ðáñÜäåéãìá ôùí óõóêåõþí PDA áðåéêïíßæåôáé óôçí Åéêüíá 7.1. Óôçí
Åéêüíá 7.1(a) êÜèå PDA áíáðáñßóôáôáé áðü Ýíá äéóäéÜóôáôï óçìåßï, üðïõ êÜèå
äéÜóôáóç áíôéóôïé÷åß óå Ýíá ÷áñáêôçñéóôéêü (óôç óõíÝ÷åéá, ïé üñïé ÷áñáêôç-
ñéóôéêü êáé äéÜóôáóç ÷ñçóéìïðïéïýíôáé åíáëëáêôéêÜ). Ïé åããñáöÝò ôùí PDA
(åðßóçò ïíïìáæüìåíá êáé óçìåßá) öáßíïíôáé óôçí Åéêüíá 7.1(b). Ôá óçìåßá ðïõ
óõíäÝïíôáé ìå ôç äéáêåêïììÝíç ãñáììÞ áðïôåëïýí ôï skyline ôïõ óõíüëïõ ôùí
óçìåßùí (PDAs). ÊÜèå óçìåßï ðïõ ðÝöôåé óôá áñéóôåñÜ êáé êÜôù ôçò äéáêåêïì-
ìÝíçò ãñáììÞò êõñéáñ÷åßôáé áðü ôïõëÜ÷éóôïí Ýíá óçìåßï ôïõ skyline. ÅðïìÝíùò
ôï skyline áðïôåëåßôáé áðü ôá óçìåßá t1 ; t2 ; t3 , êáé t4 .
Ôï âáóéêü ÷áñáêôçñéóôéêü üëùí ôùí óçìåßùí ðïõ ó÷çìáôßæïõí ôï skyline
åßíáé üôé áõôÜ ôá óçìåßá äåí êõñéáñ÷ïýíôáé áðü êáíÝíá Üëëï óçìåßï. ÅðïìÝíùò,
1 Ï üñïò êõñéáñ÷ßá åßíáé ç áðüäïóç ôçò ëÝîçò domination.
7.1. ÅÉÓÁÃÙÃÇ 139

EIKONA 7.1. ÐáñÜäåéãìá skyline.

åöüóïí ôá óçìåßá t5 ; t6 ; t7 ; t8 êáé t9 êõñéáñ÷ïýíôáé áðü ôïõëÜ÷éóôïí Ýíá Üëëï


óçìåßï, äåí åìðåñéÝ÷ïíôáé óôï skyline. Ãéá ðáñÜäåéãìá, ç óõóêåõÞ PDA t6 êõ-
ñéáñ÷åßôáé áðü ôçí t1 åðåéäÞ t5 :autonomy=t1 :autonomy, áëëÜ t5 :screensize <
t1 :screensize.
Ôï ðëÞèïò ôùí óçìåßùí ôïõ skyline åîáñôÜôáé óçìáíôéêÜ áðü ôï ðëÞèïò ôùí
äéáóôÜóåùí ôïõ óõíüëïõ äåäïìÝíùí (ðëÞèïò ÷áñáêôçñéóôéêþí) êáé ôçò êáôáíï-
ìÞò ôùí äåäïìÝíùí. ¸÷åé áðïäåé÷èåß óôï ðáñåëèüí [29, 33] üôé êáèþò áõîÜíï-
íôáé ïé äéáóôÜóåéò, ôüóï ôï ðëÞèïò ôùí óçìåßùí ôïõ skyline áõîÜíåôáé äñáóôéêÜ,
äõóêïëåýïíôáò ôçí åðéëïãÞ ôïõ áíôéêåéìÝíïõ ðïõ ôáéñéÜæåé êáëýôåñá óôéò ðñïôé-
ìÞóåéò ôïõ ÷ñÞóôç. Ðñïò ôçí êáôåýèõíóç ôçò åîÜëåéøçò ôïõ ìåãÜëïõ ðëÞèïõò
óçìåßùí ôïõ skyline, ìßá ðñùôüôõðç ìÝèïäïò ðñïôÜèçêå óôçí åñãáóßá [33], ç
ïðïßá ÷áëáñþíåé ôïí ïñéóìü ôçò êõñéáñ÷ßáò, ðñïêåéìÝíïõ íá áõîÞóåé ôçí ðé-
èáíüôçôá Ýíá óçìåßï íá êõñéáñ÷åß Ýíá Üëëï. Ðñïöáíþò, áõîÜíïíôáò áõôÞ ôçí
ðéèáíüôçôá, ôï ðëÞèïò ôùí óçìåßùí ôïõ skyline åëáôôþíåôáé. Áíôß ãéá ôçí áíá-
æÞôçóç ôùí áðëþí skyline óçìåßùí óå üëåò ôéò äéáóôÜóåéò, ðñïôåßíåôáé ç ÷ñÞóç
ôùí k-domimant skyline óçìåßùí. Óýìöùíá ìå ôï íÝï ïñéóìü ôçò êõñéáñ÷ßáò,
Ýíá óçìåßï k-êõñéáñ÷åß óå Ýíá Üëëï, áí ôï ðñþôï åßíáé ôüóï êáëü üóï ôï äåýôåñï
óå ôïõëÜ÷éóôïí k äéáóôÜóåéò êáé êáëýôåñï óå ôïõëÜ÷éóôïí ìßá áðü áõôÝò. Ïé
õðüëïéðåò äéáóôÜóåéò äåí ëáìâÜíïíôáé õðüøç.
Ïé ôå÷íéêÝò åðåîåñãáóßáò ðïõ ðñïôÜèçêáí óôçí åñãáóßá [33] åêôåëïýíôáé óå
óôáôéêÜ óýíïëá äåäïìÝíùí. Ùóôüóï, óôçí ðåñßðôùóç åéóáãùãþí êáé äéáãñá-
öþí, ôï áðïôÝëåóìá ôïõ skyline ðñÝðåé íá åíçìåñþíåôáé Ýôóé þóôå íá åíóùìá-
ôþíåé ôéò áëëáãÝò. ÅðïìÝíùò, ç ðñþôç ìáò óõíåéóöïñÜ ðåñéëáìâÜíåé ôç óõíå÷Þ
åðåîåñãáóßá ôùí k-dominant skylines ãéá ôéò åîÞò ðåñéðôþóåéò: (á) ðåñßðôùóç
ìßáò åêôÝëåóçò (ad-hoc), üðïõ ïé åéóáãùãÝò êáé ïé äéáãñáöÝò ðñáãìáôïðïéïýíôáé
ôõ÷áßá ÷ùñßò íá áêïëïõèïýí êÜðïéï óõãêåêñéìÝíï ðñüôõðï, êáé (â) ðåñßðôùóç
ñïÞò (streaming), üðïõ íÝåò åããñáöÝò ðñïóôßèåíôáé óõíå÷þò óôï ôÝëïò åíþ ïé ðá-
ëéÝò ôéìÝò åîáëåßöïíôáé. Ç äåýôåñç óõíåéóöïñÜ ðåñéëáìâÜíåé ôçí áðïäïôéêÞ åðå-
îåñãáóßá ðïëëþí óõíå÷þí åñùôçìÜôùí. ÊÜèå åñþôçìá ìðïñåß íá ïñéóèåß óå Ýíá
õðïóýíïëï ôùí äéáèÝóéìùí äéáóôÜóåùí, åöüóïí äéáöïñåôéêïß ÷ñÞóôåò óõíÞèùò
140 ÊÅÖÁËÁÉÏ 7. ÓÕÍÅ×Ç ÅÑÙÔÇÌÁÔÁ K -DOMINANT SKYLINE

åíäéáöÝñïíôáé ãéá äéáöïñåôéêÜ ÷áñáêôçñéóôéêÜ. Åðåêôåßíïíôáò ôï ðñïçãïýìåíï


ðáñÜäåéãìá ìå ôéò óõóêåõÝò PDA, Ýíáò ðåëÜôçò ìðïñåß íá åíäéáöÝñåôáé ãéá ôçí
ôéìÞ êáé ôç ìíÞìç, åíþ Ýíáò Üëëïò ðåëÜôçò ìðïñåß íá åíäéáöÝñåôáé ãéá ôï âÜñïò,
ôï ìÝãåèïò ïèüíçò êáé ôçí ôá÷ýôçôá ôïõ åðåîåñãáóôÞ. ÅðéðëÝïí, ç ðáñÜìåôñïò
k ìðïñåß íá åßíáé äéáöïñåôéêÞ ãéá êÜèå åñþôçìá, áõîÜíïíôáò ôçí ðïëõðëïêüôçôá
ôïõ ðñïâëÞìáôïò áêüìá ðéï ðïëý.

7.2 Ó÷åôéêÞ Âéâëéïãñáößá


Ôá åñùôÞìáôá skyline Ý÷ïõí ðñïóåëêýóåé ðñüóöáôá óçìáíôéêÞ ðñïóï÷Þ, ëüãù
ôçò ÷ñçóéìüôçôÜ ôïõò óôçí åðéëïãÞ ôùí ðéï ðñïôéìþìåíùí áíôéêåéìÝíùí, åéäéêÜ
üôáí êñéôÞñéá åðéëïãÞò åßíáé áíôéêñïõüìåíá. Ðáñüôé ôï ðñüâëçìá åß÷å ìåëåôçèåß
óôï ðáñåëèüí áðü ðëÞèïò åñåõíçôþí [25, 112], ìüíï ðñüóöáôá åîåôÜóèçêå êÜôù
áðü ôï ðñßóìá ôùí âÜóåùí äåäïìÝíùí [29].
Ç âéâëéïãñáößá åßíáé ðëïýóéá óå áëãïñßèìïõò êáé ó÷Þìáôá ïñãÜíùóçò ãéá ôçí
åðåîåñãáóßá åñùôçìÜôùí skyline. Óôçí åñãáóßá [135] ðñïôÜèçêå Ýíá áðïäïôéêü
ó÷Þìá åðåîåñãáóßáò åñùôçìÜôùí skyline, ôï ïðïßï âáóßæåôáé óôçí ôå÷íéêÞ ôçò
\äéáêëÜäùóçò êáé ðåñéïñéóìïý" (branch-and-bound) êáé áîéïðïéåß ôç äïìÞ ôùí
R-äÝíäñùí [76]. ÁõôÞ ç ìÝèïäïò äåß÷íåé óçìáíôéêÞ âåëôßùóç Ýíáíôé ðñïçãïýìåíá
ðñïôåéíüìåíùí ìåèüäùí. Ùóôüóï, áõôü ôï ó÷Þìá õðïèÝôåé üôé ôï skyline õðï-
ëïãßæåôáé óôï óýíïëï ôùí äéáèÝóéìùí ÷áñáêôçñéóôéêþí, ãåãïíüò ðïõ ïñéóìÝíåò
öïñÝò åßíáé Üóêïðï, éäéáßôåñá üôáí ôï ðëÞèïò ôùí äéáóôÜóåùí åßíáé ìåãÜëï [29].
Ìßá Üëëç ðñïóÝããéóç áêïëïõèÞèçêå óôçí åñãáóßá [92], üðïõ ç ðñïôåéíüìåíç
ôå÷íéêÞ áíáæçôÜ ðõêíÜ (thick) skylines. Ôï ðõêíü skyline áðïôåëåßôáé áðü ìåñéêÜ
óçìåßá ôïõ áðëïý skyline êáé áðü ìåñéêÜ åðéðñüóèåôá óçìåßá, ôá ïðïßá åßíáé
êïíôÜ óôá óçìåßá ôïõ skyline áëëÜ äåí ðåñéÝ÷ïíôáé óå áõôü. Ìå áõôü ôïí ôñüðï,
ðñïôåßíïíôáé óôï ÷ñÞóôç ìüíï óçìåßá óå ðõêíÝò ðåñéï÷Ýò. ÁõôÞ ç ôå÷íéêÞ ìðïñåß
íá ÷ñçóéìïðïéçèåß áðïôåëåóìáôéêÜ üôáí êÜðïéá óçìåßá ôïõ skyline âñßóêïíôáé
óå ðõêíÝò ðåñéï÷Ýò. Ùóôüóï, üðùò êáé óôçí ðñïçãïýìåíç ìÝèïäï, ôá óçìåßá ôïõ
skyline õðïëïãßæïíôáé óôï óýíïëï ôùí äéáèÝóéìùí äéáóôÜóåùí.
Óôçí åñãáóßá [121] ðñïôåßíåôáé Ýíáò Üëëïò åíäéáöÝñùí áëãüñéèìïò ãéá ôçí
åðéëïãÞ ôùí óçìåßùí ôïõ skyline óýìöùíá ìå ôçí éêáíüôçôá êõñéáñ÷ßáò ôïõò.
Ðéï óõãêåêñéìÝíá, ï áëãüñéèìïò åðéëÝãåé Ýíá õðïóýíïëï ôùí óçìåßùí ôïõ sky-
line åðéäéþêïíôáò ôç ìåãéóôïðïßçóç ôïõ ðëÞèïõò ôùí êõñéáñ÷ïýìåíùí óçìåßùí.
Ùóôüóï, áõôÞ ç ìÝèïäïò åßíáé NP-hard ãéá ÷þñïõò ðïëëþí äéáóôÜóåùí êáé óõ-
íåðþò áðáéôïýíôáé ðñïóåããéóôéêïß áëãüñéèìïé ãéá ôï ãñÞãïñï õðïëïãéóìü ôçò
áðÜíôçóçò.
Ôï êõñéüôåñï ÷áñáêôçñéóôéêü ôùí ðñïáíáöåñèÝíôùí ðñïóðáèåéþí åßíáé üôé
áíáöÝñïõí ôï áðïôÝëåóìá ôïõ skyline åñùôÞìáôïò ëáìâÜíïíôáò õðüøç üëåò ôéò
äéáóôÜóåéò. ÕðÜñ÷ïõí äýï ðñïâëÞìáôá ìå áõôÞ ôçí ðñïóÝããéóç: (á) óå ÷þñïõò
ðïëëþí äéáóôÜóåùí ôï ðëÞèïò ôùí óçìåßùí ôïõ skyline áõîÜíåé äñáóôéêÜ, êáé
7.3. ÕÐÏÂÁÈÑÏ 141

(â) ïé ÷ñÞóôåò ßóùò íá ìçí åíäéáöÝñïíôáé ãéá ôï óýíïëï ôùí äéáóôÜóåùí. Ìå


óêïðü ôçí áíôéìåôþðéóç áõôþí ôùí æçôçìÜôùí, ðñïôÜèçêáí ôï skyline õðï÷þ-
ñïõ óôçí åñãáóßá [138], üðïõ Ýíá õðïóýíïëï äéáóôÜóåùí ÷ñçóéìïðïéåßôáé ãéá íá
õðïëïãéóèåß ôï skyline. Óôç óõíÝ÷åéá, áñêåôÝò ðñïóðÜèåéåò Ýãéíáí ìå óêïðü ôïí
áðïäïôéêüôåñï õðïëïãéóìü ôïõ skyline õðï÷þñïõ. Óôçí åñãáóßá [179] ðñïôÜ-
èçêå ç ìÝèïäïò SKYCUBE ðïõ ÷ñçóéìïðïéåßôáé üðùò ç ìÝèïäïò DATACUBE
ãéá áðïèÞêåò äåäïìÝíùí. Ç ìÝèïäïò SKYCUBE åßíáé ï ðëÞñçò õðïëïãéóìüò ôùí
skylines üëùí ôùí äõíáôþí õðï÷þñùí. ÅðïìÝíùò, ç áðÜíôçóç óå Ýíá óõãêåêñé-
ìÝíï åñþôçìá skyline õðï÷þñïõ ðáñÝ÷åôáé áðïäïôéêÜ. Åðéðñüóèåôá, ïé óõããñá-
öåßò ôçò åñãáóßáò [155] ðñüôåéíáí ôç ìÝèïäï SUBSKY ùò åíáëëáêôéêÞ ìÝèïäï
ãéá ôïí õðïëïãéóìü skyline õðï÷þñïõ, åíþ óôçí åñãáóßá [169] ìåëåôÞèçêå ç áíá-
íÝùóç ôçò óõìðéåóìÝíçò SKYCUBE ìå óêïðü ôçí õðïóôÞñéîç åéóáãùãþí êáé
äéáãñáöþí.
Ìå óêïðü ôï ÷åéñéóìü ÷þñùí ðïëëþí äéáóôÜóåùí, óôçí åñãáóßá [33] áêï-
ëïõèÞèçêå ìßá äéáöïñåôéêÞ ðñïóÝããéóç ðïõ ðñïôåßíåé ôá k-dominant skylines.
Óýìöùíá ìå áõôÞ ôçí åñãáóßá, ï ïñéóìüò ôçò êõñéáñ÷ßáò ÷áëáñþíåé ìå óêïðü íá
êáôáóôÞóåé äõíáôü êÜðïéá óçìåßá íá êõñéáñ÷çèïýí, ìåéþíïíôáò Ýôóé ôï ìÝãåèïò
ôïõ skyline. Ùóôüóï, ïé ðñïôåéíüìåíïé áëãüñéèìïé åßíáé äýóêïëï íá áîéïðïéçèïýí
óå äõíáìéêÜ ðåñéâÜëëïíôá üðïõ åðéôñÝðïíôáé åéóáãùãÝò êáé äéáãñáöÝò. ÅðéðëÝïí,
äåí åßíáé ðñïöáíÝò ðùò èá åêôåëåóèïýí ðïëëÜ åñùôÞìáôá üôáí êÜèå åñþôçìá ïñß-
æåé äéáöïñåôéêü õðïóýíïëï äéáóôÜóåùí êáé äéáöïñåôéêÞ ôéìÞ ôçò ðáñáìÝôñïõ k.

7.3 Õðüâáèñï
Îåêéíïýìå ôç ìåëÝôç ìáò ìå Ýíá ðëÞèïò âáóéêþí ïñéóìþí êáé ÷ñÞóéìùí éäéï-
ôÞôùí ôùí óçìåßùí ôïõ skyline. Ï Ðßíáêáò 7.1 óõíïøßæåé ôá óýìâïëá ðïõ èá
÷ñçóéìïðïéçèïýí óå áõôü ôï êåöÜëáéï.
ÕðïèÝóôå Ýíá ÷þñï D äéáóôÜóåùí D = {d1 ; d2 ; : : : ; dD } êáé Ýíá óýíïëï åã-
ãñáöþí T = {t1 ; t2 ; : : : ; tT }. ×ñçóéìïðïéïýìå ôï óýìâïëï ti;j ãéá íá õðïäçëþ-
óïõìå ôçí ôéìÞ ôçò j -ïóôÞò äéÜóôáóçò ôçò i-ïóôÞò åããñáöÞò. ÅðéðëÝïí, õðïèÝóôå
Ýíá ðëÞèïò k-dominant skyline åñùôçìÜôùí. ÊÜèå åñþôçìá qi Ý÷åé Ýíá óýíïëï
äéáóôÜóåùí qi :ds ⊆ D üðïõ åöáñìüæåôáé ôï åñþôçìá êáé ìßá ðáñÜìåôñï qi :k ðïõ
êáèïñßæåé ôéò åðéèõìçôÝò k-dominant skyline åããñáöÝò.
ÏÑÉÓÌÏÓ 7.1 (k-êõñéáñ÷çìÝíç åããñáöÞ). Ìßá åããñáöÞ ti k-êõñéáñ÷åßôáé áðü
ìßá åããñáöÞ tj óå Ýíá åñþôçìá ql , áí êáé ìüíï áí ∃D0 ⊆ qi :ds; D0 = ql :k; ∀dx ∈
D0 ; tj;x ≥ ti;x êáé ∃dy ∈ D0 ; tj;y > ti;y . ¤

ÏÑÉÓÌÏÓ 7.2 (k-dominant skyline åããñáöÞ). Ìßá åããñáöÞ ti åßíáé k-dominant


skyline åããñáöÞ åíüò åñùôÞìáôïò ql áí êáé ìüíï áí äåí õðÜñ÷åé êáìßá åããñáöÞ
tj óôï óýíïëï äåäïìÝíùí ðïõ k-êõñéáñ÷åß ôçí ti óôéò äéáóôÜóåéò qi :ds. ¤
142 ÊÅÖÁËÁÉÏ 7. ÓÕÍÅ×Ç ÅÑÙÔÇÌÁÔÁ K -DOMINANT SKYLINE

Óýìâïëï ÐåñéãñáöÞ
D; D0 ; D; D0 óýíïëá äéáóôÜóåùí êáé ðëÞèïò äéáóôÜóåùí
d; di äéÜóôáóç
T, T óýíïëá åããñáöþí êáé ðëÞèïò åããñáöþí
ti i-ïóôÞ åããñáöÞ
ti;j ôéìÞ i-ïóôÞò åããñáöÞò óôçí j -ïóôÞ äéÜóôáóç
Q; Q óýíïëï åñùôçìÜôùí êáé ðëÞèïò åñùôçìÜôùí
q; qi åñùôÞìáôá
q:ds; qi :ds óýíïëï êáé ðëÞèïò äéáóôÜóåùí åñùôÞìáôïò
q:ds; qi :ds
q:k; qi :k ðáñÜìåôñïò k åíüò åñùôÞìáôïò
sq; sqj õðïåñùôÞìáôá
sq:ds; sqj :ds óýíïëï êáé ðëÞèïò äéáóôÜóåùí õðïåñùôçìÜôùí
sq:ds; sqi :ds
gi;j ðëÝãìá äéáóôÜóåùí i êáé j
c; ci;j êåëéÜ ðëÝãìáôïò
W ìÝãåèïò êéíïýìåíïõ ðáñáèýñïõ

ΠINAKAΣ 7.1. ÂáóéêÜ óýìâïëá Êåöáëáßïõ 7.

ÅîåôÜæïõìå ôï ÷þñï äåäïìÝíùí D óå æåõãÜñéá äéáóôÜóåùí. ÅðïìÝíùò, áí


D åßíáé ï óõíïëéêüò áñéèìüò äéáóôÜóåùí ôüôå õðÜñ÷ïõí D · (D − 1)/2 æåýãç.
×ñçóéìïðïéïýìå ôï óýìâïëï gi;j (1 ≥ i; j ≤ D ·(D −1)=2 êáé i < j ) ãéá íá õðïäç-
ëþóïõìå ôï ðëÝãìá ðïõ ó÷çìáôßæåôáé áðü ôçí i-ïóôÞ êáé ôçí j -ïóôÞ äéáóôÜóåéò.
ÏÑÉÓÌÏÓ 7.3 ((2,D')-skyline åããñáöÞ). ÄåäïìÝíïõ åíüò õðïóõíüëïõ äéáóôÜ-
óåùí D0 ⊆ D, ìßá åããñáöÞ ti åßíáé (2; D0 )-skyline åããñáöÞ áí êáé ìüíï áí åßíáé
áðëÞ skyline åããñáöÞ óå ôïõëÜ÷éóôïí Ýíá gi;j (di ∈ D0 ; dj ∈ D0 êáé i 6= j ). ¤
ÏÑÉÓÌÏÓ 7.4 ((D0 ,D')-skyline åããñáöÞ). ÄåäïìÝíïõ åíüò õðïóõíüëïõ äéáóôÜ-
óåùí D0 ⊆ D, ìßá åããñáöÞ ti åßíáé (D0 ; D0 )-skyline åããñáöÞ (D0 > 2) áí êáé
ìüíï áí åßíáé áðëÞ skyline åããñáöÞ óôï ÷þñï D0 êáé äåí åßíáé (2; D0 )-skyline
åããñáöÞ. ¤

¸íá åñþôçìá qi ðïõ ïñßæåôáé óôéò äéáóôÜóåéò qi :ds ìå ðáñÜìåôñï qi :k Ý÷åé


qi :ds!=(qi :k! · (qi :ds − qi :k)!) õðïåñùôÞìáôá. Ï åðüìåíïò ïñéóìüò åîçãåß.
ÏÑÉÓÌÏÓ 7.5 (õðïåñþôçìá). ÄåäïìÝíïõ åíüò åñùôÞìáôïò qi ìå qi :ds êáé qi :k,
Ýíá õðïåñþôçìá sqj Ý÷åé Ýíáí áðü ôïõò qi :ds!=(qi :k! · (qi :ds − qi :k)!) äõíáôïýò
óõíäõáóìïýò ôùí äéáóôÜóåùí ôïõ qi . ¤

Ãéá ðáñÜäåéãìá, ôï åñþôçìá q1 ìå q1 :ds = {d1 ; d2 ; d3 ; d4 } êáé q1 :k=3 Ý÷åé ôá


åîÞò õðïåñùôÞìáôá:
sq1 : {d1 ; d2 ; d3 }
7.4. ÓÕÍÅ×Ç K -DOMINANT SKYLINES 143

sq2 : {d1 ; d2 ; d4 }
sq3 : {d1 ; d3 ; d4 }
sq4 : {d2 ; d3 ; d4 }

Óôç óõíÝ÷åéá, áíáöÝñïõìå äýï éäéüôçôåò ôùí áðëþí skyline åããñáöþí, ôéò
ïðïßåò èá ÷ñçóéìïðïéÞóïõìå óå åðüìåíåò åíüôçôåò. Ç ðñþôç éäéüôçôá ìáò åðé-
ôñÝðåé íá áíáãíùñßóïõìå skyline åããñáöÝò óå õðï÷þñïõò, áëëÜ éó÷ýåé ìüíï áí
éó÷ýåé ç óõíèÞêç äéáöïñåôéêÞò ôéìÞò (distinct value condition) [138].
ÉÄÉÏÔÇÔÁ 7.6. ÄåäïìÝíïõ T åããñáöþí D äéáóôÜóåùí, áí ìßá åããñáöÞ ti åßíáé
áðëÞ skyline åããñáöÞ óôï D1 ⊆ D ôüôå åßíáé áðëÞ skyline åããñáöÞ óå êÜèå
óýíïëï äåäïìÝíùí D2 ⊇ D1 (D2 ⊆ D). ¤
Óôçí ðåñßðôùóç ðïõ äåí éó÷ýåé ç óõíèÞêç äéáöïñåôéêÞò ôéìÞò, ôï ðñüâëçìá
ìðïñåß íá îåðåñáóèåß åýêïëá áí áðïèçêåýóïõìå óå ìßá åíäéÜìåóç ìíÞìç, ôéò
åããñáöÝò ìå ßäéåò ôéìÝò óå Ýíá õðïóýíïëï äéáóôÜóåùí ðñïêåéìÝíïõ íá êáôáóôÞ-
óïõìå äõíáôÞ ôçí ðåñáéôÝñù åðåîåñãáóßá ôïõò, üôáí áõôÞ ÷ñåéÜæåôáé.
ÉÄÉÏÔÇÔÁ 7.7. ÄåäïìÝíùí T åããñáöþí D äéáóôÜóåùí, áí ìßá åããñáöÞ ti äåí
åßíáé áðëÞ skyline åããñáöÞ óôï D1 ⊆ D ôüôå äåí åßíáé áðëÞ skyline åããñáöÞ óå
êÜèå óýíïëï äåäïìÝíùí D2 ⊆ D1 . ¤
Ïé ðñïçãïýìåíåò éäéüôçôåò äåí éó÷ýïõí ãéá ôçí ðåñßðôùóç ôùí k-dominant
skylines, ãéá k < D. ÅðéðëÝïí, ç ìåôáâáôéêÞ (transitive) éäéüôçôá ôùí áðëþí sky-
lines äåí éó÷ýåé óôá k-dominant skylines. ÊáôÜ óõíÝðåéá, åßíáé äõíáôü íá õðÜñ-
÷ïõí ôñåéò åããñáöÝò t1 ; t2 êáé t3 ôÝôïéåò þóôå ç t1 íá k-êõñéáñ÷åßôáé áðü ôçí t2 ,
ç t2 íá k-êõñéáñ÷åßôáé áðü ôçí t3 êáé ç t3 íá k-êõñéáñ÷åßôáé áðü ôçí t1 (êõêëéêÞ
ó÷Ýóç êõñéáñ÷ßáò, cyclic dominant relationship). Ëüãù ôçò êõêëéêÞò ó÷Ýóçò
êõñéáñ÷ßáò, äåí ìðïñïýìå íá áðïññßøïõìå ìßá åããñáöÞ ðïõ k-êõñéáñ÷åßôáé, äéüôé
ßóùò ÷ñçóéìïðïéçèåß ãéá ôçí áðüññéøç êÜðïéáò Üëëçò åããñáöÞò. Ãé' áõôü, ïé
áëãüñéèìïé ðïõ Ý÷ïõí ðñïôáèåß ãéá ôïí õðïëïãéóìü skyline êáé óõíå÷Þ skyline
äåí åßíáé åöáñìüóéìïé óôçí ðåñßðôùóç ôùí k-dominant skylines.
Óå áõôü ôï êåöÜëáéï, ðñïôåßíïõìå ôïí áëãüñéèìï CoSMuQ (Continuous Sky-
lines for Multiple Queries), Ýíá áðïäïôéêü ó÷Þìá ãéá ôçí åðåîåñãáóßá ðïëëþí
óõíå÷þí k-dominant skylines åñùôçìÜôùí. Ôï ðñüâëçìá äéáôõðþíåôáé ùò åîÞò:
ÄåäïìÝíïõ åíüò äõíáìéêïý óõíüëïõ åããñáöþí D äéáóôÜóåùí êáé åíüò óõ-
íüëïõ áðü k-dominant skyline åñùôÞìáôá, êáèÝíá áðü ôá ïðïßá Ý÷åé Ýíá óýíïëï
äéáóôÜóåùí qi :ds ⊆ D êáé ìßá ðáñÜìåôñï qi :k ≤ qi :ds, õðïëüãéóå ôï k-dominant
skyline ãéá êÜèå åñþôçìá óõíå÷þò.

7.4 Óõíå÷Þ k-dominant Skylines


ÁõôÞ ç åíüôçôá ðáñïõóéÜæåé ôçí ðñïôåéíüìåíç ìÝèïäï. Ç Åíüôçôá 7.4.1 ðåñéãñÜ-
öåé ÷ñçóéìïðïéïýìåíåò äïìÝò äåäïìÝíùí, ç Åíüôçôá 7.4.2 ðåñéãñÜöåé ôïí áëãü-
144 ÊÅÖÁËÁÉÏ 7. ÓÕÍÅ×Ç ÅÑÙÔÇÌÁÔÁ K -DOMINANT SKYLINE

ñéèìï CoSMuQ, åíþ ç Åíüôçôá 7.4.3 óõæçôÜ ëåðôïìÝñåéåò âåëôéóôïðïßçóçò ãéá


ôçí ðåñßðôùóç ôùí ñïþí.

7.4.1 ÄïìÝò äåäïìÝíùí


Ç ðñïôåéíüìåíç ìÝèïäïò äéáôçñåß Ýíá ðëÝãìá ãéá êÜèå æåýãïò äéáóôÜóåùí. Ëüãù
ôçò äõíáìéêÞò öýóçò ôïõ áëãïñßèìïõ, ðñïêåéìÝíïõ íá áðïöåõ÷èåß ôï êüóôïò
áíáäéïñãáíþóåùí ôçò äïìÞò, åßíáé ðñïôéìüôåñç ç ÷ñÞóç ìßáò áðëÞò äïìÞò ãéá
ãñÞãïñç åíçìÝñùóç. Ðáñüìïéá ìå õðÜñ÷ïõóåò ðñïóåããßóåéò [82, 128], ÷ñçóéìï-
ðïéÞóáìå ðëÝãìáôá ìå ßóïõ ìåãÝèïõò êåëéÜ áëëÜ ç ìÝèïäïò ìðïñåß íá åöáñìï-
óèåß åðßóçò êáé ìå áêáíüíéóôá ðëÝãìáôá (irregular grids). Ôï ðëåïíÝêôçìá ôùí
êåëéþí ßóïõ ìåãÝèïõò åßíáé üôé ìðïñïýìå íá åéóÜãïõìå/äéáãñÜøïõìå äåäïìÝíá
óå/áðü ôï ðëÝãìá ðïëý ãñÞãïñá. Áí s åßíáé ôï ìÝãåèïò ôùí êåëéþí êáé ti;j
åßíáé ç ôéìÞ ôçò j -ïóôÞò äéÜóôáóçò ôçò i-ïóôÞò åããñáöÞò, ôüôå ç ti áíÞêåé óôï
dti;j =se-ïóôü êåëß ôçò j -ïóôÞò äéÜóôáóçò. ÊÜèå êåëß ðåñéÝ÷åé ôá áíáãíùñéóôéêÜ
(IDs) ôùí åããñáöþí ðïõ áíÞêïõí óå áõôü ôï êåëß êáé åðßóçò ôçí êÜëõøç (cov-
erage) ôïõ êåëéïý. Ç êÜëõøç åíüò êåëéïý åßíáé ôï ðëÞèïò ôùí åããñáöþí ðïõ
êõñéáñ÷åß áõôü ôï óõãêåêñéìÝíï êåëß. ÔÝëïò, êÜèå ðëÝãìá óõíôçñåß ôéò áðëÝò
skyline åããñáöÝò ôïõ.
¼ôáí ôßèåôáé Ýíá íÝï åñþôçìá, áñ÷éêÜ õðïëïãßæïõìå ôá õðïåñùôÞìáôÜ ôïõ.
ÊÜèå õðïåñþôçìá sqj ôïõ åñùôÞìáôïò qi Ý÷åé Ýíá áíáãíùñéóôéêü (ID) êáé Ýíá
õðïóýíïëï äéáóôÜóåùí ôïõ åñùôÞìáôïò ðïõ óõìâïëßæåôáé ùò sqj :ds (sqj :ds =
qi :k). Åðéðñüóèåôá êÜèå õðïåñþôçìá áðïèçêåýåé ôéò (2; sqj :ds)-skyline åããñá-
öÝò ôïõ, ôéò (qi :k; sqj :ds)-skyline åããñáöÝò ôïõ êáé Ýíá óýíïëï õðïøÞöéùí sky-
line åããñáöþí. ÐñïóÝîôå üôé åñùôÞìáôá ìå ôçí ßäéá ðáñÜìåôñï k íá ìïéñÜæï-
íôáé êïéíÜ õðïåñùôÞìáôá. Ãéá ðáñÜäåéãìá, õðïèÝóôå ôï åñþôçìá q1 ìå q1 :ds =
{d1 ; d2 ; d3 ; d4 }, ôï åñþôçìá q2 ìå q2 :ds = {d1 ; d2 ; d3 ; d5 } êáé q1 :k =q2 :k =3. Ôï
ðñþôï õðïåñþôçìá ôùí äýï åñùôçìÜôùí Ý÷åé ôï ßäéï õðïóýíïëï äéáóôÜóåùí
{d1 ; d2 ; d3 }). ÊÜèå õðïåñþôçìá, áí äåí õðÜñ÷åé Þäç, åéóÜãåôáé óôç ëßóôá ôùí
õðïåñùôçìÜôùí. ÅðéðëÝïí, ç ìÝèïäïò äéáôçñåß ôá åñùôÞìáôá óå ìßá ëßóôá åñù-
ôçìÜôùí. ÊÜèå åñþôçìá Ý÷åé Ýíá áíáãíùñéóôéêü (ID), ìßá ðáñÜìåôñï k, Ýíá
õðïóýíïëï äéáóôÜóåùí, ôá IDs ôùí õðïåñùôçìÜôùí ôïõ åñùôÞìáôïò êáé ôï k-
dominant skyline ôïõ åñùôÞìáôïò.
Ïé Åéêüíåò 7.2-7.3 äåß÷íïõí ôéò äïìÝò ðïõ ÷ñçóéìïðïéïýíôáé óôïí ðñïôåéíü-
ìåíï áëãüñéèìï. Ç ìÝèïäïò óõíôçñåß D · (D − 1)/2 ðëÝãìáôá, ìßá ëßóôá ðïõ
ðåñéÝ÷åé ôá õðïåñùôÞìáôá êáé ìßá ëßóôá ðïõ ðåñéÝ÷åé ôá åñùôÞìáôá. Óôçí åðü-
ìåíç åíüôçôá, óõæçôïýìå ðùò ç ìÝèïäïò äéáôçñåß åíçìåñùìÝíåò ôéò äïìÝò.

7.4.2 CoSMuQ
Ôï åðßêåíôñï ôçò ìåëÝôçò ìáò åßíáé ï óõíå÷Þò õðïëïãéóìüò ôùí k-dominant
skylines ðïëëþí åñùôçìÜôùí. Ãé' áõôü, áó÷ïëïýìáóôå ìå ôçí åéóáãùãÞ êáé
7.4. ÓÕÍÅ×Ç K -DOMINANT SKYLINES 145

EIKONA 7.2. ÐáñÜäåéãìá äïìÞò äåäïìÝíùí.

! !

EIKONA 7.3. ÐáñÜäåéãìá ëéóôþí åñùôçìÜôùí êáé õðïåñùôçìÜôùí.

äéáãñáöÞ åããñáöþí ðáñÜ ìå ôçí áñ÷éêÞ öÜóç ðñïóäéïñéóìïý ôùí k-dominant


skylines. Åêôüò áõôïý, ç áñ÷éêÞ öÜóç ìðïñåß íá áíôéêáôáóôáèåß ìå ôçí åöáñìïãÞ
åíüò ðëÞèïõò áëëåðÜëëçëùí åéóáãùãþí.
Ç ðñïôåéíüìåíç ìÝèïäïò áðïôåëåßôáé áðü ôñßá âáóéêÜ óôÜäéá. Ôï ðñþôï óôÜ-
äéï åíçìåñþíåé ôá ðëÝãìáôá êáé ôá skylines ôùí ðëåãìÜôùí. Ôï äåýôåñï óôÜäéï
åíçìåñþíåé ôá õðïåñùôÞìáôá, åíþ ôï ôñßôï óôÜäéï åíçìåñþíåé ôá åñùôÞìáôá. Îå-
êéíïýìå ôçí ðåñéãñáöÞ ôïõ áëãïñßèìïõ CoSMuQ ìå ôç ëåéôïõñãßá åéóáãùãÞò.
Èá ðáñïõóéÜóïõìå ôç äéáäéêáóßá åéóáãùãÞò CoSMuQ-insert ìå ôç âïÞèåéá åíüò
ðáñáäåßãìáôïò, ðïõ áðåéêïíßæåôáé óôçí Åéêüíá 7.4 êáé óôïõò Ðßíáêåò 7.2 êáé
7.3. ÕðïèÝóôå üôé õðÜñ÷ïõí ôÝóóåñéò åããñáöÝò ôåóóÜñùí äéáóôÜóåùí, åðïìÝíùò
T =D=4 êáé üôé õðÜñ÷åé ìüíï Ýíá åñþôçìá ìå q1 :ds = {d1 ; d2 ; d3 ; d4 } (q1 :ds=4)
êáé q1 :k=3. Ç Åéêüíá 7.4 äåß÷íåé ôéò åããñáöÝò óå 2 áðü ôá 6 óõíïëéêÜ ðëÝã-
ìáôá, Ýíá ãéá êÜèå æåýãïò äéáóôÜóåùí. ÊÜèå êåëß ðåñéÝ÷åé ôçí êÜëõøç ôïõ êáé
146 ÊÅÖÁËÁÉÏ 7. ÓÕÍÅ×Ç ÅÑÙÔÇÌÁÔÁ K -DOMINANT SKYLINE

ôéò åããñáöÝò ðïõ âñßóêïíôáé óå áõôü. ÕðïèÝóôå üôé Ýñ÷åôáé ìßá íÝá åããñáöÞ t5 .

EIKONA 7.4. ÔéìÝò äåäïìÝíùí êáé ðëåãìÜôùí.

Ôï ðñþôï âÞìá åßíáé íá åéóÜãïõìå ôçí åããñáöÞ t5 óôá ðëÝãìáôá. Ç åããñáöÞ


åéóÜãåôáé óôá óêéáãìÝíá êåëßá ôçò Åéêüíá 7.4. Ç åããñáöÞ t5 åéóÜãåôáé óôï
êåëß c2;2 ôïõ ðëÝãìáôïò g1;2 äéüôé dt5;1 =se = d3=2e = 2 êáé dt5;2 =se = d3=2e=2.
ÅðéðëÝïí, ðñÝðåé íá åíçìåñùèåß ç êÜëõøç ôùí êåëéþí. Ç êÜëõøç ôùí êåëéþí ðïõ
êõñéáñ÷ïýí ôá óêéáãìÝíá êåëéÜ áõîÜíåôáé êáôÜ Ýíá. Óôçí Åéêüíá 7.4, áõôÜ åßíáé
ôá êåëéÜ ìå ëùñßäåò. Ï ôñüðïò ðñïóäéïñéóìïý áõôþí ôùí êåëéþí åßíáé åýêïëïò.
Ãéá ðáñÜäåéãìá, óôï ðëÝãìá g1;2 , êÜèå êåëß ci;j ìå i < 2 êáé j < 2 áõîÜíåé ôçí
êÜëõøÞ ôïõ êáôÜ Ýíá, äéüôé êáëýðôåé ôçí t5 .
Ðñéí ôçí ÌåôÜ ôçí ÌåôÜ ôç
åéóáãùãÞ ôçò t5 åéóáãùãÞ ôçò t5 äéáãñáöÞ ôçò t1
Grids Skylines Skylines Skylines
g1;2 t1 , t2 t1 , t2 t2
g1;3 t1 , t3 t1 , t3 t2 , t3 , t5
g1;4 t1 , t4 t1 , t4 , t5 t2 , t4 , t5
g2;3 t2 , t3 t2 , t3 t2 , t3
g2;4 t2 , t4 t2 , t4 , t5 t2 , t4 , t5
g3;4 t1 , t3 , t4 t1 , t3 , t4 , t5 t3 , t4 , t5

ΠINAKAΣ 7.2. Skylines ðëåãìÜôùí.

Ôï åðüìåíï âÞìá åßíáé íá åíçìåñþóïõìå ôéò skyline åããñáöÝò êÜèå ðëÝãìá-


ôïò. Ï Ðßíáêáò 7.2 äåß÷íåé ôá skylines ôùí ðëåãìÜôùí ðñéí ôçí åéóáãùãÞ ôçò t5
(áñéóôåñÜ) êáé ìåôÜ ôçí åéóáãùãÞ (ìÝóç). Ðñþôá, åîåôÜæïõìå áí ç íÝá åããñáöÞ
åßíáé skyline åããñáöÞ óôï ðëÝãìá. Áí ç êÜëõøç ôïõ êåëéïý ôçò åßíáé ðåñéóóüôåñï
áðü 0 ôüôå ç íÝá åããñáöÞ äåí åßíáé óßãïõñá skyline åããñáöÞ. Áí ç êÜëõøç åßíáé
7.4. ÓÕÍÅ×Ç K -DOMINANT SKYLINES 147

0, ôüôå ç åããñáöÞ óõãêñßíåôáé ìå ôéò skyline åããñáöÝò ôïõ ðëÝãìáôïò. Áí äåí


õðÜñ÷åé skyline åããñáöÞ ðïõ íá êõñéáñ÷åß ôç íÝá åããñáöÞ, ôüôå ç íÝá åããñáöÞ
åßíáé skyline åããñáöÞ óå áõôü ôï ðëÝãìá. ÐñïóÝîôå üôé óõãêñßíïõìå ôç íÝá åã-
ãñáöÞ ìüíï ìå ôéò skyline åããñáöÝò ôïõ ðëÝãìáôïò êáé ü÷é ìå ïðïéáäÞðïôå Üëëç
åããñáöÞ, äéüôé õðïëïãßæïõìå áðëÜ skylines êáé ü÷é k-dominant. ÊáôÜ óõíÝðåéá,
éó÷ýåé ç ìåôáâáôéêÞ éäéüôçôá. Áí ç íÝá åããñáöÞ, åßíáé skyline åããñáöÞ, ôüôå ðñÝ-
ðåé íá åëåã÷èåß áí êõñéáñ÷åß ôéò õðÜñ÷ïõóåò skyline åããñáöÝò ôïõ ðëÝãìáôïò.
ÁõôÝò ïé åããñáöÝò äéáãñÜöïíôáé áðü ôéò skyline åããñáöÝò êáé áðïèçêåýïíôáé
ðñïóùñéíÜ. Áò åîåôÜóïõìå ôçí åíçìÝñùóç ôùí skylines ôùí ðëåãìÜôùí g1;2 êáé
g2;4 . Ôï êåëß c2;2 ôïõ g1;2 Ý÷åé êÜëõøç 1 ëüãù ôçò t2 , Ýôóé ç t5 äåí åßíáé skyline
åããñáöÞ óå áõôü ôï ðëÝãìá. Ôï êåëß c2;3 ôïõ g2;4 Ý÷åé êÜëõøç 0, Ýôóé óõãêñß-
íïõìå ôçí t5 ìå ôéò skyline åããñáöÝò t2 êáé t4 ôïõ ðëÝãìáôïò ãéá íá êáôáëÞîïõìå
üôé ç t5 áíÞêåé óôï skyline ôïõ ðëÝãìáôïò.
Ðñéí ðñï÷ùñÞóïõìå ìå ôçí åíçìÝñùóç ôùí õðïåñùôçìÜôùí, åîçãïýìå ôïõò
ôñåéò ôýðïõò ôùí skyline åããñáöþí ðïõ áðïèçêåýåé êÜèå õðïåñþôçìá. ÊÜèå õðïå-
ñþôçìá sq óõíôçñåß ôéò (2; sq:ds)-skyline åããñáöÝò ôïõ, ôéò (sq:ds; sq:ds)-skyline
åããñáöÝò ôïõ êáé ôéò õðïøÞöéåò skyline åããñáöÝò ôïõ. Ôï (2; sq:ds)-skyline åß-
íáé ç Ýíùóç üëùí ôùí skylines ôùí ðëåãìÜôùí gi;j ìå di ∈ sq:ds, dj ∈ sq:ds
êáé i 6= j . Ìßá åããñáöÞ åßíáé õðïøÞöéá skyline åããñáöÞ áí äåí êõñéáñ÷åßôáé
áðü êáìßá (2; sq:ds)-skyline åããñáöÞ ôïõ õðïåñùôÞìáôïò, åðïìÝíùò ïé õðïøÞ-
öéåò skyline åããñáöÝò åßíáé Ýíá õðåñóýíïëï ôùí (sq:ds; sq:ds)-skyline åããñáöþí.
Ìßá õðïøÞöéá skyline åããñáöÞ åßíáé (sq:ds; sq:ds)-skyline åããñáöÞ áí äåí êõ-
ñéáñ÷åßôáé áðü êáìßá õðÜñ÷ïõóá (sq:ds; sq:ds)-skyline åããñáöÞ. Ï Ðßíáêáò 7.3
áðåéêïíßæåé ôá õðïåñùôÞìáôá ðñéí ôçí åéóáãùãÞ ôçò t5 êáé ìåôÜ ôçí åéóáãùãÞ
ôçò. Ðñéí ôçí åéóáãùãÞ, ç åããñáöÞ t4 åßíáé õðïøÞöéá skyline åããñáöÞ ãéá ôï sq1
åðåéäÞ äåí êõñéáñ÷åßôáé áðü ôï (2; sq1 :ds)-skyline êáé åßíáé (sq:ds; sq:ds)-skyline

ÕðïåñùôÞìáôá
sq1 sq2 sq3 sq4
d1 , d2 , d3 d1 , d2 , d4 d1 , d3 , d4 d2 , d3 , d4
Ðñéí ôçí (2,d1 , d2 , d3 ) t1 , t2 , t3 t1 , t2 , t4 t1 , t3 , t4 t1 , t2 , t3 , t4
åéóáãùãÞ (3,d1 , d2 , d3 ) t4
ôçò t5 candidate t4
ÌåôÜ ôçí (2,d1 , d2 , d3 ) t1 , t2 , t3 t1 , t2 , t4 , t5 t1 , t3 , t4 , t5 t1 , t2 , t3 , t4 , t5
åéóáãùãÞ (3,d1 , d2 , d3 ) t5
ôçò t5 candidate t4 , t5
ÌåôÜ ôç (2,d1 , d2 , d3 ) t2 , t3 , t5 t2 , t4 , t5 t2 , t3 , t4 , t5 t2 , t3 , t4 , t5
äéáãñáöÞ (3,d1 , d2 , d3 )
ôçò t1 candidate

ΠINAKAΣ 7.3. Ðëçñïöïñßá õðïåñùôçìÜôùí.


148 ÊÅÖÁËÁÉÏ 7. ÓÕÍÅ×Ç ÅÑÙÔÇÌÁÔÁ K -DOMINANT SKYLINE

åããñáöÞ åöüóïí äåí êõñéáñ÷åßôáé áðü êáìßá Üëëç (sq:ds; sq:ds)-skyline åããñáöÞ.
Áêïëïõèåß ç åíçìÝñùóç ôùí õðïåñùôçìÜôùí. Ðñþôá, åëÝã÷åôáé áí ç íÝá åã-
ãñáöÞ t5 ðñÝðåé íá åéóá÷èåß óôï (2; sq:ds)-skyline. Èõìçèåßôå üôé ôï (2; sq:ds)-
skyline åßíáé ç Ýíùóç üëùí ôùí skylines ôùí ðëåãìÜôùí ðïõ áíÞêïõí óôï sq:ds.
Åöüóïí ç t5 åßíáé skyline åããñáöÞ óôï g1;4 , g2;4 êáé g3;4 , èá åéóá÷èåß óôá
(2; sq:ds)-skylines ôùí õðïåñùôçìÜôùí sq2 , sq3 êáé sq4 . Áí ç íÝá åããñáöÞ åßíáé
(2; sq:ds)-skyline åããñáöÞ, äéáãñÜöïíôáé ïé (sq:ds; sq:ds)-skyline êáé ïé õðïøÞ-
öéåò skyline åããñáöÝò ðïõ êõñéáñ÷ïýíôáé áðü ôç íÝá åããñáöÞ. ÌåôÜ, åîåôÜæïõìå
ôéò skyline åããñáöÝò ôùí ðëåãìÜôùí ðïõ äéáãñÜöçêáí êáé áðïèçêåýôçêáí ðñï-
óùñéíÜ êáôÜ ôç äéÜñêåéá ôïõ ðñïçãïýìåíïõ óôáäßïõ. ×ñåéÜæåôáé íá åëÝãîïõìå
áí ïé skyline åããñáöÝò ôùí ðëåãìÜôùí ðïõ äéáãñÜöçêáí ðñÝðåé íá äéáãñáöïýí
êáé áðü ôï (2; sq:ds)-skyline ôïõ õðïåñùôÞìáôïò. Áõôü ìðïñåß íá óõìâåß áí ïé
skyline åããñáöÝò ðïõ äéáãñÜöçêáí äåí õðÜñ÷ïõí ùò skyline åããñáöÝò óå êÜðïéï
Üëëï ðëÝãìá ðïõ åðçñåÜæåé ôï õðïåñþôçìá. Óå áõôÞ ôçí ðåñßðôùóç, äéáãñÜöïõìå
áõôÝò ôéò åããñáöÝò áðü ôï (2; sq:ds)-skyline êáé áí äåí êõñéáñ÷ïýíôáé áðü ôç
íÝá åããñáöÞ, åéóÜãïíôáé óôï õðïøÞöéï skyline åããñáöÝò êáé åíäå÷ïìÝíùò óôï
(sq:ds; sq:ds)-skyline, åöüóïí äåí êõñéáñ÷ïýíôáé áðü êáìßá Üëëç åããñáöÞ ôïõ.
Áí ç íÝá åããñáöÞ äåí åßíáé (2; sq:ds)-skyline åããñáöÞ, ôç óõãêñßíïõìå ìå
üëåò ôéò (2; sq:ds)-skyline åããñáöÝò. Áí ç íÝá åããñáöÞ äåí êõñéáñ÷åßôáé áðü
êáìßá áðü áõôÝò, åßíáé õðïøÞöéá skyline åããñáöÞ êáé áí äåí êõñéáñ÷åßôáé áðü
êáìßá (sq:ds; sq:ds)-skyline åããñáöÞ ôüôå åßíáé (sq:ds; sq:ds)-skyline åããñáöÞ.
Áí ç íÝá åããñáöÞ åßíáé (sq:ds; sq:ds)-skyline åããñáöÞ, åëÝã÷ïõìå áí êõñéáñ÷åß
êÜðïéåò áðü ôéò õðÜñ÷ïõóåò (sq:ds; sq:ds)-skyline åããñáöÝò êáé ôéò äéáãñÜöïõìå.
Óôï ðáñÜäåéãìá ìáò, ç t5 äåí åßíáé skyline åããñáöÞ ôùí g1;2 , g1;3 êáé g2;3 , êáôÜ
óõíÝðåéá äåí åßíáé (2; sq:ds)-skyline åããñáöÞ ôïõ sq1 . ÌåôÜ åëÝã÷ïõìå áí ç íÝá
åããñáöÞ êõñéáñ÷åßôáé áðü ôéò (2; sq:ds)-skyline åããñáöÝò ôïõ sq1 . Äåí êõñéáñ÷åß-
ôáé, åðïìÝíùò åéóÜãåôáé óôï õðïøÞöéï skyline. Óõíå÷ßæïíôáò, äåí êõñéáñ÷åßôáé
áðü êáìßá (sq:ds; sq:ds)-skyline åããñáöÞ, Üñá åéóÜãåôáé óå áõôÝò. ÔÝëïò, óõ-
ãêñßíïõìå ôçí t5 ìå ôçí t4 êáé äéáãñÜöïõìå ôçí t4 , åðåéäÞ êõñéáñ÷åßôáé áðü ôçí
t5 . ÐñïóÝîôå üôé óôç äéáäéêáóßá åíçìÝñùóçò õðïåñùôçìÜôùí, ðñáãìáôïðïéïý-
íôáé óõãêñßóåéò ìüíï áðëþí skyline åããñáöþí. ÅðéðëÝïí, áí ìßá íÝá åããñáöÞ
äåí åéóá÷èåß óôï (2; sq:ds)-skyline Þ óôï (sq:ds; sq:ds)-skyline, äåí ðñáãìáôï-
ðïéïýíôáé ðåñáéôÝñù ëåéôïõñãßåò. ÔÝëïò, ãéá íá áðïôéìÞóïõìå Ýíá õðïåñþôçìá
÷ñåéÜæïíôáé ìüíï ïé åããñáöÝò ôïõ (2; sq:ds)-skyline, ôïõ (sq:ds; sq:ds)-skyline
êáé ôïõ õðïøÞöéïõ skyline.
Áí åîåôÜóïõìå Ýíá õðïåñþôçìá óáí Ýíá áðëü skyline åñþôçìá ôüôå ôï sky-
line ôïõ õðïåñùôÞìáôïò åßíáé ç Ýíùóç ôùí (2; sq:ds)-skyline êáé (sq:ds; sq:ds)-
skyline.
ÐÑÏÔÁÓÇ 7.8 (skyline õðïåñùôÞìáôïò). Ôï áðëü skyline åíüò õðïåñùôÞìáôïò
sq óå Ýíá óýíïëï äéáóôÜóåùí sq:ds äßíåôáé áðü ôçí Ýíùóç ôùí (2; sq:ds)-skyline
êáé (sq:ds; sq:ds)-skyline ôïõ õðïåñùôÞìáôïò.
7.4. ÓÕÍÅ×Ç K -DOMINANT SKYLINES 149

ÁÐÏÄÅÉÎÇ. Ôï (2; sq:ds)-skyline ðåñéÝ÷åé üëåò ôéò åããñáöÝò ðïõ åßíáé óôï
skyline åíüò ôïõëÜ÷éóôïí æåýãïõò äéáóôÜóåùí ðïõ åðçñåÜæïõí ôï õðïåñþôçìá.
Ëüãù ôçò Éäéüôçôáò 7.6, ïé (2; sq:ds)-skyline åããñáöÝò åßíáé skyline åããñáöÝò óôï
sq:ds. ÅðéðëÝïí, ôï (sq:ds; sq:ds)-skyline ðåñéÝ÷åé üëåò ôéò åããñáöÝò ðïõ äåí êõ-
ñéáñ÷ïýíôáé áðü ôéò (2; sq:ds)-skyline åããñáöÝò. ¼ëåò ïé õðüëïéðåò åããñáöÝò
êõñéáñ÷ïýíôáé åßôå áðü ôéò (sq:ds; sq:ds)-skyline åããñáöÝò Þ ôéò (2; sq:ds)-skyline
åããñáöÝò. ÅðïìÝíùò, ç Ýíùóç ôùí (2; sq:ds)-skyline êáé (sq:ds; sq:ds)-skyline
äßíåé ôï skyline ôïõ sq. a

Ôï ôñßôï óôÜäéï ðåñéëáìâÜíåé ôçí åíçìÝñùóç ôïõ áðïôåëÝóìáôïò ôùí k-


dominant skyline åñùôçìÜôùí. Ç âáóéêÞ ðáñáôÞñçóç åßíáé üôé ç ôïìÞ ôùí sky-
lines ôùí õðïåñùôçìÜôùí åßíáé ç áðÜíôçóç ôïõ k-dominant skyline åñùôÞìáôïò.
Ç åðüìåíç ðñüôáóç åîçãåß:
ÐÑÏÔÁÓÇ 7.9 (k-dominant skyline åñùôÞìáôïò). Ôï k-dominant skyline åíüò
åñùôÞìáôïò q ìå q:ds êáé q:k äßíåôáé áðü ôçí ôïìÞ ôùí áðëþí skylines ôùí
õðïåñùôçìÜôùí ôïõ åñùôÞìáôïò.

ÁÐÏÄÅÉÎÇ. Áðü ôïí Ïñéóìü 7.2, ïé k-dominant skyline åããñáöÝò åíüò åñù-
ôÞìáôïò q ìå q:ds êáé q:k äåí ðñÝðåé íá êõñéáñ÷ïýíôáé óå êáíÝíá õðïóýíïëï
k äéáóôÜóåùí. ÅðïìÝíùò, ìßá k-dominant skyline åããñáöÞ åíüò åñùôÞìáôïò q
åßíáé áðëÞ skyline åããñáöÞ óå êÜèå õðïóýíïëï ôùí k äéáóôÜóåùí áðü ôéò q:ds
äéáóôÜóåéò. a

¼ðùò Þäç áíáöÝñáìå, ç åéóáãùãÞ ìßáò åããñáöÞò ìðïñåß íá ðñïêáëÝóåé ôçí åé-
óáãùãÞ/äéáãñáöÞ óôá/áðü ôá (2; sq:ds)-skylines êáé (sq:ds; sq:ds)-skylines. Áõ-
ôÝò ïé áëëáãÝò áðïèçêåýïíôáé ðñïóùñéíÜ. Ãéá íá õðïëïãßóïõìå ôï k-dominant
skyline åíüò åñùôÞìáôïò q, ðñþôá ïé (2; sq:ds)-skyline êáé (sq:ds; sq:ds)-skyline
åããñáöÝò êÜèå õðïåñùôÞìáôïò ðïõ äéáãñÜöçêáí, áðïìáêñýíïíôáé áðü ôï k-
dominant skyline ôïõ åñùôÞìáôïò, áí õðÜñ÷ïõí. ÌåôÜ õðïëïãßæåôáé ç ôïìÞ ôùí
íÝùí (2; sq:ds)-skyline êáé (sq:ds; sq:ds)-skyline åããñáöþí üëùí ôùí õðïåñùôç-
ìÜôùí ôïõ åñùôÞìáôïò êáé ïé åããñáöÝò ôçò ôïìÞò åéóÜãïíôáé óôï k-dominant
skyline ôïõ åñùôÞìáôïò, áí õðÜñ÷ïõí óôá skyline üëùí ôùí õðïåñùôçìÜôùí. Ãéá
ôï åñþôçìá ôïõ ðáñáäåßãìáôïò, ôï k-dominant skyline ôïõ áðïôåëåßôáé áðü ôéò
åããñáöÝò t1 êáé t5 .
Ç ðåñéãñáöÞ ôïõ áëãïñßèìïõ CoSMuQ-insert áðåéêïíßæåôáé óôçí Åéêüíá 7.5.
Ïé ãñáììÝò 2-7 ðåñéãñÜöïõí ôï ðñþôï óôÜäéï (åíçìÝñùóç ôùí ðëåãìÜôùí êáé ôùí
skyline ôïõò) ôïõ áëãïñßèìïõ. Ôï äåýôåñï óôÜäéï (åíçìÝñùóç õðïåñùôçìÜôùí)
ðåñéãñÜöåôáé óôéò ãñáììÝò 8-24. Ïé ãñáììÝò 9-19 äåß÷íïõí ôçí åíçìÝñùóç áí
ç íÝá åããñáöÞ åßíáé (2; sq:ds)-skyline åããñáöÞ åíþ ïé ãñáììÝò 20-24 äåß÷íïõí
ôçí åíçìÝñùóç áí ç íÝá åããñáöÞ åßíáé (sq:ds; sq:ds)-skyline åããñáöÞ. ÔÝëïò, ïé
ãñáììÝò 25-28 (åíçìÝñùóç åñùôçìÜôùí) ðåñéãñÜöïõí ôï ôñßôï óôÜäéï.
150 ÊÅÖÁËÁÉÏ 7. ÓÕÍÅ×Ç ÅÑÙÔÇÌÁÔÁ K -DOMINANT SKYLINE

Algorithm CoSMuQ-insert (T, D, Q, tin )


Input
T: set of tuples,
D: set of dimensions,
Q: set of queries,
tin : new tuple
Output S: set of k-dominant skyline of each query
1. DS = ∅ //temporary set
2. for i=1 to D · (D − 1)=2
3. insert the tuple in the cell c of the grid;
4. increase the coverage of the dominated cells;
5. if (c.coverage = 0 or tin is not dominated by the skyline tuples)
6. insert tin in the skyline;
7. delete skyline tuples that are dominated by tin
and insert them in DS set;
8. for each subquery sq
9. if (tin is skyline tuple in at least one grid a ecting sq)
10. insert tin in (2,sq:ds)-skyline;
11. delete dominated (sq:ds,sq:ds)-skyline tuples;
12. delete dominated candidate skyline tuples;
13. compute union of DS of the grids of sq;
14. for each tuple ti in the union
15. if (ti is not skyline tuple of at least one grid of sq)
16. remove ti from (2,sq:ds)-skyline;
17. if (ti is not dominated by tin )
18. insert ti to candidate skyline;
19. insert ti to (sq:ds,sq:ds)-skyline;
20. else if (tin is not dominated by the (2,sq:ds)-skylines)
21. if (tin is not dominated by the (sq:ds,sq:ds)-skylines)
22. insert tin in candidate skyline;
23. insert tin in (sq:ds,sq:ds)-skyline;
24. delete dominated (sq:ds,sq:ds)-skyline tuples;
25. for each query q
26. delete the deleted (2,sq:ds)-skyline tuples and
(sq:ds,sq:ds)-skyline tuples of each sq;
27. for each new (2,sq:ds) or (sq:ds,sq:ds)-skyline tuple
28. if (exists in skyline of each subquery of q) insert it in S;
29. report S;

EIKONA 7.5. ÐåñéãñáöÞ áëãïñßèìïõ CoSMuQ-insert.


7.4. ÓÕÍÅ×Ç K -DOMINANT SKYLINES 151

Óôç óõíÝ÷åéá ðåñéãñÜöåôáé ç ëåéôïõñãßá ôçò äéáãñáöÞò. Áí êáé ç äéáäéêáóßá


CoSMuQ-delete åßíáé ðáñüìïéá ìå áõôÞ ôçò åéóáãùãÞò, åíôïýôïéò õðÜñ÷ïõí êÜ-
ðïéåò óçìáíôéêÝò äéáöïñÝò. ÕðïèÝóôå üôé äéáãñÜöåôáé ç åããñáöÞ t1 . Ôï ðñþôï
óôÜäéï åßíáé íá åíçìåñþóïõìå ôá ðëÝãìáôá êáé ôá skylines ôïõò. Âñßóêïõìå ôï
êåëß üðïõ áíÞêåé ç åããñáöÞ êáé ôç äéáãñÜöïõìå. ÅðéðëÝïí, åëáôôþíïõìå ôçí
êÜëõøç ôùí êåëéþí ðïõ êõñéáñ÷ïýí ôï êåëß ôçò äéáãñáììÝíçò åããñáöÞò.
Áí ç äéáãñáììÝíç åããñáöÞ äåí Þôáí skyline åããñáöÞ åíüò ðëÝãìáôïò, ôüôå äåí
ðñáãìáôïðïéåßôáé ðåñáéôÝñù åðåîåñãáóßá ãéá ôçí åíçìÝñùóç ôïõ skyline ôïõ ðëÝã-
ìáôïò. Áí ç äéáãñáììÝíç åããñáöÞ Þôáí skyline åããñáöÞ åíüò ðëÝãìáôïò, ôüôå
ðñÝðåé íá åëÝãîïõìå ãéá íÝåò skyline åããñáöÝò. ×ñçóéìïðïéþíôáò ôï ðëÝãìá,
ìðïñïýìå åýêïëá íá âñïýìå ôéò åããñáöÝò ðïõ êõñéáñ÷ïýíôáé áðü ôç äéáãñáì-
ìÝíç. ÁõôÝò ïé åããñáöÝò óõãêñßíïíôáé ìå ôéò skyline åããñáöÝò ôïõ ðëÝãìáôïò
êáé áí ìßá åããñáöÞ äåí êõñéáñ÷åßôáé, ôüôå åéóÜãåôáé óôï skyline ôïõ ðëÝãìáôïò.
Ç óåéñÜ åðåîåñãáóßáò ôùí åããñáöþí åßíáé óçìáíôéêÞ. Åöüóïí åîåôÜæïõìå ìÝ-
ãéóôá k-dominant skylines, åðåîåñãáæüìáóôå ðñþôá ôéò åããñáöÝò ðïõ áíÞêïõí
óôç åðÜíù äåîéÜ ãùíßá ôïõ ðëÝãìáôïò êáé åðïìÝíùò ìåôáãåíÝóôåñåò åããñáöÝò
ðïõ êõñéáñ÷ïýíôáé áðü ôéò íÝåò skyline åããñáöÝò èá äéáãñáöèïýí. Ïé åããñáöÝò
ðïõ êõñéáñ÷ïýíôáé, áðïèçêåýïíôáé ðñïóùñéíÜ.
Óôï ðáñÜäåéãìá, ç åããñáöÞ t1 äåí Þôáí skyline åããñáöÞ ôïõ g2;3 êáé ôïõ g2;4 ,
åðïìÝíùò ç åíçìÝñùóç áõôþí ôùí ðëåãìÜôùí ïëïêëçñþíåôáé ìå ôç äéáãñáöÞ
ôçò åããñáöÞò êáé ôçí åíçìÝñùóç ôçò êÜëõøçò. Ãéá ôá õðüëïéðá ðëÝãìáôá, ïé
åããñáöÝò ðïõ êõñéáñ÷ïýíôáé áðü ôçí t1 óõãêñßíïíôáé ìå ôéò skyline åããñáöÝò
ôùí ðëåãìÜôùí. Ç åããñáöÞ t2 åßíáé íÝá skyline åããñáöÞ óôï g1;3 êáé óôï g1;4 ,
êáé ç åããñáöÞ t5 åßíáé íÝá skyline åããñáöÞ óôï g1;3 , åíþ ôá óýíïëá skyline äåí
áëëÜæïõí óôï g1;2 êáé óôï g3;4 . ÅðéðëÝïí, ïé åããñáöÝò ðïõ êõñéáñ÷ïýíôáé áðü
ôç äéáãñáììÝíç åããñáöÞ êáé áðü ôïõëÜ÷éóôïí ìßá áêüìç skyline åããñáöÞ ôïõ
ðëÝãìáôïò áðïèçêåýïíôáé ðñïóùñéíÜ. Ï Ðßíáêáò 7.2 (äåîéÜ) äåß÷íåé ôá skylines
ôùí ðëåãìÜôùí ìåôÜ ôç äéáãñáöÞ ôçò t1 .
Óôç óõíÝ÷åéá, åíçìåñþíïõìå ôá õðïåñùôÞìáôá. Ï Ðßíáêáò 7.3 (ôñßôç ãñáììÞ)
áðåéêïíßæåé ôá õðïåñùôÞìáôá ìåôÜ ôçí åíçìÝñùóç. Áí ç äéáãñáììÝíç åããñáöÞ
Þôáí (2; sq:ds)-skyline åããñáöÞ óå ôïõëÜ÷éóôïí Ýíá áðü ôá ðëÝãìáôá ðïõ åðç-
ñåÜæïõí ôï õðïåñþôçìá, ðñáãìáôïðïéåßôáé ìßá óåéñÜ ëåéôïõñãéþí. Ðñþôá, ïé íÝåò
skyline åããñáöÝò ôùí ðëåãìÜôùí ðïõ åðçñåÜæïõí ôï õðïåñþôçìá, åéóÜãïíôáé óôï
(2; sq:ds)-skyline êáé áðïìáêñýíïíôáé áðü ôïõò Üëëïõò ôýðïõò skylines, áí âñß-
óêïíôáí Þäç. Ãéá ðáñÜäåéãìá, ç åããñáöÞ t5 åéóÜãåôáé óôï (2; sq:ds)-skyline (ç
t2 Þôáí Þäç), ãé' áõôü ç t5 áðïìáêñýíåôáé áðü ôï (sq:ds; sq:ds)-skyline êáé ôï
õðïøÞöéï skyline. Áí õðÜñ÷ïõí íÝåò (2; sq:ds)-skyline åããñáöÝò, åîåôÜæïõìå áí
êõñéáñ÷ïýí (sq:ds; sq:ds)-skyline êáé õðïøÞöéåò skyline åããñáöÝò. Óôï ðáñÜ-
äåéãìá ìáò, ç t5 êõñéáñ÷åß ôç t4 , ãé' áõôü áðïìáêñýíïõìå ôç t4 áðü ôï õðïøÞöéï
skyline.
ÌåôÜ åîåôÜæïõìå ôá óýíïëá ôùí åããñáöþí ðïõ áðïèçêåýôçêáí ðñïóùñéíÜ
152 ÊÅÖÁËÁÉÏ 7. ÓÕÍÅ×Ç ÅÑÙÔÇÌÁÔÁ K -DOMINANT SKYLINE

êáôÜ ôç äéÜñêåéá åíçìÝñùóç ôùí ðëåãìÜôùí. ÁõôÜ ôá óýíïëá ðåñéÝ÷ïõí åããñá-


öÝò ðïõ êõñéáñ÷ïýíôáé áðü ôç äéáãñáììÝíç åããñáöÞ êáé áðü ôïõëÜ÷éóôïí ìßá
skyline åããñáöÞ ôïõ ðëÝãìáôïò. ÁõôÝò ïé åããñáöÝò äåí Þôáí skyline åããñáöÝò
ôïõ õðïåñùôÞìáôïò ðñéí ôç äéáãñáöÞ, áëëÜ áí êõñéáñ÷ïýíôáé áðü ôç äéáãñáììÝíç
åããñáöÞ óå üëá ôá ðëÝãìáôá, åßíáé ðéèáíü íá åéóá÷èïýí óôéò skyline åããñáöÝò
ôïõ åñùôÞìáôïò ìåôÜ ôç äéáãñáöÞ. Ãé' áõôü åîåôÜæïõìå ôçí ôïìÞ ôùí óõíüëùí
ôùí ðëåãìÜôùí ðïõ åðçñåÜæïõí ôï õðïåñþôçìá. Ïé åããñáöÝò ôçò ôïìÞò óõãêñß-
íïíôáé ìå ôéò skyline åããñáöÝò ôïõ õðïåñùôÞìáôïò êáé áí äåí êõñéáñ÷ïýíôáé,
åéóÜãïíôáé óôï õðïøÞöéï skyline. Óõíå÷ßæïíôáò, áí äåí êõñéáñ÷ïýíôáé áðü êá-
ìßá (sq:ds; sq:ds)-skyline åããñáöÞ, ôüôå åéóÜãïíôáé óå áõôÝò. Óôï ðáñÜäåéãìÜ
ìáò ç ôïìÞ åßíáé Ýíá êåíü óýíïëï êáé åðïìÝíùò äåí õðÜñ÷ïõí íÝåò (sq:ds; sq:ds)-
skyline åããñáöÝò.

Áí ç äéáãñáììÝíç åããñáöÞ Þôáí (sq:ds; sq:ds)-skyline åããñáöÞ, ôüôå ÷ñåéÜ-


æåôáé íá åëÝãîïõìå ìüíï áí õðÜñ÷ïõí õðïøÞöéåò skyline åããñáöÝò ðïõ êõñéáñ-
÷ïýíôáé áðü áõôÞ êáé äåí êõñéáñ÷ïýíôáé áðü êáìßá Üëëç (sq:ds; sq:ds)-skyline
åããñáöÞ. ÁõôÝò ïé õðïøÞöéåò skyline åããñáöÝò åéóÜãïíôáé óôï (sq:ds; sq:ds)-
skyline. Ôï ôñßôï óôÜäéï åßíáé ðáñüìïéï ìå áõôü ôçò äéáäéêáóßáò åéóáãùãÞò. ÍÝåò
(2; sq:ds)-skyline êáé (sq:ds; sq:ds)-skyline åããñáöÝò ôùí õðïåñùôçìÜôùí åéóÜ-
ãïíôáé óôï k-dominant skyline ôïõ åñùôÞìáôïò ìüíï áí ïé åããñáöÝò õðÜñ÷ïõí
óå üëá ôá õðïåñùôÞìáôá, åíþ ïé äéáãñáöÝò áðïìáêñýíïíôáé áðü ôï k-dominant
skyline ôïõ åñùôÞìáôïò. Ç áðÜíôçóç ãéá ôï åñþôçìá ôïõ ðáñáäåßãìáôïò ðåñéÝ÷åé
ôéò åããñáöÝò t2 êáé t5 . Ï áëãüñéèìïò CoSMuQ-delete åßíáé ðáñüìïéïò ìå ôïí
áëãüñéèìï CoSMuQ-insert êáé ç ðåñéãñáöÞ ôïõ ðáñáëåßðåôáé.

Êáé ïé äýï áëãüñéèìïé CoSMuQ-insert êáé CoSMuQ-delete äåí ÷ñçóéìï-


ðïéïýí óõãêñßóåéò k-dominant áëëÜ ìüíï óõãêñßóåéò áðëïý skyline. ¸íá ðëåï-
íÝêôçìá ôçò ìåèüäïõ åßíáé üôé äéá÷ùñßæåé ôéò ðåñéðôþóåéò êáé êÜèå öïñÜ ðñáã-
ìáôïðïéåß Ýíá åëÜ÷éóôï ðëÞèïò ëåéôïõñãéþí. Ãéá ðáñÜäåéãìá, üôáí åéóÜãåôáé ìßá
êáéíïýñãéá åããñáöÞ, ï áëãüñéèìïò CoSMuQ-insert äåí ôç óõãêñßíåé ìå üëåò ôéò
åããñáöÝò, áëëÜ åëÝã÷åé áí åßíáé áðëÞ skyline åããñáöÞ åíüò ðëÝãìáôïò êáé óôç
óõíÝ÷åéá åöáñìüæåé ôéò êáôÜëëçëåò ðåñáéôÝñù ëåéôïõñãßåò. ¸íá äåýôåñï ðëåï-
íÝêôçìá åßíáé üôé ç ìÝèïäïò åêìåôáëëåýåôáé ôçí åðéêÜëõøç ìåôáîý äéáöïñåôéêþí
åñùôçìÜôùí. Áõôü âáóßæåôáé óôçí ðáñáôÞñçóç üôé ôá åñùôÞìáôá skyline áðü
äéáöïñåôéêïýò ÷ñÞóôåò Ý÷ïõí ðïëý óõ÷íÜ ÷ñçóéìïðïéïýìåíåò êïéíÝò äéáóôÜóåéò
(÷áñáêôçñéóôéêÜ). Ç ìÝèïäïò ÷ñçóéìïðïéåß ôá skylines êÜèå æåýãïõò äéáóôÜóåùí,
ôá ïðïßá õðïëïãßæïíôáé åýêïëá, ðñïêåéìÝíïõ íá áðïññßøåé Ýíá ðëÞèïò åããñáöþí
áðü ôçí ðåñáéôÝñù åðåîåñãáóßá. Áí õðÜñ÷åé Ýíáò åðáñêÞò áñéèìüò åñùôçìÜôùí,
ôï êÝñäïò áðü ôç ÷ñÞóç ôùí æåõãþí äéáóôÜóåùí îåðåñíÜ ôï êüóôïò óõíôÞñçóçò
ôùí ðëåãìÜôùí. Åðéðñüóèåôá, ç ðñïôåéíüìåíç ìÝèïäïò ìðïñåß íá ÷åéñéóôåß åéóá-
ãùãÝò êáé äéáãñáöÝò åñùôçìÜôùí. ÔÝëïò, ç ìÝèïäïò åßíáé êáôÜëëçëç ôüóï ãéá
ôï óåíÜñéï ìßáò åêôÝëåóçò üóï êáé ãé' áõôü ôçò óõíå÷Þò áðïôßìçóçò.
7.4. ÓÕÍÅ×Ç K -DOMINANT SKYLINES 153

7.4.3 ÓåíÜñéï ñïþí

Óôï óåíÜñéï ñïÞò ÷ñçóéìïðïéåßôáé Ýíá êéíïýìåíï ðáñÜèõñï ìÞêïõò W . Ôï ìÝ-


ãåèïò ôïõ êéíïýìåíïõ ðáñáèýñïõ ìðïñåß íá åêöñáóèåß åßôå ùò ôï ðëÞèïò ôùí åã-
ãñáöþí Þ ùò ôï ðëÞèïò ôùí ÷ñïíéêþí ìïíÜäùí. ÕðÜñ÷åé ìßá óçìáíôéêÞ äéáöïñÜ
ìåôáîý ôçò ðåñßðôùóçò åñùôÞìáôïò ìßáò åêôÝëåóçò êáé ôïõ óõíå÷ïýò åñùôÞìáôïò
óå ñïÞ. Óôï åñþôçìá ìßáò åêôÝëåóçò, ðñáãìáôïðïéïýíôáé ôõ÷áßåò óå ó÷Ýóç ìå
ôï ÷ñüíï åéóáãùãÝò êáé äéáãñáöÝò äåäïìÝíùí. Áíôßèåôá, óôçí ðåñßðôùóç ñïÞò ôá
äåäïìÝíá åßíáé ÷ñïíéêÜ äéáôåôáãìÝíá êáé åðïìÝíùò ãíùñßæïõìå åê ôùí ðñïôÝñùí
ôç äéÜñêåéá æùÞò ìßáò åããñáöÞò. Ìðïñïýìå íá ôñïðïðïéÞóïõìå ôéò äéáäéêáóßåò
CoSMuQ-insert êáé CoSMuQ-delete ãéá íá åêìåôáëëåõèïýìå áõôÞ ôçí éäéüôçôá
ôùí ñïþí.
Ôï óýíïëï ôïõ õðïøçößïõ skyline êÜèå õðïåñùôÞìáôïò ðåñéÝ÷åé åããñáöÝò
ðïõ äåí åßíáé skyline åããñáöÝò ôïõ õðïåñùôÞìáôïò, áëëÜ ìðïñåß íá ãßíïõí ëüãù
êÜðïéáò äéáãñáöÞò ìßáò óõãêåêñéìÝíçò skyline åããñáöÞò ðïõ ôá êõñéáñ÷åß. Áí
ç skyline åããñáöÞ ôïõ õðïåñùôÞìáôïò Ý÷åé ÷ñüíï æùÞò ìåãáëýôåñï áðü áõôüí
ôçò õðïøÞöéáò skyline åããñáöÞò ðïõ êõñéáñ÷åß, äåí åßíáé äõíáôü ç óõãêåêñéìÝíç
õðïøÞöéá skyline åããñáöÞ íá åéóá÷èåß óôéò skyline åããñáöÝò. ÅðïìÝíùò, åðå-
êôåßíïõìå ôïí ïñéóìü ôçò õðïøÞöéá skyline åããñáöÞò ùò åîÞò: ìßá åããñáöÞ ti
åßíáé õðïøÞöéá skyline åããñáöÞ, áí äåí êõñéáñ÷åßôáé áðü êáìßá (2; sq:ds)-skyline
åããñáöÞ êáé êõñéáñ÷åßôáé áðü ôïõëÜ÷éóôïí ìßá (sq:ds; sq:ds)-skyline åããñáöÞ
ðïõ ï ÷ñüíï æùÞò ôçò åßíáé ìéêñüôåñïò áðü ôï ÷ñüíï æùÞò ôçò åããñáöÞò ti .
×ñçóéìïðïéþíôáò áõôüí ôïí ïñéóìü ôï ðëÞèïò ôùí õðïøçößùí skyline åããñáöþí
åëáôôþíåôáé äñáóôéêÜ.
ÐñïêåéìÝíïõ ïé äéáäéêáóßåò CoSMuQ-insert êáé CoSMuQ-delete íá ÷ñçóé-
ìïðïéÞóïõí áõôüí ôïí ïñéóìü, åöáñìüóáìå äýï ôñïðïðïéÞóåéò. Ç ðñþôç ôñï-
ðïðïßçóç åöáñìüæåôáé óôïí áëãüñéèìï CoSMuQ-insert. Áí ç íÝá åããñáöÞ åé-
óá÷èåß óôï õðïøÞöéï skyline (ãñáììÞ 21, Åéêüíá 7.5), åëÝã÷ïõìå áí ç íÝá åã-
ãñáöÞ êõñéáñ÷åß êÜðïéá Üëëç õðïøÞöéá skyline åããñáöÞ. ÊÜèå õðïøÞöéá skyline
åããñáöÞ ðïõ êõñéáñ÷åßôáé áðü ôç íÝá åããñáöÞ äéáãñÜöåôáé. Ç äåýôåñç ôñïðï-
ðïßçóç åöáñìüæåôáé óôïí áëãüñéèìï CoSMuQ-delete. Áí ç äéáãñáììÝíç åããñáöÞ
Þôáí (2; sq:ds)-skyline åããñáöÞ, åîåôÜæïõìå áí õðÜñ÷ïõí åããñáöÝò ðïõ ðñÝðåé
íá åéóá÷èïýí óôï õðïøÞöéï skyline. ÅîåôÜæïõìå ðåñáéôÝñù áõôÝò ôéò åããñáöÝò
êáé ðñïêåéìÝíïõ íá åéóÜãïõìå ôçí åããñáöÞ ti óôï õðïøÞöéï skyline, èá ðñÝðåé
íá êõñéáñ÷åßôáé ìüíï áðü (sq:ds; sq:ds)-skyline åããñáöÝò ðïõ Ý÷ïõí ÷ñüíï æùÞò
ìéêñüôåñï áðü áõôü ôçò ti .
Óôï ðáñÜäåéãìá ìáò, ëüãù ôçò åéóáãùãÞò ôçò t5 , ç åããñáöÞ t4 ðñÝðåé íá
äéáãñáöèåß áðü ôï õðïåñþôçìá sq1 åðåéäÞ ç t4 êõñéáñ÷åßôáé áðü ôçí t5 êáé ï
÷ñüíïò æùÞò ôçò åßíáé ìéêñüôåñïò áðü áõôüí ôçò t5 (äåßôå Ðßíáêá 7.3).
154 ÊÅÖÁËÁÉÏ 7. ÓÕÍÅ×Ç ÅÑÙÔÇÌÁÔÁ K -DOMINANT SKYLINE

7.5 ÐåéñáìáôéêÞ Áðïôßìçóç


Óå áõôÞ ôçí åíüôçôá, áíáöÝñïõìå ôá ðåéñáìáôéêÜ áðïôåëÝóìáôá. ÅêôåëÝóáìå ìßá
óåéñÜ ðåéñáìÜôùí ãéá íá áðïôéìÞóïõìå ôçí áðüäïóç ôùí ðñïôåéíüìåíùí ìåèüäùí.
×ñçóéìïðïéÞóáìå ôïõò áëãïñßèìïõò TSA êáé SRA, ðïõ ðñïôÜèçêáí óôçí åñãá-
óßá [33], ùò áíôáãùíéóôÝò ôùí ìåèüäùí ìáò, ëáìâÜíïíôáò õðüøç üôé ðáñÜ ôçí
áðïäïôéêüôçôÜ ôïõò, äåí ó÷åäéÜóèçêáí ãéá äõíáìéêÜ ðåñéâÜëëïíôá êáé ðïëëáðëÜ
åñùôÞìáôá. Ãéá ëüãïõò áìåñüëçðôçò óýãêñéóçò, ôñïðïðïéÞóáìå ôïí áëãüñéèìï
SRA þóôå íá ðñïóáñìïóèåß óôç äõíáìéêÞ öýóç ôùí äåäïìÝíùí üóï ôï äõíáôüí
ðåñéóóüôåñï. ÓõãêåêñéìÝíá, óå êÜèå åíçìÝñùóç ï áëãüñéèìïò SRA äåí ôáîé-
íïìåß áðü ôçí áñ÷Þ ôéò åããñáöÝò óôéò äéáóôÜóåéò, áëëÜ ÷ñçóéìïðïéåß äõáäéêÞ
áíáæÞôçóç ãéá íá äéáãñÜöåé Þ íá åéóÜãåé ðáëéÝò Þ íÝåò åããñáöÝò áíôßóôïé÷á.
×ñçóéìïðïéïýìå ôéò óõíôìÞóåéò CoSMuQ-ADHOC êáé CoSMuQ-Streaming ãéá
ôçí ðåñßðôùóç ôçò ìßáò åêôÝëåóçò êáé ôçò óõíå÷ïýò åêôÝëåóçò áíôßóôïé÷á. ¼ëåò
ïé ìÝèïäïé õëïðïéÞèçêáí óå C++ êáé ôá ðåéñÜìáôá äéåîÞ÷èçóáí óå õðïëïãéóôÞ
Pentium IV óôá 3GHz, ìå 1GB êýñéáò ìíÞìçò êáé ëåéôïõñãéêü óýóôçìá Win-
dows XP.
×ñçóéìïðïéÞóáìå óõíèåôéêÜ óýíïëá äåäïìÝíùí ôñéþí äéáöïñåôéêþí êáôáíï-
ìþí: óõó÷åôéæüìåíç (Correlated), áíåîÜñôçôç (Independent) êáé áíôé-óõó÷åôé-
æüìåíç (Anti-Correlated). Ôï óýíïëï äåäïìÝíùí Correlated ðåñéÝ÷åé åããñáöÝò
ðïõ óõó÷åôßæïíôáé ìåôáîý ôïõò óå üëåò ôéò äéáóôÜóåéò. ÅðïìÝíùò õðÜñ÷åé ìé-
êñü ðëÞèïò k-dominant skyline åããñáöþí. Ôï óýíïëï äåäïìÝíùí Independent
ðåñéÝ÷åé åããñáöÝò ðïõ åßíáé áíåîÜñôçôåò ìåôáîý ôïõò óå êÜèå äéÜóôáóç. Ôá
áíåîÜñôçôá äåäïìÝíá óðÜíéá êõñéáñ÷ïýí ôï Ýíá ôï Üëëï üôáí ôï ðëÞèïò ôùí
äéáóôÜóåùí áõîÜíåé êáé åðïìÝíùò ôï ðëÞèïò ôùí skyline åããñáöþí åßíáé óõ-
íÞèùò õøçëü. ÔÝëïò, ôï óýíïëï äåäïìÝíùí Anti-Correlated ðåñéÝ÷åé åããñáöÝò
ðïõ åßíáé áñíçôéêÜ óõó÷åôéæüìåíåò óå üëåò ôéò äéáóôÜóåéò. ÅðïìÝíùò ôï ðëÞèïò
ôùí skyline åããñáöþí åßíáé óçìáíôéêÜ ìåãÜëï. Óôá ðåéñÜìáôá ìáò, ôá åñùôÞ-
ìáôá ÷ñçóéìïðïéïýí Ýíá õðïóýíïëï ôïõ ÷þñïõ äåäïìÝíùí êáé ãé' áõôü ôï ðëÞèïò
ôùí áðëþí êáé ôùí k-dominant skyline åããñáöþí äåí åßíáé ôüóï õøçëü. Ôá óý-
íïëá äåäïìÝíùí ðáñÞ÷èçóáí ÷ñçóéìïðïéþíôáò ôç äéáäéêáóßá ðïõ ðñïôÜèçêå óôçí
åñãáóßá [29].
ÅîåôÜóáìå ôçí áðüäïóç ôùí ìåèüäùí ìåôáâÜëëïíôáò ôéò óçìáíôéêüôåñåò ðá-
ñáìÝôñïõò, üðùò ôï ðëÞèïò ôùí åããñáöþí, ôï ðëÞèïò ôùí äéáóôÜóåùí êáé ôï
ðëÞèïò ôùí åñùôçìÜôùí. ÌåôñÞóáìå ôï õðïëïãéóôéêü êüóôïò, ôéò áðáéôÞóåéò
ìíÞìçò êáé ôï ðëÞèïò ôùí k-dominant skyline åããñáöÝò óå êÜèå åíçìÝñùóç. Ïé
ðñïêáèïñéóìÝíåò ôéìÝò ãéá ôéò ðáñáìÝôñïõò (áí äåí áíáöÝñåôáé äéáöïñåôéêÜ) åß-
íáé: ôï ðëÞèïò ôùí åããñáöþí åßíáé 10000, ôï ðëÞèïò ôùí äéáóôÜóåùí åßíáé 10,
ôï ðëÞèïò äéáóôÜóåùí êÜèå åñùôÞìáôïò ðïéêßëåé ìåôáîý 6 êáé 10 êáé ôï ðëÞèïò
ôùí åñùôçìÜôùí åßíáé 500. Ç ðáñÜìåôñïò q:k êÜèå åñùôÞìáôïò q Ý÷åé ôéìÞ óôï
äéÜóôçìá [q:ds=2; q:ds). Åðßóçò Ýãéíå ïìïéüìïñöç ðáñáãùãÞ ôïõ ðëÞèïõò ôùí
äéáóôÜóåùí q:ds, ôïõ óõíüëïõ ôùí äéáóôÜóåùí q:ds êáé ôçò ðáñáìÝôñïõ q:k. Ôï
7.5. ÐÅÉÑÁÌÁÔÉÊÇ ÁÐÏÔÉÌÇÓÇ 155

ìÝãåèïò ôïõ ðëÝãìáôïò ôÝèçêå ßóï ìå 30 êåëéÜ áíÜ äéÜóôáóç. Ôï ðëÞèïò ôùí åíç-
ìåñþóåùí ôùí ðåéñáìÜôùí ðïéêßëåé ìåôáîý 10000 êáé 200000. Óôá äéáãñÜììáôá
ðïõ áêïëïõèïýí, äßíåôáé ï ÷ñüíïò áðüêñéóçò áíÜ åíçìÝñùóç.
Ðñþôá, ìåëåôÞóáìå ôçí áðüäïóç ôùí áëãïñßèìùí CoSMuQ-ADHOC êáé
CoSMuQ-Streaming óå ó÷Ýóç ìå ôï ìÝãåèïò ôïõ ðëÝãìáôïò. Ãéá ôç óýãêñéóç
ôùí ìåèüäùí åöáñìüóèçêáí ìüíï åéóáãùãÝò óôï ôÝëïò êáé äéáãñáöÝò óôçí áñ÷Þ.
Ôá áðïôåëÝóìáôá ãéá ôï óýíïëï äåäïìÝíùí Independent ðáñïõóéÜæïíôáé óôçí
Åéêüíá 7.6, üðïõ äßíïíôáé ï ÷ñüíïò áðüêñéóçò êáé ïé áðáéôÞóåéò ìíÞìçò. Ôï
ìÝãåèïò ôïõ ðëÝãìáôïò ìåôáâÜëëåôáé áðü 10 Ýùò 50 êåëéÜ áíÜ äéÜóôáóç. Ï ÷ñü-
íïò áðüêñéóçò êáèþò êáé ïé áðáéôÞóåéò ìíÞìçò åðçñåÜæïíôáé ðåñéóóüôåñï áðü ôï
äåýôåñï óôÜäéï ôùí áëãïñßèìùí, ôï ïðïßï åßíáé ç åíçìÝñùóç ôùí õðïåñùôçìÜ-
ôùí. ÅðïìÝíùò, ôï ìÝãåèïò ôïõ ðëÝãìáôïò äåí åðçñåÜæåé éäéáßôåñá ôç óõíïëéêÞ
áðüäïóç. Áõôü åßíáé áêüìá ðéï Ýêäçëï óôá óýíïëá äåäïìÝíùí Correlated êáé
Anti-Correlated, ðïõ Ý÷ïõí ëéãüôåñåò k-dominant skyline åããñáöÝò, ôùí ïðïßùí
ôá áðïôåëÝóìáôá ðáñáëåßðïíôáé.
0.2 10
CoSMuQ-ADHOC CoSMuQ-ADHOC
CoSMuQ-Streaming CoSMuQ-Streaming
8
0.15
Memory (MB)
Time (sec)

6
0.1
4

0.05
2

0 0
10 15 20 25 30 35 40 45 50
Number of Cells Number of Cells

(á) (â)

EIKONA 7.6. (á) ×ñüíïò áðüêñéóçò, êáé (â) áðáéôÞóåéò ìíÞìçò ùò ðñïò ðëÞèïò êåëéþí (Independent).

ÅðéðëÝïí, ï ÷ñüíïò áðüêñéóçò åßíáé ðáñüìïéïò ãéá ôéò äýï ìåèüäïõò. Áõôü
óõìâáßíåé äéüôé ï áëãüñéèìïò CoSMuQ-Streaming áðïèçêåýåé ìåí ëéãüôåñåò õðï-
øÞöéåò åããñáöÝò êáé åðïìÝíùò ìðïñåß íá áðáíôÞóåé óõíå÷Þ k-dominant skyline
åñùôÞìáôá ôá÷ýôåñá, áëëÜ åöáñìüæåé Ýíá ðëÞèïò åðéðñüóèåôùí óõãêñßóåùí ðñï-
êåéìÝíïõ íá êñáôÞóåé ôéò åããñáöÝò ìå ôï ìåãáëýôåñï ÷ñüíï æùÞò óôï õðïøÞöéï
skyline. Ôï üöåëïò ôïõ CoSMuQ-Streaming åßíáé üôé ìåéþíåé ôéò áðáéôÞóåéò ìíÞ-
ìçò êáôÜ 25%. Óôç óõíÝ÷åéá, óõãêñßíïõìå ÷ñüíïõò áðüêñéóçò ôùí áëãïñßèìùí
CoSMuQ, TSA êáé SRA. Ãéá ëüãïõò óáöÞíåéáò, ðáñáëåßðïõìå ôá áðïôåëÝóìáôá
ôïõ CoSMuQ-Streaming äéüôé Ý÷åé ôçí ßäéá óõìðåñéöïñÜ ìå áõôü ôï ðåßñáìá êáé
ïé ÷ñüíïé áðüêñéóÞò ôïõ åßíáé ðáñüìïéïé ìå áõôïýò ôïõ CoSMuQ-ADHOC.
Óôç óõíÝ÷åéá, ìåôñïýìå ôï ÷ñüíï áðüêñéóçò óå ó÷Ýóç ìå ôï ðëÞèïò ôùí
åããñáöþí. Ç Åéêüíá 7.7 äåß÷íåé ôá áðïôåëÝóìáôá ãéá ôá óýíïëá äåäïìÝíùí In-
dependent êáé Anti-Correlated. Ç ìÝèïäïò TSA åßíáé ó÷åäüí ðÜíôá ôá÷ýôåñç
áðü ôç SRA êáé áõôü ïöåßëåôáé óå ìåãÜëï âáèìü óôï ðëÞèïò ôùí åããñáöþí
156 ÊÅÖÁËÁÉÏ 7. ÓÕÍÅ×Ç ÅÑÙÔÇÌÁÔÁ K -DOMINANT SKYLINE

ðïõ áðïññßðôåé ç TSA óôçí ðñþôç óÜñùóç. Ç CoSMuQ-ADHOC õðåñíéêÜ êáé


ôéò äýï Üëëåò ìåèüäïõò êáé óôá äýï óýíïëá äåäïìÝíùí. Ç äéáöïñÜ åßíáé áêüìç
ìåãáëýôåñç óôï óýíïëï äåäïìÝíùí Correlated, óõìðåñéöïñÜ ðïõ åðáíáëáìâÜ-
íåôáé óå üëá ôá ðåéñÜìáôá êáé ãé' áõôü ðáñáëåßðåôáé ç ðáñÜèåóÞ ôïõò. ¼ðùò
áíáìåíüôáí, ç CoSMuQ-ADHOC åßíáé ó÷åäüí áíåðçñÝáóôç áðü ôï ðëÞèïò ôùí
åããñáöþí, áöïý äåí áðïôéìÜ ôá åñùôÞìáôá áðü ôçí áñ÷Þ.
1e+006 1e+006
TSA TSA
SRA SRA
100000 CoSMuQ-ADHOC 100000 CoSMuQ-ADHOC
10000 10000

1000 1000
Time (sec)

Time (sec)
100 100

10 10

1 1

0.1 0.1

0.01 0.01
10000 50000 100000 150000 200000 10000 50000 100000 150000 200000
Number of Tuples Number of Tuples

(á) Independent (â) Anti-Correlated

EIKONA 7.7. ×ñüíïò áðüêñéóçò ùò ðñïò ðëÞèïò åããñáöþí.

10000 1000
TSA TSA
SRA SRA
1000 CoSMuQ-ADHOC CoSMuQ-ADHOC
100

100
Time (sec)

Time (sec)

10
10
1
1

0.1
0.1

0.01 0.01
10 12 14 16 18 20 10 12 14 16 18 20
Number of Dimensions Number of Dimensions

(á) Independent (â) Anti-Correlated

EIKONA 7.8. ×ñüíïò áðüêñéóçò ùò ðñïò ðëÞèïò äéáóôÜóåùí.

Ôï ôñßôï ðåßñáìá ìåëåôÜ ôï ÷ñüíï áðüêñéóçò óå ó÷Ýóç ìå ôï ðëÞèïò ôùí


äéáóôÜóåùí. Ç Åéêüíá 7.8 ðáñïõóéÜæåé ôá áðïôåëÝóìáôá. Ç SRA åßíáé êáëýôåñç
áðü ôçí TSA óôá óýíïëá äåäïìÝíùí Anti-Correlated êáé Independent ó÷åäüí
óå üëåò ôéò ðåñéðôþóåéò äéüôé üóï áõîÜíåôáé ôï ðëÞèïò ôùí äéáóôÜóåùí ôüóï
ëéãüôåñåò åããñáöÝò áðïññßðôåé ç TSA óôçí ðñþôç óÜñùóç. Óå áõôü ôï ðåßñáìá,
ôï ðëÞèïò ôùí óõãêñßóåùí åßíáé ðåñéóóüôåñï ëüãù ôçò áýîçóçò ôïõ áñéèìïý ôùí
äéáóôÜóåùí, ãåãïíüò ðïõ åðçñåÜæåé ðåñéóóüôåñï ôçí TSA. Ï ÷ñüíïò áðüêñéóçò
ôçò ìåèüäïõ ìáò áõîÜíåé êáèþò áõîÜíåé ôï ðëÞèïò ôùí äéáóôÜóåùí, ãåãïíüò
7.5. ÐÅÉÑÁÌÁÔÉÊÇ ÁÐÏÔÉÌÇÓÇ 157

áíáìåíüìåíï áöïý ç ìÝèïäïò óõíôçñåß ðåñéóóüôåñá ðëÝãìáôá, áëëÜ ðáñáìÝíåé


ìéêñüôåñïò áðü Ýíá äåõôåñüëåðôï áêüìá êáé ãéá 20 äéáóôÜóåéò.
Ç Åéêüíá 7.9 äåß÷íåé ôï ÷ñüíï áðüêñéóçò óå ó÷Ýóç ìå ôï ðëÞèïò ôùí åñùôçìÜ-
ôùí, ôï ïðïßï ðïéêßëåé ìåôáîý 100 êáé 10000. Ï áëãüñéèìïò CoSMuQ-ADHOC
õðåñíéêÜ êáôÜ ðïëý êáé ôéò äýï ìåèüäïõò TSA êáé SRA áêüìá êáé ãéá 100 åñù-
ôÞìáôá. ÅðéðëÝïí, ç ðñïôåéíüìåíç ìÝèïäïò Ý÷åé ÷ñüíï áðüêñéóçò ìéêñüôåñï ôïõ
åíüò äåõôåñïëÝðôïõ óå üëåò ôéò ðåñéðôþóåéò. ÐñïóÝîôå üôé ôá õðïóýíïëá äéá-
óôÜóåùí ôùí åñùôçìÜôùí êáé ïé ðáñÜìåôñïé k Ý÷ïõí ðáñá÷èåß ïìïéüìïñöá êáé
êáëýðôïõí üëåò ôéò äéáóôÜóåéò. Áõôü åßíáé ìßá Ýíäåéîç üôé ç ðñïôåéíüìåíç ìÝèï-
äïò èá Ý÷åé áêüìá êáëýôåñç áðüäïóç óå ìßá ñåáëéóôéêÞ åöáñìïãÞ áöïý êÜðïéåò
äéáóôÜóåéò åßíáé óõíÞèùò ðåñéóóüôåñï ÷ñçóéìïðïéïýìåíåò áðü Üëëåò. Ãéá ðáñÜ-
äåéãìá, ó÷åäüí üëïé ïé ÷ñÞóôåò ðïõ åíäéáöÝñïíôáé ãéá Ýíá îåíïäï÷åßï, åëÝã÷ïõí
ôï ÷áñáêôçñéóôéêü ôçò ôéìÞò, åíþ ïé åðéëïãÝò ôùí õðüëïéðùí ÷áñáêôçñéóôéêþí
ìðïñåß íá ðïéêßëïõí áíÜëïãá ìå ôéò áíÜãêåò ôïõ ÷ñÞóôç.

100000 100000
TSA TSA
SRA SRA
10000 CoSMuQ-ADHOC 10000 CoSMuQ-ADHOC

1000 1000
Time (sec)

Time (sec)

100 100

10 10

1 1

0.1 0.1

0.01 0.01
100 1000 5000 10000 100 1000 5000 10000
Number of Queries Number of Queries

(á) Independent (â) Anti-Correlated

EIKONA 7.9. ×ñüíïò áðüêñéóçò ùò ðñïò ðëÞèïò åñùôçìÜôùí.

ÔÝëïò, ðåéñáìáôéóèÞêáìå ìå ôï ðëÞèïò ôùí äéáóôÜóåùí ôùí åñùôçìÜôùí.


ÐáñÞ÷èçóáí äéáöïñåôéêÜ óýíïëá ôùí 500 åñùôçìÜôùí ìå ôï ßäéï ðëÞèïò äéáóôÜ-
óåùí q:ds áëëÜ äéáöïñåôéêÜ óýíïëá q:ds. Ç ðáñÜìåôñïò k ìåôáâÜëëåôáé ìåôáîý
q:ds/2 êáé q:ds. ÅîåôÜóáìå 5 äéáöïñåôéêÜ óýíïëá åñùôçìÜôùí ìå ìÝãåèïò ôùí
äéáóôÜóåþí ôïõò 6, 8, 10, 12 êáé 14. Ï óõíïëéêüò ÷þñïò áðïôåëåßôáé áðü 15
äéáóôÜóåéò. Ôá áðïôåëÝóìáôá öáßíïíôáé óôçí Åéêüíá 7.10. Åßíáé Ýêäçëï üôé ç
CoSMuQ-ADHOC îåðåñíÜ ôéò Üëëåò äýï ìåèüäïõò. ¼ëåò ïé ìÝèïäïé åðçñåÜæï-
íôáé áðü ôïí áñéèìü äéáóôÜóåùí ôùí åñùôçìÜôùí. Áõôü óõìâáßíåé ãéáôß êáèþò
ï áñéèìüò ôùí äéáóôÜóåùí ôùí åñùôçìÜôùí áõîÜíåé, ôï ðëÞèïò ôùí k-dominant
skyline áõîÜíåé äñáìáôéêÜ, åéäéêÜ áí ç ðáñÜìåôñïò k åßíáé êïíôÜ óôï ðëÞèïò ôùí
äéáóôÜóåùí ôïõ åñùôÞìáôïò.
158 ÊÅÖÁËÁÉÏ 7. ÓÕÍÅ×Ç ÅÑÙÔÇÌÁÔÁ K -DOMINANT SKYLINE

100000 100000
TSA TSA
SRA SRA
10000 CoSMuQ-ADHOC 10000 CoSMuQ-ADHOC

1000 1000
Time (sec)

Time (sec)
100 100

10 10

1 1

0.1 0.1

0.01 0.01
6 7 8 9 10 11 12 13 14 6 7 8 9 10 11 12 13 14
Number of Queries’ Dimensions Number of Queries’ Dimensions

(á) Independent (â) Anti-Correlated

EIKONA 7.10. ×ñüíïò áðüêñéóçò ùò ðñïò ðëÞèïò äéáóôÜóåùí åñùôçìÜôùí.

7.6 ÓõæÞôçóç
Óôçí åíüôçôá áõôÞ óõæçôïýìå ðåñáéôÝñù âåëôéþóåéò ôïõ áëãïñßèìïõ CoSMuQ.
Áðü ôçí ðåñéãñáöÞ ôùí áëãïñßèìùí, åßíáé Ýêäçëï üôé ç âáóéêüôåñç åðéâÜñõíóç
óôç ìÝèïäï åßíáé ç åíçìÝñùóç ôùí õðïåñùôçìÜôùí êáé áõôü ãéá äýï ëüãïõò: (1) ç
åíçìÝñùóç ôùí õðïåñùôçìÜôùí åßíáé ôï óôÜäéï ìå ôéò ðåñéóóüôåñåò ëåéôïõñãßåò
áðü êÜèå Üëëï óôÜäéï, êáé (2) ôï ðëÞèïò ôùí õðïåñùôçìÜôùí ìðïñåß íá åßíáé
ìåãÜëï, áíÜëïãá ìå ôï ðëÞèïò ôùí åñùôçìÜôùí, ôï ðëÞèïò ôùí äéáóôÜóåùí êáé
ôçí ðáñÜìåôñï k ôïõ êÜèå åñùôÞìáôïò.
ÅðéðëÝïí, ï áëãüñéèìïò CoSMuQ áîéïðïéåß ôçí åðéêÜëõøç ôùí åñùôçìÜôùí
óôï åðßðåäï ôùí äýï äéáóôÜóåùí áëëÜ óôç óõíÝ÷åéá ðåñíÜ Üìåóá óôï åðßðåäï ôùí
k äéáóôÜóåùí (ç ôéìÞ k êáèïñßæåôáé áðü ôçí ðáñÜìåôñï q:k ôïõ åñùôÞìáôïò áðü
üðïõ ðñïêýðôåé ôï õðïåñþôçìá) áãíïþíôáò ìå áõôüí ôïí ôñüðï üëá ôá åíäéÜ-
ìåóá åðßðåäá ðïõ ôá åñùôÞìáôá åðéêáëýðôïíôáé. Äõï õðïåñùôÞìáôá áíåîÜñôçôá
áðü ôï ðëÞèïò ôùí äéáóôÜóåùí ôïõò ìðïñåß íá Ý÷ïõí áñêåôÝò êïéíÝò äéáóôÜóåéò,
äçëáäÞ ìðïñåß íá Ý÷ïõí êïéíÜ õðï-õðïåñùôÞìáôá.
ÐÁÑÁÄÅÉÃÌÁ (ÅðéêÜëõøç õðïåñùôçìÜôùí). ÕðïèÝóôå Ýíá åñþôçìá q1 üðïõ
éó÷ýåé q1 :bfds = {d1 ; d2 ; d3 ; d4 ; d5 } êáé q1 :k=4. Ôá õðïåñùôÞìáôá ôïõ q1 åßíáé:
sq1 : {d1 ; d2 ; d3 ; d4 }
sq2 : {d1 ; d2 ; d3 ; d5 }
sq3 : {d1 ; d2 ; d4 ; d5 }
sq4 : {d1 ; d3 ; d4 ; d5 }
sq5 : {d2 ; d3 ; d4 ; d5 }
Ôá õðïåñùôÞìáôá sq1 êáé sq2 Ý÷ïõí Ýíá êïéíü õðï-õðïåñþôçìá ìå äéáóôÜóåéò
{d1 ; d2 ; d3 }.
ÕðïèÝóôå Ýíá Üëëï åñþôçìá q2 ìå q2 :ds = {d1 ; d2 ; d3 ; d6 } êáé q2 :k=3. Ôá
õðïåñùôÞìáôá ôïõ q2 åßíáé:
sq6 : {d1 ; d2 ; d3 }
7.6. ÓÕÆÇÔÇÓÇ 159

sq7 : {d1 ; d2 ; d6 }
sq8 : {d1 ; d3 ; d6 }
sq9 : {d2 ; d3 ; d6 }
Ôá õðïåñùôÞìáôá sq1 êáé sq6 Ý÷ïõí Ýíá êïéíü õðï-õðïåñþôçìá ìå äéáóôÜóåéò
{d1 ; d2 ; d3 }.

Ìðïñïýìå íá ÷ñçóéìïðïéÞóïõìå ìßá äïìÞ trie ãéá íá áîéïðïéÞóïõìå ôçí åðé-


êÜëõøç ìåôáîý ôùí õðïåñùôçìÜôùí ü÷é ìüíï óôéò äýï äéáóôÜóåéò, áëëÜ óå ïðïéï-
äÞðïôå áñéèìü äéáóôÜóåùí. Ôï ó÷Þìá äåéêôïäüôçóçò trie [58] ðñïôÜèçêå áñ÷éêÜ
ãéá ôçí áðïèÞêåõóç áëöáâçôéêþí áëöáñéèìçôéêþí êáé åðïìÝíùò èåùñåß ìßá äéÜ-
ôáîç áðü áñéóôåñÜ ðñïò ôá äåîéÜ ôùí ÷áñáêôÞñùí ôùí áëöáñéèìçôéêþí. Ðñïêåé-
ìÝíïõ íá ÷ñçóéìïðïéçèåß áõôÞ ç äïìÞ, õðïèÝôïõìå üôé õðÜñ÷åé ìßá ó÷Ýóç äéÜôáîçò
ìåôáîý ôùí äéáóôÜóåùí, ðïõ óõìâïëßæïõìå Â, Ýôóé þóôå di  dj áí êáé ìüíï áí
i < j . ÅîåôÜæïõìå ôá åñùôÞìáôá ôïõ ðñïçãïýìåíïõ ðáñáäåßãìáôïò ãéá íá áðåé-
êïíßóïõìå ðùò ìðïñåß íá ÷ñçóéìïðïéçèåß ç äïìÞ trie óôçí ðñïôåéíüìåíç ìÝèïäï.
Áñ÷éêÜ, åéóÜãïõìå ôá õðïåñùôÞìáôá óôç äïìÞ. Ç Åéêüíá 7.11 ðáñïõóéÜæåé ôç
äïìÞ ãéá ôá åñùôÞìáôá q1 êáé q2 .

EIKONA 7.11. ÄïìÞ äåäïìÝíùí ãéá õðïåñùôÞìáôá.

¼ëïé ïé êüìâïé êÜôù áðü ôï åðßðåäï 2 áðïèçêåýïõí Ýíá õðïåñþôçìá. Ôá


õðïåñùôÞìáôá ôùí êüìâùí ìðïñåß íá åßíáé õðïåñþôçìá åíüò åñùôÞìáôïò Þ ìðï-
ñåß íá åßíáé õðï-õðïåñùôÞìáôá. Óôçí Åéêüíá 7.11, ìðïñïýìå íá äïýìå óå ðïéïõò
êüìâïõò áðïèçêåýïíôáé ôá õðïåñùôÞìáôá ôùí åñùôçìÜôùí. Ãéá ðáñÜäåéãìá, ï
êüìâïò 7 áðïèçêåýåé ôï õðïåñþôçìá sq6 , åíþ ï êüìâïò 8 áðïèçêåýåé Ýíá õðï-
õðïåñþôçìá ôïõ sq3 . Áò åîåôÜóïõìå ôþñá ðùò ìðïñïýìå íá ÷ñçóéìïðïéÞóïõìå ôç
äïìÞ üôáí Ýñ÷åôáé ìßá íÝá åããñáöÞ. ÕðïèÝóôå üôé Ý÷ïõìå Þäç áðïôéìÞóåé ôï õðïå-
ñþôçìá sq6 . Ãéá íá áðïôéìÞóïõìå ôï õðïåñþôçìá sq1 , ÷ñçóéìïðïéïýìå ôçí Éäéü-
ôçôá 7.6. ÅðïìÝíùò üëåò ïé íÝåò (2; sq6 :ds)-skyline êáé (sq6 :ds; sq6 :ds)-skyline
åããñáöÝò èá åßíáé åðßóçò êáé (2; sq1 :ds)-skyline êáé (sq1 :ds; sq1 :ds)-skyline åã-
ãñáöÝò áíôßóôïé÷á. ÖõóéêÜ, ôï sq1 ìðïñåß íá Ý÷åé ðåñéóóüôåñåò skyline åããñáöÝò,
ðïõ äåí ðñïêýðôïõí áðü ôï sq6 . Ùóôüóï, ç ìÝèïäïò åðéôá÷ýíåé áöïý äåí ÷ñåéÜæå-
ôáé íá áðïôéìÞóåé îáíÜ êïéíÝò skyline åããñáöÝò ìå ôïõ sq6 êáé ìðïñåß íá ÷ñçóéìï-
160 ÊÅÖÁËÁÉÏ 7. ÓÕÍÅ×Ç ÅÑÙÔÇÌÁÔÁ K -DOMINANT SKYLINE

ðïéÞóåé Üìåóá áõôÜ ôá áðïôåëÝóìáôá ãéá íá áðïññßøåé íùñßôåñá õðïøÞöéåò skyline


åããñáöÝò. ÅðéðëÝïí, ïé áðáéôÞóåéò ìíÞìçò ìðïñïýí íá åëáôôùèïýí. Åöüóïí ï
êüìâïò-ðáéäß êëçñïíïìåß ôéò skyline åããñáöÝò ôïõ êüìâïõ-ðáôÝñá, áðïèçêåýïõìå
óå êÜèå õðïåñþôçìá ìüíï ôéò åðéðñüóèåôåò (2; sq:ds)-skyline êáé (sq:ds; sq:ds)-
skyline åããñáöÝò. Áò äïýìå ôþñá ôçí ðåñßðôùóç ôçò äéáãñáöÞò ìßáò åããñáöÞò.
Ãéá ôç äéáäéêáóßá äéáãñáöÞò, äéáó÷ßæïõìå ôç äïìÞ áðü êÜôù ðñïò ôá åðÜíù.
ÕðïèÝóôå üôé Ý÷ïõìå Þäç áðïôéìÞóåé ôï õðïåñþôçìá sq1 . Áðü ôçí Éäéüôçôá 7.7,
üëåò ïé åããñáöÝò ðïõ äåí åßíáé (2; sq1 :ds)-skyline êáé (sq1 :ds; sq1 :ds)-skyline
åããñáöÝò áðïêëåßïíôáé êáôåõèåßáí áðü ôçí áðÜíôçóç ôïõ sq6 .

7.7 ÓõìðåñÜóìáôá
Ôï áðëü skyline åßíáé Ýíá èåìåëéþäåò åñþôçìá ðñïôßìçóçò. Äõóôõ÷þò, ôá åñù-
ôÞìáôá skyline ÷Üíïõí ôçí ïîõäåñêÞ ôïõò äýíáìç óå ÷þñïõò ðïëëþí äéáóôÜ-
óåùí. Ôï k-dominant skyline åñþôçìá åßíáé ìßá ãåíßêåõóç ôïõ áðëïý skyline
åñùôÞìáôïò ìå óêïðü íá îåðåñÜóåé áõôü ôï ìåéïíÝêôçìá. Óå áõôü ôï êåöÜëáéï,
ðñïôÜèçêå ìßá ðñùôüôõðç ìÝèïäïò ãéá ôçí áðïäïôéêÞ åðåîåñãáóßá óõíå÷þí k-
dominant skyline ðïëëþí åñùôçìÜôùí. Ï ðñïôåéíüìåíïò áëãüñéèìïò CoSMuQ
åßíáé êáôÜëëçëïò ôüóï ãéá åñùôÞìáôá ìßáò åêôÝëåóçò üóï êáé ãéá óõíå÷Þ åñù-
ôÞìáôá. Ç ðåéñáìáôéêÞ áðïôßìçóç êáôÝäåéîå ôçí áíùôåñüôçôá ôçò ðñïôåéíüìåíçò
ìåèüäïõ óå ó÷Ýóç ìå ôéò ìåèüäïõò TSA êáé SRA, ïé ïðïßåò ó÷åäéÜóèçêáí ãéá
óôáôéêÜ ðåñéâÜëëïíôá. ÅðéðëÝïí, åðÝäåéîå ôçí éêáíüôçôá ôçò ðñïôåéíüìåíçò ìå-
èüäïõ ôïõ ÷åéñéóìïý ðïëëþí äéáöïñåôéêþí åñùôçìÜôùí.
ÊÅÖÁËÁÉÏ 8

Óõíå÷Þò Åðåîåñãáóßá top-k


Dominating ÅñùôçìÜôùí∗
Ðåñéå÷üìåíá
8.1 ÅÉÓÁÃÙÃÇ . . . . . . . . . . . . . . . . . . . . . . . 161
8.2 Ó×ÅÔÉÊÇ ÂÉÂËÉÏÃÑÁÖÉÁ . . . . . . . . . . . . . 165
8.3 ÐÑÏÔÅÉÍÏÌÅÍÇ ÌÅÈÏÄÏÓ . . . . . . . . . . . 167
8.4 ÂÅËÔÉÓÔÏÐÏÉÇÓÅÉÓ . . . . . . . . . . . . . . . . 176
8.5 ÁÍÁËÕÓÇ ÁÐÏÄÏÓÇÓ . . . . . . . . . . . . . . 180
8.6 ÐÑÏÓÅÃÃÉÓÔÉÊÏÓ ÁËÃÏÑÉÈÌÏÓ . . . . . . . . 182
8.7 ÐÅÉÑÁÌÁÔÉÊÇ ÁÐÏÔÉÌÇÓÇ . . . . . . . . . . . 184
8.8 ÓÕÌÐÅÑÁÓÌÁÔÁ . . . . . . . . . . . . . . . . . . 191

8.1 ÅéóáãùãÞ
Ôá åñùôÞìáôá ðñïôßìçóçò Ý÷ïõí ëÜâåé óçìáíôéêÞ ðñïóï÷Þ óôï ðáñåëèüí [29,
46, 110, 135, 152]. Ùóôüóï, ç ìåëÝôç ôçò óõíå÷ïýò åðåîåñãáóßáò åñùôçìÜ-
ôùí ðñüóöáôá ðñïóÝëêõóå ôï åíäéáöÝñïí ôçò êïéíüôçôáò ôùí âÜóåùí äåäïìÝíùí
[128, 154], ëüãù ôïõ ãåãïíüôïò üôé ðïëëÝò åöáñìïãÝò ÷åéñßæïíôáé äåäïìÝíá ðïõ
ìåôáâÜëëïíôáé ÷ñïíéêÜ êáôÜ äñáóôéêü ôñüðï. Óå áõôïý ôïõ ôýðïõ ôéò åöáñìïãÝò,
óêïðüò åßíáé ç óõíå÷Þò áðïôßìçóç ôïõ åñùôÞìáôïò êáé ç åîáãùãÞ áðïôåëåóìÜ-
ôùí óå ðñáãìáôéêü ÷ñüíï, üðùò áíáöÝñèçêå êáé óôï ÊåöÜëáéï 7. Ðáñáäåßãìáôá
ôÝôïéùí åöáñìïãþí áíáöÝñèçêáí óå ðñïçãïýìåíá êåöÜëáéá.
∗ Ôï êåöÜëáéï áíôëåß ôá ðåñéå÷üìåíÜ ôïõ áðü ôéò åñãáóßåò [109].

161
162 ÊÅÖÁËÁÉÏ 8. ÓÕÍÅ×ÇÓ ÅÐÅÎÅÑÃÁÓÉÁ TOP-K DOMINATING ÅÑÙÔÇÌÁÔÙÍ

Ôï óçìáíôéêüôåñï ÷áñáêôçñéóôéêü ôùí ñïþí äåäïìÝíùí åßíáé üôé íÝåò ôéìÝò


Ýñ÷ïíôáé óõíå÷þò, êáé åðïìÝíùò áðáéôïýíôáé áðïäïôéêÝò ôå÷íéêÝò áðïèÞêåõóçò
êáé åðåîåñãáóßáò ðñïêåéìÝíïõ íá ÷åéñéóèïýìå ôïí õøçëü ñõèìü Üöéîçò äåäïìÝ-
íùí. Ðéï óõãêåêñéìÝíá, Ýíáò áëãüñéèìïò ó÷åäéáóìÝíïò ãéá ñïÝò ðñÝðåé íá éêá-
íïðïéåß ôéò åîÞò áðáéôÞóåéò: (á) ôá÷ýôáôï ÷ñüíï áðüêñéóçò, (â) áõîçôéêÞ áðï-
ôßìçóç, (ã) ðåñéïñéóìÝíï áñéèìü ðñïóðÝëáóçò äåäïìÝíùí, êáé (ä) áðïèÞêåõóç
óôçí êýñéá ìíÞìç ãéá ôçí áðïöõãÞ áêñéâþí ðñïóðåëÜóåùí äßóêïõ. Ïé ôå÷íéêÝò
ôùí ðáñáäïóéáêþí âÜóåùí äåäïìÝíùí åßíáé áêáôÜëëçëåò ãéá ôçí ðåñßðôùóç ôùí
ñïþí ãéáôß äåí ëáìâÜíïõí õðüøç ôïõò üëá ôá ðñïçãïýìåíá ÷áñáêôçñéóôéêÜ.
¸íá top-k dominating åñþôçìá áíáêôÜ ôéò k åããñáöÝò ôïõ óõíüëïõ äåäï-
ìÝíùí ìå ôçí õøçëüôåñç äýíáìç êõñéáñ÷ßáò (domination power). Ç äýíáìç êõ-
ñéáñ÷ßáò ìßáò åããñáöÞò åêöñÜæåôáé áðü ôï ðëÞèïò ôùí åããñáöþí ðïõ êõñéáñ÷åß.
Ç ó÷Ýóç êõñéáñ÷ßáò (domination relationship) åîáñôÜôáé áðü ôç óçìáóéïëïãßá
êÜèå ÷áñáêôçñéóôéêïý ôçò åããñáöÞò: óå êÜðïéåò ðåñéðôþóåéò ïé ìéêñüôåñåò ôéìÝò
ðñïôéìþíôáé (ð.÷. ôéìÞ), åíþ óå Üëëåò ðåñéðôþóåéò áðáéôïýíôáé ïé ìåãáëýôåñåò
ôéìÝò (ð.÷. ðïéüôçôá). ×ùñßò íá ðåñéïñßæïõìå ôç ãåíéêüôçôá ôçò ðñïôåéíüìåíçò
ìåèüäïõ, óôç óõíÝ÷åéá åóôéÜæïõìå óôçí åëá÷éóôïðïßçóç ôùí ÷áñáêôçñéóôéêþí.
ÅðïìÝíùò, ìßá åããñáöÞ ti êõñéáñ÷åß ìßá Üëëç åããñáöÞ tj , áí ç ti åßíáé ìéêñüôåñç
áðü Þ ßóç ìå ôçí tj óå üëá ôá ÷áñáêôçñéóôéêÜ êáé åßíáé áõóôçñÜ ìéêñüôåñç áðü
ôçí tj óå ôïõëÜ÷éóôïí ìßá áðü áõôÝò.
Ôï top-k dominating åñþôçìá åßíáé óçìáíôéêü åñãáëåßï óôÞñéîçò áðüöáóçò.
ÏõóéáóôéêÜ, åßíáé Ýíáò óõíäõáóìüò ôùí åñùôçìÜôùí skyline êáé top-k. Ðñá-
êôéêÜ, äéáôçñåß ôá ðëåïíåêôÞìáôÜ ôïõò ÷ùñßò íá êëçñïíïìåß ôá ìåéïíåêôÞìáôÜ
ôïõò. Ôá top-k dominating åñùôÞìáôá áîéïðïéïýí ôç ó÷Ýóç êõñéáñ÷ßáò ìåôáîý
ôùí áíôéêåéìÝíùí, åíþ Ýíá áðëü top-k åñþôçìá áðáéôåß ìßá óõíÜñôçóç âáèìïëü-
ãçóçò, ç ïðïßá ïñßæåôáé áðü ôï ÷ñÞóôç ðñïêåéìÝíïõ íá ìðïñÝóåé íá êáôáôÜîåé ôéò
åããñáöÝò. Ï ðñïóäéïñéóìüò ôçò êáôÜëëçëçò óõíÜñôçóçò âáèìïëüãçóçò äåí åß-
íáé ðñïöáíÞò, åéäéêÜ üôáí áõîÜíåôáé ï áñéèìüò ôùí ÷áñáêôçñéóôéêþí. ÅðéðëÝïí,
ôá top-k dominating åñùôÞìáôá ïñéïèåôïýí ôï ìÝãåèïò ôïõ áðïôåëÝóìáôïò, óå
áíôßèåóç ìå ôá åñùôÞìáôá skyline, üðïõ ôï ìÝãåèïò ôïõ áðïôåëÝóìáôïò äåí ïñéï-
èåôåßôáé êáé áõîÜíåé óçìáíôéêÜ üóï áõîÜíåôáé ôï ðëÞèïò ôùí ÷áñáêôçñéóôéêþí.
Ãéá íá áðïóáöçíßóïõìå ôéò äéáöïñÝò ìåôáîý áõôþí ôùí ôñéþí åñùôçìÜôùí
(skyline, top-k êáé top-k dominating åñùôÞìáôá), äßíïõìå Ýíá áðëü ðáñÜäåéãìá.
¸óôù D åßíáé Ýíá óýíïëï äåäïìÝíùí ìå 10 åããñáöÝò êáé 2 äéáóôÜóåéò (óôç óõ-
íÝ÷åéá ïé üñïé ÷áñáêôçñéóôéêü êáé äéÜóôáóç ÷ñçóéìïðïéïýíôáé åíáëëáêôéêÜ). Ïé
åããñáöÝò êáé ïé ôéìÝò ôïõò óå êÜèå äéÜóôáóç áðåéêïíßæïíôáé óôçí Åéêüíá 8.1.
ÕðïèÝóôå ðåñáéôÝñù üôé åíäéáöåñüìáóôå ãéá ôçí åëá÷éóôïðïßçóç ôùí ôéìþí ôùí
äéáóôÜóåùí. Ôï skyline áðïôåëåßôáé áðü üëåò ôéò åããñáöÝò ðïõ äåí êõñéáñ÷ïýíôáé
áðü êáìßá Üëëç. Óôï ðáñÜäåéãìá, ôï skyline ðåñéÝ÷åé ôéò åããñáöÝò t3 ; t4 ; t5 ; t7
êáé t8 . Óå áõôü ôï áðëü ðáñÜäåéãìá, ôï åñþôçìá skyline åðéóôñÝöåé ôï 50%
ôùí åããñáöþí êáé áõôü ôï ðñüâëçìá åíéó÷ýåôáé áðü ôçí áýîçóç ôùí äéáóôÜóåùí
8.1. ÅÉÓÁÃÙÃÇ 163

(á) åããñáöÝò êáé âáèìïëïãßåò


(â) äéóäéÜóôáôç áíáðáñÜóôáóç

EIKONA 8.1. Ðáñáäåßãìáôá åñùôçìÜôùí ðñïôßìçóçò.

[29]. ¸íá top-k åñþôçìá áíáêôÜ ôéò k åããñáöÝò ôïõ óõíüëïõ äåäïìÝíùí ìå
ôéò õøçëüôåñåò âáèìïëïãßåò óýìöùíá ìå ìßá óõíÜñôçóç âáèìïëüãçóçò F . Áí
÷ñçóéìïðïéÞóïõìå ôç óõíÜñôçóç âáèìïëüãçóçò F = x + y (êáé ðÜëé ç åëá÷é-
óôïðïßçóç åßíáé ðñïôéìüôåñç), ôï óýíïëï top-3 ðåñéÝ÷åé ôéò åããñáöÝò t7 ; t8 êáé
t3 . Ôï áðëü top-k åñþôçìá ðåñéïñßæåé ôï ìÝãåèïò ôïõ áðïôåëÝóìáôïò, áëëÜ äåí
õðÜñ÷åé ðñïöáíÞò ôñüðïò íá áíáãíùñßóïõìå ôéò óçìáíôéêüôåñåò åããñáöÝò, áöïý
äéáöïñåôéêÝò óõíáñôÞóåéò âáèìïëüãçóçò äßíïõí ãåíéêÜ äéáöïñåôéêü áðïôÝëåóìá.
Ôï top-3 dominating åñþôçìá ðåñéÝ÷åé ôéò åããñáöÝò t7 ; t8 êáé t6 . Ôï top-k
dominating åñþôçìá ðåñéïñßæåé ôï ìÝãåèïò ôïõ áðïôåëÝóìáôïò êáé åðéóôñÝöåé ôéò
óçìáíôéêüôåñåò åããñáöÝò ìå Ýíá äéáéóèçôéêü ôñüðï [176].
Ðáñüôé êÜðïéá åñùôÞìáôá ðñïôßìçóçò, üðùò ôï skyline êáé ôï áðëü top-k,
Ý÷ïõí ìåëåôçèåß õðü ôï ðñßóìá ôùí ñïþí äåäïìÝíùí, ôá óõíå÷Þ top-k dominat-
ing åñùôÞìáôá äåí Ý÷ïõí ëÜâåé ôçí áðáéôïýìåíç ðñïóï÷Þ. Óå áõôü ôï êåöÜëáéï
ãßíåôáé ç ðñþôç ðñïóðÜèåéá ãéá ôçí åðßëõóç ôïõ ðñïâëÞìáôïò ôçò áðïäïôéêÞò åðå-
îåñãáóßáò ôïõ top-k dominating åñùôÞìáôïò óå ðïëõäéÜóôáôåò ñïÝò äåäïìÝíùí
÷ñçóéìïðïéþíôáò ôï ìïíôÝëï ôïõ êéíïýìåíïõ ðáñáèýñïõ. Ôï ìïíôÝëï êéíïýìå-
íïõ ðáñáèýñïõ [16] èåùñåß ìüíï ôéò ôåëåõôáßåò W åããñáöÝò, üðïõ W åßíáé ôï
ìÞêïò ôïõ ðáñáèýñïõ. Åöüóïí ç ñïÞ äÝ÷åôáé ìüíï íÝåò ôéìÝò óôï ôÝëïò, ï ÷ñü-
íïò ëÞîçò (expiry time) t:exp ìßáò åããñáöÞò, ðïõ Þñèå ôç ÷ñïíéêÞ óôéãìÞ t:arr,
åßíáé åê ôùí ðñïôÝñùí ãíùóôüò êáé åßíáé ßóïò ìå t:arr + W . Óôá skyline êáé óôá
áðëÜ top-k åñùôÞìáôá, ìðïñïýìå íá ÷ñçóéìïðïéÞóïõìå ôï ÷ñüíï ëÞîçò ãéá íá
áðïññßøïõìå Ýíá õðïóýíïëï åããñáöþí ìå áðïôÝëåóìá ôç äõíáôüôçôá ó÷åäßáóçò
áðïäïôéêüôåñùí áëãïñßèìùí óå ó÷Ýóç ìå ôéò áðáéôÞóåéò ìíÞìçò êáé ôï ÷ñüíï
áðüêñéóçò.
Ðéï óõãêåêñéìÝíá, óôá skyline åñùôÞìáôá, áí ìßá åããñáöÞ ti êõñéáñ÷åßôáé áðü
ìßá Üëëç åããñáöÞ tj êáé ç tj ëÞãåé ìåôÜ ôçí ti , ôüôå åßíáé áóöáëÝò íá áðïññßøïõìå
164 ÊÅÖÁËÁÉÏ 8. ÓÕÍÅ×ÇÓ ÅÐÅÎÅÑÃÁÓÉÁ TOP-K DOMINATING ÅÑÙÔÇÌÁÔÙÍ

ôçí ti áöïý äåí èá ãßíåé ðïôÝ ìÝñïò ôïõ skyline ëüãù ôçò ýðáñîçò ôçò tj . Ãéá
ðáñÜäåéãìá, èåùñåßóôå ôï óýíïëï äåäïìÝíùí ôçò Åéêüíáò 8.1. ÕðïèÝóôå üôé ï
äåßêôçò óôï áíáãíùñéóôéêü êÜèå åããñáöÞò óõìâïëßæåé ôï ÷ñüíï Üöéîçò ôçò, ð.÷.
t1 :arr = 1, t2 :arr = 2, ê.ï.ê. Ç åããñáöÞ t8 êõñéáñ÷åß ôéò t1 ; t2 ; t6 êáé t10 . Ïé
åããñáöÝò t1 ; t2 êáé t6 ìðïñïýí íá áðïññéöèïýí ìå áóöÜëåéá áöïý ç t8 ëÞãåé ìåôÜ
áðü áõôÝò. ÅðéðëÝïí, óôá åñùôÞìáôá skyline, éó÷ýåé ç ìåôáâáôéêÞ éäéüôçôá, äçë.
Áí ç tj êõñéáñ÷åß óôçí ti êáé ç ti êõñéáñ÷åß óôçí th , ôüôå ç tj êõñéáñ÷åß óôçí th .
ÅðïìÝíùò, áí áðïññßøïõìå ôçí ti , Ý÷ïõìå áêüìá ôç äõíáôüôçôá íá áðïññßøïõìå
ôçí th ëüãù ôçò ýðáñîçò ôçò tj , áñêåß ç tj íá ëÞãåé ìåôÜ ôéò ti êáé th .
Óôï áðëü top-k åñþôçìá, áí õðÜñ÷ïõí k åããñáöÝò ìå êáëýôåñåò âáèìïëïãßåò
áðü ôçí ti , åíþ ç ti ëÞãåé ðñéí áðü áõôÝò, ôüôå åßíáé áóöáëÝò íá áðïññßøïõìå ôçí
ti . Ãéá ðáñÜäåéãìá, ç âáèìïëïãßá ôçò t1 åßíáé 8.5 êáé õðÜñ÷ïõí ðåñéóóüôåñï áðü
3 åããñáöÝò ìå êáëýôåñåò âáèìïëïãßåò áðü 8.5, ïé ïðïßåò ëÞãïõí ìåôÜ ôçí t1 (ð.÷.,
t3 ; t4 êáé t5 ). Áõôü óçìáßíåé üôé ç t1 ìðïñåß íá äéáãñáöåß ìå áóöÜëåéá. Óôá áðëÜ
top-k åñùôÞìáôá, ç âáèìïëïãßá ìßáò åããñáöÞò äåí ìåôáâÜëëåôáé ÷ñïíéêÜ êáé
äåí åðçñåÜæåôáé áðü Üëëåò åããñáöÝò. ÅðïìÝíùò, èá ìðïñïýóáìå íá äéáãñÜøïõìå
åããñáöÝò áí éó÷ýåé ç ðñïçãïýìåíç óõíèÞêç ÷ùñßò íá åðçñåÜóïõìå ôçí áêñßâåéá
ôïõ áðïôåëÝóìáôïò.
Áðü ôçí Üëëç ìåñéÜ, ôá top-k dominating åñùôÞìáôá åßíáé ðéï ðïëýðëïêá ùò
ðñïò ôçí áðüññéøç åããñáöþí. Äåí åßíáé äõíáôü íá áðïññßøïõìå ìßá åããñáöÞ,
áêüìá êáé áí ãíùñßæïõìå üôé äåí ìðïñåß íá ãßíåé ìÝñïò ôïõ top-k êáôÜ ôç äéÜñ-
êåéá æùÞò ôïõ. Áõôü éó÷ýåé ãéáôß ìßá åããñáöÞ åðçñåÜæåé ôç äýíáìç êõñéáñ÷ßáò
Üëëùí åããñáöþí. Óõíïøßæïíôáò, ïé äýï âáóéêÝò äõóêïëßåò óôçí åðåîåñãáóßá
ôùí óõíå÷þí top-k dominating åñùôçìÜôùí åßíáé: (á) ç äýíáìç êõñéáñ÷ßáò ìßáò
åããñáöÞò åðçñåÜæåôáé áðü Üëëåò åããñáöÝò êáé (â) ç äýíáìç êõñéáñ÷ßáò áëëÜ-
æåé ÷ñïíéêÜ. Ïé áëãüñéèìïé ìáò ÷åéñßæïíôáé áðïôåëåóìáôéêÜ êáé ôá äýï áõôÜ
ðñïâëÞìáôá.
Óôç óõíÝ÷åéá, äßíïõìå ðáñáäåßãìáôá åöáñìïãþí ñïþí, ãéá íá äåßîïõìå ôç
÷ñçóéìüôçôá ôùí top-k dominating åñùôçìÜôùí.

ÁíÜëõóç êßíçóçò äéêôýïõ: ÕðïèÝóôå üôé Ýíá êÝíôñï ëåéôïõñãßáò äéêôýïõ åíüò
ðáíåðéóôçìßïõ åíäéáöÝñåôáé ãéá ôï óõíå÷Þ åíôïðéóìü õðïëïãéóôþí áðü üðïõ ìðï-
ñåß íá îåêéíïýí ðéèáíÝò åðéèÝóåéò äéêôýïõ. Äõóôõ÷þò, õðÜñ÷ïõí ðïëëÜ êñéôÞñéá
ðïõ ðñÝðåé íá åîåôáóèïýí ðñéí åðéëåãïýí ôá êáôÜëëçëá. ÕðïèÝóôå áêüìá, üôé
÷ñçóéìïðïéïýíôáé ôñßá ÷áñáêôçñéóôéêÜ êÜèå õðïëïãéóôÞ: (á) ôï åýñïò äéêôýïõ
ðïõ êáôáíáëþíåé, (â) ôïí áñéèìü ôùí óõíäÝóåùí, êáé (ã) ôïí ðëÞèïò ôùí ðñïï-
ñéóìþí ôùí óõíäÝóåþí ôïõ. Áõôü ìðïñåß íá ðñáãìáôïðïéçèåß ìå ôçí áðïôßìçóç
åíüò óõíå÷ïýò top-k dominating åñùôÞìáôïò óôéò ôñåéò äéáóôÜóåéò ãéá íá åíôï-
ðßóïõìå ôïõò k õðïëïãéóôÝò ìå ôçí õøçëüôåñç äýíáìç êõñéáñ÷ßáò.

Ðáñáêïëïýèçóç äéêôýïõ áéóèçôÞñùí: ÕðïèÝóôå üôé Ýíáò äéïéêçôéêüò õðÜëëç-


8.2. Ó×ÅÔÉÊÇ ÂÉÂËÉÏÃÑÁÖÉÁ 165

ëïò ôçò ðõñïóâåóôéêÞò õðçñåóßáò ðñÝðåé íá åíçìåñþíåôáé äéáñêþò ãéá ôïðïèåóßåò


ìå ìåãÜëç ðéèáíüôçôá íá îåóðÜóåé ðõñêáãéÜ. ÕðïèÝóôå áêüìá, üôé ï õðÜëëçëïò
åðéêåíôñþíåé ôçí ðñïóï÷Þ ôïõ óå ôñßá óçìáíôéêÜ ÷áñáêôçñéóôéêÜ: (á) ôç èåñ-
ìïêñáóßá, (â) ôçí ôá÷ýôçôá ôùí áíÝìùí, êáé (ã) ôçí õãñáóßá. Êáé ðÜëé, áõôü
ôï ðñüâëçìá ìðïñåß íá ëõèåß ìå ôç ÷ñÞóç åíüò óõíå÷ïýò top-k dominating åñù-
ôÞìáôïò óôéò ôñåéò äéáóôÜóåéò ôùí åããñáöþí ðïõ ðñïêýðôïõí áðü ôéò ìåôñÞóåéò
ôùí áéóèçôÞñùí ðñïêåéìÝíïõ íá åíôïðßóïõìå ôïõò k áéóèçôÞñåò ìå ôçí õøçëüôåñç
âáèìïëïãßá1 .

Ðáñüôé ç âéâëéïãñáößá åßíáé ðëïýóéá óå ìåèüäïõò êáé ôå÷íéêÝò ãéá åñùôÞìáôá


ðñïôßìçóçò êáé ãéá óõíå÷Þ åðåîåñãáóßá åñùôçìÜôùí, åî üóùí ãíùñßæïõìå, äåí
õðÜñ÷åé ðñïçãïýìåíç åñãáóßá óå top-k dominating åñùôÞìáôá óå ÷ñïíéêÜ ìåôá-
âáëëüìåíá äåäïìÝíá. Ôï ðáñüí êåöÜëáéï ðåñéÝ÷åé ôçí ðñþôç ìåëÝôç áëãïñßèìùí
ãéá áðïäïôéêÞ åðåîåñãáóßá ôùí top-k dominating åñùôçìÜôùí óå êéíïýìåíá ðá-
ñÜèõñá. Óõíïøßæïíôáò, ç óõíåéóöïñÜ ìáò åßíáé:
➣ ÌåëåôÞèçêáí ðñïóåêôéêÜ ôá ÷áñáêôçñéóôéêÜ ôùí ñïþí äåäïìÝíùí ìå óêïðü
ôçí åêìåôÜëëåõóÞ ôïõò óôï ó÷åäéáóìü áëãïñßèìùí ãéá ôçí áðïäïôéêÞ åðå-
îåñãáóßá åñùôÞìáôïò.
➣ Ôñåéò áëãüñéèìïé ðñïôåßíïíôáé êáé ìåëåôþíôáé áíáëõôéêÜ.
➣ Äßíåôáé ìßá áíÜëõóç áðüäïóçò ðïõ ìåëåôÜ ôï ðëÞèïò ôùí áêñéâþí õðïëï-
ãéóìþí âáèìïëïãßáò ðïõ ðñáãìáôïðïéïýíôáé.
➣ Åöüóïí óå ðïëëÝò ðåñéðôþóåéò ìðïñïýìå íá èõóéÜóïõìå ëßãï áðü ôçí áêñß-
âåéá ôïõ áðïôåëÝóìáôïò ãéá ôçí áðïäïôéêüôåñç ëåéôïõñãßá, ìåëåôïýìå ðñï-
óåããéóôéêÝò ôå÷íéêÝò.
➣ Ðñáãìáôïðïéåßôáé óå âÜèïò ðåéñáìáôéêÞ áðïôßìçóç âáóéóìÝíç óå ðñáãìá-
ôéêÜ êáé óõíèåôéêÜ äåäïìÝíá, ç ïðïßá äåß÷íåé ôçí áðïäïôéêüôçôá êáé ôçí
êáôáëëçëüôçôá ôçò ðñïôåéíüìåíçò ðñïóÝããéóçò.

8.2 Ó÷åôéêÞ Âéâëéïãñáößá


¼ðùò áíáöÝñáìå Þäç óôï ÊåöÜëáéï 7, ôá åñùôÞìáôá ðñïôßìçóçò Ý÷ïõí ëÜâåé
éäéáßôåñç ðñïóï÷Þ áðü ôçí åñåõíçôéêÞ êïéíüôçôá ôüóï óôéò âÜóåéò äåäïìÝíùí
[29] üóï êáé óå Üëëïõò ôïìåßò ðáëéüôåñá [112] ëüãù ôçò ÷ñçóéìüôçôÜò ôïõò.
Ç âéâëéïãñáößá åßíáé ðëïýóéá óå áëãïñßèìïõò ãéá ôçí åðåîåñãáóßá åñùôçìÜôùí
ðñïôßìçóçò êáé éäéáßôåñá ãéá ôï åñþôçìá skyline. Åäþ áíáöÝñïõìå ôéò âáóéêü-
ôåñåò ìåèüäïõò ðïõ ó÷åôßæïíôáé ìå ôï èÝìá ôïõ êåöáëáßïõ. Ãéá ðåñéóóüôåñåò
ëåðôïìÝñåéåò áíáôñÝîôå óôçí Åíüôçôá 7.2.
1 Ïé üñïé âáèìïëïãßá êáé äýíáìç êõñéáñ÷ßáò áíáöÝñïíôáé åíáëëáêôéêÜ ãéá ôá top-k domi-
nating åñùôÞìáôá.
166 ÊÅÖÁËÁÉÏ 8. ÓÕÍÅ×ÇÓ ÅÐÅÎÅÑÃÁÓÉÁ TOP-K DOMINATING ÅÑÙÔÇÌÁÔÙÍ

Óôçí åñãáóßá [135] ðñïôÜèçêå Ýíá áðïäïôéêü ó÷Þìá ãéá ôçí åðåîåñãáóßá sky-
line åñùôçìÜôùí, ôï ïðïßï óôçñßæåôáé óôá R-äÝíäñá [76]. ÁõôÞ ç ìÝèïäïò äåß÷íåé
óçìáíôéêÞ âåëôßùóç óå ó÷Ýóç ìå Ýíá ðëÞèïò ðáëéüôåñùí ìåèüäùíò. Óôçí åñãá-
óßá [154], ðñïôÜèçêå Ýíáò áõîçôéêüò áëãüñéèìïò ãéá óõíå÷Þ åñùôÞìáôá skyline
óå êéíïýìåíï ðáñÜèõñï, âáóéæüìåíïò óôï ÷ñüíï ëÞîçò ìßáò åããñáöÞò êáé óôá
R-äÝíäñá. Åðéðñüóèåôá, ç óõíå÷Þ áðïôßìçóç ôùí top-k åñùôçìÜôùí ìåëåôÞèçêå
óôçí åñãáóßá [128]. Ï ðñïôåéíüìåíïò áëãüñéèìïò ìåôáôñÝðåé ôï ðñüâëçìá ôïõ
óõíå÷ïýò top-k åñùôÞìáôïò óå åñþôçìá k-skyband [135], âáóéæüìåíïò óôçí ðá-
ñáôÞñçóç üôé ïé åããñáöÝò ðïõ åìöáíßæïíôáé óå Ýíá áðïôÝëåóìá ôïõ top-k êÜðïéá
÷ñïíéêÞ óôéãìÞ åßíáé áõôÝò ðïõ áíÞêïõí óôï k-skyband óôï ÷þñï âáèìïëïãßá-
÷þñïò.
ÐñïôÜèçêáí åíáëëáêôéêÝò ëýóåéò ðñïêåéìÝíïõ íá âïçèÞóïõí ôï ÷ñÞóôç íá
åðéëÝîåé ôá ðéï õðïó÷üìåíá áíôéêåßìåíá. ÁíáöÝñáìå êáé ðñïçãïõìÝíùò üôé ôï
áðïôÝëåóìá åíüò skyline åñùôÞìáôïò ìðïñåß íá ðåñéÝ÷åé ðïëý ëßãá Þ ðÜñá ðïëëÜ
áíôéêåßìåíá, äçìéïõñãþíôáò ðñüâëçìá óôçí åðéëïãÞ ôùí êáëýôåñùí áíôéêåéìÝ-
íùí. ¼ðùò åßäáìå êáé óôï ÊåöÜëáéï 7, ôï k-dominant skyline åñþôçìá [33]
ðñïôÜèçêå ãéá ôçí áíôéìåôþðéóç áõôïý ôïõ öáéíïìÝíïõ. Óýìöùíá ìå ôçí åñãá-
óßá [33], ï ïñéóìüò ôçò êõñéáñ÷ßáò ÷áëáñþíåôáé, ðñïêåéìÝíïõ íá êáôáóôÞóïõìå
ðéèáíüôåñï êÜðïéåò åããñáöÝò íá êõñéáñ÷ïýíôáé áðü êÜðïéåò Üëëåò, åëáôôþíïíôáò
Ýôóé ôï ìÝãåèïò ôïõ áðïôåëÝóìáôïò. Ìßá Üëëç ëýóç ðïõ ðñïôÜèçêå óôçí åñãá-
óßá [121], ÷ñçóéìïðïéåß ôçí éêáíüôçôá êõñéáñ÷ßáò ãéá íá åðéëÝîåé skyline åããñá-
öÝò. Ùóôüóï, üëåò ïé ðñïáíáöåñèÝíôåò áëãüñéèìïé äåí ìðïñïýí íá åöáñìïóèïýí,
ôïõëÜ÷éóôïí ü÷é Üìåóá, ãéá ôçí áðïôßìçóç top-k dominating åñùôçìÜôùí, ðïõ
ìåëåôþíôáé óå áõôü ôï êåöÜëáéï.
Óôçí åñãáóßá [117], ïé óõããñáöåßò ìåëÝôçóáí ôéò ó÷Ýóåéò êõñéáñ÷ßáò óå äéá-
öïñåôéêÜ óýíïëá äåäïìÝíùí (ð.÷. ðñïúüíôá êáé ðåëÜôåò). Ïé óõããñáöåßò ðñüôåé-
íáí ôïí êýâï DADA (DADA cube), Ýíá ó÷Þìá ïñãÜíùóçò ãéá ôçí õðïóôÞñéîç
ðëÞèïõò óçìáíôéêþí ôýðùí åñùôçìÜôùí ìå óêïðü ôçí áíÜëõóç ôùí ó÷Ýóåùí
êõñéáñ÷ßáò. Ôï ó÷Þìá DADA cube ó÷åäéÜóèçêå áíôßóôïé÷á ìå ôïõò êýâïõò äå-
äïìÝíùí (data cubes) ðïõ áîéïðïéïýíôáé óôéò áðïèÞêåò äåäïìÝíùí (data ware-
houses).
Ç êáôÜôáîç ôùí åããñáöþí óýìöùíá ìå ôç äýíáìç êõñéáñ÷ßáò ôïõò ìåëåôÞ-
èçêåò óå äéÜöïñåò åñãáóßåò [136, 176, 118]. Óôçí åñãáóßá [176], ïé óõããñáöåßò
ðñüôåéíáí áðïäïôéêïýò áëãïñßèìïõò ãéá ôïí õðïëïãéóìü ôùí top-k dominating
åããñáöþí ìå ôç âïÞèåéá åíüò Áèñïéóôéêïý R-äÝíäñïõ (aggregate R-tree). Ôá top-
k dominating åñùôÞìáôá óôéò áâÝâáéåò âÜóåéò äåäïìÝíùí (uncertain databases)
ìåëåôÞèçêáí óôçí åñãáóßá [118]. Ïé óõããñáöåßò ðñüôåéíáí ìßá ðñïóÝããéóç áðüñ-
ñéøçò åããñáöþí ãéá íá åëáôôþóïõí ôï ÷þñï åíüò ðéèáíïêñáôéêïý top-k domi-
nating åñùôÞìáôïò êáé åðéðñüóèåôá ìåëÝôçóáí ðñïóåããéóôéêÜ åñùôÞìáôá. Óôçí
åñãáóßá [136] ðñïôÜèçêå ìßá ìÝèïäïò êáôÜôáîçò ðïëõäéÜóôáôùí åããñáöþí óå
ó÷Ýóç ìå ôç äýíáìç êõñéáñ÷ßáò ôïõò. Ôï êïéíü ÷áñáêôçñéóôéêü áõôþí ôùí ðñï-
8.3. ÐÑÏÔÅÉÍÏÌÅÍÇ ÌÅÈÏÄÏÓ 167

óåããßóåùí åßíáé üôé äåí ðáñÝ÷ïõí ìç÷áíéóìïýò åíçìÝñùóçò ôùí áðïôåëåóìÜôùí


üôáí óõìâáßíïõí åéóáãùãÝò êáé äéáãñáöÝò óôá äåäïìÝíá. Óôéò åðüìåíåò åíü-
ôçôåò, áíáðôýóóïõìå ôçí åéóÞãçóÞ ìáò ãéá ôçí åðßëõóç ôïõ ðñïâëÞìáôïò ôçò
óõíå÷ïýò åðåîåñãáóßá top-k dominating åñùôçìÜôùí.

8.3 Ðñïôåéíüìåíç ÌÝèïäïò


Óå áõôÞ ôçí åíüôçôá, ðñþôá ðáñïõóéÜæïõìå ôçí ïñïëïãßá ðïõ èá ÷ñçóéìïðïéÞ-
óïõìå óå áõôü ôï êåöÜëáéï êáé ìåôÜ ïñßæïõìå ôõðéêÜ ôï ðñüâëçìá. Ï Ðßíáêáò
8.1 óõíïøßæåé ôá âáóéêÜ óýìâïëá ðïõ èá ÷ñçóéìïðïéçèïýí óå áõôÞ ôç ìåëÝôç.
Óýìâïëï ÐåñéãñáöÞ
W ìÝãåèïò ðáñáèýñïõ
D ðëÞèïò äéáóôÜóåùí
d; di äéÜóôáóç
ti i-ïóôÞ åããñáöÞ
ti;j ôéìÞ i-ïóôÞò åããñáöÞò óôçí j -ïóôÞ äéÜóôáóç
ti :arr ÷ñüíïò Üöéîçò åããñáöÞò ti
ti :exp ÷ñüíïò ëÞîçò åããñáöÞò ti
ti :score ðëÞèïò åããñáöþí ðïõ êõñéáñ÷ïýíôáé áðü ôçí ti
k ðáñÜìåôñïò k ôïõ åñùôÞìáôïò
kscore ôéìÞ k-ïóôïý score ôùí top-k åããñáöþí
c; ci êåëéÜ ôïõ ðëÝãìáôïò

ΠINAKAΣ 8.1. ÂáóéêÜ óýìâïëá Êåöáëáßïõ 8.

ÕðïèÝóôå Ýíá ÷þñï D äéáóôÜóåùí D = {d1 ; d2 ; : : : ; dD } êáé Ýíá óýíïëï


åããñáöþí T = {t1 ; t2 ; : : : ; tT }. ×ñçóéìïðïéïýìå ôï óýìâïëï ti;j ãéá íá õðïäç-
ëþóïõìå ôçí ôéìÞ ôçò j -ïóôÞò äéÜóôáóçò ôçò i-ïóôÞò åããñáöÞò. Ç åããñáöÞ ti
Ýñ÷åôáé ôç ÷ñïíéêÞ óôéãìÞ ti :arr êáé ëÞãåé ôç ÷ñïíéêÞ óôéãìÞ ti :exp. ÅðéðëÝïí,
éó÷ýåé ti :exp=ti :arr+W , üðïõ W åßíáé ôï ìÞêïò ôïõ ðáñáèýñïõ, äçëáäÞ ôï ðëÞ-
èïò ôùí åíåñãþí åããñáöþí. Ç ðáñÜìåôñïò k êáèïñßæåé ôïí åðéèõìçôü áñéèìü ôùí
top-k dominating åããñáöþí.
Ìßá åããñáöÞ ti êõñéáñ÷åßôáé áðü ìßá åããñáöÞ tj , ìüíï êáé ìüíï áí ∀dx ∈
D; tj;x ≥ ti;x êáé ∃dy ∈ D; tj;y > ti;y . Ìßá åããñáöÞ ti åßíáé ìßá top-k dominating
åããñáöÞ áí êáé ìüíï áí êõñéáñ÷åß Ýíá áðü ôá k-ïóôÜ ìåãáëýôåñá ðëÞèç åããñáöþí
óôï D.
Ôï ðëÞèïò ôùí åããñáöþí óôéò ïðïßåò ìßá åããñáöÞ t êõñéáñ÷åß, óõìâïëßæå-
ôáé ùò t:score, êáé áõôÞ ç ôéìÞ åêöñÜæåé ôç äýíáìç êõñéáñ÷ßáò ôçò åããñáöÞò.
ÅðéðëÝïí, ç âáèìïëïãßá ôçò k-ïóôÞò êõñßáñ÷çò åããñáöÞò åßíáé kscore.
ÕðÜñ÷ïõí äýï åéäþí êéíïýìåíá ðáñÜèõñá: (á) ôá ðáñÜèõñá âáóéóìÝíá óå ðëÞ-
èïò (count-based windows), üðïõ ìßá åããñáöÞ ëÞãåé ìåôÜ ôç ëÞøç W åðáêüëïõ-
168 ÊÅÖÁËÁÉÏ 8. ÓÕÍÅ×ÇÓ ÅÐÅÎÅÑÃÁÓÉÁ TOP-K DOMINATING ÅÑÙÔÇÌÁÔÙÍ

èùí åããñáöþí, êáé (â) ôá ðáñÜèõñá âáóéóìÝíá óå ÷ñüíï (time-based windows),


üðïõ ìßá åããñáöÞ ëÞãåé ìåôÜ áðü W ÷ñïíéêÝò ìïíÜäåò. Óå áõôü ôï êåöÜëáéï,
÷ñçóéìïðïéïýìå ðáñÜèõñá âáóéóìÝíá óå ðëÞèïò êáé åðéðñüóèåôá èåùñïýìå üôé
óå êÜèå åíçìÝñùóç ìßá íÝá åããñáöÞ Ýñ÷åôáé êáé åðïìÝíùò ìßá Üëëç åããñáöÞ
ëÞãåé. ¼ìùò, ç ðñïôåéíüìåíç ìÝèïäïò ìðïñåß íá ÷åéñéóèåß áèñüåò åéóáãùãÝò êáé
äéáãñáöÝò óå êÜèå åíçìÝñùóç üðùò åðßóçò êáé êéíïýìåíá ðáñÜèõñá âáóéóìÝíá
óôï ÷ñüíï ìå áóÞìáíôåò ôñïðïðïéÞóåéò. Ïé áëãüñéèìïé ðïõ ìåëåôþíôáé óå áõôü
ôï êåöÜëáéï ëýíïõí ôï áêüëïõèï ðñüâëçìá:

Ïñéóìüò ðñïâëÞìáôïò
ÄåäïìÝíïõ åíüò äõíáìéêÜ ìåôáâáëëüìåíïõ óõíüëïõ åããñáöþí ôùí D äéáóôÜ-
óåùí êáé ìßá ðáñÜìåôñï k, ðñïóäéüñéóå óõíå÷þò ôéò top-k dominating åããñáöÝò.

Ç ðñïôåéíüìåíç ìÝèïäïò óõíôçñåß ìßá äïìÞ êáíïíéêïý ðëÝãìáôïò. Ëüãù ôçò


äõíáìéêÞò öýóçò ôïõ áëãïñßèìïõ, ðñïêåéìÝíïõ íá áðïöýãïõìå õøçëÜ êüóôç áíá-
äéïñãÜíùóçò, åßíáé ðñïôéìüôåñï íá ÷ñçóéìïðïéÞóïõìå ìßá áðëÞ äïìÞ ãéá ãñÞãïñç
óõíôÞñçóç êáé åíçìÝñùóç. ÁõôÞ ç ðñïóÝããéóç áêïëïõèÞèçêå óå Üëëåò åñåõíç-
ôéêÝò åñãáóßåò ðïõ åîÝôáóáí äõíáìéêÜ óýíïëá äåäïìÝíùí [128]. ÐñïóÝîôå üôé ç
ðñïôåéíüìåíç ìÝèïäïò äåí åîáñôÜôáé áðü ôç ÷ñÞóç ôïõ ðëÝãìáôïò. Ìðïñïýí íá
÷ñçóéìïðïéçèïýí êáé Üëëåò äïìÝò äåéêôïäüôçóçò, áñêåß íá åßíáé éêáíÝò íá õðïëï-
ãßóïõí ó÷Ýóåéò êõñéáñ÷ßáò ìåôáîý åããñáöþí êáé åßíáé êáôÜëëçëåò ãéá äõíáìéêÜ
ðåñéâÜëëïíôá (óõ÷íÝò åíçìåñþóåéò).
×ùñßò íá ðåñéïñßæïõìå ôç ãåíéêüôçôá ôçò ìåèüäïõ, åóôéÜæïõìå óôçí åëá÷é-
óôïðïßçóç ôùí ÷áñáêôçñéóôéêþí. ÊÜèå êåëß ðåñéÝ÷åé ôá áíáãíùñéóôéêÜ (IDs)
ôùí åããñáöþí ðïõ áíÞêïõí óå áõôü ôï êåëß. ÊÜèå êåëß ci êõñéáñ÷åß ôåëåßùò
üëá ôá êåëéÜ âñßóêïíôáé óôçí åðÜíù-äåîéÜ ðåñéï÷Þ óå ó÷Ýóç ìå ôçí åðÜíù-äåîéÜ
ãùíßá ôïõ ci . Ãéá ðáñÜäåéãìá, ôï êåëß c6 ôçò Åéêüíáò 8.2 êõñéáñ÷åß óôá êåëéÜ
c11 ; c12 ; c15 êáé c16 , åíþ ôá êåëéÜ c6 ; c7 ; c8 ; c10 êáé c14 ìðïñåß íá ðåñéÝ÷ïõí Þ ü÷é

d2
c13 c 14 c 15 c 16
4 t 10 t11 t 12
c9 c10 c11 c12
3 t t8
7
t9
c5 c6 c7 c8
t6
2 t4 t5
c1 c2 c3 c4
1 t2 t1 t3
1 2 3 4 d1

EIKONA 8.2. ÐáñÜäåéãìá êáíïíéêïý ðëÝãìáôïò.


8.3. ÐÑÏÔÅÉÍÏÌÅÍÇ ÌÅÈÏÄÏÓ 169

åããñáöÝò ðïõ êõñéáñ÷ïýíôáé áðü ìßá åããñáöÞ ôïõ c6 . ÁõôÜ ôá êåëéÜ óõìâïëßæï-
íôáé ùò ìåñéêþò êõñéáñ÷ïýìåíá êåëéÜ.
Ìðïñïýìå íá ÷ñçóéìïðïéÞóïõìå ôï ðëÝãìá ãéá íá õðïëïãßóïõìå ôï ti :score
ôçò åããñáöÞò ti . Ðñþôá, âñßóêïõìå ôï êåëß cj üðïõ áíÞêåé ç ti . Ãéá íá õðï-
ëïãßóïõìå ôï ti :score, åßíáé áðáñáßôçôï íá åëÝãîïõìå ðüóåò åããñáöÝò n êõ-
ñéáñ÷ïýíôáé áðü ôçí ti ìüíï óôá ìåñéêþò êõñéáñ÷ïýìåíá êåëéÜ ôïõ cj . ÌåôÜ,
õðïëïãßæïõìå ðüóåò åããñáöÝò m õðÜñ÷ïõí óôá ðëÞñùò êõñéáñ÷ïýìåíá êåëéÜ ôïõ
cj . Ôüôå ti :score = n + m. Óôçí Åéêüíá 8.2, ç åããñáöÞ t4 êõñéáñ÷åß ôéò åããñá-
öÝò t6 êáé t11 ôùí ìåñéêþò êõñéáñ÷ïýìåíùí êåëéþí êáé ôï ðëÞèïò ôùí åããñáöþí
ôùí ðëÞñùò êõñéáñ÷ïýìåíùí êåëéþí ôïõ c6 åßíáé 3, åðïìÝíùò t4 :score=3+2=5.
Ç áðëÞ ðñïóÝããéóç ãéá ôç óõíå÷Þ áðïôßìçóç åíüò top-k dominating åñù-
ôÞìáôïò, åßíáé íá õðïëïãßóïõìå üëåò ôéò ó÷Ýóåéò êõñéáñ÷ßáò ìåôáîý üëùí ôùí
åããñáöþí. Ãéá ìßá íÝá åããñáöÞ ti , ç âáèìïëïãßá ôçò ti :score õðïëïãßæåôáé
óõãêñßíïíôáò ôçí åããñáöÞ ti ìå üëåò ôéò Üëëåò åããñáöÝò. Ï áíôßóôñïöïò õðï-
ëïãéóìüò åßíáé áðáñáßôçôïò, äçëáäÞ ç óýãêñéóç üëùí ôùí åããñáöþí ìå ôçí ti ,
ðñïêåéìÝíïõ íá åíçìåñþóïõìå ôéò âáèìïëïãßåò ôïõò. Ðáñïìïßùò, üëåò ïé åããñá-
öÝò óõãêñßíïíôáé ìå ôç ëçãìÝíç åããñáöÞ.
ÁõôÞ ç äéáäéêáóßá õëïðïéåß Ýíá ìåãÜëï áñéèìü óõãêñßóåùí, áêüìá êáé áí
÷ñçóéìïðïéåßôáé êÜðïéï ó÷Þìá äåéêôïäüôçóçò. Ï âáóéêüò óôü÷ïò ìáò åßíáé íá
åëáôôþóïõìå ôéò óõãêñßóåéò. Éó÷õñéæüìáóôå üôé åßíáé äõíáôü íá áðïöýãïõìå
êÜðïéïõò õðïëïãéóìïýò ó÷Ýóåùí êõñéáñ÷ßáò óå êÜèå åíçìÝñùóç ôïõ ðáñáèýñïõ
÷ùñßò íá èõóéÜóïõìå ôçí áêñßâåéá ôïõ áðïôåëÝóìáôïò. ÕðïèÝóôå üôé ç k-ïóôÞ
åããñáöÞ åíüò top-k dominating åñùôÞìáôïò Ý÷åé âáèìïëïãßá kscore. ÅðéðëÝïí,
õðïèÝóôå ìßá åããñáöÞ ti ìå ti :score < kscore. Óå êÜèå åíçìÝñùóç, ç âáèìïëïãßá
kscore ìðïñåß íá åëáôôþíåôáé ôï ðïëý êáôÜ ìßá ìïíÜäá, åíþ ç ti :score ìðïñåß
íá áõîÜíåôáé ôï ðïëý êáôÜ ìßá ìïíÜäá. ÅðïìÝíùò, ç åããñáöÞ ti äåí ìðïñåß
íá åßíáé óôï top-k óå ëéãüôåñåò áðü d(kscore − ti :score)=2e äéáäï÷éêÝò ÷ñïíéêÝò
ìïíÜäåò åêôüò áí êÜðïéá top-k dominating åããñáöÞ ëÞîåé êáôÜ ôç äéÜñêåéá áõôÞò
ôçò ðåñéüäïõ. ¢ñá ìðïñïýìå íá ðñïóäéïñßóïõìå ìßá áóöáëÞ ÷ñïíéêÞ ðåñßïäï
(safe time period) üðïõ ìßá åããñáöÞ äåí ìðïñåß íá åßíáé ìÝñïò ôïõ top-k, üðùò
áêïëïõèåß:
ÐÑÏÔÁÓÇ 8.1 (ÁóöáëÞò ÷ñïíéêÞ ðåñßïäïò). ÄåäïìÝíïõ ôïõ åëÜ÷éóôïõ ÷ñüíïõ
ëÞîçò ôùí top-k dominating åããñáöþí minExp êáé ôçò ôñÝ÷ïõóáò ÷ñïíéêÞò
óôéãìÞò ct, ìßá åããñáöÞ ti ìå âáèìïëïãßá ti :score äåí ìðïñåß íá åßíáé ìÝñïò
ôïõ top-k óå äéáäï÷éêÝò ÷ñïíéêÝò óôéãìÝò ëéãüôåñåò áðü:
min(d(kscore − ti :score)=2e; minExp − ct) (8.1)

ÁÐÏÄÅÉÎÇ. ÕðÜñ÷ïõí äýï ðéèáíÝò ðåñéðôþóåéò üðïõ ìßá åããñáöÞ ti ìðïñåß íá


ãßíåé ìÝñïò ôïõ top-k óå êÜèå åíçìÝñùóç: (1) ìßá top-k åããñáöÞ ëÞãåé, êáé (2)
ç âáèìïëïãßá ôçò ti îåðåñíÜ ôçí kscore. Ç ðñþôç ðåñßðôùóç êáëýðôåôáé áðü ôï
170 ÊÅÖÁËÁÉÏ 8. ÓÕÍÅ×ÇÓ ÅÐÅÎÅÑÃÁÓÉÁ TOP-K DOMINATING ÅÑÙÔÇÌÁÔÙÍ

äåýôåñï ìÝñïò ôçò ðñïçãïýìåíçò åîßóùóçò, áöïý minExp åßíáé ç ìéêñüôåñç ÷ñï-
íéêÞ óôéãìÞ ëÞîçò ìßáò top-k åããñáöÞò. Ãéá ôç äåýôåñç ðåñßðôùóç, õðïèÝôïõìå
ôçí ÷åéñüôåñç ðåñßðôùóç, üðïõ ç kscore åëáôôþíåôáé êáôÜ Ýíá, åíþ ç ti :score áõ-
îÜíåôáé êáôÜ Ýíá óå êÜèå åíçìÝñùóç (ç k-ïóôÞ top åããñáöÞ êõñéáñ÷åß ôç ëçãìÝíç
åããñáöÞ êáé äåí êõñéáñ÷åß ôç íÝá åããñáöÞ, åíþ ãéá ôçí ti éó÷ýåé ôï áíôßèåôï).
ÅðïìÝíùò, ç äéáöïñÜ ìåôáîý ôùí âáèìïëïãéþí ôïõò åëáôôþíåôáé ôï ðïëý êáôÜ
2 óå êÜèå åíçìÝñùóç. Ãé' áõôü, ãéá ôéò åðüìåíåò d(kscore − ti :score)=2e − 1
÷ñïíéêÝò ìïíÜäåò, ç ti :score åßíáé ìéêñüôåñç áðü ôçí k:score. Óõíïøßæïíôáò,
õðÜñ÷ïõí ìüíï äýï ðåñéðôþóåéò üðïõ ìßá åããñáöÞ ìðïñåß íá ãßíåé ìÝñïò ôïõ
top-k êáé áõôÝò ïé äýï ðåñéðôþóåéò êáëýðôïíôáé áðü ôçí Åîßóùóç 8.1. a

ÏíïìÜæïõìå áõôÞ ôç ÷ñïíéêÞ ðåñßïäï áäñáíÞ (idle period). ÊáôÜ ôçí áäñáíÞ
ðåñßïäï, ìßá åããñáöÞ ti áãíïåßôáé. Áí ç ôñÝ÷ïõóá ÷ñïíéêÞ óôéãìÞ åßíáé ct,
èá åîåôÜóïõìå îáíÜ ôçí ti ôç ÷ñïíéêÞ óôéãìÞ min(d(kscore − ti :score)=2e +
ct; minExp). Óå áõôÞ ôç ÷ñïíéêÞ óôéãìÞ, èåùñïýìå üôé Ý÷ïõìå Ýíá ãåãïíüò, ôï
ïðïßï óçìáßíåé üôé ðñÝðåé íá åîåôÜóïõìå ìßá åããñáöÞ ùò õðïøÞöéá ãéá ôï top-k
êáé íá õðïëïãßóïõìå ôç âáèìïëïãßá ôçò.
¸íá ãåãïíüò (event) êáèïñßæåé ôïí åëÜ÷éóôï ÷ñüíï ðïõ áðáéôåßôáé ãéá ìßá
åããñáöÞ ðñïêåéìÝíïõ íá åßíáé õðïøÞöéá ãéá åéóáãùãÞ óôï top-k. ÊÜèå ãåãïíüò
áðïôåëåßôáé áðü ôÝóóåñá ÷áñáêôçñéóôéêÜ:
1. ôï áíáãíùñéóôéêü ôçò åããñáöÞò ðïõ ðñïêáëåß ôï ãåãïíüò eventid ,
2. ôç ÷ñïíéêÞ óôéãìÞ ôïõ ãåãïíüôïò eventid :ept, äçëáäÞ ôïõ ÷ñüíïõ åîÝôáóçò
ôçò åããñáöÞò tid ùò õðïøÞöéá ãéá ôï top-k (eventid :ept = min(d(kscore −
tid :score)=2e + ct; minExp)),
3. ï ÷ñüíïò õðïëïãéóìïý áõôïý ôïõ ãåãïíüôïò eventid :egt êáé
4. ç âáèìïëïãßá ôçò åããñáöÞò eventid :score ôç ÷ñïíéêÞ óôéãìÞ eventid :egt.
ÃåíéêÜ, ï áêñéâÞò õðïëïãéóìüò ôçò âáèìïëïãßáò åßíáé ðïëý ÷ñïíïâüñá ëåé-
ôïõñãßá. Åßíáé öáíåñü üôé ç ðñïóÝããéóç ìå ãåãïíüôá èá åßíáé áðïäïôéêüôåñç
áðü ôçí áðëÞ ðñïóÝããéóç, áí ç áäñáíÞò ðåñßïäïò (äçëáäÞ ï ÷ñüíïò ìåôáîý ôïõ
event:egt êáé ôïõ event:ept) ãéá ìßá óõãêåêñéìÝíç åããñáöÞ, åßíáé áñêåôÜ ìåãÜëç
þóôå ï áñéèìüò ôùí óõãêñßóåùí ôçò áðëÞò ðñïóÝããéóçò óôçí áäñáíÞ ðåñßïäï íá
åßíáé ìåãáëýôåñïò áðü ôïí áêñéâÞ õðïëïãéóìü ôçò âáèìïëïãßáò. Ðéï óõãêåêñé-
ìÝíá, ç áäñáíÞò ðåñßïäïò ðñÝðåé íá åßíáé ôïõëÜ÷éóôïí W /2. Ãéá íá ôï áðïóá-
öçíßóïõìå, èá åîåôÜóïõìå Ýíá ðáñÜäåéãìá. ÕðïèÝóôå üôé ôï ìÞêïò êéíïýìåíïõ
ðáñáèýñïõ W åßíáé 1000. ¸íáò áêñéâÞò õðïëïãéóìüò ôçò âáèìïëïãßáò ìßáò
åããñáöÞò ti áðáéôåß 1000 óõãêñßóåéò. Óôçí áðëÞ ðñïóÝããéóç, ï áñéèìüò ôùí óõ-
ãêñßóåùí ãéá ôçí ti åßíáé 2 óå êÜèå åíçìÝñùóç, ìßá óýãêñéóç ãéá ôç íÝá åããñáöÞ
êáé ìßá óýãêñéóç ãéá ôç ëçãìÝíç åããñáöÞ. ÅðïìÝíùò, ôï ðëÞèïò ôùí óõãêñß-
óåùí ãéá ôç äéÜñêåéá ôçò áäñáíïýò ðåñéüäïõ åßíáé (eventi :ept − eventi :egt)·2. Ãé'
8.3. ÐÑÏÔÅÉÍÏÌÅÍÇ ÌÅÈÏÄÏÓ 171

áõôü, (eventi :epteventi :egt) · 2 ≥ W ⇒ (eventi :ept − eventi :egt) ≥ W=2. Óôç
óõíÝ÷åéá óõæçôïýìå ðùò ìðïñïýìå íá êÜíïõìå ðéï áðïäïôéêÞ ôçí ðñïóÝããéóç
ôùí ãåãïíüôùí.
¼ðùò Þäç ðåñéãñÜöçêå, ç ÷ñïíéêÞ óôéãìÞ event:ept õðïëïãßæåôáé èåùñþíôáò
ôç ÷åéñüôåñç ðåñßðôùóç. ÕðïèÝôïõìå üôé ç kscore åëáôôþíåôáé êáôÜ Ýíá óå êÜèå
åíçìÝñùóç, ðïõ óçìáßíåé üôé ç k-ïóôÞ åããñáöÞ ôïõ top-k êõñéáñ÷åß óå üëåò ôéò
ëçãìÝíåò åããñáöÝò áëëÜ óå êáìßá áðü ôéò íÝåò åããñáöÝò ðïõ Ýñ÷ïíôáé ìåôáîý
ôïõ ÷ñüíïõ event:egt êáé ôïõ ÷ñüíïõ event:ept. ¼ôáí óõìâåß Ýíá ãåãïíüò, ìðï-
ñïýìå íá õðïëïãßóïõìå êáé ðÜëé ôï ãåãïíüò áðïöåýãïíôáò ôïí õðïëïãéóìü ôçò
âáèìïëïãßáò ôçò åããñáöÞò, áñêåß íá óõíôçñïýìå åíçìåñùìÝíåò ôéò âáèìïëïãßåò
ôùí top-k dominating åããñáöþí. ÐñïóÝîôå üôé ôï êüóôïò íá åíçìåñþíïõìå
k âáèìïëïãßåò åßíáé ìéêñü áöïý ãåíéêÜ éó÷ýåé üôé k ¿ W . Ãéá íá õðïëïãß-
óïõìå îáíÜ ôï ÷ñüíï ôïõ ãåãïíüôïò, áðáéôåßôáé ç âáèìïëïãßá ôçò åããñáöÞò.
Äåí ãíùñßæïõìå ôç âáèìïëïãßá ôçò åããñáöÞò, áëëÜ ìðïñïýìå íá õðïëïãßóïõìå
Ýíá Üíù üñéï. Ç âáèìïëïãßá ôçò åããñáöÞò ti åßíáé ìéêñüôåñç áðü Þ ßóç ìå
eventi :score + eventi :ept − eventi :egt. ×ñçóéìïðïéïýìå áõôü ôï Üíù üñéï ùò ôç
âáèìïëïãßá ti :score óôçí Åîßóùóç 8.1.
Ãéá íá áðïóáöçíßóïõìå ôïí õðïëïãéóìü ôçò ÷ñïíéêÞò óôéãìÞò ôïõ ãåãïíüôïò,
äßíïõìå Ýíá ðáñÜäåéãìá. Ç Åéêüíá 8.3 äåß÷íåé Ýíá êéíïýìåíï ðáñÜèõñï ìÞêïõò
W =10 ìå åããñáöÝò ìßáò äéÜóôáóçò. Ôï ðëÞèïò ôùí åíåñãþí åããñáöþí åßíáé
ìåôáîý ôïõ 1 êáé 10. Ï ïñéæüíôéïò Üîïíáò áíáðáñéóôÜ ôï ÷ñüíï. Ç ôñÝ÷ïõóá
÷ñïíéêÞ óôéãìÞ ct åßíáé 10. Ãéá k=3, ïé top-3 dominating åããñáöÝò åßíáé t3 ; t8
êáé t10 , åíþ ïé áíôßóôïé÷åò âáèìïëïãßåò ôïõò åßíáé 8, 7 êáé 9. Ï åëÜ÷éóôïò
÷ñüíïò ëÞîçò ôùí top-k dominating åããñáöþí åßíáé minExp=3+10=13, åíþ ç
k-ïóôÞ âáèìïëïãßá åßíáé kscore=7. Áò õðïëïãßóïõìå ôá ãåãïíüôá ôùí t9 êáé t7 .

d
t9 t 12
10
t1
9
t6
8
t7
7
t2 t 11
6
t4
5
t5
4
t8
3
t3
2
t 10
1

1 2 3 4 5 6 7 8 9 10 11 12 time

EIKONA 8.3. ÐáñÜäåéãìá õðïëïãéóìïý ÷ñïíéêÞò óôéãìÞò ãåãïíüôïò.


172 ÊÅÖÁËÁÉÏ 8. ÓÕÍÅ×ÇÓ ÅÐÅÎÅÑÃÁÓÉÁ TOP-K DOMINATING ÅÑÙÔÇÌÁÔÙÍ

Ïé âáèìïëïãßåò ôïõò åßíáé t9 :score=0 êáé t7 :score=3. Ôï ãåãïíüò ôçò t9 åßíáé


event9 :ept = min(d(7−0)=2e+10; 13) = 13; event9 :egt = 10 êáé event9 :score=0.
Ôï ãåãïíüò ôçò t7
åßíáé event7 :ept = min(d(7 − 3)=2e + 10; 13) = 12, event7 :egt = 10 êáé
event7 :score = 3. ÕðïèÝóôå ôþñá üôé óõìâáßíïõí äýï åíçìåñþóåéò, åíþ ç ôñÝ-
÷ïõóá ÷ñïíéêÞ óôéãìÞ åßíáé ct=12. Ïé ðñþôåò äýï åããñáöÝò Ý÷ïõí ëÞîåé, åðïìÝ-
íùò ôï ðëÞèïò ôùí åíåñãþí åããñáöþí åßíáé ìåôáîý ôïõ 3 êáé 12. Ç åããñáöÞ t7
ðñÝðåé íá åîåôáóèåß åöüóïí event7 :ept = ct. Ðñïóðáèïýìå íá õðïëïãßóïõìå êáé
ðÜëé ôç ÷ñïíéêÞ óôéãìÞ ôïõ ãåãïíüôïò ôçò åããñáöÞò t7 . Ôï Üíù üñéï ôçò åêôßìç-
óçò ôçò âáèìïëïãßáò åßíáé t7 :score ≤ event7 :score + event7 :ept − event7 :egt =
3 + 12 − 10 = 5. ×ñçóéìïðïéïýìå áõôü ôï Üíù üñéï ãéá íá õðïëïãßóïõìå
îáíÜ ôç ÷ñïíéêÞ óôéãìÞ ôïõ ãåãïíüôïò. Ç kscore ðáñáìÝíåé 7. ÅðïìÝíùò
event7 :ept = min(d(7 − 5)=2e + 12; 13) = 13, event7 :egt=12 êáé event7 :score=5.
Åßíáé öáíåñü áðü ôçí Åîßóùóç 8.1, üôé èá ðñÝðåé Ýíá ìåãÜëï ðëÞèïò ãåãïíü-
ôùí íá åîåôáóèåß óôï ÷ñüíï ëÞîçò ìßáò top-k åããñáöÞ. Óôçí ðñáãìáôéêüôçôá,
üëåò ïé åããñáöÝò ðïõ äåí åßíáé ìÝñïò ôïõ top-k èá Ý÷ïõí Ýíá ãåãïíüò óå áõôü
ôï ÷ñüíï, ïðüôå èá áðáéôïýíôáé ðïëëïß áêñéâïß õðïëïãéóìïß âáèìïëïãßáò ïäç-
ãþíôáò óå õðïâÜèìéóç ôçò áðüäïóçò. Óôçí åðüìåíç åíüôçôá åîåôÜæïõìå ôïí
áðïäïôéêü õðïëïãéóìü ôçò ÷ñïíéêÞò óôéãìÞò åíüò ãåãïíüôïò. Óôçí ðñïôåéíü-
ìåíç ìÝèïäï, ôá ãåãïíüôá áðïèçêåýïíôáé óå Ýíá óùñü. Ç ÷ñïíéêÞ óôéãìÞ ôïõ
ãåãïíüôïò ÷ñçóéìïðïéåßôáé ùò êëåéäß ãéá ôçí ðñïôåñáéüôçôá êáé êáôÜôáîç ôùí
åããñáöþí óôï óùñü, áöïý åíäéáöåñüìáóôå íá ôá åîåôÜóïõìå ìå áõôÞ ôç óåéñÜ.
ÊÜèå åéóáãùãÞ óôï óùñü ðåñéÝ÷åé ôçí ðëçñïöïñßá åíüò ãåãïíüôïò, üðùò ðåñé-
ãñÜöçêå ðñïçãïõìÝíùò.
Ãéá ôïí õðïëïãéóìü ôçò ÷ñïíéêÞò óôéãìÞò åíüò ãåãïíüôïò, õðïèÝóáìå üôé
ãíùñßæïõìå ôç âáèìïëïãßá ôçò åããñáöÞò Þ ôïõëÜ÷éóôïí ãíùñßæïõìå ìßá åêôß-
ìçóç ôçò. ¼ìùò, óôçí ðåñßðôùóç ôùí ñïþí, íÝåò åããñáöÝò Ýñ÷ïíôáé óõíå÷þò
êáé äåí õðÜñ÷åé êáìßá ðëçñïöïñßá ãéá ôéò âáèìïëïãßåò ôïõò. ÐñïêåéìÝíïõ íá
áðïöýãïõìå ôïí õðïëïãéóìü âáèìïëïãßùí áðü ôçí áñ÷Þ, ðñïóðáèïýìå íá âñïýìå
Ýíá Üíù üñéï ãéá áõôÝò. Ç âáóéêÞ éäÝá åßíáé íá âñïýìå ìßá åããñáöÞ ti , ç ïðïßá:
(á) êõñéáñ÷åß óôç íÝá åããñáöÞ tnew , (â) äåí åßíáé ìÝñïò ôïõ top-k, êáé (ã) Ý÷åé
ãåãïíüò. Óõìâïëßæïõìå áõôÞ ôçí åããñáöÞ ùò \êáëÞ" åããñáöÞ.
Áí õðÜñ÷åé ìßá åããñáöÞ ti ðïõ êáëýðôåé ôá ðñïçãïýìåíá ôñßá êñéôÞñéá, ôüôå
ìðïñïýìå íá õðïëïãßóïõìå Ýíá Üíù üñéï ôçò âáèìïëïãßáò ôçò tnew , êáé íá
÷ñçóéìïðïéÞóïõìå áõôü ôï Üíù üñéï ùò ôç âáèìïëïãßá tnew :score óôçí Åîß-
óùóç 8.1, ðñïêåéìÝíïõ íá õðïëïãßóïõìå ôç ÷ñïíéêÞ óôéãìÞ ôïõ ãåãïíüôïò ôçò
tnew . Áí ct åßíáé ç ôñÝ÷ïõóá ÷ñïíéêÞ, ôï Üíù üñéï ôçò âáèìïëïãßáò ôçò ti
åßíáé eventi :score + ct − eventi :egt. Åöüóïí, ç ti êõñéáñ÷åß óôçí tnew , ôüôå
tnew :score ≤ ti :score − 1 ⇒ tnew :score ≤ eventi :score + ct − eventi :egt − 1.
ÐñïóÝîôå üôé, ìéêñüôåñï Üíù üñéï ôçò âáèìïëïãßáò Ý÷åé ùò áðïôÝëåóìá óå ìå-
ãáëýôåñç áäñáíÞ ðåñßïäï. Áí äåí õðÜñ÷åé êÜðïéá åããñáöÞ ðïõ íá éêáíïðïéåß áõôÜ
8.3. ÐÑÏÔÅÉÍÏÌÅÍÇ ÌÅÈÏÄÏÓ 173

ôá êñéôÞñéá, ôüôå ðñÝðåé íá õðïëïãßóïõìå ôç âáèìïëïãßá ìßáò íÝáò åããñáöÞò áðü


ôçí áñ÷Þ (äçëáäÞ, íá ðñáãìáôïðïéÞóïõìå Ýíáí áêñéâÞ õðïëïãéóìü âáèìïëïãßáò).
Ãéá íá âñïýìå ìßá åããñáöÞ ðïõ êõñéáñ÷åß óôç íÝá åããñáöÞ, åñåõíïýìå óôá
êåëéÜ ôïõ ðëÝãìáôïò, ôá ïðïßá êõñéáñ÷ïýí ìåñéêþò Þ ðëÞñùò óôï êåëß c ðïõ
ðåñéÝ÷åé ôç íÝá åããñáöÞ. ÁõôÜ ôá êåëéÜ âñßóêïíôáé óôçí êÜôù-áñéóôåñÞ ðåñéï÷Þ
óå ó÷Ýóç ìå ôçí åðÜíù-äåîéÜ ãùíßá ôïõ c. Èõìçèåßôå üôé åíäéáöåñüìáóôå ãéá ìßá
åããñáöÞ ìå ìéêñÞ âáèìïëïãßá. ¸íáò áðïäïôéêüò ôñüðïò ðñïóäéïñéóìïý ìßáò
åããñáöÞò ðïõ êõñéáñ÷åß óôç íÝá åããñáöÞ êáé Ý÷åé ôç ìéêñüôåñç âáèìïëïãßá,
åßíáé íá ÷ñçóéìïðïéÞóïõìå ìßá äéÜó÷éóç ðïõ ðñïóïìïéþíåé ôçí êßíçóç ôïõ öéäéïý,
îåêéíþíôáò áðü ôï êåëß c ðñïò ôï êåëß c1 .
Ç Åéêüíá 8.4 äåß÷íåé Ýíá ðáñÜäåéãìá áõôÞò ôçò äéÜó÷éóçò. ÕðïèÝóôå ìßá íÝá
åããñáöÞ tnew ðïõ åéóÜãåôáé óôï êåëß c11 . Ç äéÜó÷éóç îåêéíÜ áðü ôï êåëß ìå ôç
íÝá åããñáöÞ tnew . Ãéá íá ðñïóäéïñßóïõìå ôá êåëéÜ ðïõ èá åðéóêåöèïýìå ìåôÜ,
ìðïñïýìå íá ÷ñçóéìïðïéÞóïõìå ôéò èÝóåéò ôùí êåëéþí óå êÜèå äéÜóôáóç. Ôï
Üèñïéóìá S ôùí èÝóåùí åíüò êåëéïý êáèïñßæåé ôç óåéñÜ äéÜó÷éóçò. ¸íá êåëß ìå
õøçëüôåñï S ðñÝðåé íá åîåôáóèåß ðñéí áðü Ýíá êåëß ìå ÷áìçëüôåñï S . ÌåôÜ ôï
êåëß c11 (S =6), ôá åðüìåíá êåëéÜ ðïõ ðñÝðåé íá åðéóêåöèïýìå åßíáé ôï c7 êáé ôï
c10 (S =5). Ç óåéñÜ äéÜó÷éóçò ìåôáîý êåëéþí ìå ßóï S ìðïñåß íá åßíáé ôõ÷áßá.
ÌåôÜ, åðéóêåðôüìáóôå ôá êåëéÜ c3 ; c6 êáé c9 (S =4). Ç äéÜó÷éóç óõíå÷ßæåôáé
ìÝ÷ñé åßôå íá âñåèåß ìßá åããñáöÞ ðïõ êáëýðôåé ôá ôñßá êñéôÞñéá Þ íá åîåôÜóïõìå
êáé ôï ðñþôï êåëß (S =1).

d2
c13 c 14 c 15 c 16
4 t10 t t 12
11
c9 c10 c11 c12
3 t t8
7
t9
c5 c6 c7 c8
t6
2 t4 t5
c1 c2 c3 c4
1 t2 t1 t3
1 2 3 4 d1

EIKONA 8.4. ÓåéñÜ äéÜó÷éóçò êßíçóçò öéäéïý.

Óôá top-k dominating åñùôÞìáôá äåí ìðïñïýìå íá áðïññßøïõìå åããñáöÝò


óå áíôßèåóç ìå ôá skyline êáé top-k åñùôÞìáôá, áöïý ç äýíáìç êõñéáñ÷ßáò ôùí
åããñáöþí åîáñôÜôáé áðü Üëëåò åããñáöÝò. ÅðïìÝíùò, ç ÷ñçóéìïðïéïýìåíç äïìÞ
äåéêôïäüôçóçò ðåñéÝ÷åé üëåò ôéò åããñáöÝò ôïõ êéíïýìåíïõ ðáñáèýñïõ. Áðü ôçí
174 ÊÅÖÁËÁÉÏ 8. ÓÕÍÅ×ÇÓ ÅÐÅÎÅÑÃÁÓÉÁ TOP-K DOMINATING ÅÑÙÔÇÌÁÔÙÍ

Üëëç, ôá ãåãïíüôá ìðïñïýí íá áðïññéöèïýí, áí ç ÷ñïíéêÞ óôéãìÞ ôïõ ãåãïíüôïò


ìßáò åããñáöÞò åßíáé ìåôÜ ôï ÷ñüíï ëÞîçò ôçò åããñáöÞò. ÐñïóÝîôå, üôé üëåò ïé
åããñáöÝò, åêôüò áðü áõôÝò ðïõ ðåñéÝ÷ïíôáé óôï top-k, Ý÷ïõí óõó÷åôéæüìåíá ãå-
ãïíüôá. Ìðïñïýìå íá åëáôôþóïõìå ôçí êáôáíÜëùóç ìíÞìçò áðïññßðôïíôáò ôá
êáôÜëëçëá ãåãïíüôá, áëëÜ áõôü èá åðçñåÜóåé ôïí õðïëïãéóìü ôïõ Üíù ïñßïõ ôçò
âáèìïëüãçóçò ìßáò íÝáò åããñáöÞò, äéüôé ëéãüôåñåò \êáëÝò" åããñáöÝò èá åßíáé
äéáèÝóéìåò. Áõôü èá åðéöÝñåé åðéðñüóèåôïõò áêñéâåßò õðïëïãéóìïýò âáèìïëïãßáò.
Áõôü åßíáé Ýíáò óõìâéâáóìüò ìåôáîý ôçò êáôáíÜëùóçò ìíÞìçò êáé ôïõ ÷ñüíïõ
áðüêñéóçò ôïõ áëãïñßèìïõ. Óôá ðåéñÜìáôá, èá åîåôÜóïõìå ôçí áðüäïóç ôçò ðñï-
ôåéíüìåíçò ìåèüäïõ óôçí ðåñßðôùóç ðïõ ÷ñçóéìïðïéåßôáé ç áðüññéøç ãåãïíüôùí.
¼ëåò ïé ðñïçãïýìåíåò ðáñáôçñÞóåéò óõíïøßæïíôáé óôçí ðñïôåéíüìåíç ìÝèïäï.
Ï øåõäïêþäéêáò ôïõ áëãïñßèìïõ áðåéêïíßæåôáé óôçí Åéêüíá 8.5. Ãéá êÜèå åíçìÝ-
ñùóç, åöáñìüæåôáé Ýíáò áñéèìüò ëåéôïõñãéþí. Ðñþôá, åíçìåñþíåôáé ôï ðëÝãìá
(ÃñáììÞ 1). Åöüóïí ÷ñçóéìïðïéåßôáé Ýíá êáíïíéêü ðëÝãìá, åßíáé åýêïëï íá
âñïýìå ôï êåëß üðïõ áíÞêåé ç åããñáöÞ. Ç ëçãìÝíç åããñáöÞ äéáãñÜöåôáé êáé ç
íÝá åéóÜãåôáé. Óôç óõíÝ÷åéá, åíçìåñþíïíôáé ïé âáèìïëïãßåò ôùí top-k dominat-
ing åããñáöþí (ÃñáììÞ 2).
ÌåôÜ, îåêéíÜ ç åðåîåñãáóßá ôçò íÝá åããñáöÞò tnew ðñïêåéìÝíïõ íá äéáðé-
óôþóïõìå áí ðñÝðåé íá åéóá÷èåß óôï top-k (ÃñáììÝò 3-8). Êáëåßôáé ç äéáäéêáóßá
findGoodT uple. ÁõôÞ ç äéáäéêáóßá ðñïóðáèåß íá âñåé ìßá åããñáöÞ ðïõ êõñéáñ÷åß
óôç íÝá, äåí åßíáé ìÝñïò ôïõ top-k êáé Ý÷åé Ýíá óõó÷åôéæüìåíï ãåãïíüò. ÅðéóôñÝ-
öåé ôï ãåãïíüò áõôÞò ôçò åããñáöÞò. Ç óåéñÜ äéÜó÷éóçò ðñïóïìïéþíåé ôçí êßíçóç
öéäéïý áðü ôï êåëß ôçò íÝáò åããñáöÞò, üðùò ðåñéãñÜöçêå ðñïçãïõìÝíùò. Áí äåí
õðÜñ÷åé ìßá åããñáöÞ ðïõ êáëýðôåé êáé ôá ôñßá êñéôÞñéá, åðéóôñÝöåé Ýíá ôå÷íçôü
ãåãïíüò ðñïêåéìÝíïõ íá ðñïêáëÝóåé ôïí áêñéâÞ õðïëïãéóìü ôçò âáèìïëïãßáò. Áí
ôï Üíù üñéï ôçò âáèìïëïãßáò åßíáé ìåãáëýôåñï áðü Þ ßóï ìå ôçí kscore, ôüôå ç
âáèìïëïãßá ôçò íÝáò åããñáöÞò õðïëïãßæåôáé áêñéâþò êáé åéóÝñ÷åôáé óôï top-k áí
ç âáèìïëïãßá ôçò åßíáé áñêåôÜ ìåãÜëç. ÄéáöïñåôéêÜ, õðïëïãßæåôáé ôï ãåãïíüò
ôçò íÝáò åããñáöÞò ÷ñçóéìïðïéþíôáò ôç óõíÜñôçóç computeEventT ime.
Ç óõíÜñôçóç computeEventT ime (ÃñáììÝò 19-26) ðáßñíåé ôñåéò ðáñáìÝ-
ôñïõò: (á) ôï id ôçò åããñáöÞò, (â) ôç score ôçò (ðñáãìáôéêÞ Þ åêôßìçóç Üíù
ïñßïõ), êáé (ã) ôçí ôñÝ÷ïõóá ÷ñïíéêÞ óôéãìÞ ct. Ðñþôá, õðïëïãßæåé ôç ÷ñïíéêÞ
óôéãìÞ ôïõ ãåãïíüôïò êáé ìåôÜ, áí áõôüò ï ÷ñüíïò åßíáé ìåãáëýôåñïò áðü Þ ßóïò
ìå ôçí ôñÝ÷ïõóá ÷ñïíéêÞ óôéãìÞ, åéóÜãåé ôï ãåãïíüò óôï óùñü. ÐñïóÝîôå üôé ç
÷ñïíéêÞ óôéãìÞ ôïõ ãåãïíüôïò åßíáé ìéêñüôåñç áðü ôçí ôñÝ÷ïõóá ÷ñïíéêÞ óôéãìÞ,
áí ç ðáñÜìåôñïò score åßíáé ìåãáëýôåñç ôçò kscore. ÅðïìÝíùò, óôç ÃñáììÞ 8,
Ýíá ãåãïíüò ðÜíôá åéóÜãåôáé óôï óùñü, äéüôé åßôå ç åêôßìçóç Üíù ïñßïõ åßíáé
ìéêñüôåñç ôçò kscore (ÃñáììÞ 5) Þ ç áêñéâÞò âáèìïëïãßá åßíáé ìéêñüôåñç ôçò
kscore (ÃñáììÞ 7).
ÔÝëïò, åðåîåñãáæüìáóôå üëá ôá ãåãïíüôá ðïõ ç ÷ñïíéêÞ ôïõò óôéãìÞ åßíáé
ßóç ìå ôçí ôñÝ÷ïõóá ÷ñïíéêÞ óôéãìÞ (ÃñáììÝò 9-18). Ãéá êÜèå ãåãïíüò cevi , ðñï-
8.3. ÐÑÏÔÅÉÍÏÌÅÍÇ ÌÅÈÏÄÏÓ 175

Algorithm UpdateTopk(tnew , ct)


tnew : new tuple
ct: current time

1. update grid
2. update scores of top-k dominating tuples
3. event ev = findGoodT uple()
4. tnew :score = ev:score + ct − ev:egt
5. if tnew :score ≥ kscore then
6. compute tnew :score from scratch
7. if tnew :score ≥ kscore then insert tnew in top-k
8. if tnew ∈= top-k then computeEventT ime(new; tnew :score; ct)
9. event cevi = RemoveT opHeap()
10. while cevi :ept = ct
11. if top-k tuples ≤ k then
12. score = cevi :score + cevi :ept − cevi :egt
13. computeEventT ime(i; score; ct)
14. if cevi is not recomputed then
15. compute ti :score from scratch
16. if ti :score ≥ kscore then insert ti in top-k
17. else computeEventT ime(i; ti :score; ct)
18. event cevi = RemoveT opHeap()

19. function computeEventT ime(id; score; ct)


20. minExp = minimum expiration time of top-k tuples
21. eventid :ept = min(d(kscore − score)=2e + ct); minExp)
22. if eventid :ept ≥ ct then
23. eventid :egt = ct
24. eventid :score = score
25. InsertEventHeap(eventid )
26. end

EIKONA 8.5. ÐåñéãñáöÞ áëãïñßèìïõ UpdateTopk.

óðáèïýìå íá õðïëïãßóïõìå îáíÜ ôç ÷ñïíéêÞ ôïõ óôéãìÞ ÷ñçóéìïðïéþíôáò ôï Üíù


üñéï ôçò âáèìïëïãßáò ti (ÃñáììÝò 12-13). Áí ôï ãåãïíüôïò åéóá÷èåß åê íÝïõ óôï
óùñü, åîåôÜæïõìå ôï åðüìåíï ãåãïíüò, áëëéþò áí ç åêôßìçóç ôïõ Üíù ïñßïõ äåí
åßíáé áñêåôÜ êáëÞ, ôüôå åßíáé ðéèáíü ç ÷ñïíéêÞ óôéãìÞ ðïõ õðïëïãßóáìå ãéá ôï
ãåãïíüò íá åßíáé ìéêñüôåñç ôçò ôñÝ÷ïõóáò ÷ñïíéêÞò óôéãìÞò. Óå áõôÞ ôçí ðåñß-
ðôùóç, ðñï÷ùñïýìå óôïí áêñéâÞ õðïëïãéóìü ôçò âáèìïëïãßáò ôïõ ti êáé åßôå ç ti
åéóÜãåôáé óôï top-k, Þ ç ÷ñïíéêÞ óôéãìÞ ôïõ ãåãïíüôïò õðïëïãßæåôáé îáíÜ âáóé-
176 ÊÅÖÁËÁÉÏ 8. ÓÕÍÅ×ÇÓ ÅÐÅÎÅÑÃÁÓÉÁ TOP-K DOMINATING ÅÑÙÔÇÌÁÔÙÍ

æüìåíç óôçí áêñéâÞ âáèìïëïãßá êáé ü÷é óôï Üíù üñéï (ÃñáììÝò 14-17). Ç ÃñáììÞ
11 åëÝã÷åé ôç ëÞîç ìßáò top-k dominating åããñáöÞò. Áí ìßá top-k dominating
åããñáöÞ Ý÷åé ëÞîåé ôçí ôñÝ÷ïõóá ÷ñïíéêÞ óôéãìÞ ct, ç kscore äåí åíçìåñþíåôáé
êáé åðïìÝíùò äåí ðñÝðåé íá ðñïóðáèÞóïõìå íá õðïëïãßóïõìå ÷ñïíéêÝò óôéãìÝò
ãåãïíüôùí. Óôçí ðñáãìáôéêüôçôá, óå áõôÞ ôçí ðåñßðôùóç èÝôïõìå kscore ßóï
ìå -1, ðñïêåéìÝíïõ íá åîáíáãêÜóïõìå ôçí åéóáãùãÞ ïðïéáóäÞðïôå åããñáöÞò óôï
top-k. Õðïëïãßæåôáé ç áêñéâÞò âáèìïëïãßá ôçò åããñáöÞò ôïõ ðñþôïõ åîåôáæü-
ìåíïõ ãåãïíüôïò êáé ç åããñáöÞ åéóÜãåôáé óôï top-k. ÌåôÜ, ðñïóðáèïýìå íá
õðïëïãßóïõìå îáíÜ ôéò ÷ñïíéêÝò óôéãìÝò ôùí õðüëïéðùí ãåãïíüôùí.

8.4 ÂåëôéóôïðïéÞóåéò
Ç ðñïôåéíüìåíç ìÝèïäïò Ý÷åé äýï ìåéïíåêôÞìáôá. Ôï ðñþôï åßíáé üôé üëåò ïé
åããñáöÝò, ðïõ äåí åßíáé ìÝñïò ôïõ top-k, ðñÝðåé íá åîåôáóèïýí óôï ÷ñüíï ëÞîçò
ìßáò top-k dominating åããñáöÞò. ÅðéðëÝïí, ï õðïëïãéóìüò ÷ñïíéêþí óôéãìþí
ãåãïíüôùí äßíåé Ýíá ìåãÜëï áñéèìü ãåãïíüôùí êáé ìüíï Ýíá ìéêñü ðïóïóôü áõ-
ôþí èá ðñïêáëÝóåé êÜðïéá áëëáãÞ óôï top-k. Ôï äåýôåñï åßíáé üôé åßíáé ðéèáíü
êÜðïéåò åããñáöÝò íá Ý÷ïõí âáèìïëïãßá êïíôÜ óôçí kscore ïäçãþíôáò óå äéáäï-
÷éêïýò áêñéâåßò õðïëïãéóìïýò âáèìïëïãßáò. Óôéò åðüìåíåò åíüôçôåò óõæçôïýìå
äýï âåëôéóôïðïéÞóåéò ðñïêåéìÝíïõ íá îåðåñáóèïýí áõôÜ ôá äýï ìåéïíåêôÞìáôá.

8.4.1 ÅîåëéãìÝíïò õðïëïãéóìüò ÷ñïíéêÞò óôéãìÞò ãåãïíü-


ôïò
Ç êáßñéá ðáñáôÞñçóç ãéá Ýíá áðïäïôéêüôåñï õðïëïãéóìü ôçò ÷ñïíéêÞò óôéãìÞò
ãåãïíüôïò âáóßæåôáé óôï ãåãïíüò üôé áí õðÜñ÷ïõí êÜðïéåò åããñáöÝò ðïõ êõ-
ñéáñ÷ïýí óå ìßá åããñáöÞ ti , ç ti ìðïñåß íá åßíáé ìÝñïò ôïõ top-k ìüíï áí áõôÝò
ïé åããñáöÝò åßíáé Þäç óôï top-k Þ Ý÷ïõí Þäç ëÞîåé. ÕðïèÝóôå üôé ç åããñáöÞ ti
êõñéáñ÷åßôáé áðü n åããñáöÝò ðïõ äåí åßíáé ìÝñïò ôïõ top-k êáé ëÞãïõí ìåôÜ ôçí
ti . Ôüôå ìðïñïýìå íá ôñïðïðïéÞóïõìå ôçí Åîßóùóç 8.1 ùò åîÞò.

ÐÑÏÔÁÓÇ 8.2 (ÁóöáëÞò ÷ñïíéêÞ ðåñßïäïò (åîåëéãìÝíïò õðïëïãéóìüò)). Äåäï-


ìÝíïõ ôïõ n-ïóôïý ìéêñüôåñïõ ÷ñüíïõ ëÞîçò ìßáò top-k dominating åããñáöÞò
minExpn (0 ≤ n < k) êáé ôçò ôñÝ÷ïõóáò ÷ñïíéêÞò óôéãìÞò ct, ìßá åããñáöÞ
ti ìå âáèìïëïãßá ti :score äåí ìðïñåß íá ãßíåé ìÝñïò ôïõ top-k óå äéáäï÷éêÝò
÷ñïíéêÝò ìïíÜäåò ëéãüôåñåò áðü:
min(d(topk−n :score − ti :score)=2e; minExpn − ct) (8.2)
ÁÐÏÄÅÉÎÇ. Ðáñüìïéá ìå ôçí Åîßóùóç 8.1, åßíáé áñêåôü íá áðïäåßîïõìå üôé ç ti
ìðïñåß íá ãßíåé ìÝñïò ôïõ top-k áí ôïõëÜ÷éóôïí n+1 top-k åããñáöÝò ëÞîïõí Þ
8.4. ÂÅËÔÉÓÔÏÐÏÉÇÓÅÉÓ 177

ç ti :score îåðåñÜóåé ôçí (k-n)-ïóôÞ âáèìïëïãßá ôïõ top-k. Åöüóïí õðÜñ÷ïõí n


åããñáöÝò ðïõ êõñéáñ÷ïýí óôçí ti êáé ëÞãïõí ìåôÜ ôçí ti , áõôÝò ïé åããñáöÝò èá
Ý÷ïõí ðÜíôá ìåãáëýôåñç âáèìïëïãßá áðü ôçí ti êáôÜ ôç äéÜñêåéá ôçò æùÞò ôçò
êáé ãé' áõôü ç ti ìðïñåß íá åßíáé ìÝñïò ôïõ top-k ìåôÜ áðü ôçí åéóáãùãÞ áõôþí
ôùí åããñáöþí óôï top-k. Áí ëÞîïõí ëéãüôåñåò áðü n+1 top-k åããñáöÝò, üëåò
ïé äéáèÝóéìåò èÝóåéò óôï top-k ìðïñïýí íá êáëõöèïýí áðü áõôÝò ôéò n åããñáöÝò.
Ðáñïìïßùò, ç ti :score ðñÝðåé íá îåðåñÜóåé ôçí (k-n)-ïóôÞ âáèìïëïãßá ôïõ ôñÝ÷ï-
íôïò top-k, áëëéþò áõôÝò ïé n åããñáöÝò ðïõ Ý÷ïõí ìåãáëýôåñç âáèìïëïãßá áðü
ti :score, èá åéóá÷èïýí óôï top-k êáé åðïìÝíùò ç k-ïóôÞ âáèìïëïãßá èá áõîçèåß
êáé èá åßíáé ìåãáëýôåñç áðü ti :score. a

Ç Åîßóùóç 8.2 áíôéóôïé÷åß óôçí Åîßóùóç 8.1, áí n=0. ÄéáöïñåôéêÜ, ç Åîß-


óùóç 8.2 õðïëïãßæåé ðÜíôá ìåãáëýôåñåò áäñáíåßò ðåñéüäïõò êáé åðïìÝíùò ðáñÜãå-
ôáé ìéêñüôåñï ðëÞèïò ãåãïíüôùí. Áõôü óõìâáßíåé, ãéáôß ç topk−n :score ≥ kscore
(= topk :score), áöïý ôï top-k åßíáé ôáîéíïìçìÝíï ìå öèßíïõóá óåéñÜ ùò ðñïò ôç
âáèìïëïãßá. ¢ñá ôüóï ôï ðñþôï (d(topk−n :score − ti :score)=2e) üóï êáé ôï
(minExpn − ct) ôìÞìá åßíáé ðÜíôá ìåãáëýôåñá áðü Þ ßóá ìå ôá áíôßóôïé÷á ôìÞ-
ìáôá ôçò Åîßóùóçò 8.1.
Ãéá íá áðïóáöçíßóïõìå ôïí åîåëéãìÝíï õðïëïãéóìü ôçò ÷ñïíéêÞò óôéãìÞò
ãåãïíüôïò, èá åîåôÜóïõìå Ýíá ðáñÜäåéãìá. ÕðïèÝóôå ôéò åããñáöÝò ôçò Åéêüíáò
8.3. Ç ôñÝ÷ïõóá ÷ñïíéêÞ óôéãìÞ ct åßíáé 10. Ïé top-k dominating åããñáöÝò åßíáé
ïé t3 ; t8 êáé t10 êáé ïé áíôßóôïé÷åò âáèìïëïãßåò åßíáé 8, 7 êáé 9. Óýìöùíá ìå ôçí
Åîßóùóç 8.1, ç ÷ñïíéêÞ óôéãìÞ ôçò åããñáöÞò t4 åßíáé event4 :ept = min(d(7 −
5)=2e + 10; 13) = 11. Ç åããñáöÞ t5 êõñéáñ÷åß óôçí t4 êáé ëÞãåé ìåôÜ áðü áõôÞ.
¢ñá n=1, ðïõ óçìáßíåé üôé ìðïñïýìå íá ÷ñçóéìïðïéÞóïõìå ôçí topk−1 :score
êáé ôï äåýôåñï ìéêñüôåñï ÷ñüíï ëÞîçò ôùí top-k dominating åããñáöþí. ¸ôóé,
event4 :ept = min(d(8 − 5)=2e + 10; 18) = 12.
ÐñïóÝîôå üôé, åíäéáöåñüìáóôå ìüíï ãéá ôï ðëÞèïò ôùí åããñáöþí n ðïõ ëÞ-
ãïõí ìåôÜ ôçí ti êáé ôçí êõñéáñ÷ïýí êáé ü÷é ãéá ôéò ßäéåò ôéò åããñáöÝò. Äåí
åßíáé ôåôñéììÝíï íá óõíôçñïýìå åíçìåñùìÝíç áõôÞ ôçí ðëçñïöïñßá. Ìßá áðëÞ
ðñïóÝããéóç åßíáé íá êñáôïýìå Ýíá ìåôñçôÞ ãéá êÜèå åããñáöÞ êáé ãéá êÜèå íÝá
åããñáöÞ ìðïñïýìå íá åíçìåñþíïõìå ôïõò ìåôñçôÝò. Ðéï óõãêåêñéìÝíá, áí ç íÝá
åããñáöÞ êõñéáñ÷åß óôçí åããñáöÞ ti , ôüôå áõîÜíïõìå ôï ìåôñçôÞ ôçò ti êáôÜ Ýíá.
ÁõôÞ ç ðñïóÝããéóç Ý÷åé ðáñüìïéá ðïëõðëïêüôçôá ìå áõôÞ ôçò åýñåóçò ôçò âáè-
ìïëïãßáò ôçò íÝáò åããñáöÞò ðïõ åßíáé O(W · D). Ãéá íá ôï áðïöýãïõìå áõôü,
ðñïóðáèïýìå íá õðïëïãßóïõìå Ýíá êÜôù üñéï ôçò n.
×ñçóéìïðïéïýìå Ýíá ìåôñçôÞ ãéá êÜèå åããñáöÞ t:counter êáé Ýíá ìåôñçôÞ
ãéá êÜèå êåëß c:counter. Ç äéáöïñÜ c:counter − t:counter äßíåé Ýíá êÜôù üñéï
ôçò ôéìÞò ôçò n ãéá ôçí åããñáöÞ t. Åîçãïýìå ðùò êñáôïýìå åíçìåñùìÝíïõò
ôïõò ìåôñçôÝò ìå ôç âïÞèåéá åíüò ðáñáäåßãìáôïò. ÕðïèÝóôå ôï ðëÝãìá åíüò
äéóäéÜóôáôïõ ÷þñïõ ôçò Åéêüíáò 8.6êáé õðïèÝóôå åðéðëÝïí üôé W =4 êáé k=1,
Ýôóé ç áðÜíôçóç ôïõ åñùôÞìáôïò åßíáé t1 . Ìßá íÝá åããñáöÞ t5 Ýñ÷åôáé, åíþ ëÞãåé
178 ÊÅÖÁËÁÉÏ 8. ÓÕÍÅ×ÇÓ ÅÐÅÎÅÑÃÁÓÉÁ TOP-K DOMINATING ÅÑÙÔÇÌÁÔÙÍ

ç t1 . ÁõîÜíïõìå êáôÜ Ýíá üëåò ôïõò ìåôñçôÝò ôùí êåëéþí ðïõ êõñéáñ÷ïýíôáé
ðëÞñùò áðü ôï êåëß ôçò t5 . ÁõôÜ åßíáé ôá êåëéÜ ìå ôéò äéáãþíéåò ãñáììÝò óôçí
Åéêüíá 8.6. Ôï êüóôïò áõôÞò ôçò äéáäéêáóßáò åßíáé åëÜ÷éóôï. ÅðéðëÝïí, èÝôïõìå
ôï ìåôñçôÞ ôçò íÝáò åããñáöÞò ßóï ìå ôï ìåôñçôÞ ôïõ êåëéïý ðïõ áíÞêåé áõôÞ
ç åããñáöÞ. Óå áõôü ôï ðáñÜäåéãìá t5 :counter = c6 :counter. Ãéá áõôÞ ôçí
åíçìÝñùóç, åíçìåñþèçêáí ïé ìåôñçôÝò ôùí êåëéþí êáé áñ÷éêïðïéÞèçêå ï ìåôñçôÞò
ôçò íÝáò åããñáöÞò.

d2
c13 c14 c15 c16
p 4
o
s c9 c10 c11 c12
t3
i 3 t2
t c5 c6 c7 c8
i 2 t5
o
n c1 t c2 c3 c4
4
s 1 t
1

1 2 3 4 d1

EIKONA 8.6. ÅîåëéãìÝíïò õðïëïãéóìüò ÷ñïíéêÞò óôéãìÞò ãåãïíüôïò.

ÐñïêåéìÝíïõ íá ÷ñçóéìïðïéÞóïõìå ôç äéáöïñÜ c:counter − t:counter ùò ôï


êÜôù üñéï ôçò n ãéá ôçí åããñáöÞ t, èá Ýðñåðå íá åíçìåñþóïõìå ôïõò ìåôñçôÝò
ôùí åããñáöþí üôáí óõìâáßíåé ìßá áëëáãÞ óôï top-k. Èõìçèåßôå üôé n åßíáé ôï
ðëÞèïò ôùí åããñáöþí ðïõ êõñéáñ÷ïýí óôçí åããñáöÞ t, ëÞãïõí ìåôÜ áðü áõôÞ êáé
äåí åßíáé ìÝñïò ôïõ top-k. Óôçí ðåñßðôùóç ðïõ ç åããñáöÞ ti åéóá÷èåß óôï top-k,
áõîÜíïõìå êáôÜ Ýíá ôïõò ìåôñçôÝò üëùí ôùí åããñáöþí ðïõ êõñéáñ÷ïýíôáé áðü
ôçí ti êáé ëÞãïõí ðñéí áðü áõôÞ, åíþ óôçí ðåñßðôùóç ìßáò äéáãñáöÞò óôï top-k,
ìåéþíïõìå êáôÜ Ýíá ôïõò ìåôñçôÝò áõôþí ôùí åããñáöþí. Óå áõôü ôï ðáñÜäåéãìá,
ç åããñáöÞ t4 åéóÜãåôáé óôï top-k. ÁõîÜíïõìå ôïõò ìåôñçôÝò ôùí åããñáöþí t2
êáé t3 , áöïý ç t4 ôéò êõñéáñ÷åß êáé ëÞãåé ìåôÜ áðü áõôÝò. Ðñéí ôçí åíçìÝñùóç,
Ý÷ïõìå t3 :counter = 1; c10 :counter = 2 êáé Üñá n=1 ãéá t3 (ëüãù ôçò t4 ). ÌåôÜ
ôçí åíçìÝñùóç, ï t3 :counter áõîÜíåé êáôÜ Ýíá (ëüãù ôçò åéóáãùãÞò ôçò t4 óôï
top-k) êáé Üñá n=0. ÐñïóÝîôå üôé ðñïóðáèïýìå íá âñïýìå Ýíá êÜôù üñéï ôçò
n. Ç ðñáãìáôéêÞ ôéìÞ ôçò n ãéá ôçí t3 ìåôÜ ôçí åíçìÝñùóç åßíáé 1 áöïý ç t5
êõñéáñ÷åß ôçí t3 , ëÞãåé ìåôÜ áðü áõôÞ êáé äåí åßíáé ìÝñïò ôïõ top-k. Áõôü èá
ïäçãÞóåé óôïí õðïëïãéóìü ìéêñüôåñçò áäñáíÞò ðåñéüäïõ áðü ôçí Åîßóùóç 8.2,
áëëÜ äåí èá ðñïêáëÝóåé ôçí áðþëåéá êÜðïéáò áðÜíôçóçò ôïõ åñùôÞìáôïò.
Ôï êüóôïò áõôÞò ôçò äéáäéêáóßáò äåí åßíáé ìéêñü, ãéáôß ðñÝðåé íá åëÝãîïõìå
üëåò ôéò åããñáöÝò ðïõ ëÞãïõí ðñéí ôçí åããñáöÞ ti êáé áíÞêïõí óôá ìåñéêþò
8.4. ÂÅËÔÉÓÔÏÐÏÉÇÓÅÉÓ 179

êõñéáñ÷ïýìåíá êåëéÜ, áëëÜ åðåéäÞ äåí óõìâáßíïõí óõ÷íÜ áëëáãÝò óôï top-k ôï
óõíïëéêü êüóôïò åßíáé ÷áìçëü.
¼ðùò ðåñéãñÜöçêå ðñïçãïõìÝíùò, ðñïóðáèïýìå íá åíçìåñþóïõìå ôï êÜôù
üñéï ôçò n ãéá ôçí åããñáöÞ t ÷ñçóéìïðïéþíôáò ìüíï ôéò åããñáöÝò ðïõ áíÞêïõí óå
êåëéÜ ðïõ êõñéáñ÷ïýíôáé ðëÞñùò áðü ôï êåëß ôçò t ðñïêåéìÝíïõ íá åëá÷éóôïðïéÞ-
óïõìå ôçí åðéâÜñõíóç ôçò ìåèüäïõ. Ìðïñïýìå íá õðïëïãßóïõìå Ýíá êáëýôåñï
êÜôù üñéï ôçò n áí ëÜâïõìå õðüøç êáé ôéò åããñáöÝò ðïõ êõñéáñ÷ïýíôáé ìåñéêþò
áðü ôï êåëß ôçò t. Óôçí ðåñßðôùóç üðïõ åßíáé áðáñáßôçôïò ï áêñéâÞò õðïëïãéóìüò
âáèìïëïãßáò ãéá ìßá åããñáöÞ ti , åëáôôþíïõìå êáôÜ Ýíá ôïõò ìåôñçôÝò üëùí ôùí
åããñáöþí ãéá ôéò ïðïßåò éó÷ýïõí ôá åîÞò: (á) áíÞêïõí óå êåëß ðïõ êõñéáñ÷åßôáé
ìåñéêþò áðü ôï êåëß ôçò ti , (â) ç ti ôéò êõñéáñ÷åß, êáé (ã) ç ti ëÞãåé ìåôÜ áðü
áõôÝò. Óôï ðáñÜäåéãìá ìáò, õðïèÝôïõìå üôé äåí ìðïñïýìå íá åêôéìÞóïõìå ôç
âáèìïëïãßá ôçò íÝáò åããñáöÞò t5 êáé åðïìÝíùò ðñáãìáôïðïéïýìå Ýíáí áêñéâÞ
õðïëïãéóìü ôçò âáèìïëïãßáò. Åëáôôþíïõìå ôï t3 :counter êáôÜ Ýíá, åðåéäÞ ç
t3 áíÞêåé óôï êåëß c10 ðïõ êõñéáñ÷åßôáé ìåñéêþò áðü ôï c6 ; çt5 êõñéáñ÷åß ôçí t3
êáé ç t5 ëÞãåé ìåôÜ ôçí t3 . ÅðïìÝíùò ç ôéìÞ ôçò n ãéá ôçí t3 åßíáé 1 (ëüãù ôçò
t5 ). ÐñïóÝîôå üôé áõôÞ ç äéáäéêáóßá äåí åðéâáñýíåé åðéðñüóèåôá ôç ìÝèïäï, äéüôé
åöáñìüæåôáé ðáñÜëëçëá ìå ôïõò áêñéâåßò õðïëïãéóìïýò âáèìïëïãßáò.

8.4.2 ÕðïøÞöéåò åããñáöÝò


¼ðùò áíáöÝñèçêå ðñïçãïõìÝíùò, Ýíá ìåéïíÝêôçìá ôçò ðñïôåéíüìåíçò ìåèüäïõ
åßíáé üôé áí õðÜñ÷ïõí êÜðïéåò åããñáöÝò ìå âáèìïëïãßá êïíôÜ óôçí kscore, ç
ðñïóÝããéóç ãåãïíüôùí äåí åßíáé áðïäïôéêÞ, åðåéäÞ ç ÷ñïíéêÞ óôéãìÞ ôïõ ãåãï-
íüôïò åßíáé óôï êïíôéíü ìÝëëïí êáé åðïìÝíùò èá ðñïêëçèïýí ðëÞèïò áêñéâþí
õðïëïãéóìþí âáèìïëïãßáò. Ôï ßäéï éó÷ýåé áêüìá êáé áí åöáñìïóèåß ï åîåëéãìÝ-
íïò õðïëïãéóìüò ÷ñïíéêÞò óôéãìÞò ãåãïíüôïò. ÁíáöÝñïõìå áõôÝò ôéò åããñáöÝò
ùò õðïøÞöéåò (candidate) åããñáöÝò. Ãéá íá îåðåñÜóïõìå áõôü ôï ðñüâëçìá, ðñï-
ôåßíïõìå ôç óõíå÷Þ áðïôßìçóç ôçò âáèìïëïãßáò ôùí õðïøÞöéùí åããñáöþí üðùò
êÜíåé ç áðëÞ ðñïóÝããéóç ãéá üëåò ôéò åããñáöÝò.
Ôï ðñüâëçìá åßíáé ðùò ðñïóäéïñßæïõìå ôéò õðïøÞöéåò åããñáöÝò. ¼ôáí õðïëï-
ãéóèåß ôï ãåãïíüò ìßáò åããñáöÞò t, áí ç ÷ñïíéêÞ óôéãìÞ ôïõ ãåãïíüôïò åßíáé óôï
êïíôéíü ìÝëëïí, åéóÜãïõìå ôçí åããñáöÞ t óôéò õðïøÞöéåò åããñáöÝò êáé äåí ÷ñç-
óéìïðïéïýìå ôï ãåãïíüò. ×ñçóéìïðïéïýìå Ýíá êáôþöëé nev ãéá íá áðïöáóßóïõìå
áí ç ÷ñïíéêÞ óôéãìÞ ãåãïíüôïò åßíáé êïíôÜ Þ ü÷é. Óôá ðåéñÜìáôÜ ìáò, èÝóáìå
nev=W /1000. Ãéá íá áðïöýãïõìå ìåãÜëï ðëÞèïò õðïøçößùí åããñáöþí, ÷ñçóé-
ìïðïéÞóáìå ìßá ðáñÜìåôñï ãéá íá äçëþóïõìå ôï ìÝãéóôï åðéôñåðüìåíï ðëÞèïò
õðïøÞöéùí åããñáöþí maxCand, ôçí ïðïßá èÝóáìå ßóç ìå 1% ôïõ ìåãÝèïõò ôïõ
êéíïýìåíïõ ðáñáèýñïõ. Ôï êáôþöëé nev ðñïóáñìüæåôáé áõôüìáôá. Ìåéþíåôáé áí
ôï ðëÞèïò ôùí õðïøÞöéùí åããñáöþí åßíáé ßóï ìå Þ ðåñéóóüôåñï áðü maxCand
êáé áõîÜíåôáé áí ðñïêáëïýíôáé ðïëëïß áêñéâåßò õðïëïãéóìïß âáèìïëïãßáò.
180 ÊÅÖÁËÁÉÏ 8. ÓÕÍÅ×ÇÓ ÅÐÅÎÅÑÃÁÓÉÁ TOP-K DOMINATING ÅÑÙÔÇÌÁÔÙÍ

8.5 ÁíÜëõóç áðüäïóçò


ÁõôÞ ç åíüôçôá áíáëýåé ôï êüóôïò êáé ôï ðëÞèïò ôùí áêñéâþí õðïëïãéóìþí
âáèìïëïãßáò, ðïõ åßíáé ôï ðéï ÷ñïíïâüñï ôìÞìá ôçò ðñïôåéíüìåíçò ìåèüäïõ. Ðá-
ñüìïéá ìå ðñïçãïýìåíåò áíáëõôéêÝò ìåèüäïõò [128], õðïèÝôïõìå üôé ïé åããñáöÝò
åßíáé ïìïéüìïñöá êáôáíåìçìÝíåò óå õðåñêýâï ìïíÜäá D äéáóôÜóåùí. Óôçí áêü-
ëïõèç óõæÞôçóç W åßíáé ï áñéèìüò ôùí åíåñãþí åããñáöþí, D åßíáé ôï ðëÞèïò
ôùí äéáóôÜóåùí êáé nc åßíáé ï áñéèìüò ôùí êåëéþí áíÜ äéÜóôáóç.
Ôï ðéï ÷ñïíïâüñï ôìÞìá ôïõ áëãïñßèìïõ åßíáé ï áêñéâÞò õðïëïãéóìüò âáè-
ìïëïãßáò. Ï áêñéâÞò õðïëïãéóìüò âáèìïëïãßáò ìßáò åããñáöÞò ti áðïôåëåßôáé
áðü äýï ëåéôïõñãßåò. Ðñþôá åíôïðßæïíôáé ôá ìåñéêþò êáé ðëÞñùò êõñéáñ÷ïýìåíá
êåëéÜ êáé ìåôÜ üëåò ïé åããñáöÝò ôùí ìåñéêþò êõñéáñ÷ïýìåíùí êåëéþí óõãêñß-
íïíôáé ìå ôçí åããñáöÞ ti . Ôï ðëÞèïò ôùí ìåñéêþò êáé ðëÞñùò êõñéáñ÷ïýìåíùí
êåëéþí åíüò êåëéïý åßíáé êáôÜ ìÝóï üñï:
D X nc µ ¶
1 Y nc + 1 D
· i= (8.3)
ncD j =1 i=1 2

ÅðïìÝíùò, ôï ðëÞèïò ôùí ìåñéêþò êõñéáñ÷ïýìåíùí êåëéþí åíüò êåëéïý åßíáé


êáôÜ ìÝóï üñï:
 
D nc D nc−1 µ ¶ µ ¶
1 Y X Y X  nc + 1 D nc − 1 D
· i i = − (8.4)
ncD j =1 i=1 j =1 i=1 2 2

ÊÜèå êåëß ðñïóðåëáýíåôáé óå O(1). Ôï ðëÞèïò ôùí åããñáöþí áíÜ êåëß åßíáé
W ëüãù ôçò ïìïéüìïñöçò êáôáíïìÞò. ÅðïìÝíùò, ãéá Ýíáí
ncD ³¡ áêñéâÞ
¢
õðïëïãéóìü´
¡ −1 ¢D
W nc+1 D
âáèìïëïãßáò åããñáöÞò, åëÝã÷ïõìå êáôÜ ìÝóï üñï 2D · nc − ncnc
åããñáöÝò.
Åßíáé öáíåñü, üôé ôï êüóôïò ôïõ áêñéâÞ õðïëïãéóìïý âáèìïëïãßáò åßíáé áðá-
ãïñåõôéêü, äéüôé ç ðïëõðëïêüôçôá ôçò áðëÞò ðñïóÝããéóçò åßíáé O(W ). Ùóôüóï,
ç ðñïôåéíüìåíç ìÝèïäïò ðåñéïñßæåé êáôÜ ðïëý ôï ðëÞèïò ôùí áêñéâþí õðïëïãé-
óìþí âáèìïëïãßáò. Ãé' áõôü, åßíáé åíäéáöÝñïí íá ìåëåôÞóïõìå ôçí ðéèáíüôçôá
íá ðñïêëçèåß Ýíáò áêñéâÞò õðïëïãéóìüò âáèìïëïãßáò óå êÜèå åíçìÝñùóç.
ÕðÜñ÷ïõí äýï ðåñéðôþóåéò, üðïõ åöáñìüæåôáé áêñéâÞò õðïëïãéóìüò âáèìïëï-
ãßáò. Ç ðñþôç åßíáé êáôÜ ôçí åéóáãùãÞ ìßáò íÝáò åããñáöÞò. Ï áêñéâÞò õðïëï-
ãéóìüò âáèìïëïãßáò ðñïêáëåßôáé, áí ç íÝá åããñáöÞ äåí êõñéáñ÷åßôáé áðü êáìßá
Üëëç åããñáöÞ ðïõ Ý÷åé ãåãïíüò. ¢ñá, ï áêñéâÞò õðïëïãéóìüò âáèìïëïãßáò åöáñ-
ìüæåôáé êáôÜ ôçí åéóáãùãÞ ìßáò íÝáò åããñáöÞò, áí ç íÝá åããñáöÞ åßíáé ìÝñïò
ôïõ skyline üëùí ôùí åããñáöþí åêôüò ôùí top-k dominating åããñáöþí êáé ôùí
õðïøÞöéùí åããñáöþí. Óýìöùíá ìå ôçí åñãáóßá [125], ï áñéèìüò ôùí skyline
8.5. ÁÍÁËÕÓÇ ÁÐÏÄÏÓÇÓ 181

åããñáöþí sky åêôéìÜôáé óå:


dc1 dcD ÃYD ! D
W −1
X X 1  Y lj 
sky = W · ··· 1− (8.5)
l1 =1 lD =1 i=1
dc i dc
j =1 j

üðïõ dci åßíáé ôï ðëÞèïò ôéìþí (value cardinality) ôçò äéÜóôáóçò i. Ç ðéèáíüôçôá
Psky ìßá íÝá åããñáöÞ íá åßíáé skyline åããñáöÞ åßíáé:
sky
Psky = (8.6)
W − k − #candidates
Ç äåýôåñç ðåñßðôùóç, üðïõ åßíáé ðéèáíüò Ýíáò áêñéâÞò õðïëïãéóìüò âáèìï-
ëïãßáò, åßíáé êáôÜ ôç äéÜñêåéá åîÝôáóçò ôïõ ãåãïíüôïò ìßáò åããñáöÞò. Ðñïêåé-
ìÝíïõ íá åßíáé áðáñáßôçôïò Ýíáò áêñéâÞò õðïëïãéóìüò âáèìïëïãßáò, ç k-ïóôÞ
âáèìïëïãßá ôïõ top-k ðñÝðåé íá ìçí åëáôôþíåôáé óå êÜèå åíçìÝñùóç êáôÜ ôç
äéÜñêåéá ôçò áäñáíïýò ðåñéüäïõ ôçò åããñáöÞò. ÌåôÜ áðü ìáèçìáôéêÝò ðñÜîåéò,
ìðïñïýìå íá êáôáëÞîïõìå üôé ç ðéèáíüôçôá Pk ç k-ïóôÞ âáèìïëïãßá íá åëáôôùèåß
óå êÜðïéá åíçìÝñùóç êáôÜ ôç äéÜñêåéá ôçò áäñáíÞò ðåñéüäïõ åßíáé ôï ðïëý:
à µ ¶D !ev:ept−ev:egt
1
Pk = 1− 1− (8.7)
nc
Åöüóïí ç äéáöïñÜ ev:ept −¡ ev:egt¢åßíáé áñêåôÜ ìåãÜëç, ç ðéèáíüôçôá ôåßíåé
óôï 0, ðáñÜ ôï ãåãïíüò üôé 1− 1 − nc1 D ôåßíåé óôï 1 ãéá ìåãÜëï D êáé ìéêñü nc.
Ãéá ðáñÜäåéãìá, õðïèÝóôå üôé W =1000000, D=7 êáé nc=4. ÅðéðëÝïí, õðïèÝóôå
üôé ç áäñáíÞò ðåñßïäï åßíáé ev:ept − ev:egt = 20, ôï ïðïßï åßíáé ìÜëëïí áðáé-
óéüäïîç õðüèåóç, áöïý W =1000000. Èõìçèåßôå üôé ç äéáöïñÜ ev:ept − ev:egt
ìðïñåß
³
íá êõìáßíåôáé áðü 1 ìÝ÷ñé W . Ç Åîßóùóç 8.7 äßíåé ôçí ðéèáíüôçôá:
¡ ¢ ´20
1 7
1− 1− 4 = 0:86720 = 0:058.
ÅðéðëÝïí, ç ðéèáíüôçôá íá åöáñìïóèåß Ýíáò áêñéâÞò õðïëïãéóìüò âáèìïëï-
ãßáò, åëáôôþíåôáé áêüìá ðåñéóóüôåñï áí êáôÜ ôç äéÜñêåéá õðïëïãéóìïý ôïõ ãå-
ãïíüôïò ìßáò åããñáöÞò õðÜñ÷åé Ýíá ðëÞèïò åããñáöþí n ðïõ ôçí êõñéáñ÷ïýí êáé
ëÞãïõí ìåôÜ áðü áõôÞ. ¼ôáí åîåôÜóïõìå ôï ãåãïíüò áõôÞò ôçò åããñáöÞò, åöáñ-
ìüæïõìå áêñéâÞ õðïëïãéóìü âáèìïëïãßáò áí üëåò ïé n åããñáöÝò åßíáé ìÝñïò ôïõ
top-k áõôÞ ôç ÷ñïíéêÞ óôéãìÞ. Ç ðéèáíüôçôá ìßáò åããñáöÞ íá ãßíåé ìÝñïò ôïõ
top-k êáôÜ ôç äéÜñêåéá ìßáò åíçìÝñùóçò åßíáé W ·³1− 1− k
D ´ . ¢ñá ìåôÜ áðü
( nc )
1

(ev:ept
³ −ev:egt)·k´
ev:ept − ev:egt åíçìåñþóåéò, ç ðéèáíüôçôá åßíáé ôï ðïëý . Ç ðé- D
W· 1−(1− nc
1
)
èáíüôçôá Pnk üëåò ïé n åããñáöÝò íá ãßíïõí ìÝñïò ôïõ top-k êáôÜ ôç äéÜñêåéá
ôçò áäñáíÞò ðåñéüäïõ åßíáé:
 n
(ev:ept − ev:egt ) · k
Pnk =  ³ ¡ ¢ ´ (8.8)
1 D
W · 1 − 1 − nc
182 ÊÅÖÁËÁÉÏ 8. ÓÕÍÅ×ÇÓ ÅÐÅÎÅÑÃÁÓÉÁ TOP-K DOMINATING ÅÑÙÔÇÌÁÔÙÍ

³ ÁõôÞ ç ðéèáíüôçôá åßíáé ó÷åôéêÜ ìéêñÞ, áöïý üðùò Þäç Ý÷ïõìå áíáöÝñåé,
¡ 1 D
¢ ´
1 − 1 − nc ôåßíåé óôï 1 ãéá ìåãÜëï D êáé ìéêñü nc.
Óõíïøßæïíôáò, óýìöùíá ìå ôéò Åîéóþóåéò 8.6, 8.7 êáé 8.8, ç ðñïôåéíüìåíç
ìÝèïäïò ìå ôéò âåëôéóôïðïéÞóåéò åëáôôþíåé äñáóôéêÜ ôï ðëÞèïò ôùí áêñéâþí õðï-
ëïãéóìþí âáèìïëïãßáò êáé åðïìÝíùò åðéôõã÷Üíåé êáëýôåñïõò ÷ñüíïõò áðüêñéóçò
áðü áõôïýò ôçò áðëÞò ðñïóÝããéóçò. Óôçí Åíüôçôá 8.7, èá äïýìå êÜðïéá áíôéðñï-
óùðåõôéêÜ ðåéñÜìáôá ðïõ åðéâåâáéþíïõí ôá óõìðåñÜóìáôá áõôÞò ôçò åíüôçôáò.

8.6 Ðñïóåããéóôéêüò Áëãüñéèìïò


Óôéò ðñïçãïýìåíåò åíüôçôåò, ðñïôåßíáìå ìßá ìÝèïäï êáé êÜðïéåò âåëôéóôïðïéÞ-
óåéò ãéá áêñéâÞ top-k dominating åñùôÞìáôá, ðïõ óçìáßíåé üôé ç áðÜíôçóç ôïõ
åñùôÞìáôïò åíçìåñþíåôáé ðÜíôá. Ç ÷ñïíéêÞ óôéãìÞ ìßáò åããñáöÞò õðïëïãßæåôáé
ìå âÜóç ôçí áêñéâÞ âáèìïëïãßá Þ ìßá åêôßìçóÞ ôçò Üíù ïñßïõ. ÐñïêåéìÝíïõ íá
áðïôéìÞóïõìå åðáêñéâþò ôï åñþôçìá, õðïëïãßæïõìå ôçí åêôßìçóç Üíù ïñßïõ ôçò
âáèìïëïãßáò ìßáò åããñáöÞò ÷ñçóéìïðïéþíôáò ôç ÷åéñüôåñç ðåñßðôùóç, üðïõ ç
âáèìïëïãßá ôçò k-ïóôÞò dominating åããñáöÞò åëáôôþíåôáé óå êÜèå åíçìÝñùóç
êáé ç âáèìïëïãßá ôçò åããñáöÞò áõîÜíåôáé óå êÜèå åíçìÝñùóç. Áõôü åßíáé Ýíá
÷áëáñü Üíù üñéï, ðïõ óçìáßíåé üôé åßíáé ðéèáíü ôï åêôéìïýìåíï Üíù üñéï íá
äéáöÝñåé óçìáíôéêÜ áðü ôçí ðñáãìáôéêÞ âáèìïëïãßá.
Ìßá êáëýôåñç åêôßìçóç ôïõ Üíù ïñßïõ ôçò âáèìïëïãßáò èá ïäçãÞóåé óå ìå-
ãáëýôåñç áäñáíÞ ðåñßïäï êáé åðïìÝíùò èá ðñïêëçèïýí ëéãüôåñá ãåãïíüôá êáé
ëéãüôåñïé áêñéâåßò õðïëïãéóìïß âáèìïëïãßáò. ÅðéðëÝïí, óôéò ðåñéóóüôåñåò åöáñ-
ìïãÝò (ð.÷. óõóôÞìáôá óôÞñéîçò áðüöáóçò), ïé áêñéâåßò áðáíôÞóåéò äåí ÷ñåéÜæï-
íôáé ôõðéêÜ. ÁíôéèÝôùò, ïé ðñïóåããéóôéêÝò áðáíôÞóåéò åñùôçìÜôùí åßíáé óõ÷íÜ
åðáñêåßò. Óôçí åñãáóßá [20], ïé óõããñáöåßò ðñüôåéíáí ìßá ìÝèïäï ãéá ðñïóåããé-
óôéêÜ top-k åñùôÞìáôá óå äõíáìéêÜ ìåôáâáëëüìåíåò áñéèìçôéêÝò ôéìÝò åîáðëù-
ìÝíåò óå ðïëëÝò ðçãÝò. ÅðïìÝíùò, áí äåí áðáéôåßôáé ìßá åðáêñéâÞò áðÜíôçóç,
åßíáé áñêåôü íá ÷ñçóéìïðïéÞóïõìå Ýíá ðñïóåããéóôéêü áëãüñéèìï ðñïêåéìÝíïõ íá
âåëôéþóïõìå ôï ÷ñüíï áðüêñéóçò ôïõ áëãïñßèìïõ.
Ìðïñïýìå íá ÷ñçóéìïðïéÞóïõìå óôáôéóôéêÜ áðïôåëÝóìáôá ðñïêåéìÝíïõ íá
åêôéìÞóïõìå ôç âáèìïëïãßá ìßáò åããñáöÞò, üðùò åßíáé ôï üñéï Cherno (Cher-
no bound), ôï üñéï Hoe ding (Hoe ding bound) Þ ç áíéóüôçôá Chebyshev
(Chebyshev inequality). Ôï Hoe ding bound Ý÷åé ôçí ðïëý åëêõóôéêÞ éäéüôçôá
üôé åßíáé áíåîÜñôçôï áðü ôçí êáôáíïìÞ ôùí äåäïìÝíùí. ÕðïèÝóôå üôé èÝëïõìå
íá åêôéìÞóïõìå ôç ìÝóç ôéìÞ ìßáò ìåôáâëçôÞò. Ôï Hoe ding bound äçëþíåé üôé
ìå ðéèáíüôçôá 1 −  , ç ðñáãìáôéêÞ ìÝóç ôéìÞ m ôçò ìåôáâëçôÞò âñßóêåôáé óôï
äéÜóôçìá [m − ; m + ], üðïõ:
p
R2 · ln(1= )
= (8.9)
2·n
8.6. ÐÑÏÓÅÃÃÉÓÔÉÊÏÓ ÁËÃÏÑÉÈÌÏÓ 183

Óôçí Åîßóùóç 8.9, ç ðáñÜìåôñïò n åßíáé ôï ìÝãåèïò ôïõ äåßãìáôïò êáé R


åßíáé ôï åýñïò ôéìþí ôçò ìåôáâëçôÞò. ÅðïìÝíùò, ôï Hoe ding bound äßíåé ôï
êáôÜëëçëï ìÝãåèïò ôïõ äåßãìáôïò áí êáèïñßóïõìå ôï ëÜèïò  êáé ôçí ðéèáíüôçôá
1 −  . Ïé ôéìÝò áõôþí ôùí ðáñáìÝôñùí åîáñôþíôáé áðü ôçí åêÜóôïôå åöáñìïãÞ.
Ìðïñïýìå íá êñáôÞóïõìå Ýíá äåßãìá ãéá êÜèå êåëß ôïõ ðëÝãìáôïò. Ãéá êÜèå
åããñáöÞ ôïõ äåßãìáôïò, óõíå÷þò åíçìåñþíïõìå ôç âáèìïëïãßá ôçò. ÅðïìÝíùò
ìðïñïýìå íá ÷ñçóéìïðïéÞóïõìå ôç ìÝóç âáèìïëïãßá ôùí åããñáöþí ôïõ äåßãìá-
ôïò åíüò êåëéïý ùò ôçí åêôßìçóç ôçò âáèìïëïãßáò êÜèå åããñáöÞò ðïõ âñßóêåôáé
óå áõôü ôï êåëß.
Ãéá íá õðïëïãßóïõìå ôï ìÝãåèïò ôïõ äåßãìáôïò ãéá êÜèå êåëß, ðñÝðåé íá
êáèïñßóïõìå ôï åýñïò R ôçò âáèìïëïãßáò. ¼óï åëáôôþíåôáé ôï åýñïò, ôüóï
åëáôôþíåôáé ôï êáôÜëëçëï ìÝãåèïò äåßãìáôïò. ÃåíéêÜ, ôï åýñïò ôçò âáèìïëïãßáò
ìðïñåß íá åßíáé ìåôáîý 0 êáé W -1. Ùóôüóï, ìðïñïýìå íá ðåñéïñßóïõìå ôï åýñïò
ëüãù ôçò äïìÞò äåéêôïäüôçóçò. Ãéá íá ôï áðïóáöçíßóïõìå áõôü, èá äþóïõìå
Ýíá ðáñÜäåéãìá. ÕðïèÝóôå ôç ÷ñïíéêÞ óôéãìÞ ôçò Åéêüíáò 8.7. Ïé åããñáöÝò ðïõ
âñßóêïíôáé óôï êåëß c9 ìðïñïýí íá Ý÷ïõí ìÝãéóôç âáèìïëïãßá 5 êáé åëÜ÷éóôç 3. Ç
ìÝãéóôç âáèìïëïãßá õðïäçëþíåôáé áðü ôï ðëÞèïò ôùí åããñáöþí óôçí ðåñéï÷Þ ìå
ôéò äéáãþíéåò ãñáììÝò, åíþ ç åëÜ÷éóôç âáèìïëïãßá õðïäçëþíåôáé áðü ôï ðëÞèïò
ôùí åããñáöþí óôç óêéáãìÝíç ðåñéï÷Þ.

d2
c13 c14 c15 c16
p 4 t12
t10 t
o 11

s c9 c10 c11 c12


3 t t8
i t9
7
t c5 c6 c7 c8
i t6
2 t4 t5
o
n c1 c2 c3 c4
s 1 t2 t1 t3
1 2 3 4 d1

EIKONA 8.7. ÐáñÜäåéãìá õðïëïãéóìïý åýñïõò.

Ùóôüóï, äåí åßíáé áðïäïôéêü íá äéáôçñïýìå äåßãìá ãéá êÜèå êåëß ãéá äýï âá-
óéêïýò ëüãïõò: (á) Ýíá êåëß ìðïñåß íá ìçí Ý÷åé åðáñêÞ ðëÞèïò åããñáöþí, êáé (â)
ï åîåëéãìÝíïò õðïëïãéóìüò ÷ñïíéêÞò óôéãìÞò ãåãïíüôïò ìðïñåß íá åßíáé áñêåôüò
ãéá íá áðïññßøåé êÜðïéåò åããñáöÝò êáé åðïìÝíùò äåí ÷ñåéÜæåôáé êáëýôåñç åêôß-
ìçóç ãé' áõôÝò ôéò åããñáöÝò. ÓõãêåêñéìÝíá, êñáôïýìå äåßãìáôá ãéá Ýíá ìéêñü
ìüíï ðëÞèïò êåëéþí. Êáèïñßæïõìå áõôÜ ôá êåëéÜ ÷ñçóéìïðïéþíôáò ôç ìÝãéóôç
âáèìïëïãßá ìßáò åããñáöÞò ðïõ âñßóêåôáé óå Ýíá êåëß üðùò ðåñéãñÜöçêå ðñïç-
ãïõìÝíùò. ×ñçóéìïðïéïýìå îáíÜ ôçí ðáñÜìåôñï nev, ðïõ êáèïñßæåé ôï êïíôéíü
ãåãïíüò. Áí ç ìÝãéóôç âáèìïëïãßá ôïõ êåëéïý maxscore åßíáé ðåñéóóüôåñï áðü
184 ÊÅÖÁËÁÉÏ 8. ÓÕÍÅ×ÇÓ ÅÐÅÎÅÑÃÁÓÉÁ TOP-K DOMINATING ÅÑÙÔÇÌÁÔÙÍ

kscore − nev, ôüôå êñáôïýìå äåßãìá ãé' áõôü ôï êåëß. ÅëÝã÷ïõìå ðåñéïäéêÜ áõôÞ
ôç óõíèÞêç ãéá üëá ôá êåëéÜ, ðñïêåéìÝíïõ íá áðïöáóßóïõìå áí èá êñáôïýìå Þ
ü÷é äåßãìáôá ãéá ôá êåëéÜ.
¸íá Üëëï æÞôçìá ðïõ ðñÝðåé íá åîåôáóèåß åßíáé ç åðéëïãÞ ôïõ äåßãìáôïò.
¸÷ïõí ðñïôáèåß äéÜöïñåò ìÝèïäïé ôõ÷áßáò äåéãìáôïëçøßáò. Ï áëãüñéèìïò reservoir-
sampling [158] ðñïôÜèçêå ãéá ôç óõíôÞñçóç åíüò ôõ÷áßá äåßãìáôïò óå ðñáãìá-
ôéêü ÷ñüíï. Äõóôõ÷þò, áõôüò ï áëãüñéèìïò äåí åßíáé êáôÜëëçëïò ãéá ôï ìïíôÝëï
ôïõ êéíïýìåíïõ ðáñáèýñïõ, äéüôé äåí ìðïñåß íá ÷åéñéóèåß ôç äéáãñáöÞ Þ ôç ëÞîç
åããñáöþí. Óôéò åñãáóßåò [17, 181], ïé óõããñáöåßò ðñüôåéíáí áëãïñßèìïõò ãéá ôõ-
÷áßá äåéãìáôïëçøßá ìå ãñÞãïñç áõîçôéêÞ óõíôÞñçóç, êáôÜëëçëç ãéá êéíïýìåíá
ðáñÜèõñá. Óå áõôü ôï êåöÜëáéï, ÷ñçóéìïðïéÞóáìå ôïí áëãüñéèìï ðïõ ðñïôÜèçêå
óôçí åñãáóßá [181]. ÐñïóÝîôå üôé, ïðïéïóäÞðïôå êáôÜëëçëïò áëãüñéèìïò ìðïñåß
íá ÷ñçóéìïðïéçèåß óôçí ðñïôåéíüìåíç ìÝèïäï.
Ç äéáäéêáóßá ðñïóÝããéóçò ìðïñåß íá åöáñìïóèåß åßôå óôï âáóéêü Þ óôï âåëôé-
óôïðïéçìÝíï áëãüñéèìï. ÌåôÜ ôçí åêôßìçóç ôçò âáèìïëïãßáò ìßáò åããñáöÞò ðïõ
áíÞêåé óôï êåëß ci , áí õðÜñ÷åé äåßãìá ãéá ôï ci , õðïëïãßæïõìå ìßá Üëëç åêôßìçóç
ôçò âáèìïëïãßáò ÷ñçóéìïðïéþíôáò ôïí ðñïóåããéóôéêü áëãüñéèìï. Ìåôáîý áõôþí
ôùí åêôéìÞóåùí åðéëÝãïõìå ôç ìéêñüôåñç. Óôá ðåéñÜìáôá ìáò, ÷ñçóéìïðïéÞóáìå
ôç äéáäéêáóßá ðñïóÝããéóçò ìå ôï âåëôéóôïðïéçìÝíï áëãüñéèìï. ÐñïóÝîôå üôé ç
äéáäéêáóßá ðñïóÝããéóçò áöïñÜ óôçí åêôßìçóç ôçò âáèìïëïãßáò. Áí ç åêôßìçóç
ôçò âáèìïëïãßáò ìßáò åããñáöÞò åßíáé ìåãáëýôåñç áðü ôçí ðñáãìáôéêÞ âáèìïëï-
ãßá, ï áëãüñéèìïò èá õðïëïãßóåé ìåãáëýôåñç áäñáíÞ ðåñßïäï. Ùóôüóï, ï ðñïóåã-
ãéóôéêüò áëãüñéèìïò èá ÷Üóåé ìßá top-k dominating åããñáöÞ ìüíï áí ç óõãêå-
êñéìÝíç åããñáöÞ ãßíåé ìÝñïò ôïõ top-k êáôÜ ôç äéÜñêåéá ôçò áäñáíïýò ðåñéüäïõ.
Ï ðñïóåããéóôéêüò áëãüñéèìïò åëáôôþíåé ðåñáéôÝñù ôïõò áêñéâåßò õðïëïãéóìïýò
âáèìïëïãßáò. ¼ìùò, ôï ðëÞèïò ôùí áêñéâþí õðïëïãéóìþí èåñìïêñáóßáò ðñÝðåé
íá åëáôôþíåôáé áñêåôÜ ðñïêåéìÝíïõ íá õðåñêáëýðôåôáé ôï êüóôïò ãéá ôç óõíå÷Þ
åíçìÝñùóç ôçò âáèìïëïãßáò êÜèå åããñáöÞò êÜèå äåßãìáôïò.

8.7 ÐåéñáìáôéêÞ áðïôßìçóç


Óå áõôÞ ôçí åíüôçôá, áíáöÝñïõìå ôá ðåéñáìáôéêÜ áðïôåëÝóìáôá. ÅêôåëÝóáìå
ìßá óåéñÜ ðåéñáìÜôùí ãéá íá áðïôéìÞóïõìå ôçí áðüäïóç ôùí ðñïôåéíüìåíùí ìå-
èüäùí, ÷ñçóéìïðïéþíôáò ôçí áðëÞ ðñïóÝããéóç ðïõ ðåñéãñÜöèçêå óôçí Åíüôçôá
8.3 ùò âáóéêÞ ìÝèïäï. Ãéá áìåñïëçøßá, ÷ñçóéìïðïéÞóáìå ôçí ßäéá äïìÞ ðëÝãìá-
ôïò ôüóï ãéá ôçí áðëÞ üóï êáé ãéá ôéò ðñïôåéíüìåíåò ìåèüäïõò. ×ñçóéìïðïéïýìå
ôéò óõíôìÞóåéò Event (÷ùñßò âåëôéóôïðïßçóç) êáé Opt (ìå âåëôéóôïðïßçóç) ãéá ôéò
äýï ðñïôåéíüìåíïõò áëãïñßèìïõò. ÅðéðëÝïí, ç óýíôìçóç Appr ÷ñçóéìïðïéåßôáé
ãéá ôïí ðñïóåããéóôéêü áëãüñéèìï. ¼ëåò ïé ìÝèïäïé õëïðïéÞèçêáí óå C++ êáé
ôá ðåéñÜìáôá äéåîÞ÷èçóáí óå õðïëïãéóôÞ Pentium óôá 3.0GHz, ìå 1GB êýñéáò
ìíÞìçò ìå ëåéôïõñãéêü óýóôçìá Windows XP.
8.7. ÐÅÉÑÁÌÁÔÉÊÇ ÁÐÏÔÉÌÇÓÇ 185

×ñçóéìïðïéÞóáìå äýï óõíèåôéêÜ óýíïëá äåäïìÝíùí ìå äýï äéáöïñåôéêÝò êá-


ôáíïìÝò: ÁíåîÜñôçôç êáôáíïìÞ (independent distribution - óýíïëï äåäïìÝíùí
IND) êáé Áíôß-óõó÷åôéæüìåíç êáôáíïìÞ (anti-correlated distribution - óýíïëï
äåäïìÝíùí ANTI). Ôá óýíïëá äåäïìÝíùí ðáñÞ÷èçóáí ÷ñçóéìïðïéþíôáò ôç äéåñãá-
óßá ðïõ ðåñéãñÜöèçêå óôçí åñãáóßá [29]. Åðéðñüóèåôá, ÷ñçóéìïðïéïýìå ôï ðñáã-
ìáôéêü óýíïëï äåäïìÝíùí Forest Cover (FC) 2 . Ôï óýíïëï äåäïìÝíùí FC ðå-
ñéÝ÷åé 581,012 åããñáöÝò. ÊÜèå åããñáöÞ Ý÷åé äÝêá ðïóïôéêÜ ÷áñáêôçñéóôéêÜ,
üðùò ôï õøüìåôñï, ç êëßóç, ç ïñéæüíôéá áðüóôáóç óôçí õäñïëïãßá êáé ç êÜèåôç
áðüóôáóç óôçí õäñïëïãßá.
ÅîåôÜæïõìå ôçí áðüäïóç ôùí ìåèüäùí ìåôáâÜëëïíôáò ôéò óçìáíôéêüôåñåò
ðáñáìÝôñïõò, üðùò ôï ìÝãåèïò ðáñáèýñïõ W , ôï ðëÞèïò ôùí äéáóôÜóåùí D êáé
ôçí ðáñÜìåôñï k. Ìåôñïýìå ôï õðïëïãéóôéêü êüóôïò, ôï ðëÞèïò ôùí åëÝã÷ùí
êõñéáñ÷ßáò êáé Üëëá ðïéïôéêÜ ÷áñáêôçñéóôéêÜ. Áí äåí áíáöÝñåôáé ñçôÜ êÜôé
äéáöïñåôéêü, ïé ðñïêáèïñéóìÝíåò ôéìÝò ãéá ôéò ðáñáìÝôñïõò åßíáé: W =2000000,
d=4 êáé k=256. Ôï ìÝãéóôï ðëÞèïò ôùí õðïøÞöéùí åããñáöþí ôÝèçêå ßóï ìå 1%
ôïõ ìåãÝèïõò ôïõ ðáñáèýñïõ êáé ç ðáñÜìåôñïò nev ôÝèçêå ßóç ìå W /1000. Ãéá
ëüãïõò ðáñïõóßáóçò, óôá åðüìåíá äéáãñÜììáôá äßíïíôáé ï ÷ñüíïò áðüêñéóçò êáé
ïé Ýëåã÷ïé êõñéáñ÷ßáò áíÜ 1000 åíçìåñþóåéò.
Ðñþôá, ìåëåôïýìå ôçí áðüäïóç ôùí áëãïñßèìùí óå ó÷Ýóç ìå ôï ìÝãåèïò
ôïõ ðáñáèýñïõ. Ïé Åéêüíåò 8.8 êáé 8.9 äåß÷íïõí ôá áðïôåëÝóìáôá ãéá ôá óýíïëá
äåäïìÝíùí IND êáé ANTI áíôßóôïé÷á. Ôï ìÝãåèïò ôïõ ðáñáèýñïõ êõìáßíåôáé áðü
1 åêáôïììýñéï óå 5 åêáôïììýñéá. Äßíïíôáé ôüóï ï ÷ñüíïò áðüêñéóçò üóï êáé ïé
Ýëåã÷ïé êõñéáñ÷ßáò. ÐñïóÝîôå üôé ôá áðïôåëÝóìáôá åßíáé áíÜ 1000 åíçìåñþóåéò.
Ï Üîïíáò y êëéìáêþíåôáé ëïãáñéèìéêÜ. Åßíáé Ýêäçëï, üôé ç áðëÞ ðñïóÝããéóç äåí
åßíáé êáôÜëëçëç ãéá ôçí ðåñßðôùóç ôùí ñïþí êáé åðïìÝíùò ðáñáëåßðåôáé áðü ôá
áêüëïõèá ðåéñÜìáôá ðñïêåéìÝíïõ íá äåßîïõìå ìå óáöÞíåéá ôç äéáöïñÜ áðüäïóçò
ôùí ðñïôåéíüìåíùí ìåèüäùí.

10000
naive 10000 naive
Domination Checks (M)

event event
1000 opt opt
1000
Time (sec)

100
100
10

1 10

0.1 1
1 2 3 4 5 1 2 3 4 5
Window Size Window Size

(á) (â)

EIKONA 8.8. (á) Êüóôïò CPU, êáé (â) Ýëåã÷ïé êõñéáñ÷ßáò ùò ðñïò ìÝãåèïò ðáñáèýñïõ (IND).

2 Áñ÷åßï UCI KDD: http://kdd.ics.uci.edu


186 ÊÅÖÁËÁÉÏ 8. ÓÕÍÅ×ÇÓ ÅÐÅÎÅÑÃÁÓÉÁ TOP-K DOMINATING ÅÑÙÔÇÌÁÔÙÍ

1000
naive naive

Domination Checks (M)


event event
opt opt
1000
100
Time (sec)

10 100

1 10
1 2 3 4 5 1 2 3 4 5
Window Size Window Size

(á) (â)

EIKONA 8.9. (á) Êüóôïò CPU, êáé (â) Ýëåã÷ïé êõñéáñ÷ßáò ùò ðñïò ìÝãåèïò ðáñáèýñïõ (ANTI).

ÅðéðëÝïí, ç ìÝèïäïò Opt õðåñíéêÜ ôçí Event ôüóï óôï êüóôïò CPU üóï
êáé óôïõò åëÝã÷ïõò êõñéáñ÷ßáò, äéüôé óôçí Opt, ðñïêáëïýíôáé ìéêñüôåñï ðëÞèïò
ãåãïíüôùí êáé ìéêñüôåñï ðëÞèïò áêñéâþí õðïëïãéóìþí âáèìïëïãßáò. ¼ðùò
áíáìåíüôáí, ç äéáöïñÜ ôùí äýï ìåèüäùí åßíáé ìåãáëýôåñç óôï óýíïëï äåäïìÝíùí
ANTI, åðåéäÞ ïé âáèìïëïãßåò ôùí åããñáöþí äåí êõìáßíïíôáé óçìáíôéêÜ ëüãù
ôçò êáôáíïìÞò. Ç Opt îåðåñíÜ áõôü ôï ðñüâëçìá õðïëïãßæïíôáò ìåãáëýôåñåò
÷ñïíéêÝò óôéãìÝò ãåãïíüôùí ëüãù ôïõ åîåëéãìÝíïõ õðïëïãéóìïý ãåãïíüôùí êáé
êõñßùò ÷ñçóéìïðïéþíôáò õðïøÞöéåò åããñáöÝò.
ÌåôÜ, ìåëåôïýìå ôçí áðüäïóç ôùí ðñïôåéíüìåíùí ìåèüäùí óå ó÷Ýóç ìå ôï
ðëÞèïò ôùí äéáóôÜóåùí. Ç Åéêüíá 8.10 äåß÷íåé ôï ÷ñüíï áðüêñéóçò ãéá üëá
ôá óýíïëá äåäïìÝíùí, åíþ ç Åéêüíá 8.11 ðáñïõóéÜæåé ôï ðëÞèïò ôùí åëÝã÷ùí
êõñéáñ÷ßáò. Ãéá ôá äýï óõíèåôéêÜ óýíïëá äåäïìÝíùí, ôï ìÝãåèïò ðáñáèýñïõ
åßíáé 2 åêáôïììýñéá êáé ãéá ôï óýíïëï äåäïìÝíùí FC ôï ìÝãåèïò ðáñáèýñïõ
ôÝèçêå ßóï ìå 500,000. Ç Opt åßíáé êáëýôåñç áðü ôçí Event ãéá ôïõò ßäéïõò
ëüãïõò ðïõ áíáöÝñáìå ðñïçãïõìÝíùò. Êáèþò áõîÜíåé ôï ðëÞèïò ôùí äéáóôÜ-
óåùí, ïé âáèìïëïãßåò ôùí åããñáöþí ìåéþíïíôáé áöïý ç ðéèáíüôçôá ìßá åããñáöÞ
íá êõñéáñ÷åß óå ìßá Üëëç åëáôôþíåôáé óçìáíôéêÜ. ÅðïìÝíùò, ç Event õðïëï-

25 25 25
event event event
opt opt opt
20 20 20
Time (sec)

Time (sec)

Time (sec)

15 15 15

10 10 10

5 5 5

0 0 0
2 3 4 5 6 7 2 3 4 5 6 7 2 3 4 5 6 7
Number of Dimensions Number of Dimensions Number of Dimensions

(á) IND (â) ANTI (ã) FC

EIKONA 8.10. (á) Êüóôïò CPU ùò ðñïò ðëÞèïò äéáóôÜóåùí.


8.7. ÐÅÉÑÁÌÁÔÉÊÇ ÁÐÏÔÉÌÇÓÇ 187

ãßæåé ìéêñüôåñåò ÷ñïíéêÝò óôéãìÝò ãåãïíüôùí, ðïõ óçìáßíåé üôé ôï ðëÞèïò ôùí
ãåãïíüôùí áõîÜíåôáé, êáé ðñïêáëïýíôáé ðåñéóóüôåñïé áêñéâåßò õðïëïãéóìïß âáè-
ìïëïãßáò. ÅðéðëÝïí, ç äéáöïñÜ ìåôáîý ôùí äýï ìåèüäùí åßíáé ìåãáëýôåñç óôï
óýíïëï äåäïìÝíùí FC. Áõôü óõìâáßíåé ãéáôß õðÜñ÷ïõí óõ÷íüôåñåò áëëáãÝò óôéò
top-k dominating åããñáöÝò. Èõìçèåßôå üôé óôçí ðåñßðôùóç ëÞîçò ìßáò top-k
åããñáöÞò óôçí ðñïóÝããéóç Event, üëåò ïé åããñáöÝò Ý÷ïõí Ýíá óõó÷åôéæüìåíï
ãåãïíüò áõôÞ ôç ÷ñïíéêÞ óôéãìÞ. Ôï ðëÞèïò ôùí åëÝã÷ùí êõñéáñ÷ßáò, ðïõ ðñïêá-
ëïýíôáé (Åéêüíá 8.11), åðéâåâáéþíïõí áõôÞ ôçí ðáñáôÞñçóç. Éó÷õñéæüìáóôå üôé
åßíáé Üóêïðç ç åöáñìïãÞ åíüò top-k dominating åñùôÞìáôïò óå ðïëý õøçëü ðëÞ-
èïò äéáóôÜóåùí êáé ìåãÜëï k, äéüôé ç äýíáìç êõñéáñ÷ßáò åëáôôþíåôáé äñáóôéêÜ
êáé ç ðëåéïíüôçôá ôùí åããñáöþí Ý÷ïõí ðïëý ìéêñÞ âáèìïëïãßá. Ãéá ðáñÜäåéãìá,
óå Ýíá óýíïëï äåäïìÝíùí 2 åêáôïììýñéá åããñáöþí áíôé-óõó÷åôéæüìåíçò êáôá-
íïìÞò ìå 8 äéáóôÜóåéò, ôï 99% ôùí åããñáöþí Ý÷ïõí âáèìïëïãßåò ìåôáîý 0 êáé
1000.
120 120 200
event event event
Domination Checks (M)

Domination Checks (M)

Domination Checks (M)


100 opt 100 opt opt
150
80 80

60 60 100

40 40
50
20 20

0 0 0
2 3 4 5 6 7 2 3 4 5 6 7 2 3 4 5 6 7
Number of Dimensions Number of Dimensions Number of Dimensions

(á) IND (â) ANTI (ã) FC

EIKONA 8.11. ¸ëåã÷ïé êõñéáñ÷ßáò ùò ðñïò ðëÞèïò äéáóôÜóåùí.

Ôï ôñßôï ðåßñáìá ìåëåôÜ ôï ÷ñüíï áðüêñéóçò óå ó÷Ýóç ìå ôçí ðáñÜìåôñï


k. Ôá áðïôåëÝóìáôá öáßíïíôáé óôçí Åéêüíá 8.12 ãéá üëá ôá óýíïëá äåäïìÝíùí.
Åöüóïí, åðéâåâáéþóáìå üôé ç Opt åßíáé êáëýôåñç ôçò Event, óå áõôü ôï ðåßñáìá
åîåôÜæïõìå åðßóçò êáé ôçí áðüäïóç ôçò ðñïóåããéóôéêÞò ìåèüäïõ. ÐñïóÝîôå üôé
óôá ðåéñÜìáôá, åöáñìüóáìå ôçí ðñïóåããéóôéêÞ äéáäéêáóßá óôïí áëãüñéèìï ìå ôéò
âåëôéóôïðïéÞóåéò. Ôï ëÜèïò  ôïõ Hoe ding bound Opt ôÝèçêå ßóï ìå 10% ôïõ
åýñïõò åíüò êåëéïý. ÅðïìÝíùò, ôï ìÝãåèïò ôïõ äåßãìáôïò åßíáé óôáèåñü êáé äåí
åðçñåÜæåôáé áðü áëëáãÝò ôïõ åýñïõò êÜèå êåëéïý. ×ñçóéìïðïéÞóáìå åìðéóôï-
óýíç (con dence) 90%, äçëáäÞ =0.1. Ïé ìÝèïäïé Opt êáé Appr õðåñíéêïýí ôç
ìÝèïäï Event óå üëåò ôéò ðåñéðôþóåéò. Åðéðñüóèåôá, ç Appr åßíáé êáëýôåñç ôçò
Opt óôéò ðåñéóóüôåñåò ðåñéðôþóåéò. Ðéï óõãêåêñéìÝíá, ç Appr åßíáé ÷åéñüôåñç
ôçò Opt ãéá ðïëý ìéêñÝò ôéìÝò ôïõ k. Èõìçèåßôå üôé ï ðñïóåããéóôéêüò áëãüñéè-
ìïò åëáôôþíåé ôï ðëÞèïò ôùí áêñéâþí õðïëïãéóìþí âáèìïëïãßáò. Ôï ðëÞèïò
ôùí ãåãïíüôùí ðïõ åîåôÜæïõí êáé ïé äýï ìÝèïäïé Opt êáé Appr åßíáé ðáñüìïéï.
ÅðïìÝíùò, áí ôï ðëÞèïò ôùí áêñéâþí õðïëïãéóìþí âáèìïëïãßáò ôçò Opt åßíáé
÷áìçëü, ç ðñïóåããéóôéêÞ ìÝèïäïò åßíáé óõíïëéêÜ ÷åéñüôåñç, åðåéäÞ ôï êÝñäïò áðü
ôïõò áêñéâåßò õðïëïãéóìïýò âáèìïëïãßáò äåí îåðåñíÜ ôï êüóôïò óõíôÞñçóçò ôïõ
188 ÊÅÖÁËÁÉÏ 8. ÓÕÍÅ×ÇÓ ÅÐÅÎÅÑÃÁÓÉÁ TOP-K DOMINATING ÅÑÙÔÇÌÁÔÙÍ

äåßãìáôïò. Óôï óýíïëï äåäïìÝíùí FC, ç Appr åßíáé åëáöñþò êáëýôåñç áðü ôçí
Opt. Ìßá ðïéïôéêÞ óýãêñéóç ìåôáîý ôùí äýï ìåèüäùí äåß÷íåé üôé ç Appr åëáôôþ-
íåé áñêåôÜ ôï ðëÞèïò ôùí áêñéâþí õðïëïãéóìþí âáèìïëïãßáò. Ãéá ðáñÜäåéãìá,
ãéá k=256, ç ìÝèïäïò Opt ðáñÜãåé 14.4 áêñéâåßò õðïëïãéóìïýò âáèìïëïãßáò áíÜ
1000 åíçìåñþóåéò êáé ç Appr ðáñÜãåé 5.0. Ç äéáöïñÜ åßíáé áêüìá ìåãáëýôåñç
ãéá õøçëüôåñåò ôéìÝò ôçò ðáñáìÝôñïõ k. Èõìçèåßôå üôé ôï FC Ý÷åé ìÝãåèïò ðáñá-
èýñïõ ßóï ìå 500,000 åããñáöÝò. ¢ñá, ï áêñéâÞò õðïëïãéóìüò âáèìïëïãßáò äåí
åßíáé áñêåôÜ ÷ñïíïâüñïò êáé ãé' áõôü ôï êüóôïò ôçò óõíôÞñçóçò äåéãìÜôùí îå-
ðåñíÜ ôï êÝñäïò áðü ôïí ðñïóåããéóôéêü áëãüñéèìï. Óõíïøßæïíôáò, ç Appr åßíáé
êáëýôåñç ôçò Opt ãéá ìåãÜëåò ôéìÝò ôçò ðáñáìÝôñïõ k êáé ãéá ìåãÜëá ìåãÝèç
ðáñáèýñïõ.
100 1000
event event event
opt opt opt
appr appr 100 appr
10 100
Time (sec)

Time (sec)

Time (sec)
10

1 10
1

0.1 1 0.1
64 256 512 768 64 256 512 768 64 256 512 768
k k k

(á) IND (â) ANTI (ã) FC

EIKONA 8.12. Êüóôïò CPU ùò ðñïò k.

Óôç óõíÝ÷åéá, äßíïõìå êÜðïéá åðéðñüóèåôá áðïôåëÝóìáôá ó÷åôéêÜ ìå ôï ðåß-


ñáìá ðïõ ðáñïõóéÜóèçêå óôçí Åéêüíá 8.12. Ï Ðßíáêáò 8.2 ðáñïõóéÜæåé ôá áðïôå-
ëÝóìáôá ãéá ôï óýíïëï äåäïìÝíùí IND. Äßíïõìå ôï ðëÞèïò ôùí ãåãïíüôùí ðïõ
êÜèå ìÝèïäïò åîåôÜæåé, ôï ðëÞèïò ôùí áêñéâþí õðïëïãéóìþí âáèìïëïãßáò ðïõ
êÜèå ìÝèïäïò õðïëïãßæåé êáé ôï óõíïëéêü ðëÞèïò ôùí åëÝã÷ùí êõñéáñ÷ßáò ðïõ
ðåñéëáìâÜíåé ôçí åíçìÝñùóç ôïõ top-k, ôçí åéóáãùãÞ íÝáò åããñáöÞò, ôïí áêñéâÞ
õðïëïãéóìü âáèìïëïãßáò, ôçí åíçìÝñùóç õðïøÞöéáò åããñáöÞò êáé ôçí åíçìÝñùóç
ôïõ äåßãìáôïò. Ôá áðïôåëÝóìáôá äßíïíôáé îáíÜ áíÜ 1000 åíçìåñþóåéò. Åßíáé Ýê-
äçëï üôé ç Opt åëáôôþíåé óçìáíôéêÜ ôï ðëÞèïò ôùí åîåôáæüìåíùí ãåãïíüôùí êáé
ôïõò áêñéâåßò õðïëïãéóìïýò âáèìïëïãßáò, åéäéêÜ ãéá ìåãÜëåò ôéìÝò ôçò k. Áõôü
óõìâáßíåé ëüãù ôçò ÷ñÞóçò ôïõ åîåëéãìÝíïõ õðïëïãéóìïý ãåãïíüôïò. Åðéðñü-
óèåôá, ôï ðëÞèïò ôùí áêñéâþí õðïëïãéóìþí âáèìïëïãßáò åëáôôþíåôáé êõñßùò
ëüãù ôçò ÷ñÞóçò ôùí õðïøÞöéùí åããñáöþí.
ÅðéðëÝïí, ïé ìÝèïäïé Appr êáé Opt åîåôÜæïõí ðáñüìïéï ðëÞèïò ãåãïíüôùí.
Ôï âáóéêü ðëåïíÝêôçìá ôïõ ðñïóåããéóôéêïý áëãïñßèìïõ åßíáé üôé åëáôôþíåé
áêüìá ðåñéóóüôåñï ôï ðëÞèïò ôùí áêñéâþí õðïëïãéóìþí âáèìïëïãßáò ëüãù ôçò
÷ñÞóçò ôçò äåéãìáôïëçøßáò. Áõôü ïäçãåß óôç ìåßùóç ôïõ ðëÞèïõò ôùí åëÝã÷ùí
êõñéáñ÷ßáò. ¼ìùò, ãéá ìéêñÝò ôéìÝò ôçò k, ç ìÝèïäïò Opt Ý÷åé ðïëý ìéêñü ðëÞ-
èïò áêñéâþí õðïëïãéóìþí âáèìïëïãßáò. ÅðïìÝíùò áõôÞ ç ìåßùóç êüóôïõò óôçí
Appr äåí åßíáé åðáñêÞò ãéá íá êáëýøåé ôï êüóôïò ôçò åíçìÝñùóçò äåßãìáôïò, ãé'
8.7. ÐÅÉÑÁÌÁÔÉÊÇ ÁÐÏÔÉÌÇÓÇ 189

Åðåîåñãáóßá ÁêñéâÞò ¸ëåã÷ïé


k ÌÝèïäïò ãåãïíüôïò õðïëïãéóìüò êõñéáñ÷ßáò (Å)
Event 1027.7 2.8 4.92
16 Opt 1003.9 0.2 0.85
Appr 1000.7 0.0 1.37
Event 1081.5 8.5 13.67
64 Opt 1023.9 1.9 3.56
Appr 1002.2 0.0 1.55
Event 201456.4 10.4 18.34
256 Opt 2096.1 6.8 11.72
Appr 2020.5 0.0 6.13
Event 600947.6 15.2 23.66
512 Opt 3735.9 8.5 14.76
Appr 3606.6 0.8 7.86
Event 1001063.2 72.7 104.38
768 Opt 5355.2 9.2 17.01
Appr 5353.0 0.1 8.31

ΠINAKAΣ 8.2. ÐïéïôéêÞ áðïôßìçóç ùò ðñïò k (IND).

áõôü ïé Ýëåã÷ïé êõñéáñ÷ßáò óôçí Appr åßíáé õøçëüôåñç áðü áõôïýò ôçò Opt ãéá
k = 16.
Åðßóçò ìåôñÞóáìå ôï ðëÞèïò ôùí åããñáöþí ðïõ åíçìåñþíïíôáé óõíå÷þò ðÝñá
áðü ôéò top-k åããñáöÝò ãéá ôéò ìåèüäïõò Opt êáé Appr. Èõìçèåßôå üôé, ç Event
åíçìåñþíåé óõíå÷þò ìüíï ôéò top-k åããñáöÝò, åíþ ç Opt ÷ñçóéìïðïéåß õðïøÞöéåò
åããñáöÝò êáé ç Appr ÷ñçóéìïðïéåß êáé õðïøÞöéåò åããñáöÝò êáé äåßãìáôá. Ï Ðß-
íáêáò 8.3 äåß÷íåé ôá áðïôåëÝóìáôá ìüíï ãéá ôï óýíïëï äåäïìÝíùí ANTI, äéüôé
ç áíôß-óõó÷åôéæüìåíç êáôáíïìÞ äßíåé ðåñéóóüôåñåò õðïøÞöéåò åããñáöÝò êáé åã-

Opt Appr
ìÝãéóôï # ìÝãéóôï # ìÝãéóôï #
k õðïøÞöéùí õðïøÞöéùí äåßãìáôïò
16 5 2 575
64 45 23 575
256 65 33 575
512 265 40 1035
768 314 59 1265

ΠINAKAΣ 8.3. ÐëÞèïò åíçìåñùìÝíùí åããñáöþí ùò ðñïò k (ANTI).


190 ÊÅÖÁËÁÉÏ 8. ÓÕÍÅ×ÇÓ ÅÐÅÎÅÑÃÁÓÉÁ TOP-K DOMINATING ÅÑÙÔÇÌÁÔÙÍ

ãñáöÝò äåéãìÜôùí áðü üôé ïé Üëëåò êáôáíïìÝò. ÐñïóÝîôå üôé, äßíåôáé ôï ìÝãéóôï
ðëÞèïò åããñáöþí ìåôáîý üëùí ôùí åíçìåñþóåùí. Óôá ðåéñÜìáôÜ ìáò, èÝóáìå
ôï ìÝãéóôï åðéôñåðüìåíï ðëÞèïò ôùí õðïøÞöéùí åããñáöþí ßóï ìå W /100, áëëÜ
üðùò ìðïñïýìå íá äïýìå, ôï ðëÞèïò ôùí õðïøÞöéùí äåí ðëçóéÜæåé êïíôÜ óå áõôü
ôï êáôþöëé. Ôï ìÝãåèïò ðáñáèýñïõ åßíáé 2 åêáôïììýñéá êáé Üñá ôï êüóôïò
ôçò óõíå÷Þò åíçìÝñùóçò åíüò ìéêñïý ðëÞèïõò åããñáöþí åßíáé áóÞìáíôï. ¼ðùò
áíáìåíüôáí, ç Appr Ý÷åé ìéêñüôåñï ðëÞèïò õðïøçößùí, åðåéäÞ ìðïñåß íá åðéôý÷åé
êáëýôåñç åêôßìçóç ÷ñïíéêÞò óôéãìÞò ãåãïíüôïò ëüãù ôçò äåéãìáôïëçøßáò.
Ãéá ôï ßäéï ðåßñáìá, ìåôñÞóáìå åðßóçò ôçí áêñßâåéá (precision) ôçò ðñïóåããé-
óôéêÞò ìåèüäïõ. Ôá áðïôåëÝóìáôá ðáñïõóéÜæïíôáé óôïí Ðßíáêá 8.4. ÌåôñÞóáìå
ôï ðëÞèïò ôùí top-k dominating åããñáöþí ôçò ðñïóåããéóôéêÞò ìåèüäïõ, ôá ïðïßá
åßíáé ìÝñïò ôïõ ðñáãìáôéêïý top-k. Ç áêñßâåéá õðïëïãßæåôáé ùò ôï êëÜóìá ôïõ
áñéèìïý áõôïý ðñïò ôïí áñéèìü ôùí ðñáãìáôéêþí top-k åããñáöþí. Ç áêñßâåéá
ãéá ôï óýíïëï äåäïìÝíùí FC åßíáé ìéêñüôåñç, åðåéäÞ åßíáé ðéï óõ÷íÝò ïé áëëáãÝò
óôï top-k áðü üôé óôá Üëëá óýíïëá äåäïìÝíùí. ÐñïóÝîôå üôé ç ðñïóåããéóôéêÞ
ìÝèïäïò ìðïñåß íá åíôïðßóåé ìßá áëëáãÞ óôï top-k ìåôÜ áðü êÜðïéåò åíçìåñþóåéò,
üôáí ôï åîåôáóèåß ôï ãåãïíüò ôçò åããñáöÞò, ðïõ åßíáé ìÝñïò ôïõ ðñáãìáôéêïý
top-k. ÅðéðëÝïí, ç Appr ÷Üíåé ôç ÷áìçëüôåñç óôç óåéñÜ top-k åããñáöÞ ðñþôá
(ð.÷., ïé åããñáöÝò ìå ôéò ÷áìçëüôåñåò âáèìïëïãßåò).

k IND ANTI FC
16 100 100 81.7
64 100 100 86.9
256 99.9 99.9 92.8
512 99.8 99.8 94.2
768 99.8 99.7 95.6

ΠINAKAΣ 8.4. ÌÝóç áêñßâåéá (%).

ÔÝëïò, åîåôÜóáìå ôçí áðüäïóç ôùí ðñïôåéíüìåíùí ìåèüäùí óå ó÷Ýóç ìå ôï


ðïóïóôü ôùí ãåãïíüôùí ðïõ êÜèå ìÝèïäïò áðïèçêåýåé. Óôçí Åíüôçôá 8.3, áíá-
öÝñáìå üôé êÜðïéåò ÷ñïíéêÝò óôéãìÝò ãåãïíüôùí åßíáé ìåôÜ ôï ÷ñüíï ëÞîçò ôùí
åããñáöþí. ÁõôÜ ôá ãåãïíüôá ìðïñïýí íá äéáãñáöïýí ðñïêåéìÝíïõ íá åëáôôùèåß
ôï ìÝãåèïò ôïõ óùñïý. Ùóôüóï, äéáãñÜöïíôáò áõôÜ ôá ãåãïíüôá, åëáôôþíåôáé
ôï ðëÞèïò ôùí åããñáöþí ðïõ ÷ñçóéìïðïéïýíôáé ùò \êáëÝò" åããñáöÝò. ÅðéðëÝïí,
áõôÜ åßíáé ïé ðåñéóóüôåñï õðïó÷üìåíåò åããñáöÝò, áöïý ç âáèìïëïãßá ôïõò åßíáé
ðïëý ìéêñÞ. ÅðïìÝíùò, áí ìßá åããñáöÞ êõñéáñ÷åßôáé áðü ìßá áðü áõôÝò, êáôáëÞ-
ãïõìå üôé ç âáèìïëïãßá ôçò åããñáöÞò åßíáé ìéêñÞ êáé ãé' áõôü ç áäñáíÞò ðåñßïäïò
ôçò åããñáöÞò èá åßíáé ìåãÜëç. Óå üëá ôá ðñïçãïýìåíá ðåéñÜìáôá, ïé ðñïôåéíüìå-
íåò ìÝèïäïé áðïèÞêåõáí ôá ëçãìÝíá ãåãïíüôá óôï óùñü. Óôï ôåëåõôáßï ðåßñáìá,
êÜèå ìÝèïäïò áðïèçêåýåé Ýíá ðïóïóôü ôùí ëçãìÝíùí ãåãïíüôùí. ÐñïóÝîôå üôé,
8.8. ÓÕÌÐÅÑÁÓÌÁÔÁ 191

30 0.75
event event
25 opt opt
appr appr

#events (M)
20 0.5
Time (sec)

15

10 0.25

0
10 25 50 100 10 25 50 100
% of events % of events

(á) (â)

EIKONA 8.13: (á) Êüóôïò CPU, êáé (â) ðëÞèïò ãåãïíüôùí ùò ðñïò ðïóïóôü ëçãìÝíùí ãåãïíüôùí ðïõ
÷ñçóéìïðïéïýíôáé (FC).

ôï ðëÞèïò ôùí ëçãìÝíùí ãåãïíüôùí åðçñåÜæåôáé áðü ôçí éêáíüôçôá ôçò ìåèüäïõ
íá õðïëïãßæåé ìåãÜëåò áäñáíåßò ðåñéüäïõò. Ç Åéêüíá 8.13(á) äåß÷íåé ôï ÷ñüíï
áðüêñéóçò óå ó÷Ýóç ìå ôï ðïóïóôü ôùí ëçãìÝíùí ãåãïíüôùí ðïõ êÜèå ìÝèïäïò
áðïèçêåýåé. ¼ðùò ìðïñïýìå íá äïýìå, ï ÷ñüíïò áðüêñéóçò üëùí ôùí ìåèüäùí
åßíáé ó÷åäüí áíåðçñÝáóôïò êñáôþíôáò ìüíï Ýíá 10% ôùí ëçãìÝíùí ãåãïíüôùí.
Ç Åéêüíá 8.13(â) äåß÷íåé ôï ðëÞèïò ôùí ãåãïíüôùí óôï óùñü. Óôçí ðåñßðôùóç
ôïõ 100%, üëá ôá ëçãìÝíá ãåãïíüôá áðïèçêåýïíôáé, ãé' áõôü ôï ðëÞèïò ôùí ãå-
ãïíüôùí åßíáé ó÷åäüí ßóïò ìå ôï ìÝãåèïò ôïõ ðáñáèýñïõ. Ïé ìÝèïäïé Opt êáé
Appr åëáôôþíïõí ôï ðëÞèïò ôùí ãåãïíüôùí ðåñéóóüôåñï áðü 50% ÷ùñßò íá èõ-
óéÜæïõí ôï ÷ñüíï áðüêñéóçò, áí êñáôÞóïõìå ôï 10% ôùí ëçãìÝíùí ãåãïíüôùí.
ÅðéðëÝïí, ïé äýï ìÝèïäïé Ý÷ïõí ðáñüìïéï ðëÞèïò ãåãïíüôùí óôï óùñü, áöïý êáé
ïé äýï ÷ñçóéìïðïéïýí ôïí åîåëéãìÝíï õðïëïãéóìü ãåãïíüôïò, êáé ãé' áõôü Ý÷ïõí
ðáñüìïéï ðëÞèïò ëçãìÝíùí ãåãïíüôùí. ÔÝëïò, ç Event äåí ìðïñåß íá åëáôôþóåé
ôï ðëÞèïò ôùí ãåãïíüôùí. Áõôü óõìâáßíåé äéüôé ç ìÝèïäïò Event äåí ìðïñåß íá
ðáñÜãåé ëçãìÝíá ãåãïíüôá.

8.8 ÓõìðåñÜóìáôá
Ôá åñùôÞìáôá top-k ðñïôÜèçêáí ðñüóöáôá ùò åíáëëáêôéêÞ ëýóç Ýíáíôé ôùí åñù-
ôçìÜôùí skyline êáé ôùí áðëþí top-k åñùôçìÜôùí. Áõôü ôï åñþôçìá Ý÷åé Ýíá
ðëÞèïò åëêõóôéêþí éäéïôÞôùí üðùò: (á) äåí áðáéôåßôáé óõíÜñôçóç âáèìïëüãçóçò,
(â) ôï áðïôÝëåóìá åßíáé áíåðçñÝáóôï áðü êëéìáêþóåéò äåäïìÝíùí óôéò äéáóôÜ-
óåéò, êáé (ã) ôï ðëÞèïò ôïõ áðïôåëÝóìáôïò ðåñéïñßæåôáé óå k áðáíôÞóåéò. ÁõôÞ
ç ìåëÝôç åßíáé ç ðñþôç ðñïóðÜèåéá áëãïñßèìùí åðåîåñãáóßáò top-k dominat-
ing åñùôçìÜôùí óôéò ñïÝò äåäïìÝíùí. ÐáñïõóéÜóáìå ôñåéò áëãïñßèìïõò, ìå ôïí
ðñþôï íá ÷ñçóéìïðïéåßôáé ùò âáóéêüò ëüãù ôçò áðëüôçôÜò ôïõ. Ïé äýï ðñïôåé-
íüìåíïé ìÝèïäïé Event êáé Opt óôáèåñÜ õðåñíéêïýí ôï âáóéêü áëãüñéèìï, åíþ ç
192 ÊÅÖÁËÁÉÏ 8. ÓÕÍÅ×ÇÓ ÅÐÅÎÅÑÃÁÓÉÁ TOP-K DOMINATING ÅÑÙÔÇÌÁÔÙÍ

Opt äåß÷íåé óçìáíôéêÝò âåëôéþóåéò óôçí áðüäïóç óå ó÷Ýóç ìå ôçí Event. Ðñáã-
ìáôïðïéÞèçêå ìßá áíÜëõóç ðñïôåéíüìåíùí ìåèüäùí ãéá ôçí åêôßìçóç ôïõ ðëÞèïõò
ôùí áêñéâþí õðïëïãéóìþí âáèìïëïãßáò ðïõ ìðïñåß íá óõìâïýí. Åðéðñüóèåôá,
ìåëåôÞóáìå Ýíáí ðñïóåããéóôéêü áëãüñéèìï, Appr, ðïõ èõóéÜæåé ôçí áêñßâåéá ãéá
ôá÷ýôåñç åðåîåñãáóßá.
ÊÅÖÁËÁÉÏ 9

Åñþôçìá ÃåéôïíéÜò êáé


ÊÜëõøçò Äéêôýùí
ÁéóèçôÞñùí∗
Ðåñéå÷üìåíá
9.1 ÅÉÓÁÃÙÃÇ . . . . . . . . . . . . . .......... 193
9.2 ÔÏ d-ÃÅÉÔÏÍÉÁÓ k-ÊÁËÕØÇÓ ÄÅÄÏÌÅÍÙÍ
ÐÑÏÂËÇÌÁ . . . . . . . . . . . . .......... 195
9.3 ÔÏ ÐÑÙÔÏÊÏËËÏ DACON . . .......... 198
9.4 ÁÐÏÔÉÌÇÓÇ ÁÐÏÄÏÓÇÓ . . . .......... 203
9.5 Ó×ÅÔÉÊÇ ÂÉÂËÉÏÃÑÁÖÉÁ . . . .......... 211
9.6 ÓÕÌÐÅÑÁÓÌÁÔÁ . . . . . . . . .......... 212

9.1 ÅéóáãùãÞ
Ïé óôáèåñÝò âåëôéþóåéò óôçí ôå÷íïëïãßá ôùí åðåîåñãáóôþí êáé ôùí áðïèçêåõôé-
êþí ìÝóùí, üðùò ôéò ïñáìáôßóèçêå ï íüìïò ôïõ Moore, ìáæß ìå ôçí åîÝëéîç ôçò
ôå÷íïëïãßáò ôùí åíåñãåéáêþí ìÝóùí (ìðáôáñßåò) êáé ôùí ìéêñü-çëåêôñïìç÷áíé-
êþí óõóôçìÜôùí, åðÝöåñáí ôå÷íïëïãéêÞ åðáíÜóôáóç óå íÝá êáôáíåìçìÝíá êáé
åíóùìáôùìÝíá õðïëïãéóôéêÜ óõóôÞìáôá, üðïõ ìéêñïóêïðéêÝò óõóêåõÝò ÷áìçëÞò
åíÝñãåéáò, äçëáäÞ áéóèçôÞñåò, åîïðëéóìÝíåò ìå åðåîåñãáóôÞ, ìíÞìç, ìïíÜäåò áíß-
÷íåõóçò êáé åðéêïéíùíßáò äéêôõþíïíôáé ðñïêåéìÝíïõ íá õðïóôçñßîïõí äéÜöïñåò
∗ Ôï êåöÜëáéï áíôëåß ôá ðåñéå÷üìåíÜ ôïõ áðü ôéò åñãáóßåò [99, 100].

193
194 ÊÅÖÁËÁÉÏ 9. ÅÑÙÔÇÌÁ ÃÅÉÔÏÍÉÁÓ ÊÁÉ ÊÁËÕØÇÓ ÄÉÊÔÕÙÍ ÁÉÓÈÇÔÇÑÙÍ

åöáñìïãÝò óå åðéóôçìïíéêïýò, éáôñéêïýò, åìðïñéêïýò êáé óôñáôéùôéêïýò ôïìåßò


[95]. ÁõôÜ ôá Áóýñìáôá Äßêôõá ÁéóèçôÞñùí (ÁÄÁ) ÷ñçóéìïðïéïýíôáé óå åíäéá-
öÝñïõóåò åöáñìïãÝò óôçí ðáñáêïëïýèçóç ôïõ ðåñéâÜëëïíôïò, óôá Ýîõðíá óðßôéá
(smart homes) êáé ãñáöåßá, óôá åõöõÞ óõóôÞìáôá ìåôáöïñÜò ê.á.
¸íá ÁÄÁ áðïôåëåßôáé áðü åêáôïíôÜäåò Þ áêüìá êáé ÷éëéÜäåò êüìâùí áéóèç-
ôÞñùí ðïõ ôïðïèåôïýíôáé ìÝóá Þ êïíôÜ óôï öáéíüìåíï ðïõ ðáñáêïëïõèïýí. Ïé
èÝóåéò ôùí êüìâùí áéóèçôÞñùí äåí ðñÝðåé íá åßíáé ðñïêáèïñéóìÝíåò, ïé áéóèç-
ôÞñåò áõôü-ïñãáíþíïíôáé óå Ýíá äßêôõï, üðïõ ç åðéêïéíùíßá ìåôáîý ôïõò ðñáã-
ìáôïðïéåßôáé âÞìá-ðñïò-âÞìá (hop-by-hop) ÷ñçóéìïðïéþíôáò ìïíïðÜôéá ðïëëþí
âçìÜôùí. Ôá ÁÄÁ áíáðáñéóôïýí Ýíá ðáñÜäåéãìá ìåôáêßíçóçò óôá õðïëïãé-
óôéêÜ óõóôÞìáôá äéüôé ðñÝðåé íá õðïóôçñßæïõí áðïäïôéêÜ åíåñãåéáêÝò ëåéôïõñãßåò
(áöïý ç åðáíáöüñôéóç ôçò ìðáôáñßáò äåí åßíáé ðéèáíÞ/åýêïëç óå å÷èñéêÜ Þ Üãñéá
ðåñéâÜëëïíôá) êáé ðñÝðåé ôáõôü÷ñïíá íá åíåñãïýí óõíåñãáôéêÜ, êáôáíåìçìÝíá,
åßôå åðåéäÞ åßíáé ï ìüíïò ôñüðïò íá åðéôý÷ïõí ôï óêïðü ôïõò (ð.÷., óôçí áíß-
÷íåõóç óôü÷ïõ) Þ åðåéäÞ Ýôóé áõîÜíïíôáé ïé äõíáôüôçôÝò ôïõò (ð.÷. áðáèçêåõ-
ôéêÞ/åðåîåñãáóôéêÞ éêáíüôçôá).
Ç äõíáôüôçôá íá èÝôïõìå åñùôÞìáôá óå ÁÄÁ êáé íá áíáêôïýìå ôá êáôÜë-
ëçëá äåäïìÝíá åßíáé õøßóôçò óçìáóßáò. ¸ôóé ðëÞèïò áðü ôýðïõò åñùôçìÜôùí
êáé ìåèüäùí áðïôßìçóçò Ý÷ïõí ðñïôáèåß óôï ðëáßóéï ôùí äéêôýùí áéóèçôÞñùí
(äåßôå Åíüôçôá 9.5). ÌÝ÷ñé ôþñá, ç ðëåéïíüôçôá ôùí ðñïôåéíüìåíùí åñùôçìÜôùí
áðáéôïýí áðü áõôüí ðïõ èÝôåé ôï åñþôçìá íá Ý÷åé êÜðïéá ãíþóç ãéá ôçí ôïðï-
ëïãßá ôïõ äéêôýïõ êáé/Þ íá ðáñÝ÷åé óçìáíôéêÝò ëåðôïìÝñåéåò üóïí áöïñÜ óôï
åñþôçìá. Ãéá ðáñÜäåéãìá, Ýíá åñþôçìá \ÁíÜöåñå ôéò k ìéêñüôåñåò ôéìÝò õãñá-
óßáò üëïõ ôïõ äéêôýïõ ìáæß ìå ôïõò áéóèçôÞñåò ðïõ ôéò êáôÝãñáøáí" ðåñéïñßæåé
ôï áðïôÝëåóìá êáèþò áðïôåëåßôáé áðü ðïëý ëßãåò ôéìÝò ðïõ ìåñéêÝò öïñÝò Ý÷ïõí
ðñïêýøåé áðü áóôï÷ßåò áéóèçôÞñùí. Áðü ôçí Üëëç ìåñéÜ, Ýíá åñþôçìá \ÁíÜöåñå
ôéò k ìéêñüôåñåò ôéìÝò õãñáóßáò ìÝóá óôçí ðåñéï÷Þ X ìáæß ìå ôïõò áéóèçôÞñåò
ðïõ ôéò êáôÝãñáøáí" åßíáé åõáßóèçôï óå ìéêñÝò ìåôáêéíÞóåéò ôùí ïñßùí ôçò ðå-
ñéï÷Þò, áöïý ïé åðéóôñåöüìåíåò ôéìÝò ìðïñåß íá ìçí åßíáé ðëÝïí ïé k ìéêñüôåñåò
áí ç ðåñéï÷Þ óõññéêíùèåß Þ åðåêôáèåß Þ ìåôáêéíçèåß áíåðáßóèçôá. Èá Þôáí ðïëý
äéáöùôéóôéêüôåñï áí ôï äßêôõï áéóèçôÞñùí ìðïñïýóå íá áðáíôÞóåé óå åñùôÞóåéò
üðùò \ÁíÜöåñå ôïõò áéóèçôÞñåò ðïõ êáôÝãñáøáí ôéò k ìéêñüôåñåò ôéìÝò õãñáóßáò
óôç ãåéôïíéÜ ôïõò". ÔÝôïéá åñùôÞìáôá åßíáé ðïëý ÷ñÞóéìá üôáí ðñïóðáèïýìå íá
êáèïñßóïõìå Ýíá ÷Üñôç êáôáíïìÞò ÷áñáêôçñéóôéêþí (feature distribution map)
ôïõ äéêôýïõ áéóèçôÞñùí (ð.÷., ðåñéï÷Ýò åíüò ðáñáêïëïõèïýìåíïõ ÷þñïõ ìå õøçëÞ
åíäåßîåéò óå ñõðáíôéêÝò ïõóßåò) áíáãêÜæïíôáò ôïõò áéóèçôÞñåò óå áõôÝò ôéò ðå-
ñéï÷Ýò íá ìåôáäþóïõí Ýíá åéäéêü ìÞíõìá áöýðíéóçò. Ãéá ðáñÜäåéãìá, èåùñåßóôå
ìßá åöáñìïãÞ ðáñáêïëïýèçóçò ðåñéâÜëëïíôïò ðïõ ÷ñçóéìïðïéåß Ýíá áóýñìáôï
äßêôõï áéóèçôÞñùí ìå óêïðü ôçí ðñïóôáóßá åíüò äÜóïõò áðü ðõñêáãéÜ. Õðï-
èÝóôå üôé Ý÷åé îåóðÜóåé óôï äÜóïò Ýíá ðëÞèïò ðõñêáãéþí äéáöïñåôéêÞò Ýíôáóçò
êáé Ýêôáóçò. Ôüôå, Ýíá åñþôçìá ðïõ ó÷åôéêÜ ìå ôç ìÝãéóôç èåñìïêñáóßá üëïõ
9.2. ÔÏ D-ÃÅÉÔÏÍÉÁÓ K -ÊÁËÕØÇÓ ÄÅÄÏÌÅÍÙÍ ÐÑÏÂËÇÌÁ 195

ôïõ äéêôýïõ èá ìðïñïýóå íá õðïäåßîåé ôçí ôïðïèåóßá ìüíï ìßáò ðõñêáãéÜò, åíþ
ðñáêôéêÜ åíäéáöåñüìáóôå íá åíôïðßóïõìå ðåñéï÷Ýò ìå õøçëÝò èåñìïêñáóßåò óå
ó÷Ýóç ìå ôéò ãýñù ôïõò ðåñéï÷Ýò ùò ðéèáíÝò åóôßåò ðõñêáãéþí.
Ðùò ìðïñåß íá áðïêñßíåôáé Ýíá äßêôõï áéóèçôÞñùí óå Ýíá ôÝôïéï åñþôçìá ðïõ
äåí èÝôåé ãåíéêïýò (ð.÷. üëï ôï äßêôõï) ðåñéïñéóìïýò (ð.÷. ìÝãéóôï/åëÜ÷éóôï)
êáé äåí êáèïñßæåé ôá üñéá ðåñéï÷þí; Èá ðáñïõóéÜóïõìå óôçí åðüìåíç åíüôçôá,
ðùò Ýíá ôÝôïéï åñþôçìá áëëÜ êáé áëëÜ ãåíéêüôåñá åñùôÞìáôá, ìðïñïýí íá äéá-
ôõðùèïýí ìå Ýíá ôýðï åñùôçìÜôùí, ðïõ ïíïìÜæåôáé d-ãåéôïíéÜò k-êÜëõøçò äå-
äïìÝíùí åñþôçìá (d-hop k-data coverage query) êáé ðáñïõóéÜæåôáé ãéá ðñþôç
öïñÜ óôç âéâëéïãñáößá áðü áõôÞí ôç ìåëÝôç. Ç óõíåéóöïñÜ ôïõ êåöáëáßïõ ðåñé-
ëáìâÜíåé ôá åîÞò:
➣ Äéáôõðþíåé Ýíá ðñùôüôõðï ðñüâëçìá, äçëáäÞ ôï d-ãåéôïíéÜò k-êÜëõøçò
äåäïìÝíùí (åñþôçìá) ðñüâëçìá, ðïõ ôßèåôáé óå óôáôéêÜ áóýñìáôá äßêôõá
áéóèçôÞñùí.
➣ Áõôü ôï ðñüâëçìá ãåíéêåýåé êÜðïéá ðïëý ãíùóôÜ ðñïâëÞìáôá:
{ ôï åñþôçìá top-k, üôáí ïé áéóèçôÞñåò ðáñÜãïõí äåäïìÝíá ìßáò äéÜóôá-
óçò êáé ôï êñéôÞñéï êÜëõøçò ó÷åôßæåôáé ìå ðïëý áðëÝò óõíáñôÞóåéò
ïìïéüôçôáò (ð.÷. ìÝãéóôï/åëÜ÷éóôï),
{ ôï åñþôçìá skyband, üôáí ïé áéóèçôÞñåò ðñÝðåé íá åîÜãïõí ôá äåäï-
ìÝíá ôïõò óå Ýíáí åîùôåñéêü åîõðçñåôçôÞ êáé ôï êñéôÞñéï êÜëõøçò
áöïñÜ ïëüêëçñï ôï äßêôõï,
{ ôï ðñüâëçìá ó÷çìáôéóìïý êõñßáñ÷ïõ óõíüëïõ d-ãåéôïíéÜò (d-hop dom-
inating set formation problem), ôï ïðïßï ÷ñçóéìïðïéåßôáé óå ðñïâëÞ-
ìáôá ïìáäïðïßçóçò áóýñìáôùí äéêôýùí.
➣ ÐáñÝ÷åé ìßá êáôáíåìçìÝíç, áðïäïôéêÜ åíåñãåéáêÞ ëýóç ãéá ôçí áðïôßìçóç
ôÝôïéùí åñùôçìÜôùí ÷ùñßò ôç ÷ñÞóç ðñï-åãêáôåóôçìÝíùí \äïìþí êÜëõ-
øçò Ýêôáóçò" äéêôýïõ (spanners), üðùò äÝíäñá áíáìåôÜäïóçò, áèñïéóôéêÜ
äÝíäñá, ôá ïðïßá Ý÷ïõí ùò áðïôÝëåóìá ôçí ôá÷ýôáôç ìåßùóç ôçò åíÝñãåéáò
ôùí áéóèçôÞñùí ðïõ âñßóêïíôáé øçëÜ óôçí éåñáñ÷ßá.
➣ ÁðïôéìÜ ôçí áðïôåëåóìáôéêüôçôá êáé ôçí áðïäïôéêüôçôá ôçò ðñïôåéíüìåíçò
ëýóçò óå äéÜöïñåò ôïðïëïãßåò äéêôýùí áéóèçôÞñùí êáé äéÜöïñåò êáôáíïìÝò
äåäïìÝíùí.

9.2 To Ðñüâëçìá ôçò d-ãåéôïíéÜò k-êÜëõøçò Äåäï-


ìÝíùí
Èåùñåßóôå Ýíá ìéêñü, äåßãìá ÁÄÁ áðïôåëïýìåíï áðü ëßãïõò óôáôéêïýò áéóèç-
ôÞñåò ðïõ ìåôñïýí ôéìÝò õãñáóßáò êáé áðïèçêåýïõí ôéò ðéï ðñüóöáôåò ôéìÝò áêï-
196 ÊÅÖÁËÁÉÏ 9. ÅÑÙÔÇÌÁ ÃÅÉÔÏÍÉÁÓ ÊÁÉ ÊÁËÕØÇÓ ÄÉÊÔÕÙÍ ÁÉÓÈÇÔÇÑÙÍ

ëïõèþíôáò ôï ìïíôÝëï ôïõ êéíïýìåíïõ ðáñáèýñïõ. ÕðïèÝóôå üôé ðáßñíïõìå Ýíá


óôéãìéüôõðï ôïõ äéêôýïõ ìáæß ìå ôéò ôéìÝò äåäïìÝíùí, ôéò ïðïßåò Ý÷ïõí áðïèç-
êåõìÝíåò ïé áéóèçôÞñåò (áðåéêïíßæïíôáé óôï ãñÜöï äßðëá áðü êÜèå áéóèçôÞñá).
Áõôü ôï óôéãìéüôõðï ôïõ äéêôýïõ ðáñïõóéÜæåôáé óôçí Åéêüíá 9.1.


B [12, 5]



 
 






D [5, 4]


A



L [14, 13]

[10, 9] 

E [4, 1]




F [3, 2] 

I [12, 7]









C [6, 3]

 



J [17, 9]

  
 

H 


[12, 8]


 

K [15, 10]


 

[12, 11]

EIKONA 9.1. Åñþôçìá d-ãåéôïíéÜò k-êÜëõøçò äåäïìÝíùí óå Ýíá ÁÄÁ.

ÕðÜñ÷ïõí áñêåôÝò ðñïóåããßóåéò ãéá íá áðáíôçèåß åýêïëá Ýíá åñþôçìá üðùò


\ÁíÜöåñå ôïõò áéóèçôÞñåò ôùí ïðïßùí ç ôéìÞ ôçò õãñáóßáò äåí êáëýðôåôáé áðü
êáìßá Üëëç ôéìÞ õãñáóßáò óå üëï ôï äßêôõï". Ôï æçôïýìåíï áõôïý ôïõ åñùôÞìá-
ôïò åßíáé ï áéóèçôÞñáò ìå ôç ìåãáëýôåñç ôéìÞ õãñáóßáò óå üëï ôï äßêôõï. ÁõôÞ
åßíáé ç ôéìÞ 17 êáé ó÷åôßæåôáé ìå ôïí áéóèçôÞñá J . Ìßá ãåíéêåõìÝíç Ýêäïóç
áõôïý ôïõ åñùôÞìáôïò åßíáé \ÁíÜöåñå ôïõò áéóèçôÞñåò ôùí ïðïßùí ç ôéìÞ ôçò
õãñáóßáò êáëýðôåôáé ôï ðïëý áðü Üëëåò k ôéìÝò õãñáóßáò óå üëï ôï äßêôõï".
ÄçëáäÞ, áõôü ôï åñþôçìá øÜ÷íåé ãéá ôïõò áéóèçôÞñåò ðïõ Ý÷ïõí êáôáãñÜøåé ìßá
áðü ôéò k+1 ìåãáëýôåñåò ôéìÝò õãñáóßáò óå üëï ôï äßêôõï. Ãéá ðáñÜäåéãìá, ãéá
k = 2, áõôÝò ïé ôéìÝò åßíáé 17, 15 êáé 14, êáé ó÷åôßæïíôáé ìå ôïõò áéóèçôÞñåò
J; K êáé L. Ïé åíåñãïß (activated) Þ áëëéþò ðñïóäéïñéóìÝíïé áéóèçôÞñåò ìðïñåß
íá áðïôåëïýí \íçóéÜ" (ð.÷. ï áéóèçôÞñáò L) Þ ìåãáëýôåñá \ðåäßá" (ð.÷., ôï ðåäßï
ðïõ êáèïñßæåôáé áðü ôçí ðåñéï÷Þ ðïõ ðáñáêïëïõèïýí ïé áéóèçôÞñåò J; K ). ÁõôÜ
ôá ðáñáäåßãìáôá êáôáäåéêíýïõí ôçí éäÝá ôïõ åñùôÞìáôïò k-êÜëõøçò äåäïìÝíùí
(k-data coverage query).
Óå áõôÜ ôá åñùôÞìáôá, èåùñïýìå ìüíï ôéìÝò õãñáóßáò. Ðñïöáíþò, ç Ýííïéá
ôçò k-êÜëõøçò äåäïìÝíùí åðåêôåßíåôáé åýêïëá óå ìßá ðåñßðôùóç ðïëëáðëþí äéá-
óôÜóåùí ìå ôéìÝò õãñáóßáò êáé èåñìïêñáóßáò, ð.÷., \ÁíÜöåñå ôïõò áéóèçôÞñåò
ôùí ïðïßùí ôï æåýãïò ôéìþí õãñáóßáò-èåñìïêñáóßáò äåí êáëýðôåôáé áðü êÜðïéï
Üëëï æåýãïò ôéìþí óå üëï ôï äßêôõï" êáé \ÁíÜöåñå üëïõò ôïõò áéóèçôÞñåò ôùí
ïðïßùí ôï æåýãïò ôéìþí õãñáóßáò-èåñìïêñáóßáò êáëýðôåôáé ôï ðïëý áðü Üëëá
k æåýãç óå üëï ôï äßêôõï". Ôï åñþôçìá k-êÜëõøçò äåäïìÝíùí óå ÷þñïõò ìßáò
äéÜóôáóçò ìðïñåß íá èåùñçèåß ùò åñþôçìá top-k [180], áëëÜ áõôü äåí éó÷ýåé óôçí
9.2. ÔÏ D-ÃÅÉÔÏÍÉÁÓ K -ÊÁËÕØÇÓ ÄÅÄÏÌÅÍÙÍ ÐÑÏÂËÇÌÁ 197

ðåñßðôùóç åããñáöþí áéóèçôÞñùí ðïëëþí äéáóôÜóåùí, ïýôå éó÷ýåé êÜôù áðü ðï-
ëõðëïêüôåñá êñéôÞñéá êÜëõøçò. Ãé' áõôü ôï åñþôçìá k-êÜëõøçò äåäïìÝíùí äåí
åßíáé ôáõôüóçìï ôùí åñùôçìÜôùí top-k óôá ÁÄÁ.
Ôá âáóéêüôåñá ìåéïíåêôÞìáôá üëùí ôùí ðñïáíáöåñèÝíôùí ôýðùí åñùôçìÜ-
ôùí åßíáé ôá åîÞò: (á) åßíáé åõáßóèçôá óå áóôï÷ßåò áéóèçôÞñùí, ð.÷. áéóèçôÞñåò
ðïõ áíáöÝñïõí ìåãÜëåò ôéìÝò ëüãù êÜðïéáò äõóëåéôïõñãßáò, êáé (â) áíáöÝñïíôáé
óå üëï ôï äßêôõï (network-wide), äçëáäÞ åßíáé ãåíéêÜ ìå ôçí Ýííïéá üôé äåí ìðï-
ñïýí íá áíôáðåîÝëèïõí óå áíÜãêåò üðùò \ÁíÜöåñå ôá óçìåßá (áéóèçôÞñåò) ìå ôéò
ìåãáëýôåñåò õãñáóßåò óå ó÷Ýóç ìå ôéò ôéìÝò ôùí ãåéôïíéêþí ôïõò áéóèçôÞñùí".
ÔÝôïéá åñùôÞìáôá åßíáé ÷ñÞóéìá ãéá ôçí êáôáóêåõÞ ÷áñôþí êáôáíïìÞò ÷áñáêôç-
ñéóôéêþí ôïõ ðáñáêïëïõèïýìåíçò ðåñéï÷Þò. ÅðïìÝíùò, ÷ñåéáæüìáóôå Ýíá åñþ-
ôçìá k-êÜëõøçò äåäïìÝíùí ðïõ áíáöÝñåôáé óå ãåéôïíéÝò (neighborhood-wide),
äçëáäÞ åßíáé ôïðéêü (localized) åñþôçìá. Áí ðñïóðáèÞóïõìå íá êáëýøïõìå ìßá
ôÝôïéá áíÜãêç ðñïêáèïñßæïíôáò ôç ãåéôïíéÜ (äçëáäÞ, íá êáèïñßóïõìå ôéò ãåùãñá-
öéêÝò óõíôåôáãìÝíåò ôçò ðåñéï÷Þò) êáé áíáêôÞóïõìå ôéò áðáíôÞóåéò äéá÷Ýïíôáò
ãåùãñáöéêÜ ôï åñþôçìá (geocasting), ôüôå èá êáôáóôÞóïõìå ôá áðïôåëÝóìáôá
ôïõ åñùôÞìáôïò éäéáßôåñá åõáßóèçôá áêüìá êáé ìéêñÝò ìåôáâïëÝò Þ êëéìáêþóåéò
ôçò êáèïñéóìÝíçò ðåñéï÷Þò, ãåãïíüò ðïõ ìðïñåß íá ïäçãÞóåé óôçí áðþëåéá ôçò
áíáæçôïýìåíçò ðëçñïöïñßáò.
Áíôßèåôá, ðñÝðåé íá êáèïñßóïõìå ôéò ãåéôïíéÝò ìå áöáéñåôéêïýò üñïõò, ÷ñçóé-
ìïðïéþíôáò ôçí éäÝá ôçò d-âçìÜôùí ãåéôïíéÜò êáé íá ó÷åäéÜóïõìå ìßá ëýóç ðïõ
äåí ðåñéëáìâÜíåé ãåùãñáöéêÞ äéÜ÷õóç ãåíéêÞ Þ ôïðéêÞ ôïõ åñùôÞìáôïò. ÁõôÞ ç
äéáôýðùóç Ý÷åé ìåñéêÜ ÷ñÞóéìá ÷áñáêôçñéóôéêÜ: áí êáèïñßóïõìå ôçí ðáñÜìåôñï
d ßóç ìå ôç äéÜìåôñï ôïõ äéêôýïõ, ôüôå ðáßñíïõìå ôï åñþôçìá êÜëõøçò äåäïìÝ-
íùí óå üëï ôï äßêôõï (network-wide data coverage query). Ãéá äéÜöïñåò ôéìÝò
ôçò ðáñáìÝôñïõ d, Ý÷ïõìå äéáöïñåôéêÜ ìåãÝèç ãåéôïíéþí. Ãéá ðáñÜäåéãìá, åîå-
ôÜæïíôáò ôéìÝò õãñáóßáò, ãéá d=3 êáé k=2, ôï 3-ãåéôïíéÜò 2-êÜëõøçò äåäïìÝíùí
åñþôçìá, èá áíáãíùñßóåé ôïõò áéóèçôÞñåò A; B óå ìßá ãåéôïíéÜ ôùí ïðïßùí ïé ôé-
ìÝò äåí êáëýðôïíôáé áðü ðåñéóóüôåñï áðü äýï Üëëåò ôéìÝò óôç ãåéôïíéÜ ôïõò, êáé
åðßóçò èá áíáãíùñßóåé ôïõò áéóèçôÞñåò J; K êáé L óå ìßá Üëëç áðïìáêñõóìÝíç
ãåéôïíéÜ, ôùí ïðïßùí ïé ôéìÝò êáëýðôïíôáé ôï ðïëý áðü Üëëåò äýï ôéìÝò óôç ãåé-
ôïíéÜ ôïõò. ÐñïóÝîôå åäþ, üôé ïé ôéìÝò ôùí áéóèçôÞñùí A; B äåí åßíáé ìåôáîý
ôùí áðïôåëåóìÜôùí ðïõ åðéóôñÝöïíôáé áðü ôï åñþôçìá 2-êÜëõøçò äåäïìÝíùí óå
üëï ôï äßêôõï.
Óôç óõíÝ÷åéá, ðñïôåßíïõìå ôï ðñùôüêïëëï êÜëõøçò äåäïìÝíùí óå ãåéôïíéÝò
DaCoN (Data Coverage in Neighborhoods), Ýíá áðïäïôéêü ó÷Þìá ãéá ôçí åðå-
îåñãáóßá åñùôçìÜôùí d-ãåéôïíéÜò k-êÜëõøçò äåäïìÝíùí. Ôï ðñüâëçìá äéáôõðþ-
íåôáé ùò åîÞò:
ÄåäïìÝíïõ åíüò äéêôýïõ áéóèçôÞñùí êáé ôïõ åðéèõìçôïý ìåãÝèïõò ôçò ãåé-
ôïíéÜò d (óå ó÷Ýóç ìå ôï ðëÞèïò ôùí âçìÜôùí) ðñïóäéüñéóå ôá äåäïìÝíá ôùí
áéóèçôÞñùí, ôá ïðïßá êáëýðôïíôáé ôï ðïëý áðü Üëëá k äåäïìÝíá áéóèçôÞñùí óôç
198 ÊÅÖÁËÁÉÏ 9. ÅÑÙÔÇÌÁ ÃÅÉÔÏÍÉÁÓ ÊÁÉ ÊÁËÕØÇÓ ÄÉÊÔÕÙÍ ÁÉÓÈÇÔÇÑÙÍ

ãåéôïíéÜ ôïõò.
Èá åîçãÞóïõìå áñãüôåñá (Åíüôçôåò 9.3 êáé 9.5) ðùò ôï ðñüâëçìá ôçò d-
ãåéôïíéÜò k-êÜëõøçò äåäïìÝíùí, ãéá óõãêåêñéìÝíåò ôéìÝò ôùí ðáñáìÝôñùí d
êáé/Þ k, ãåíéêåýåé ôï ðñüâëçìá ôïõ ó÷çìáôéóìïý êõñßáñ÷ùí óõíüëùí óôçí ïìá-
äïðïßçóç óå äßêôõá áéóèçôÞñùí ðïõ ðáñïõóéÜóèçêå óôçí åñãáóßá [14], óõãêåêñé-
ìÝíåò ðåñéðôþóåéò ôïõ åñùôÞìáôïò top-k [180], êáé ôïõ åñùôÞìáôïò skyband ðïõ
ðáñïõóéÜóèçêå óôçí åñãáóßá [135].

9.3 Ôï Ðñùôüêïëëï DaCoN


ÁõôÞ ç åíüôçôá ðåñéãñÜöåé ôï êáôáíåìçìÝíï ðñùôüêïëëï DaCoN ãéá ôçí åðå-
îåñãáóßá ôùí åñùôçìÜôùí d-ãåéôïíéÜò k-êÜëõøçò äåäïìÝíùí óå ÁÄÁ. Ï Ðßíá-
êáò 9.1 óõíïøßæåé ôá âáóéêÜ óýìâïëá ðïõ ÷ñçóéìïðïéïýíôáé óå áõôü ôï êåöÜëáéï.
Áõôü ôï ðñùôüêïëëï åßíáé ðëÞñùò êáôáíåìçìÝíï êáé åêôåëåßôáé ôïðéêÜ óôéò ãåé-
ôïíéÝò. ÏðïéáäÞðïôå ëýóç ðïõ âáóßæåôáé óôç ÷ñÞóç äïìþí êÜëõøçò Ýêôáóçò,
üðùò áèñïéóôéêÜ äÝíäñá [168, 180] ìåéïíåêôåß óôï ãåãïíüò üôé: (á) óôçñßæåôáé
óå ìßá áðáéôçôéêÞ öÜóç áñ÷éêïðïßçóçò ãéá ôçí êáôáóêåõÞ ôçò äïìÞò, êáé (â)
äçìéïõñãåß óçìåßá óõìöüñçóçò (hot-spots) óôçí åðéêïéíùíßá, üðùò ïé áéóèçôÞ-
ñåò ðïõ âñßóêïíôáé øçëÜ óôçí éåñáñ÷ßá. ÔÝôïéåò éåñáñ÷éêÝò äïìÝò áíáãêÜæïõí
êÜðïéïõò áéóèçôÞñåò íá êáôáíáëþóïõí ôçí åíÝñãåéÜ ôïõò ãñÞãïñá, êáé áêüìá
êáé óôçí ðåñßðôùóç ðïõ åëá÷éóôïðïéïýí ôç ìÝóç êáôáíÜëùóç åíÝñãåéáò, ðáñá-
âéÜæïõí ôçí áñ÷Þ âåëôéóôïðïßçóçò [36], ç ïðïßá äéáôõðþíåé üôé ç êáôáíÜëùóç
åíÝñãåéáò ðñÝðåé íá ãßíåôáé üóï ôï äõíáôü ðéï ïìïéüìïñöá ìåôáîý üëùí ôùí
êüìâùí ðñïêåéìÝíïõ íá åðéìçêýíåôáé ç äéÜñêåéá æùÞò ôïõ äéêôýïõ.
Óýìâïëï ÐåñéãñáöÞ
D; D0 ; D; D0 óýíïëá äéáóôÜóåùí êáé ðëÞèïò äéáóôÜóåùí
gn ðëÞèïò êüìâùí áéóèçôÞñùí äéêôýïõ
S; Si áéóèçôÞñáò
vn ðëÞèïò ôéìþí áéóèçôÞñùí
vj ; Si :vj j-ïóôÞ ôéìÞ ôïõ i-ïóôïý áéóèçôÞñá
d ðëÞèïò âçìÜôùí ãéá ôç ãåéôïíéÜ
k ìÝãéóôï ðëÞèïò ôéìþí ðïõ ìðïñåß íá êáëýðôïõí ìßá ôéìÞ vj
netDiam äéÜìåôñïò äéêôýïõ
frb ðñïóùñéíÞ ìíÞìç áðïèÞêåõóçò ìçíõìÜôùí ðñþôïõ ãýñïõ
srb ðñïóùñéíÞ ìíÞìç áðïèÞêåõóçò ìçíõìÜôùí äåýôåñïõ ãýñïõ

ΠINAKAΣ 9.1. ÂáóéêÜ óýìâïëá Êåöáëáßïõ 9.

ÕðïèÝóôå üôé õðÜñ÷åé Ýíá ÁÄÁ ìå gn êüìâïõò áéóèçôÞñùí. ÊÜèå áéóèçôÞñáò


Si Ý÷åé Ýíá ðëÞèïò ôéìþí äåäïìÝíùí Si :vn, ð.÷., ôéìÝò èåñìïêñáóßáò ôùí ôåëåõ-
ôáßùí 5 ëåðôþí. Ãéá áðëïýóôåõóç, õðïèÝôïõìå üôé üëïé ïé áéóèçôÞñåò Ý÷ïõí vn
9.3. ÔÏ ÐÑÙÔÏÊÏËËÏ DACON 199

ôéìÝò äåäïìÝíùí, áí êáé ôï ðñïôåéíüìåíï ðñùôüêïëëï åöáñìüæåôáé ÷ùñßò ôñïðï-


ðïéÞóåéò óå áõèáßñåôï ðëÞèïò äåäïìÝíùí óå êÜèå áéóèçôÞñá.
Ç áðïèçêåõôéêÞ åðéâÜñõíóç ôïõ ðñùôïêüëëïõ áíÜ áéóèçôÞñá Si ðåñéïñßæåôáé
óôç äéáôÞñçóç äýï óõíüëùí (frb; srb) ìå d ìçíýìáôá ôï êáèÝíá. ÊÜèå ìÞíõìá
ðåñéÝ÷åé ôï áíáãíùñéóôéêü (ID) ôïõ áéóèçôÞñá ðïõ óôÝëíåé ôï ìÞíõìá (source ID),
ôéò ôéìÝò äåäïìÝíùí êáé ôá ID ôùí áéóèçôÞñùí ðïõ êáôÝãñáøáí áõôÝò ôéò ôéìÝò,
äçëáäÞ ôá äåäïìÝíá åíüò ìçíýìáôïò åßíáé ïé ôéìÝò ðïõ Ýëáâå Ýíáò áéóèçôÞñáò
(óõìðåñéëáìâÜíïíôáò êáé ôéò äéêÝò ôïõ ôéìÝò) êáé êáëýðôïíôáé ôï ðïëý áðü k
Üëëåò ôéìÝò.
Óå Ýíá ðïëõäéÜóôáôï ÷þñï, áíÜëïãá ìå ôç óçìáóéïëïãßá êÜèå äéÜóôáóçò, óå
ìåñéêÝò ðåñéðôþóåéò åßíáé åðéèõìçôÞ ç ìåãéóôïðïßçóç/åëá÷éóôïðïßçóç ôùí äéá-
óôÜóåùí, Þ ïðïéïóäÞðïôå óõíäõáóìüò áõôþí (åëá÷éóôïðïßçóç êÜðïéùí êáé ìå-
ãéóôïðïßçóç ôùí õðïëïßðùí). Ìßá ôéìÞ êáëýðôåé (covers) ìßá Üëëç ôéìÞ, áí ç
åðéèõìçôÞ ó÷Ýóç ìåôáîý ôùí ôéìþí ôïõò éó÷ýåé óå üëåò ôéò äéáóôÜóåéò.
Ãéá ðáñÜäåéãìá, õðïèÝóôå üôé óå Ýíá ÷þñï 2-äéáóôÜóåùí åðéèõìïýìå ôç ìå-
ãéóôïðïßçóç ôçò ðñþôçò äéÜóôáóçò êáé ôçí åëá÷éóôïðïßçóç ôçò äåýôåñçò. ¸óôù
üôé vi :dx óõìâïëßæåé ôç x-ïóôÞ äéÜóôáóç ôçò ôéìÞò vi . Ìßá ôéìÞ vi êáëýðôåé ìßá
ôéìÞ vj , áí éó÷ýåé vi :d1 > vj :d1 êáé vi :d2 < vj :d2 . Óå áõôÞ ôç ìåëÝôç, åîå-
ôÜæïõìå ôçí ðåñßðôùóç ôùí äåäïìÝíùí ìßáò äéÜóôáóçò, áëëÜ ôï ðñïôåéíüìåíï
ðñùôüêïëëï ìðïñåß íá åöáñìïóèåß ìå ìéêñÝò ôñïðïðïéÞóåéò óå Ýíá ðéï ãåíéêåõ-
ìÝíï óåíÜñéï ðïëõäéÜóôáôùí äåäïìÝíùí. Óôç óõíÝ÷åéá, ÷ùñßò íá ðåñéïñßóïõìå
ôç ãåíéêüôçôá ôçò ìåèüäïõ, ìåëåôïýìå ùò êñéôÞñéï êÜëõøçò ôç ìåãéóôïðïßçóç
ôùí ôéìþí äåäïìÝíùí.
Ôï ðñùôüêïëëï DaCoN Ý÷åé ôñåéò öÜóåéò. Óôçí ðñþôç öÜóç, ðñïóäéïñßæïíôáé
ïé ôéìÝò ðïõ áíÞêïõí óôçí áðÜíôçóç ôïõ åñùôÞìáôïò. Ç äåýôåñç öÜóç áíáìåôá-
äßäåé ôéò ìéêñüôåñåò ôéìÝò ðïõ åðéâßùóáí áðü ôçí ðñþôç öÜóç. Áõôü åõíïåß ôçí
åðéëïãÞ ìéêñüôåñùí ôéìþí áöïý ïé áéóèçôÞñåò ìðïñïýí íá ðñïóäéïñßóïõí ôïðéêÜ
ìÝãéóôá óôçí åðüìåíç öÜóç. Óôçí ôñßôç öÜóç, êÜèå áéóèçôÞñáò õðïëïãßæåé ôçí
áðÜíôçóÞ ôïõ. Ïé åðüìåíåò ôñåéò ðáñÜãñáöïé ðáñïõóéÜæïõí ôéò ëåéôïõñãßåò ôïõ
ðñïôåéíüìåíïõ ðñùôïêüëëïõ.
ÖÁÓÇ 1. Ðñþôïé d-ãýñïé: Óôïí ðñþôï ãýñï, êÜèå êüìâïò óôÝëíåé ôéò
k ìåãáëýôåñåò ôéìÝò ôïõ óå üëïõò ôïõ ãåßôïíåò ðïõ áðÝ÷ïõí 1 âÞìá. ÌåôÜ,
âñßóêåé ôéò k ìåãáëýôåñåò ôéìÝò ëáìâÜíïíôáò õðüøç ôéò äéêÝò ôïõ ôéìÝò êáé ôéò
ôéìÝò ðïõ Ýëáâå áðü ôïõò ãåßôïíÝò ôïõ. ÅðéðëÝïí, ó÷çìáôßæåé Ýíá ìÞíõìá ìå
áõôÝò ôéò ôéìÝò êáé ôï áðïèçêåýåé óôï frb. Óôïõò åðüìåíïõò d{1 ãýñïõò, áõôÞ ç
äéáäéêáóßá åðáíáëáìâÜíåôáé ìå ôç äéáöïñÜ üôé ôþñá êÜèå áéóèçôÞñáò èåùñåß ùò
ôéò k ìåãáëýôåñåò ôéìÝò ôïõ, ôéò ôéìÝò ôïõ ôåëåõôáßïõ ìçíýìáôïò ôïõ frb.
ÖÁÓÇ 2. Åðüìåíïé d-ãýñïé: Ãéá ôïõò åðüìåíïõò d ãýñïõò ç äéáäéêáóßá åß-
íáé åëáöñþò äéáöïñåôéêÞ. ÊÜèå áéóèçôÞñáò âñßóêåé ôéò k ôéìÝò ôïõ, ëáìâÜíïíôáò
õðüøç ôï ðñïçãïýìåíï ìÞíõìá êáé ôá ìçíýìáôá ðïõ Ýëáâå áðü ôïõò ãåßôïíÝò
ôïõ, ùò åîÞò: êÜèå vi ôéìÞ (üðïõ 1 ≤ i ≤ k) åðéëÝãåôáé êñáôþíôáò ôçí ìéêñüôåñç
200 ÊÅÖÁËÁÉÏ 9. ÅÑÙÔÇÌÁ ÃÅÉÔÏÍÉÁÓ ÊÁÉ ÊÁËÕØÇÓ ÄÉÊÔÕÙÍ ÁÉÓÈÇÔÇÑÙÍ

i-ïóôÞ ôéìÞ áõôþí ôùí ìçíõìÜôùí. ÁõôÝò ïé ôéìÝò ó÷çìáôßæïõí Ýíá ìÞíõìá ðïõ
áðïèçêåýåôáé óôï srb.
ÖÁÓÇ 3. ÁðÜíôçóç ôïõ åñùôÞìáôïò: ÓõíïëéêÜ, ôï ðñùôüêïëëï DaCoN
åêôåëåßôáé óå 2 · d ãýñïõò. ÌåôÜ ôïõò ãýñïõò áõôïýò, êÜèå áéóèçôÞñáò ìðïñåß
íá áðïöáóßóåé ôçí áðÜíôçóç ôïõ d-ãåéôïíéÜò k-êÜëõøçò äåäïìÝíùí åñùôÞìáôïò.
ÊÜèå ôéìÞ vi (üðïõ 1 ≤ i ≤ k) ôçò áðÜíôçóçò åðéëÝãåôáé ùò åîÞò: ï áéóèçôÞñáò
óõãêñßíåé ôá ìçíýìáôá ôùí frb êáé srb êáé ðñïóðáèåß íá âñåé æåýãç ôéìþí óôéò
ðñþôåò i ôéìÝò êÜèå ìçíýìáôïò. ÌåôÜ ôïí åíôïðéóìü üëùí ôùí æåõãþí ôéìþí, ï
áéóèçôÞñáò åðéëÝãåé ôï ìéêñüôåñï æåýãïò ùò ôçí i-ïóôÞ ôéìÞ ôçò áðÜíôçóÞò ôïõ.
Áí äåí õðÜñ÷åé æåýãïò ôéìþí, ôüôå ï áéóèçôÞñáò åðéëÝãåé ôç ìåãáëýôåñç áðü ôéò
ðñþôåò i ôéìÝò ôùí ìçíõìÜôùí frb.
ÊáôÜ ôç äéÜñêåéá ôùí ãýñùí áíôáëëáãÞò ìçíõìÜôùí, ìðïñïýìå íá áðïöý-
ãïõìå ôéò óõãêñïýóåéò ìçíõìÜôùí êáé ôç äéáìÜ÷ç ãéá ôç ÷ñÞóç ôïõ áóýñìáôïõ
êáíáëéïý, äçìéïõñãþíôáò Ýíá TDMA (time division multiple accesses) ÷ñïíïäéÜ-
ãñáììá áêïëïõèþíôáò ôïí áëãüñéèìï ðïõ ðñïôÜèçêå óôçí åñãáóßá [62]. ¸ôóé,
åßíáé áóöáëÝò íá õðïèÝóïõìå üôé äåí õðÜñ÷ïõí áðþëåéåò ìçíõìÜôùí.
ÐáñÜäåéãìá åêôÝëåóçò ôïõ DaCoN: Ï Ðßíáêáò 9.2 äåß÷íåé ôçí åêôÝëåóç
ôïõ ðñùôïêüëëïõ DaCoN ãéá ôï äßêôõï ôçò Åéêüíáò 9.1 ìå d=3 êáé k=2. Áñ÷éêÜ,
êÜèå êüìâïò óôÝëíåé ôéò äýï ìåãáëýôåñåò ôéìÝò ôïõ. Ïé ãñáììÝò 1, 2 êáé 3
äåß÷íïõí ôá ìçíýìáôá ðïõ áðïèçêåýïíôáé óôï frb óôï ôÝëïò ôïõ ãýñïõ 1, 2
êáé 3, áíôßóôïé÷á ôçò ðñþôçò öÜóçò, åíþ ïé ãñáììÝò 4, 5 êáé 6 ôá áíôßóôïé÷á
ìçíýìáôá ôçò äåýôåñçò öÜóçò. Ãéá ðáñÜäåéãìá, ï êüìâïò áéóèçôÞñáò C óôÝëíåé
ôéò ôéìÝò 6 êáé 3. Óôï ôÝëïò ôïõ ãýñïõ 1, Ý÷åé ëÜâåé ôéò ôéìÝò 10 êáé 9 áðü ôïí
áéóèçôÞñá A êáé ôéò ôéìÝò 3 êáé 2 áðü ôïí F . Ï áéóèçôÞñáò C âñßóêåé üôé ïé
ôéìÝò 10 êáé 9 åßíáé ïé ìåãáëýôåñåò. Óôïí Ðßíáêá 9.2, äßíïõìå ìüíï ôéò ôéìÝò êáé
ðáñáëåßðïõìå ôéò õðüëïéðåò ðëçñïöïñßåò ôùí ìçíõìÜôùí ãéá ëüãïõò óáöÞíåéáò.
Ìå ôïí ßäéï ôñüðï, óôïí ðñþôï ãýñï ôçò äåýôåñçò öÜóçò ï áéóèçôÞñáò C óôÝëíåé
ôéò ôéìÝò 17 êáé 15. Óôï ôÝëïò ôïõ ãýñïõ 4, Ý÷åé ëÜâåé ôéò ôéìÝò 14 êáé 13 áðü
ôïí áéóèçôÞñá A êáé ôéò ôéìÝò 17 êáé 15 áðü ôïí F . Ï áéóèçôÞñáò C âñßóêåé üôé
ïé ôéìÝò 14 êáé 13 åßíáé ïé ìéêñüôåñåò.
ÌåôÜ áðü 2·d ãýñïõò, ï áéóèçôÞñáò C èá õðïëïãßóåé ôçí áðÜíôçóÞ ôïõ.
Ðñþôá, ðñïóðáèåß íá âñåé ôç ìåãáëýôåñç ôéìÞ. Ãé' áõôü øÜ÷íåé ìüíï óôçí ðñþôç
ôéìÞ êÜèå ìçíýìáôïò êáé ðñïóðáèåß íá âñåé æåýãç ìåôáîý ôùí ìçíõìÜôùí ôïõ
frb êáé ôïõ srb. Ìüíï ç ôéìÞ 14 Ý÷åé æåýãïò, äçëáäÞ âñßóêåôáé óå ìÞíõìá êáé
ôùí äýï óõíüëùí. Ôüôå, ï áéóèçôÞñáò C ðñïóðáèåß íá âñåé ôç äåýôåñç ôéìÞ.
Ôþñá, øÜ÷íåé óôéò ðñþôåò äýï ôéìÝò êÜèå ìçíýìáôïò êáé áãíïåß ôéò ôéìÝò ðïõ
åßíáé ßóåò Þ ìåãáëýôåñåò áðü ôçí áðÜíôçóç ôïõ ðñïçãïýìåíïõ âÞìáôïò (äçëáäÞ,
14). ÕðÜñ÷ïõí äýï æåýãç (ôéìÝò 10 êáé 13). Óå áõôÞ ôçí ðåñßðôùóç, ï áéóèçôÞñáò
C åðéëÝãåé ôï ìéêñüôåñï æåýãïò. a
Ôï DaCoN ðñùôüêïëëï ìðïñåß åðßóçò íá ÷åéñéóèåß ðåñéðôþóåéò üðïõ áðáé-
ôåßôáé ç åëá÷éóôïðïßçóç ôùí ÷áñáêôçñéóôéêþí åðéëÝãïíôáò ôéò ìéêñüôåñåò ôéìÝò
9.3. ÔÏ ÐÑÙÔÏÊÏËËÏ DACON 201

Êüìâïé áéóèçôÞñùí
A B C D E F
10 9 12 5 6 3 5 4 4 1 3 2
1. 12 10 12 10 10 9 12 10 5 4 14 13
2. 12 10 12 10 14 13 12 10 14 13 17 15
3. 14 13 12 10 17 15 14 13 17 15 17 15
4. 12 10 12 10 14 13 12 10 14 13 17 15
5. 12 10 12 10 12 10 12 10 12 10 14 13
6. 12 10 12 10 12 10 12 10 12 10 12 10
12 10 12 10 14 10 12 10 14 13 14 13

Êüìâïé áéóèçôÞñùí (óõíÝ÷åéá)


G H I J K L
12 11 12 8 12 7 17 9 15 10 14 13
1. 12 11 17 15 17 14 17 15 17 15 14 13
2. 17 15 17 15 17 15 17 15 17 15 17 14
3. 17 15 17 15 17 15 17 15 17 15 17 15
4. 17 15 17 15 17 15 17 15 17 15 17 15
5. 17 15 17 15 17 15 17 15 17 15 17 15
6. 14 13 14 13 17 15 17 15 17 15 14 13
17 15 17 15 17 15 17 15 17 15 14 13

ΠINAKAΣ 9.2. ÐáñÜäåéãìá åêôÝëåóçò ðñùôïêüëëïõ DaCoN ãéá d=3 êáé k=2.

óôïõò ðñþôïõò d ãýñïõò êáé ôéò ìåãáëýôåñåò ôéìÝò óôïõò åðüìåíïõò d. Åðé-
ðëÝïí, ôï ðñùôüêïëëï DaCoN ìðïñåß íá ÷åéñéóèåß ðïëõäéÜóôáôá äåäïìÝíá ìå
ìéêñÝò ôñïðïðïéÞóåéò.
Ôï åñþôçìá d-ãåéôïíéÜò k-êÜëõøçò äåäïìÝíùí ùò ãåíßêåõóç Üëëùí
ãíùóôþí åñùôçìÜôùí. Ôï åñþôçìá áõôü åßíáé ãåíßêåõóç ôñéþí åñùôçìÜôùí.
Óôçí ðåñßðôùóç ðïõ k=1, åßíáé ðáñüìïéï ìå ôçí åýñåóç åíüò êõñßáñ÷ïõ óõíü-
ëïõ d-ãåéôïíéÜò óå ÁÄÁ [14]. Ùóôüóï, õðÜñ÷ïõí óçìáíôéêÝò äéáöïñÝò ìåôáîý
ôùí äýï ðñïâëçìÜôùí. Óôçí åñãáóßá [14] ðñïôÜèçêå ìßá åõñéóôéêÞ ìÝèïäïò ðïõ
ìðïñåß íá ÷åéñéóèåß ìüíï ôç ìåãéóôïðïßçóç ìßáò äéÜóôáóçò, äçëáäÞ ôï ID ôùí
áéóèçôÞñùí. Áíôßèåôá, ôï DaCoN ÷åéñßæåôáé äåäïìÝíá ôùí áéóèçôÞñùí êáé åðï-
ìÝíùò åßíáé éêáíü íá ÷åéñßæåôáé ðïëõäéÜóôáôåò ôéìÝò äéáöïñåôéêÞò óçìáóéïëïãßáò
(ìåãéóôïðïßçóç, åëá÷éóôïðïßçóç êáé óõíäõáóìüò áõôþí). ÅðéðëÝïí, ôï DaCoN
ìðïñåß íá áðáíôÞóåé óå 2·d ãýñïõò k ôéìÝò Ýíáíôé ôçò ìßáò ôéìÞò ôïõ áëãïñßèìïõ
ôçò åñãáóßáò [14].
Áí éó÷ýåé d=netDiam, ôï åñþôçìá ìåôáó÷çìáôßæåôáé óôï k-skyband åñþôçìá
[135]. Ï áëãüñéèìïò ðïõ ðñïôÜèçêå óôçí åñãáóßá [135] äåí ëáìâÜíåé õðüøç ôçí
202 ÊÅÖÁËÁÉÏ 9. ÅÑÙÔÇÌÁ ÃÅÉÔÏÍÉÁÓ ÊÁÉ ÊÁËÕØÇÓ ÄÉÊÔÕÙÍ ÁÉÓÈÇÔÇÑÙÍ

Ýííïéá ôçò ãåéôïíéÜò êáé äåí åßíáé êáôáíåìçìÝíïò, åðïìÝíùò äåí åßíáé êáôÜëëçëïò
ãéá ÁÄÁ, ðïõ áðáéôïýí ôïðéêÞò åêôÝëåóçò áëãïñßèìïõò.
ÔÝëïò, ôï ðñüâëçìá ôçò d-ãåéôïíéÜò k-êÜëõøçò äåäïìÝíùí ìðïñåß íá èåùñçèåß
ùò ãåíßêåõóç ôïõ åñùôÞìáôïò top-k [180]. Óôçí ðåñßðôùóç ìïíïäéÜóôáôïõ ÷þñïõ
êáé üôáí d=netDiam, áí ç óõíÜñôçóç âáèìïëïãßáò ôçò äéÜóôáóçò åßíáé MAX Þ
MIN, ôï åñþôçìá d-ãåéôïíéÜò k-êÜëõøçò äåäïìÝíùí ìåôáó÷çìáôßæåôáé óå top-k
åñþôçìá. ¼ìùò, üðùò Þäç áíáöÝñèçêå, ïé áëãüñéèìïé ðïõ ðñïôÜèçêáí ãéá top-k
åñùôÞìáôá, ìðïñïýí íá åöáñìïóèïýí ìüíï áí d=netDiam. ¸ôóé, ïé áëãüñéèìïé
áõôïß äåí ìðïñïýí íá ÷ñçóéìïðïéçèïýí ãéá ôï ðñüâëçìá ðïõ åîåôÜæïõìå óå áõôü
ôï êåöÜëáéï.

9.3.1 Ìåßùóç ìçíõìÜôùí êáé óõíå÷Þò áðïôßìçóç


ÐñïêåéìÝíïõ íá êáôáóôÞóïõìå áðïäïôéêÞ ôç óõíå÷Þ áðïôßìçóç ôïõ åñùôÞìáôïò
d-ãåéôïíéÜò k-êÜëõøçò äåäïìÝíùí, ìåëåôÞóáìå ôñüðïõò ãéá íá åëáôôþóïõìå ôï
ðëÞèïò ìçíõìÜôùí êáé êáôÜ óõíÝðåéá ôçí êáôáíÜëùóç åíÝñãåéáò. Óýìöùíá ìå
ôï ðñùôüêïëëï DaCoN, ïé áéóèçôÞñåò áíôáëëÜóïõí ôá äåäïìÝíá ôïõò ìå ôç d
âçìÜôùí ãåéôïíéÜ óôçí ðñþôç êáé óôç äåýôåñç öÜóç. ËáìâÜíïíôáò õðüøç ôá
äåäïìÝíá ôùí ãåéôüíùí, ôá äåäïìÝíá ôïõò êáôáëÞãïõí óôï ôÝëïò êÜèå ãýñïõ íá
Ý÷ïõí ó÷çìáôßóåé ôï ìÞíõìá ðïõ èá óôáëåß óôïí åðüìåíï ãýñï.
¼ðùò åßíáé Ýêäçëï êáé áðü ôïí Ðßíáêá 9.2, óôçí áñ÷Þ ôá ìçíýìáôá ðïõ ó÷ç-
ìáôßæïõí ïé áéóèçôÞñåò äéáöÝñïõí áñêåôÜ áðü áõôÜ ôïõ ðñïçãïýìåíïõ ãýñïõ,
áëëÜ ìåôÜ áðü êÜðïéïõò ãýñïõò ðïëëïß áéóèçôÞñåò ó÷çìáôßæïõí áêñéâþò ôï ßäéï
ìÞíõìá. Ãéá ðáñÜäåéãìá, ï áéóèçôÞñáò H ìåôÜ ôï ôÝëïò ôïõ ðñþôïõ ãýñïõ Ý÷åé
ó÷çìáôßóåé ôï ìÞíõìá ìå ôéìÝò 17 êáé 15. Óå üëïõò ôïõò õðüëïéðïõò ãýñïõò
ôçò ðñþôçò öÜóçò áëëÜ êáé óôïõò äýï ðñþôïõò ãýñïõò ôçò äåýôåñçò öÜóçò, ï
áéóèçôÞñáò Ç ó÷çìáôßæåé ôï ßäéï áêñéâþò ìÞíõìá. Ç åêðïìðÞ ôïõ ßäéïõ ìçíýìá-
ôïò óôïõò ãåßôïíåò åíüò áéóèçôÞñá, äåí ìðïñåß íá ìåôáâÜëëåé ôá ìçíýìáôá ðïõ
èá ó÷çìáôßóïõí ïé ãåßôïíåò. ÄçëáäÞ, áí ï áéóèçôÞñáò ó÷çìáôßóåé ãéá äåýôåñç
óõíå÷üìåíç öïñÜ ôï ßäéï ìÞíõìá, ðïõ óçìáßíåé üôé ôï Ý÷åé óôåßëåé Þäç ìßá öïñÜ
óôïõò ãåßôïíÝò ôïõ, åßíáé ðåñéôôü íá ôï îáíáóôåßëåé äéüôé äåí ìðïñåß íá åðçñåÜóåé
ôï ó÷çìáôéóìü ôùí ìçíõìÜôùí ôùí ãåéôüíùí ôïõ.
¸íáò áéóèçôÞñáò ìðïñåß íá åýêïëá íá äéáðéóôþóåé ôï ó÷çìáôéóìü ôïõ ßäéïõ
ìçíýìáôïò äéüôé ôá áðïèçêåýåé üëá óôá óýíïëá frb êáé srb. ¸íá æÞôçìá åß-
íáé ðùò ïé ãåßôïíÝò ôïõ èá êáôáëÜâïõí üôé ï óõãêåêñéìÝíïò áéóèçôÞñáò äåí èá
óôåßëåé ìÞíõìá óå áõôü ôï ãýñï áðïöåýãïíôáò Ýôóé ôçí Üóêïðç áíáìïíÞ ôïõ
ìçíýìáôüò ôïõ. Åöüóïí, êÜèå áéóèçôÞñáò åêðÝìðåé ôá ìçíýìáôÜ ôïõ óå óõãêå-
êñéìÝíç ÷ñïíéêÞ óôéãìÞ (èõìçèåßôå üôé ÷ñçóéìïðïéïýìå ÷ñïíïäéÜãñáììá TDMA
ãéá íá áðïöýãïõìå ôéò óõãêñïýóåéò ìçíõìÜôùí), áí ïé ãåßôïíåò ôïõ äåí ëÜâïõí
ìÞíõìá áðü áõôüí ôïí áéóèçôÞñá óôï ðñïêáèïñéóìÝíï ÷ñïíéêü äéÜóôçìá, ôüôå
èåùñïýí üôé ôï ìÞíõìÜ ôïõ åßíáé ßäéï êáé êáôÜ óõíÝðåéá äåí ìðïñåß íá ìåôáâÜëëåé
ôï ó÷çìáôéóìü ôïõ äéêïý ôïõò ìçíýìáôïò óôïí ôñÝ÷ïíôá ãýñï. Ôï êÝñäïò áðü
9.4. ÁÐÏÔÉÌÇÓÇ ÁÐÏÄÏÓÇÓ 203

ôç ìåßùóç ìçíõìÜôùí åßíáé äéðëü, äéüôé åëáôôþíïõìå ôçí êáôáíÜëùóç åíÝñãåéáò


ôüóï ôïõ áéóèçôÞñá ðïõ åðñüêåéôï íá óôåßëåé ôï ìÞíõìá áëëÜ êáé ôùí áéóèçôÞ-
ñùí ðïõ èá ôï ëÜìâáíáí (ãéáôß êáé ç ëÞøç ìçíõìÜôùí áðáéôåß ôçí êáôáíÜëùóç
ü÷é êáé ôüóï áìåëçôÝáò ðïóüôçôáò åíÝñãåéáò). ÐñïóÝîôå üôé ïé áéóèçôÞñåò óõ-
íå÷ßæïõí íá ó÷çìáôßæïõí ìçíýìáôá óôï ôÝëïò êÜèå ãýñïõ áíåîÜñôçôá áðü ôï áí
åßíáé ßäéá Þ ü÷é. Ôï ìüíï ðïõ ôñïðïðïéåßôáé óôï ðñùôüêïëëï åßíáé áí ôåëéêÜ èá
áðïóôáëïýí Þ ü÷é.
ÌåôÜ êáé ôçí ôñßôç öÜóç, üëïé ïé áéóèçôÞñåò Ý÷ïõí õðïëïãßóåé ôçí áðÜíôçóÞ
ôïõò. Óå ìßá óõíå÷Þ áðïôßìçóç ôïõ åñùôÞìáôïò, êÜðïéïò èá óêåöôüôáí üôé èá
áñêïýóå áðëþò íá åîåôÜóïõìå ôéò íÝåò ôéìÝò ôïõ áéóèçôÞñá áëëÜ êáé áõôÝò ðïõ
äéáãñÜöçêáí (èõìçèåßôå üôé ÷ñçóéìïðïéïýìå ôï ìïíôÝëï êéíïýìåíïõ ðáñáèýñïõ)
êáé áí ç áðÜíôçóÞ ôïõ äåí ìåôáâÜëëåôáé ôüôå äå ÷ñåéÜæåôáé íá óõíå÷ßóïõìå
ôçí áðïóôïëÞ ìçíõìÜôùí åêêéíþíôáò Ýôóé ôçí ðñþôç öÜóç áðü ôçí áñ÷Þ. ÊÜôé
ôÝôïéï üìùò äõóôõ÷þò äåí éó÷ýåé, äéüôé (êáèþò êÜèå áéóèçôÞñáò Ý÷åé ôç äéêÞ ôïõ
áðÜíôçóç) êÜðïéá ìåôáâïëÞ ôùí äåäïìÝíùí åíüò áéóèçôÞñá ðáñüôé ìðïñåß íá ìçí
åðçñåÜæåé ôç äéêÞ ôïõ áðÜíôçóç åßíáé ðéèáíü íá åðçñåÜæåé ôçí áðÜíôçóç êÜðïéïõ
ãåßôïíá.
ÕðÜñ÷åé üìùò ôñüðïò íá åëáôôþóïõìå ðåñáéôÝñù ôçí åðéêïéíùíßá ìåôáîý ôùí
áéóèçôÞñùí. Áí ìå âÜóç ôá íÝá äåäïìÝíá åíüò áéóèçôÞñá, áõôüò ó÷çìáôßæåé ôï
ßäéï ìÞíõìá ìå ôï ðñþôï ìÞíõìá ðïõ åß÷å óôåßëåé óôçí ðñïçãïýìåíç áðïôßìçóç
ôïõ åñùôÞìáôïò, ôüôå äåí ÷ñåéÜæåôáé íá åðáíáëÜâåé ôçí åêðïìðÞ. Ãéá ðáñÜäåéãìá,
áí ï áéóèçôÞñáò Ç (Ðßíáêáò 9.2) ëáìâÜíïíôáò õðüøç ôá íÝá äåäïìÝíá (ìüíï ôá
äåäïìÝíá ôïõ êáé ü÷é ôçí áðÜíôçóÞ ôïõ) ó÷çìáôßóåé ìÞíõìá ìå ôéìÝò 12 êáé
8, ôüôå äåí ÷ñåéÜæåôáé íá óôåßëåé ôï ìÞíõìÜ ôïõ óôïõò ãåßôïíÝò ôïõ. Ãéá íá
êáôáóôÞóïõìå äõíáôÞ ôç óõíå÷Þ áðïôßìçóç ôïõ åñùôÞìáôïò ÷ñçóéìïðïéïýìå ìßá
åðéðëÝïí âïçèçôéêÞ äïìÞ, üðïõ êÜèå áéóèçôÞñáò áðïèçêåýåé ôá ðñþôá ìçíýìáôá
ôùí ãåéôüíùí ôïõ ôçò ôñÝ÷ïõóáò áðïôßìçóçò. ¸ôóé, óôçí åðüìåíç áðïôßìçóç
áí Ýíáò áéóèçôÞñáò äåí ëÜâåé ìÞíõìá áðü Ýíá ãåßôïíÜ ôïõ óôïí ðñþôï ãýñï ôçò
ðñþôçò öÜóçò èá èåùñÞóåé üôé ï ãåßôïíáò ôïõ Ý÷åé ôï ßäéï ìÞíõìá ìå áõôü ôïõ
ðñþôïõ ãýñïõ ôçò ðñþôçò öÜóçò ôçò ðñïçãïýìåíçò áðïôßìçóçò. ÐñïóÝîôå üôé
ç ôñïðïðïßçóç Ý÷åé íá êÜíåé ìüíï ìå ôïí ðñþôï ãýñï ôçò ðñþôçò öÜóçò. Ç
åêôÝëåóç üëùí ôùí Üëëùí ãýñùí äåí ìåôáâÜëëåôáé.

9.4 Áðïôßìçóç Áðüäïóçò


Óå áõôÞ ôçí åíüôçôá, áñ÷éêÜ ðáñïõóéÜæïõìå ôçí ðåéñáìáôéêÞ ïñãÜíùóç ðïõ áðï-
ôåëåßôáé áðü Ýíáí ðñïóïìïéùôÞ ôïõ ðñùôïêüëëïõ êáé äýï ãåííÞôñéåò, ôç ãåííÞ-
ôñéá ôçò ôïðïëïãßáò ôïõ äéêôýïõ áéóèçôÞñùí êáé ôçò ãåííÞôñéáò ôùí äåäïìÝíùí
ôùí áéóèçôÞñùí. Óôç óõíÝ÷åéá ðáñïõóéÜæïõìå ôá ðåéñáìáôéêÜ áðïôåëÝóìáôá.
Áöïý ï ôýðïò ôïõ åñùôÞìáôïò åßíáé ðñùôüôõðïò, äåí õðÜñ÷ïõí Üëëåò ìÝèïäïé
ðïõ èá ìðïñïýóáí íá õëïðïéçèïýí ùò áíôáãùíßóôñéåò ôçò ðñïôåéíüìåíçò ìåèüäïõ.
204 ÊÅÖÁËÁÉÏ 9. ÅÑÙÔÇÌÁ ÃÅÉÔÏÍÉÁÓ ÊÁÉ ÊÁËÕØÇÓ ÄÉÊÔÕÙÍ ÁÉÓÈÇÔÇÑÙÍ

ÊÜðïéïò èá ìðïñïýóå íá èåùñÞóåé ôçí ðåñßðôùóç ôçò óõíå÷ïýò åîáãùãÞò üëùí


ôùí äåäïìÝíùí ôùí áéóèçôÞñùí óå Ýíá åîùôåñéêü åîõðçñåôçôÞ êáé ôçò åêôÝëåóçò
ôïõ åñùôÞìáôïò óå áõôüí, áëëÜ îåêÜèáñá ìßá ôÝôïéá ëýóç äåí åßíáé åíåñãåéáêÜ
áðïäïôéêÞ. Ðáñüëá áõôÜ èá äþóïõìå êÜðïéá ðåéñÜìáôá ãéá íá åðéâåâáéþóïõìå
áõôüí ôïí éó÷õñéóìü.

9.4.1 ÃåííÞôñéá ôïðïëïãßáò äéêôýïõ


ÄçìéïõñãÞóáìå äéÜöïñåò ôïðïëïãßåò äéêôýïõ, ìïíôåëïðïéþíôáò ÷áñáêôçñéóôéêÜ
üðùò ôçí ýðáñîç êáé ôçí \Ýíôáóç" ïìÜäùí áéóèçôÞñùí, ôçí ðõêíüôçôá ôùí êüì-
âùí áéóèçôÞñùí ê.á. ÐáñáôçñÞóáìå üôé ïé ôïðïëïãßåò ðïõ ðáñÜ÷èçêáí ìå äéá-
äéêáóßåò üðùò áõôþí ôçò åñãáóßáò [149], Þ ìå äéáäéêáóßåò ðïõ êáôáíÝìïõí ôïõò
êüìâïõò ôõ÷áßá óôï ÷þñï, åßíáé áíÜëïãåò ôïõ ÌïíôÝëïõ Ôõ÷áßïõ ÃñÜöïõ (Ran-
dom Graph Model) ôïõ Erdos-Renyi. Ðáñüôé áõôü ôï ìïíôÝëï åßíáé áñêåôÜ
÷ñÞóéìï, õðïóôçñßæïõìå üôé äåí åßíáé êáôÜëëçëï ãéá ôç ìïíôåëïðïßçóç ãñÜöùí
äéêôýùí, åðåéäÞ áõôïß ïé ãñÜöïé äåí ó÷çìáôßæïíôáé ïìïéüìïñöá, áëëÜ ðáñïõóéÜ-
æïõí ìßá óõìðåñéöïñÜ âáóéóìÝíç óå ïìÜäåò. Ãé' áõôü, Ýðñåðå íá êáôáöýãïõìå
óå ðïëõðëïêüôåñá ìïíôÝëá ãñÜöùí ðïõ ìïíôåëïðïéïýí ôçí ýðáñîç ïìÜäùí, üðùò
áõôü ôïõ Pennock [140]. Ïé ðáñÜìåôñïé ìßáò ôÝôïéáò ãåííÞôñéáò ôïðïëïãßáò äé-
êôýïõ ðïõ áíáðôýîáìå åßíáé ïé åîÞò:
➣ gn: ôï ðëÞèïò ôùí êüìâùí ôïõ äéêôýïõ (ðñïêáèïñéóìÝíç ôéìÞ: 500).
➣ gc: ôï ðëÞèïò ôùí ïìÜäùí ôïõ äéêôýïõ (ðñïêáèïñéóìÝíç ôéìÞ: 20).
➣ gd (ðõêíüôçôá, density): Ýíáò áñéèìüò ðïõ áðåéêïíßæåé ôï êëÜóìá ôùí
áêìþí ðñïò ôéò áêìÝò ôïõ ðëÞñïõò ãñÜöïõ ìå gn êüìâïõò. ÌéêñÝò ôé-
ìÝò ôçò gd ðñïóïìïéþíïõí ìéêñÞ áêôßíá ìåôÜäïóçò (ðñïêáèïñéóìÝíç ôéìÞ:
0.20).
➣ ga ∈ [0:5 : : : 0:99] (óõíäåóéìüôçôá, assortativity): Ýíáò áñéèìüò ðïõ áðåé-
êïíßæåé ôï êëÜóìá ôùí áêìþí ðïõ õðÜñ÷ïõí ìÝóá óôéò ïìÜäåò ðñïò ôï
óõíïëéêü áñéèìü áêìþí ðïõ õðÜñ÷ïõí óôï ãñÜöï (ðñïêáèïñéóìÝíç ôéìÞ:
85%). ÌåãÜëåò ôéìÝò (> 85%) ðñïóïìïéþíïõí ïìÜäåò ìå ðïëý ðõêíÞ óõí-
äåóéìüôçôá åóùôåñéêÜ êáé ìüíï ëßãåò óõíäÝóåéò ðñïò Üëëåò ïìÜäåò, åíþ
ôéìÝò êïíôÜ óôï 0.50 \èïëþíïõí" åíôåëþò ôçí ýðáñîç ôùí ïìÜäùí.

9.4.2 ÃåííÞôñéá äåäïìÝíùí áéóèçôÞñá


Ç ãåííÞôñéá äåäïìÝíùí áéóèçôÞñá Ý÷åé ôéò áêüëïõèåò ðáñáìÝôñïõò:
➣ inn: ðëÞèïò áñ÷éêþí êüìâùí äéêôýïõ (ðñïêáèïñéóìÝíç ôéìÞ: 10).
➣ dn: ðëÞèïò ôùí ôéìþí ãéá êÜèå êüìâï (ðñïêáèïñéóìÝíç ôéìÞ: 100).
9.4. ÁÐÏÔÉÌÇÓÇ ÁÐÏÄÏÓÇÓ 205

➣ minv; maxv: ôï ðåäßï ïñéóìïý ôùí ôéìþí äåäïìÝíùí.


Áñ÷éêÜ, åðéëÝãïõìå ôõ÷áßá inn áéóèçôÞñåò êáé ôïõò áíáèÝôïõìå dn ôéìÝò ðïõ
áíÞêïõí óôï äéÜóôçìá [minv; maxv]. ÌåôÜ, ãéá êÜèå Ýíá áðü ôïõò áñ÷éêïýò
áéóèçôÞñåò, åðéëÝãïõìå ôïõò áéóèçôÞñåò óôç ãåéôïíéÜ 1 âÞìáôïò. Ðáñáëåßðïõìå
ôïõò áéóèçôÞñåò ðïõ ôïõò Ý÷ïõìå áíáèÝóåé Þäç äåäïìÝíá. ÐáñÜãïõìå ìéêñüôåñåò
ôéìÝò ãé' áõôïýò ôïõò êüìâïõò áðü ôéò ôéìÝò ôùí áñ÷éêþí êüìâùí. ÐñïóèÝôïõìå
èüñõâï óôá äåäïìÝíá ãéá íá áðïöýãïõìå ìßá ìïíüôïíç ìåßùóç ôùí ôéìþí. Ç
äéáäéêáóßá åðáíáëáìâÜíåôáé ìÝ÷ñé íá áíáèÝóïõìå äåäïìÝíá óå üëïõò ôïõò êüì-
âïõò.

9.4.3 ÌåëÝôç óõìðåñéöïñÜò ôïõ DaCoN


Áñ÷éêÜ ìåëåôïýìå ôç óõìðåñéöïñÜ ôïõ âáóéêïý ðñùôïêüëëïõ DaCon ðñïêåé-
ìÝíïõ íá êáôáíïÞóïõìå ëåðôïìåñþò ôç ëåéôïõñãéêüôçôÜ ôïõ, äéüôé áöïñÜ ôçí
áðïôßìçóç åíüò ðñùôüôõðïõ åñùôÞìáôïò. ÌåëåôÞóáìå ôçí áðüäïóç ôïõ ðñù-
ôïêüëëïõ ìåôáâÜëëïíôáò ôéò ðéï óçìáíôéêÝò ðáñáìÝôñïõò, üðùò ôï ðëÞèïò ôùí
áéóèçôÞñùí, ôçí ðáñÜìåôñï k (ðñïêáèïñéóìÝíç ôéìÞ: 3), ôçí ðáñÜìåôñï d, ôï
ðëÞèïò ôùí ïìÜäùí êáé ôç óõíäåóéìüôçôá ôïõ äéêôýïõ. Ìåôñïýìå ôï ðëÞèïò ôùí
ìçíõìÜôùí, ôïõò åíåñãïýò áéóèçôÞñåò (activated sensors), äçëáäÞ ôïõò áéóèçôÞ-
ñåò ðïõ áíÞêïõí óôçí áðÜíôçóç êáé ôá óçìåßá óõìöüñçóçò ôïõ äéêôýïõ.

d=2 d=2
1e+006 d=3 1000 d=3
d=5 d=5
d=netDiam d=netDiam
100000 100

10000 10

1000 1
100 250 500 750 1000 100 250 500 750 1000
Number of Sensors Number of Sensors

(á) (â)

EIKONA 9.2: Åðßäñáóç ìåãÝèïõò äéêôýïõ (ðëÞèïò ïìÜäùí óôáèåñü) óå: (á) ðëÞèïò ìçíõìÜôùí, êáé (â)
ðëÞèïò åíåñãþí áéóèçôÞñùí.

Ðñþôá, ìåëåôïýìå ôçí áðüäïóç ôïõ ðñùôïêüëëïõ DaCoN óå ó÷Ýóç ìå ôï


ðëÞèïò ôùí áéóèçôÞñùí ôïõ äéêôýïõ. Ç Åéêüíá 9.2 äåß÷íåé ôá áðïôåëÝóìáôá ãéá
äéÜöïñåò ôéìÝò ôçò ðáñáìÝôñïõ d. ¼ðùò áíáìåíüôáí, ôï ðëÞèïò ôùí ìçíõìÜôùí
áõîÜíåé ìå ôçí áýîçóç ôçò d, üðùò åðßóçò áõîÜíåé êáé ãéá ìåãáëýôåñá äßêôõá.
Ôï ðëÞèïò ôùí åíåñãþí áéóèçôÞñùí áõîÜíåé ìå ôç ìåßùóç ôçò d, áöïý Ýôóé ïõ-
óéáóôéêÜ êáèïñßæïõìå ðåñéóóüôåñåò ãåéôïíéÝò êáé Ýôóé ôï ðñùôüêïëëï åêôåëåßôáé
áêüìá ðéï ôïðéêÜ. ¼ôáí ôï ìÝãåèïò ôïõ äéêôýïõ áõîÜíåé, ôï ðëÞèïò ôùí åíåñãþí
206 ÊÅÖÁËÁÉÏ 9. ÅÑÙÔÇÌÁ ÃÅÉÔÏÍÉÁÓ ÊÁÉ ÊÁËÕØÇÓ ÄÉÊÔÕÙÍ ÁÉÓÈÇÔÇÑÙÍ

áéóèçôÞñùí ìåéþíåôáé, åðåéäÞ, åöüóïí ôï ðëÞèïò ôùí ïìÜäùí ðáñáìÝíåé óôáèåñü,


ïé ôéìÝò êÜðïéùí áéóèçôÞñùí óå êÜèå ïìÜäá êáëýðôïõí ðïëëÝò ðåñéóóüôåñåò ôé-
ìÝò áéóèçôÞñùí, (äçëáäÞ ïé ãåéôïíéÝò óõíåíþíïíôáé).
Ãéá íá êáôáíïÞóïõìå êáëýôåñá áõôÜ ôá áðïôåëÝóìáôá, ç Åéêüíá 9.3 ðáñïõ-
óéÜæåé ôá áðïôåëÝóìáôá áðü ôï ßäéï ðåßñáìá ìå ôç äéáöïñÜ üôé ôï ðëÞèïò ôùí
ïìÜäùí êáé ôï ðëÞèïò ôùí áñ÷éêþí áéóèçôÞñùí ìåôáâÜëëåôáé ìå ôï ðëÞèïò ôùí
áéóèçôÞñùí. Èõìçèåßôå üôé ôï ðëÞèïò ôùí ãåéôïíéþí ðïõ áíáêáëýðôåé ï ðñï-
ôåéíüìåíïò áëãüñéèìïò, åîáñôÜôáé êáé áðü ôçí ôïðïëïãßá ôïõ äéêôýïõ áëëÜ êáé
áðü ôçí êáôáíïìÞ ôùí äåäïìÝíùí. Óå áõôü ôï ðåßñáìá, ôï êëÜóìá ôïõ ðëÞèïõò
ôùí ïìÜäùí ðñïò ôï ðëÞèïò ôùí áéóèçôÞñùí êáé ôï êëÜóìá ôïõ ðëÞèïõò ôùí
áñ÷éêþí áéóèçôÞñùí ðñïò ôï ðëÞèïò ôùí áéóèçôÞñùí ðáñáìÝíïõí óôáèåñÜ, ãé'
áõôü ôï ðëÞèïò ôùí åíåñãþí áéóèçôÞñùí áõîÜíåé êáèþò áõîÜíåôáé ôï ìÝãåèïò
ôïõ äéêôýïõ.

d=2 d=2
1e+006 d=3 d=3
d=5 1000 d=5
d=netDiam d=netDiam
100000 100

10000 10

1000 1
100 250 500 750 1000 100 250 500 750 1000
Number of Sensors Number of Sensors

(á) (â)
EIKONA 9.3: Åðßäñáóç ìåãÝèïõò äéêôýïõ (áõîáíüìåíï ðëÞèïò ïìÜäùí ìå ìÝãåèïò äéêôýïõ) óå: (á) ðëÞèïò
ìçíõìÜôùí, êáé (â) ðëÞèïò åíåñãþí áéóèçôÞñùí.

1e+007
d=2
d=3
d=5 100
1e+006
d=netDiam
d=2
100000 d=3
10 d=5
d=netDiam
10000

1000 1
0.75 0.8 0.85 0.9 0.95 0.75 0.8 0.85 0.9 0.95
Assortativity Assortativity

(á) (â)
EIKONA 9.4: Åðßäñáóç óõíäåóéìüôçôáò äéêôýïõ óå: (á) ðëÞèïò ìçíõìÜôùí, êáé (â) ðëÞèïò åíåñãþí áéóèç-
ôÞñùí.
9.4. ÁÐÏÔÉÌÇÓÇ ÁÐÏÄÏÓÇÓ 207

Óôç óõíÝ÷åéá, åîåôÜæïõìå ôçí áðüäïóç ôïõ ðñùôïêüëëïõ DaCoN óå ó÷Ýóç ìå


ôç óõíäåóéìüôçôá ôïõ äéêôýïõ. Ôá áðïôåëÝóìáôá åìöáíßæïíôáé óôçí Åéêüíá 9.4.
Ôï ìÝãåèïò ôïõ äéêôýïõ êáé ôï ðëÞèïò ôùí ïìÜäùí åßíáé óôáèåñÜ. Åßíáé Ýêäçëï
üôé ç óõíäåóéìüôçôá äåí åðçñåÜæåé ó÷åäüí êáèüëïõ ôï ðëÞèïò ôùí ìçíõìÜôùí,
áëëÜ áõîÜíåôáé ôï ðëÞèïò ôùí åíåñãþí áéóèçôÞñùí, áöïý ìåãÜëåò ôéìÝò ãéá ôç
óõíäåóéìüôçôá ðñïêáëïýí êáëÜ äéá÷ùñéóìÝíåò ãåéôïíéÝò.
Ç Åéêüíá 9.5 äåß÷íåé ôï ðëÞèïò ôùí åíåñãþí áéóèçôÞñùí óå ó÷Ýóç ìå ôçí
ðáñÜìåôñï k. ¼ðùò áíáìåíüôáí, ôï ðëÞèïò ôùí åíåñãþí áéóèçôÞñùí áõîÜíåôáé
ìå ôçí áýîçóç ôçò k. Ôá áðïôåëÝóìáôá åßíáé ðáñüìïéá ãéá ôá äýï äßêôõá ôùí
500 êáé 1000 áéóèçôÞñùí. ÅðåéäÞ ôá ìçíýìáôá äåí åðçñåÜæïíôáé êáèüëïõ áðü
ôçí ðáñÜìåôñï k, áõôÜ ôá áðïôåëÝóìáôá ðáñáëåßðïíôáé.

10000 10000
d=2 d=2
d=3 d=3
1000 d=5 1000 d=5
d=netDiam d=netDiam

100 100

10 10

1 1
1 3 5 7 10 1 3 5 7 10
Parameter k Parameter k

(á) (â)
EIKONA 9.5: Åðßäñáóç k óôï ðëÞèïò åíåñãþí áéóèçôÞñùí óå: (á) ìéêñÜ äßêôõá gn=500, êáé (â) ìåãáëýôåñá
äßêôõá gn=1000.

ÔÝëïò, ðñïóäéïñßóáìå ôá óçìåßá (áéóèçôÞñåò) óõìöüñçóçò åðéêïéíùíßáò ãéá


ôï ðåßñáìá ðïõ áðåéêïíßæåôáé óôçí Åéêüíá 9.2. Ï Ðßíáêáò 9.3 ðáñïõóéÜæåé ôá
áðïôåëÝóìáôá. Ôï åðÜíù íïýìåñï ôçò äåýôåñçò óôÞëçò óå êÜèå ãñáììÞ äßíåé ôï
ìÝóï ðëÞèïò ìçíõìÜôùí áíÜ áéóèçôÞñá. Ãéá ðáñÜäåéãìá, ãéá gn=500, ôï ìÝóï
ðëÞèïò ìçíõìÜôùí áíÜ áéóèçôÞñá åßíáé 31. Ôï êÜôù íïýìåñï óå êÜèå óôÞëç äßíåé
ôï ðïóïóôü ôùí áéóèçôÞñùí ðïõ Ýóôåéëáí ôüóá ìçíýìáôá üóá êáôáäåéêíýïíôáé
áðü ôï åðÜíù íïýìåñï (Þ äéÜóôçìá). Ãéá ðáñÜäåéãìá, ãéá gn=100, 74% ôùí
áéóèçôÞñùí Ýóôåéëáí ëéãüôåñá áðü 24 ìçíýìáôá, 14% Ýóôåéëáí áðü 25 Ýùò 50
ìçíýìáôá, 8% Ýóôåéëáí áðü 51 Ýùò 75 ìçíýìáôá ê.ï.ê. ÅðïìÝíùò, ç äåýôåñç êáé
ç ôñßôç óôÞëç äåß÷íïõí ôïõò áéóèçôÞñåò ðïõ Ýóôåéëáí Ýíá ìéêñü ðëÞèïò ìçíõìÜ-
ôùí. Áõôïß ïé áéóèçôÞñåò åßíáé óå üëåò ôéò ðåñéðôþóåéò ðåñéóóüôåñï áðü 85% ôùí
áéóèçôÞñùí ïëüêëçñïõ ôïõ äéêôýïõ. Ç ôÝôáñôç êáé ç ðÝìðôç óôÞëç ðåñéÝ÷ïõí
ôá ðïóïóôÜ ôùí áéóèçôÞñùí ðïõ ìðïñïýí íá èåùñçèïýí óçìåßá óõìöüñçóçò,
áöïý ôï ðëÞèïò ôùí ìçíõìÜôùí ôïõò åßíáé áñêåôÜ ìåãáëýôåñï áðü ôï ìÝóï üñï.
Ðáñáôçñïýìå üôé ôï ðëÞèïò ôùí óçìåßùí óõìöüñçóçò åëáôôþíåôáé, êáèþò ôï ìÝ-
ãåèïò ôïõ äéêôýïõ áõîÜíåé, áðïäåéêíýïíôáò üôé ôï ðñùôüêïëëï ìðïñåß íá åðéôý÷åé
208 ÊÅÖÁËÁÉÏ 9. ÅÑÙÔÇÌÁ ÃÅÉÔÏÍÉÁÓ ÊÁÉ ÊÁËÕØÇÓ ÄÉÊÔÕÙÍ ÁÉÓÈÇÔÇÑÙÍ

ïìïéüìïñöç êáôáíïìÞ åíÝñãåéáò.


ÌÝãåèïò ÐëÞèïò ìçíõìÜôùí ðïõ
äéêôýïõ óôÜëèçêáí áíÜ áéóèçôÞñá
100 ≤ 24 25{50 51{75 76{100
74.0 14.0 8.0 4.0
250 ≤ 19 20{50 51{80 81{110
69.6 23.2 5.6 1.6
500 ≤ 31 32{100 101{155 156{210
70.0 26.8 3.0 0.2
750 ≤ 45 46{120 121{210 211{300
65.3 29.8 4.5 0.4
1000 ≤ 60 61{150 151{250 251{350
68.9 26.2 4.2 0.7

ΠINAKAΣ 9.3. Ðïóïóôü áéóèçôÞñùí ùò ðñïò ðëÞèïò ìçíõìÜôùí ðïõ óôÝëíïõí.

9.4.4 ÐåéñáìáôéêÞ óýãêñéóç


Ùò áíôáãùíéóôÝò ôïõ ðñïôåéíüìåíïõ ðñùôïêüëëïõ èá ìðïñïýóáí íá åßíáé ãíù-
óôÝò êáé êáèéåñùìÝíåò ìÝèïäïé ôçò ðåñéï÷Þò ôùí âÜóåùí äåäïìÝíùí ãéá top-k
êáé skyband åñùôÞìáôá. Ùóôüóï, ç ðëåéïíüôçôá áõôþí ôùí ìåèüäùí âáóßæå-
ôáé óå Ýíá óõãêåíôñùôéêü (centralized) ó÷Þìá Þ ÷ñçóéìïðïéåß êÜðïéáò ìïñöÞò
áèñïéóôéêïý äÝíäñïõ ðïõ, üðùò áíáöÝñáìå, äçìéïõñãåß óçìåßá óõìöüñçóçò ðïõ
åëáôôþíïõí óçìáíôéêÜ ôç äéÜñêåéá æùÞò ôïõ äéêôýïõ. ÌåëåôÞóáìå, ëïéðüí, ôçí
êáôáíÜëùóç åíÝñãåéáò ðïõ áðáéôåßôáé áðü ôçí åîáãùãÞ äåäïìÝíùí óå Ýíá êå-
íôñéêü åîõðçñåôçôÞ, ÷ùñßò ôçí áðïôßìçóç ôïõ åñùôÞìáôïò áöïý áõôÞ äåí åéóÜãåé
åðéðëÝïí êáôáíÜëùóç åíÝñãåéáò. ×ñçóéìïðïéÞóáìå ôéò óõíôìÞóåéò Centr ãéá ôç
ìÝèïäï åîáãùãÞò äåäïìÝíùí, ç ïðïßá ðåñéëáìâÜíåé ôçí êáôáíÜëùóç åíÝñãåéáò
ãéá ôç äçìéïõñãßá ôçò äïìÞò êáé Centr-without index ãéá ôç ìÝèïäï åîáãùãÞò,
ç ïðïßá äåí ðåñéëáìâÜíåé ôï êüóôïò äçìéïõñãßáò ôçò äïìÞò. ÅðéðëÝïí ïé óõ-
íôìÞóåéò Basic, MR êáé Cont+MR ÷ñçóéìïðïéÞèçêáí áíôßóôïé÷á ãéá ôï âáóéêü
ðñùôüêïëëï, ãéá ôï ðñùôüêïëëï ìå ôç ìåßùóç ìçíõìÜôùí êáé ãéá ôï ðñùôüêïëëï
ìåßùóçò ìçíýìáôïò êáé óõíå÷ïýò áðïôßìçóçò.
Ç Åéêüíá 9.6 áðåéêïíßæåé ôá áðïôåëÝóìáôá ôçò êáôáíÜëùóçò åíÝñãåéáò óå
ó÷Ýóç ìå ôçí ðáñÜìåôñï k êáé ìå ôï ðëÞèïò ôùí áéóèçôÞñùí ôïõ äéêôýïõ. Ç Åé-
êüíá 9.6 äåß÷íåé ôç ìÝóç êáôáíÜëùóç åíÝñãåéáò ôùí áéóèçôÞñùí ãéá ôçí åêôÝëåóç
åíüò åñùôÞìáôïò ìßáò ìüíï öïñÜò êáé Ý÷åé ðñïêýøåé áðü ôï ìÝóï üñï ðïëëþí
äéáöïñåôéêþí åêôåëÝóåùí. Äßíåôáé ç êáôáíÜëùóç åíÝñãåéáò ôçò óõãêåíôñùôé-
êÞò ðñïóÝããéóçò, ôïõ âáóéêïý ðñùôïêüëëïõ êáé ôïõ ðñùôïêüëëïõ ìå ôç ìåßùóç
ìçíõìÜôùí. Åßíáé Ýêäçëï, üôé ç óõãêåíôñùôéêÞ ëýóç áðáéôåß ðïëý ðåñéóóüôåñç
9.4. ÁÐÏÔÉÌÇÓÇ ÁÐÏÄÏÓÇÓ 209

åíÝñãåéá áðü ôá ðñïôåéíüìåíá ðñùôüêïëëá. ÅðéðëÝïí, ç ðñïóÝããéóç MR åßíáé


óôáèåñÜ êáëýôåñç ôçò Basic. ¼ëåò ïé ìÝèïäïé åðçñåÜæïíôáé ìå ôçí áýîçóç ôçò
ðáñáìÝôñïõ k êáé ôçí áýîçóç ôïõ ðëÞèïõò ôùí áéóèçôÞñùí áëëÜ ç óõãêåíôñùôéêÞ
ëýóç åðçñåÜæåôáé ðïëý ðåñéóóüôåñï. Áõôü óõìâáßíåé äéüôé óôçí ðñþôç ðåñßðôùóç
ôçò áýîçóçò ôçò ðáñáìÝôñïõ k, äåí åðçñåÜæåôáé ôï ðëÞèïò ôùí ìçíõìÜôùí áëëÜ
ôï ìÝãåèïò ôùí ìçíõìÜôùí êáé ðåñéóóüôåñá bytes áðáéôïýí ðåñéóóüôåñç åíÝñãåéá,
åíþ óôç äåýôåñç ðåñßðôùóç ôï ìÝãåèïò åßíáé óôáèåñü áëëÜ ôï ðëÞèïò ôùí ìç-
íõìÜôùí áõîÜíåé. Ôá ðñïôåéíüìåíá ðñùôüêïëëá äåí åðçñåÜæïíôáé ôüóï ãéáôß ç
áðïôßìçóç åêôåëåßôáé ìÝóá óå ãåéôïíéÝò.

12000 6000
Average Energy (µJ)

10000

Average Energy (µJ)


5000 Centr
Basic
8000 4000 MR
Centr
6000 Basic 3000
MR
4000 2000

2000 1000

0 0
1 3 5 7 10 100 250 500 750 1000
k Net Size

(á) (â)
EIKONA 9.6: Åðßäñáóç óôçí êáôáíÜëùóç åíÝñãåéáò ôïõ: (á) k, êáé (â) ðëÞèïõò áéóèçôÞñùí äéêôýïõ (d=3).

ÊÜðïéïò èá èåùñïýóå üôé ìå ôï ðñïçãïýìåíï ðåßñáìá, ç óõãêåíôñùôéêÞ ëýóç


áäéêåßôáé äéüôé óôçí êáôáíÜëùóç åíÝñãåéáò ðåñéëáìâÜíåôáé êáé ôï êüóôïò äç-
ìéïõñãßáò ôçò äïìÞò, ç ïðïßá üìùò èá ìðïñïýóå íá ÷ñçóéìïðïéçèåß êáé óå åðüìåíá
åñùôÞìáôá. Ãé' áõôü ôï ëüãï ðáñáèÝôïõìå ôá áðïôåëÝóìáôá ôïõ ßäéïõ ðåéñÜìáôïò
üóïí áöïñÜ óôï ðëÞèïò ôùí áéóèçôÞñùí ôïõ äéêôýïõ, ÷ùñßò íá óõìðåñéëÜâïõìå
ôçí êáôáíÜëùóç åíÝñãåéáò ðïõ áðáéôåßôáé ãéá ôçí êáôáóêåõÞ ôçò äïìÞò (Åéêüíá
9.7). Ðñïöáíþò, ôá áðïôåëÝóìáôá åßíáé ßäéá ãéá ôéò ìåèüäïõò Basic êáé MR.
¼ðùò öáßíåôáé êáé óôçí Åéêüíá 9.7, ç óõãêåíôñùôéêÞ ëýóç ðáñáìÝíåé ðïëý ÷åé-
ñüôåñç áðü ôéò ðñïôåéíüìåíåò ëýóåéò.

4000
3500 Centr-without Index
Average Energy (µJ)

Basic
3000 MR
2500
2000
1500
1000
500
0
100 250 500 750 1000
Net Size

EIKONA 9.7. Åðßäñáóç ðëÞèïõò áéóèçôÞñùí äéêôýïõ óôçí êáôáíÜëùóç åíÝñãåéáò (d=3).
210 ÊÅÖÁËÁÉÏ 9. ÅÑÙÔÇÌÁ ÃÅÉÔÏÍÉÁÓ ÊÁÉ ÊÁËÕØÇÓ ÄÉÊÔÕÙÍ ÁÉÓÈÇÔÇÑÙÍ

Óõíå÷ßæïõìå ôçí ðåéñáìáôéêÞ ìáò ìåëÝôç ìå ôç óõíå÷Þ áðïôßìçóç ôïõ åñùôÞ-


ìáôïò d-ãåéôïíéÜò k-êÜëõøçò äåäïìÝíùí. ¼ðùò Ýãéíå êáôáíïçôü áðü ôçí Åéêüíá
9.7, ç óõãêåíôñùôéêÞ ëýóç äåí áðïôåëåß åöáñìüóéìç åðéëïãÞ óå ÁÄÁ. Ãéá ôç
óáöÞíåéá ôùí áðïôåëåóìÜôùí, ðáñáëåßðïõìå ôá áðïôåëÝóìáôá ôçò óõãêåíôñùôé-
êÞò ëýóçò óôá õðüëïéðá ðåéñÜìáôá. Ç Åéêüíá 9.8 ðáñïõóéÜæåé ôá áðïôåëÝóìáôá
ôçò êáôáíÜëùóç åíÝñãåéáò ãéá ôï âáóéêü ðñùôüêïëëï (Basic) êáé ôï ðñùôüêïëëï
ìåßùóçò ìçíõìÜôùí êáé óõíå÷ïýò áðïôßìçóçò (MR+Cont). Ãéá ôç óýãêñéóç, ç
ìÝèïäïò Basic åðáíáëáìâÜíåé üëåò ôéò öÜóåéò ôïõ ðñùôïêüëëïõ óå êÜèå åíçìÝ-
ñùóç ôéìþí (äçëáäÞ, ìåôáêßíçóç ôïõ êéíïýìåíïõ ðáñáèýñïõ). Ç ìÝóç êáôáíÜ-
ëùóç åíÝñãåéáò áíÜ áéóèçôÞñá ðñïêýðôåé áðü ôï ìÝóï üñï ðïëëþí åíçìåñþóåùí.

1200 1200
Basic
Average Energy (µJ)

Average Energy (µJ)

1000 Cont+MR 1000


800 800 Basic
Cont+MR
600 600
400 400
200 200
0 0
100 250 500 750 1000 50 100 200 300 500
Net Size Window Size

(á) (â)

EIKONA 9.8: Åðßäñáóç óôçí êáôáíÜëùóç åíÝñãåéáò ôïõ: (á) ðëÞèïõò áéóèçôÞñùí äéêôýïõ, êáé (â) ìåãÝèïõò
ðáñáèýñïõ óôç óõíå÷Þ áðïôßìçóç (d=3).

Ç áýîçóç ôùí áéóèçôÞñùí (Åéêüíá 9.8(á)) åðçñåÜæåé ôçí êáôáíÜëùóç åíÝñãåéáò


ôçò Basic, åíþ ç MR+Cont åßíáé ó÷åäüí áíåðçñÝáóôç. ÌéêñÝò ìåôáâïëÝò óå áõôÞ
ôç óõìðåñéöïñÜ ðáñïõóéÜæïíôáé ëüãù ôïõ ó÷çìáôéóìïý ãåéôïíéþí (èõìçèåßôå üôé
ï ó÷çìáôéóìüò ãåéôïíéþí åðçñåÜæåôáé êáé áðü ôçí ôïðïëïãßá ôïõ äéêôýïõ). Éäéáß-
ôåñï åíäéáöÝñïí ðáñïõóéÜæåé ôï ðåßñáìá ìå ôï ìÝãåèïò ôïõ êéíïýìåíïõ ðáñáèý-
ñïõ (Åéêüíá 9.8(â)). Ç ìÝèïäïò Basic, üðùò áíáìåíüôáí, äåí åðçñåÜæåôáé áðü
ôï ìÝãåèïò ðáñáèýñïõ, äéüôé åðáíáëáìâÜíåé ôéò ôñåéò öÜóåéò ôïõ ðñùôïêüëëïõ
áíåîÜñôçôá áðü ôç ìåôáâïëÞ Þ ü÷é ôùí ôéìþí ôùí áéóèçôÞñùí. ¼ìùò, ç ìÝèïäïò
MR+Cont ðáñïõóéÜæåé äñáóôéêÞ åëÜôôùóç ôçò êáôáíÜëùóçò ôçò åíÝñãåéáò ìå
ôçí áýîçóç ôïõ ðáñáèýñïõ. Áõôü óõìâáßíåé ãéáôß ôï ìåãáëýôåñï ðáñÜèõñï Ý÷åé
ùò áðïôÝëåóìá ôç ìéêñüôåñç ìåôáâïëÞ ôùí äåäïìÝíùí êáé êáô' åðÝêôáóç áõîÜ-
íåôáé ç ðéèáíüôçôá ôï ìÞíõìá ôïõ ðñþôïõ ãýñïõ ôçò ðñþôçò öÜóçò, ðïõ ó÷çìá-
ôßæåôáé áðïêëåéóôéêÜ áðü ôá äåäïìÝíá ôïõ áéóèçôÞñá, íá åßíáé ôï ßäéï. ÅðïìÝíùò
ç ìåßùóç ìçíõìÜôùí åßíáé áêüìá ìåãáëýôåñç êáé áõôü Ý÷åé ùò áðïôÝëåóìá ôç
ìåßùóç ôçò êáôáíÜëùóçò ôçò åíÝñãåéáò.
9.5. Ó×ÅÔÉÊÇ ÂÉÂËÉÏÃÑÁÖÉÁ 211

9.5 Ó÷åôéêÞ Âéâëéïãñáößá


Ðáñüëï ðïõ äåí õðÜñ÷åé ðñïçãïýìåíç ìåëÝôç óôï d-ãåéôïíéÜò k-êÜëõøçò äåäïìÝ-
íùí ðñüâëçìá óôá ÁÄÁ, ïé ðáñáêÜôù ðåñéï÷Ýò åßíáé êáôÜ êÜðïéï ôñüðï ó÷åôéêÝò
ìå áõôü ôï ðñüâëçìá:
ÐñïâëÞìáôá êÜëõøçò óå ÁÄÁ. ÅðåéäÞ ïé áéóèçôÞñåò ìðïñåß íá äéáóðáñ-
èïýí ìå áõèáßñåôï ôñüðï, Ýíá áðü ôá âáóéêüôåñá æçôÞìáôá óå Ýíá ÁÄÁ åßíáé
ôï ðñüâëçìá êÜëõøçò (coverage problem), äçëáäÞ íá ðñïóäéïñßóïõìå ðüóï êáëÜ
ðáñáêïëïõèåßôáé ç åðéèõìçôÞ ðåñéï÷Þ. ÅðéðëÝïí, ôï æÞôçìá ôçò êÜëõøçò êáé
ôçò äéáóýíäåóçò ðñïêýðôåé óå äßêôõá ìå ðëåïíÜæïíôá áñéèìü áéóèçôÞñùí ðñï-
êåéìÝíïõ íá äéáöõëá÷èåß ç åíÝñãåéá ìÝóù ÷ñïíïðñïãñáììáôéóìïý ëåéôïõñãßáò
ôùí áéóèçôÞñùí. Óôç âéâëéïãñáößá, ôï ðñüâëçìá êÜëõøçò äéáôõðþèçêå ìå äéÜ-
öïñïõò ôñüðïõò, üðùò ãéá ðáñÜäåéãìá ôï ðñüâëçìá êÜëõøçò k-áéóèçôÞñùí [81],
ðñüâëçìá êÜëõøçò ìå êáôåõèõíüìåíåò êåñáßåò, ðñüâëçìá ìåñéêÞò êÜëõøçò, ðñü-
âëçìá ðéèáíïêñáôéêÞò êÜëõøçò [78], ðñüâëçìá êÜëõøçò óå ôñéóäéÜóôáôá äßêôõá
[13]. Ìßá êáëÞ åðéóêüðçóç ôçò ðåñéï÷Þò ìðïñåß íá âñåèåß óôçí åñãáóßá [178].
¼ìùò, êáìßá áðü áõôÝò ôéò äéáôõðþóåéò êáé ëýóåéò äåí åßíáé êáôÜëëçëç ãéá ôï
ðñüâëçìá ðïõ ìåëåôïýìå, åðåéäÞ äåí áó÷ïëïýíôáé ìå ôá äåäïìÝíá ðïõ êáôáãñÜ-
öïõí ïé áéóèçôÞñåò, áëëÜ ìå ôéò èÝóåéò êáé ôç äéêôýùóç ôùí ßäéùí ôùí áéóèçôÞñùí.
ÅñùôÞìáôá óå ÁÄÁ. Ôá åñùôÞìáôá ðïõ ôßèåíôáé óå ÁÄÁ ìðïñïýí íá êá-
ôçãïñéïðïéçèïýí óå: (á) åñùôÞìáôá ìßáò åêôÝëåóçò, äçëáäÞ áõôÜ ðïõ ôßèåíôáé óå
ôõ÷áßåò ÷ñïíéêÝò óôéãìÝò êáé áíáêôïýí ôá äåäïìÝíá ôïõ óõãêåêñéìÝíïõ óôéãìéü-
ôõðïõ, êáé (â) åñùôÞìáôá ðåñéïäéêÜ Þ ìáêñÜò äéÜñêåéáò Þ óõíå÷Þ, äçëáäÞ áõôÜ
ðïõ áíáêôïýí äåäïìÝíá áðü ôïõò áéóèçôÞñåò áíÜ ôáêôÜ/óõíå÷Þ ÷ñïíéêÜ äéáóôÞ-
ìáôá. ÁíÜëïãá ìå ôç öýóç ôçò åðåîåñãáóßáò äåäïìÝíùí ðïõ áðáéôåßôáé áðü ôçí
åêÜóôïôå åöáñìïãÞ, ôá åñùôÞìáôá ìðïñïýí íá êáôçãïñéïðïéçèïýí óå:
➣ ÁðëÜ åñùôÞìáôá [142], ð.÷., \ÁíÜöåñå ôéò ôéìÝò ôçò õãñáóßáò".
➣ ÁèñïéóôéêÜ åñùôÞìáôá [51, 147], ð.÷., \ÁíÜöåñå ôç ìÝóç õãñáóßá ôùí áé-
óèçôÞñùí ìßáò ðåñéï÷Þò X".
➣ ÐñïóåããéóôéêÜ åñùôÞìáôá [63], ð.÷. \ÁíÜöåñå ôï ðåñßãñáììá åíüò ôïîéêïý
íÝöïõò óå ìßá ðåñéï÷Þ X".
➣ Óýíèåôá åñùôÞìáôá [95], ôá ïðïßá, áí åêöñáóôïýí óå SQL, èá ðåñéëáì-
âÜíïõí öùëéáóìÝíá Þ âáóéæüìåíá óå êñéôÞñéá õðïåñùôÞìáôá. ¸íá ðáñÜ-
äåéãìá óýíèåôïõ åñùôÞìáôïò èá ìðïñïýóå íá åßíáé \Ìåôáîý ôùí ðåñéï÷þí
X êáé Y, áíÜöåñå ôç ìÝóç õãñáóßá ôçò ðåñéï÷Þò ìå ôçí õøçëüôåñç èåñìï-
êñáóßá".
➣ ÐñïçãìÝíá åñùôÞìáôá, üðùò ôï åñþôçìá top-k [168, 180] êáé ôï åñþôçìá
k-NN [60], ôá ïðïßá áíáêôïýí ðïëõðëïêüôåñç ãíþóç áðü ôá äåäïìÝíá. Ãéá
ðáñÜäåéãìá, Ýíá åñþôçìá top-k ìå MAX ùò ôç óõíÜñôçóç âáèìïëüãçóçò
212 ÊÅÖÁËÁÉÏ 9. ÅÑÙÔÇÌÁ ÃÅÉÔÏÍÉÁÓ ÊÁÉ ÊÁËÕØÇÓ ÄÉÊÔÕÙÍ ÁÉÓÈÇÔÇÑÙÍ

èá ìðïñïýóå íá åßíáé \ÁíÜöåñå ôá k áíôéêåßìåíá ìå ôçí õøçëüôåñç èåñìï-


êñáóßá".
ÐáñÜ ôçí ðïéêéëßá, äåí õðÜñ÷åé êÜðïéï áðü ôá ðñïçãïýìåíá åñùôÞìáôá ðïõ íá
ìïéÜæåé ìå ôï åñþôçìá d-ãåéôïíéÜò k-êÜëõøçò äåäïìÝíùí. ÅðéðëÝïí, ôá ðåñéóóü-
ôåñá áðü áõôÜ åðéëýïíôáé ÷ñçóéìïðïéþíôáò êÜðïéáò ìïñöÞò áèñïéóôéêïý äÝíäñïõ
ðïõ áíáðüöåõêôá äçìéïõñãåß \åíåñãåéáêÝò ôñýðåò" (äçëáäÞ ïé áéóèçôÞñåò øçëÜ
óôçí éåñáñ÷ßá áðïôåëïýí óçìåßá óõìöüñçóçò ôçò åðéêïéíùíßáò), ìå áðïôÝëåóìá
íá ðáñáâéÜæïõí ôçí áñ÷Þ âåëôéóôïðïßçóçò ãéá ôçí åðßôåõîç ôçò ìÝãéóôçò äõíáôÞò
äéÜñêåéáò æùÞò äéêôýïõ, üðùò ðåñéãñÜöèçêå óôçí åñãáóßá [36]. Áêüìá êáé ïé
áëãüñéèìïé ãéá åñùôÞìáôá top-k [20, 168], ïé ïðïßïé ÷áñáêôçñßóèçêáí êáôáíåìç-
ìÝíïé, óôçí ðñáãìáôéêüôçôá ÷ñçóéìïðïéïýí êÜðïéáò ìïñöÞò êåíôñéêïý åîõðçñå-
ôçôÞ ãéá ôçí ïñãÜíùóç ôïõ åñùôÞìáôïò (coordinator). Áðü ôçí Üëëç, ï ôýðïò
åñùôÞìáôïò ðïõ ðáñïõóéÜóáìå ÷ñçóéìïðïéåß ìßá ôïðéêÞ ðåñéãñáöÞ êáé åðéôñÝðåé
ôç ó÷åäßáóç ìßáò ðëÞñùò êáôáíåìçìÝíçò ëýóçò.
ÅñùôÞìáôá skyline êáé skyband. Ôá åñùôÞìáôá ðñïôßìçóçò Ý÷ïõí ðñï-
óåëêýóåé éäéáßôåñá ôçí ðñïóï÷Þ ôçò åñåõíçôéêÞò êïéíüôçôáò ëüãù ôçò ÷ñçóéìü-
ôçôÜò ôïõò. Ôï ðñüâëçìá ìåëåôÞèçêå óôï ðáñåëèüí óå äéÜöïñïõò åñåõíçôéêïýò
ôïìåßò áëëÜ ìüíï ðñüóöáôá åîåñåõíÞèçêå óôá äßêôõá áéóèçôÞñùí [170, 171].
Ùóôüóï, ôï ðñïôåéíüìåíï åñþôçìá áðïôåëåß ãåíßêåõóç ôïõ åñùôÞìáôïò skyband
êáé åðïìÝíùò áõôÝò ïé ôå÷íéêÝò äåí ìðïñïýí íá åöáñìïóèïýí óôï ðñüâëçìá ðïõ
åîåôÜæïõìå óå áõôü ôï êåöÜëáéï.
Óôçí åñãáóßá [135], ðñïôÜèçêå ìßá åíäéáöÝñïõóá ðáñáëëáãÞ ôïõ åñùôÞìáôïò
skyline, ôï åñþôçìá skyband. ¸íá k-skyband åñþôçìá åðéóôñÝöåé ôï óýíïëï ôùí
óçìåßùí ðïõ êõñéáñ÷ïýíôáé áðü ôï ðïëý k óçìåßá. ¸ôóé, ôï åñþôçìá skyband
ìðïñåß íá èåùñçèåß ùò åñþôçìá êÜëõøçò äåäïìÝíùí. ¼ìùò, ôï åñþôçìá skyband
åßíáé Ýíá óõãêåíôñùôéêü åñþôçìá, åíþ ôï ðñïôåéíüìåíï åñþôçìá åìðåñéÝ÷åé ôçí
Ýííïéá ôçò ãåéôïíéÜò êáé åêôåëåßôáé ìå Ýíá ðëÞñùò êáôáíåìçìÝíï ôñüðï.

9.6 ÓõìðåñÜóìáôá
ÐåñéãñÜøáìå Ýíá ðñùôüôõðï åñþôçìá, ôï åñþôçìá d-ãåéôïíéÜò k-êÜëõøçò äåäï-
ìÝíùí óå ÁÄÁ. Ïé áðáíôÞóåéò áõôïý ôïõ åñùôÞìáôïò ìðïñïýí íá âïçèÞóïõí
óôç äçìéïõñãßá ÷áñôþí êáôáíïìÞò ÷áñáêôçñéóôéêþí óå ÁÄÁ. Ãé' áõôü ôï ðñü-
âëçìá, ðáñïõóéÜóáìå ìßá ðëÞñùò êáôáíåìçìÝíç ëýóç, ôï ðñùôüêïëëï DaCoN,
ðïõ áðïöåýãåé ôç äçìéïõñãßá äïìþí êÜëõøçò Ýêôáóçò, üðùò åßíáé ôá áèñïéóôéêÜ
äÝíäñá, äéüôé áõôÝò ïé äïìÝò áðáéôïýí ìßá áêñéâÞ óå ÷ñüíï êáé åíÝñãåéá öÜóç áñ-
÷éêïðïßçóçò êáé åðßóçò äçìéïõñãïýí óçìåßá óõìöüñçóçò óôçí åðéêïéíùíßá. Ôï
ðåñéãñáöüìåíï êáôáíåìçìÝíï ðñùôüêïëëï Ý÷åé ÷áìçëÝò áðáéôÞóåéò óå áðïèçêåõ-
ôéêü ÷þñï, åðåîåñãáóßá êáé åðéêïéíùíßá. Ãéá íá ìåëåôÞóïõìå ôç óõìðåñéöïñÜ ôïõ
ðñùôïêüëëïõ, ðñáãìáôïðïéÞóáìå ìßá áðïôßìçóç ôçò áðüäïóçò ðñïóïìïßùóçò ìå
ìßá óåéñÜ áðü äéÜöïñåò êáôáíïìÝò äéêôýùí êáé äåäïìÝíùí.
ÊÅÖÁËÁÉÏ 10

Åðßëïãïò
Ðåñéå÷üìåíá
10.1 ÓÕÌÐÅÑÁÓÌÁÔÁ . . . . . . . . . . . . . . . . . . 213
10.2 ÄÑÏÌÏÉ ÌÅËËÏÍÔÉÊÇÓ ÅÑÅÕÍÁÓ . . . . . . 216

10.1 ÓõìðåñÜóìáôá
Ôá ôåëåõôáßá ÷ñüíéá, ç ñáãäáßá ôå÷íïëïãéêÞ áíÜðôõîç äçìéïýñãçóå Ýíá ðëÞ-
èïò íÝùí åöáñìïãþí ðïõ äéá÷åéñßæïíôáé ôåñÜóôéïõò üãêïõò äõíáìéêþí äåäïìÝ-
íùí. Ðáñáäåßãìáôá ôÝôïéùí åöáñìïãþí åßíáé ç áíÜëõóç ÷ñçìáôïïéêïíïìéêþí
äåäïìÝíùí, ç ðáñáêïëïýèçóç ôéìþí äéêôýùí áéóèçôÞñùí, ç áíÜëõóç óåéóìïëï-
ãéêþí äåäïìÝíùí ê.á. Ôï âáóéêü ÷áñáêôçñéóôéêü áõôþí ôùí åöáñìïãþí åßíáé
üôé áðáéôïýí áëãïñßèìïõò éêáíïýò ãéá ôç äéá÷åßñéóç êáé áíÜëõóç äåäïìÝíùí óå
ðñáãìáôéêü ÷ñüíï.
Óôçí ðáñïýóá äéáôñéâÞ, ìåëåôÞóáìå ôï ó÷åäéáóìü êáé ôçí õëïðïßçóç áëãï-
ñßèìùí ãéá ôçí áíôéìåôþðéóç äéÜöïñùí óçìáíôéêþí æçôçìÜôùí óå áõôïý ôïõ
åßäïõò ôéò åöáñìïãÝò. Ôï ðñþôï ìÝñïò ôçò äéáôñéâÞò áó÷ïëåßôáé ìå ðñïâëÞìáôá
åîüñõîçò äåäïìÝíùí óå ñïÝò äåäïìÝíùí, åíþ ôï äåýôåñï ìÝñïò áó÷ïëåßôáé ìå
ðñïâëÞìáôá óõíå÷ïýò åðåîåñãáóßáò äéáöüñùí åñùôçìÜôùí óå ñïÝò äåäïìÝíùí.
Ðéï óõãêåêñéìÝíá, áó÷ïëçèÞêáìå ìå ôá ðñïâëÞìáôá ôçò êáôçãïñéïðïßçóçò, ôçò
ïìáäïðïßçóçò êáé ôçò ïìáäïðïßçóçò óå õðï÷þñïõò. ¼óïí áöïñÜ óôç óõíå÷Þ
åðåîåñãáóßá, áó÷ïëçèÞêáìå ìå ôá åñùôÞìáôá ïìïéüôçôáò, åñùôÞìáôá ðñïôßìçóçò
êáé ðáñïõóéÜóáìå Ýíá íÝï åßäïò åñùôÞìáôïò áîéïðïéÞóéìï óå äßêôõá áéóèçôÞñùí.
Ðáñüôé ôá ðñïáíáöåñèÝíôá ðñïâëÞìáôá Ý÷ïõí ìåëåôçèåß, ôá ðåñéóóüôåñá äéå-
îïäéêÜ, óå óôáôéêÜ äåäïìÝíá êáé ðáñáäïóéáêÝò âÜóåéò äåäïìÝíùí, ïé ðñïôåéíüìå-
íïé áëãüñéèìïé äåí åßíáé åöáñìüóéìïé óôçí ðåñßðôùóç ôùí äõíáìéêþí äåäïìÝíùí

213
214 ÊÅÖÁËÁÉÏ 10. ÅÐÉËÏÃÏÓ

êáé áêüìá ðåñéóóüôåñï óôçí ðåñßðôùóç ôùí ñïþí äåäïìÝíùí, ãéáôß äåí êáëýðôïõí
ôéò ðñïäéáãñáöÝò êáé ôïõò ðåñéïñéóìïýò ðïõ ôßèåíôáé óå áõôÝò ôéò ðåñéðôþóåéò.
Óôï ÊåöÜëáéï 3 ìåëåôÞóáìå ôï æÞôçìá ôçò êáôçãïñéïðïßçóçò óå êéíïýìåíåò
÷ñïíïóåéñÝò. Ãéá ôçí êáôçãïñéïðïßçóç âáóéóèÞêáìå óôéò ôÜóåéò ôùí ñïþí êáé
ü÷é óôéò ôéìÝò ôïõò, ðïõ üðùò áðïäåß÷èçêå åêôüò ôïõ üôé êáèéóôÜ åõêïëüôåñç
ôçí êáôçãïñéïðïßçóç, åðßóçò ôá óõìðåñÜóìáôá åßíáé ÷ñçóéìüôåñá êáé åõêïëü-
ôåñá áîéïðïéÞóéìá áðü ôïí ôåëéêü ÷ñÞóôç. Ðñïôåßíáìå Ýíáí áëãüñéèìï ðïõ êá-
ôçãïñéïðïéåß ôéò ñïÝò áõîçôéêÜ, äçëáäÞ, ôüóï ç ïìáëïðïßçóç ìßáò ñïÞò üóï êáé
ï ðñïóäéïñéóìüò ôçò ôÜóçò ôçò ãßíïíôáé áõîçôéêÜ. ÔÝëïò ðñïôÜèçêå ìßá äïìÞ
êáôÜëëçëç ãéá ôï óõãêåêñéìÝíï ðñüâëçìá.
Óôï ÊåöÜëáéï 4 áó÷ïëçèÞêáìå ìå ôï ðñüâëçìá ôçò ïìáäïðïßçóçò óå êéíïý-
ìåíåò ÷ñïíïóåéñÝò. Ï áëãüñéèìïò ðïõ ðñïôåßíáìå óå áíôßèåóç ìå ôïõò õðÜñ÷ï-
íôåò áëãïñßèìïõò ôçò âéâëéïãñáößáò áíé÷íåýåé áõôüìáôá ôï ðëÞèïò ôùí ïìÜäùí.
Ðéï óõãêåêñéìÝíá, ç ïìáäïðïßçóç âáóßóôçêå óôéò ôÜóåéò ôùí ñïþí. ÐáñïõóéÜ-
óôçêå ìßá óõíÜñôçóç áðüóôáóçò êáôÜëëçëç ãéá ôÜóåéò, áöïý ëáìâÜíåé õðüøç
ôá ÷áñáêôçñéóôéêÜ ôçò ãñáììéêÞò áíáðáñÜóôáóçò ÷ñïíïóåéñÜò. Åðéðñüóèåôá,
ðñïôÜèçêáí êñéôÞñéá óõíÝíùóçò êáé äéá÷ùñéóìïý ãéá ôïí áõôüìáôï åíôïðéóìü
ôïõ ðëÞèïõò ôùí ïìÜäùí. ÔÝëïò, ðñïôÜèçêå ìßá ìÝèïäïò ãéá ôïí åíôïðéóìü ôùí
outliers.
Óôï ÊåöÜëáéï 5 åîåñåõíÞóáìå ôï ðñüâëçìá ôçò ïìáäïðïßçóçò óå õðï÷þñïõò
óôéò êéíïýìåíåò ÷ñïíïóåéñÝò. Ôï ðñüâëçìá áõôü èåùñåßôáé åîáéñåôéêÜ äýóêïëï
áêüìá êáé óôá óôáôéêÜ äåäïìÝíá, êáôÜ óõíÝðåéá ç åîÝôáóÞ ôïõ ãéá ôéò ñïÝò äåäï-
ìÝíùí êáèßóôáôáé áêüìá äõóêïëüôåñç. Ðñïôåßíáìå ôçí ïìáäïðïßçóç -clusters
êáé óôç óõíÝ÷åéá áíáðôýîáìå Ýíáí áõîçôéêü áëãüñéèìï ãéá ôïí åíôïðéóìü ôïõò óå
óõíå÷üìåíïõò õðï÷þñïõò ôùí êéíïýìåíùí ÷ñïíïóåéñþí. Ï ðñïôåéíüìåíïò áëãü-
ñéèìïò áíôéìåôùðßæåé äéáöïñåôéêÜ ôéò ðåñéðôþóåéò ôçò åíçìÝñùóçò üëùí ôùí ñïþí
ôáõôü÷ñïíá êáé ôçò åíçìÝñùóçò ìßáò ñïÞò. Ðñïôåßíïíôáé ôñßá êñéôÞñéá áðüññéøçò
÷ñïíïóåéñþí êáé üðùò áðïäåß÷èçêå ç äõíáôüôçôá áðüññéøÞò ôïõò åßíáé ðÜñá ðïëý
õøçëÞ ìå áðïôÝëåóìá ôï äñáóôéêü ðåñéïñéóìü ôïõ ÷þñïõ áíáæÞôçóçò. Ïé ðñïôåé-
íüìåíåò ìÝèïäïé CI, CI-UPALL êáé CI-UPONE äåß÷íïõí óçìáíôéêÞ âåëôßùóç
óõãêñéôéêÜ ìå Üëëç õðÜñ÷ïõóá ìÝèïäï.
Ìå ôï ðñïçãïýìåíï êåöÜëáéï ïëïêëçñþóáìå ôç ìåëÝôç ìáò óôçí åîüñõîç
äåäïìÝíùí ñïþí. Ôï ÊåöÜëáéï 6 îåêéíÜ ôçí åñåõíçôéêÞ ìáò ðñïóðÜèåéá óôç
óõíå÷Þ åðåîåñãáóßá åñùôçìÜôùí. Óôï êåöÜëáéï áõôü, áó÷ïëçèÞêáìå ìå ôçí åý-
ñåóç ïìïéüôçôáò ìåôáîý äéáöïñåôéêþí ñïþí äåäïìÝíùí. ÌåëåôÞèçêáí äýï åñù-
ôÞìáôá, ôá åñùôÞìáôá ðåñéï÷Þò êáé ôá åñùôÞìáôá êïíôéíüôåñïõ ãåßôïíá, üðïõ
ôüóï ç ÷ñïíïóåéñÜ-åñþôçóç üóï êáé ïé ÷ñïíïóåéñÝò-äåäïìÝíá åßíáé êéíïýìåíåò.
Ùò ìÝôñï ïìïéüôçôáò ÷ñçóéìïðïéÞèçêå ç Åõêëåßäåéá áðüóôáóç. ÐñïêåéìÝíïõ íá
ìåéþóïõìå ôç ðïëõðëïêüôçôá ôïõ ðñïâëÞìáôïò ÷ñçóéìïðïéÞóáìå ôï ìåôáó÷çìá-
ôéóìü DFT, Ýôóé þóôå íá åëáôôþóïõìå ôï ðëÞèïò ôùí äéáóôÜóåùí. Ãéá ôï ôá-
÷ýôåñï õðïëïãéóìü ôïõ DFT, ðïõ åßíáé åîáéñåôéêÜ ÷ñïíïâüñïò, ðáñïõóéÜóèçêå
10.1. ÓÕÌÐÅÑÁÓÌÁÔÁ 215

Ýíáò áõîçôéêüò õðïëïãéóìüò. ÔÝëïò, êáôüðéí äéåîïäéêÞò ìåëÝôçò ðñïôÜèçêå ìßá


ðáñáëëáãÞ ôïõ R-äÝíäñïõ, ðñïêåéìÝíïõ íá õðïóôçñßæåôáé ôá÷ýôáôá ç åíçìÝñùóç
ôçò äïìÞò óå äõíáìéêÜ ðåñéâÜëëïíôá. ÓõãêñéôéêÜ ìå Üëëåò õðÜñ÷ïõóåò ìåèü-
äïõò, ï ðñïôåéíüìåíïò IDC-Index ðáñïõóéÜæåé óçìáíôéêÞ âåëôßùóç óôç óõíïëéêÞ
áðüäïóç.

Óôï ÊåöÜëáéï 7 ìåëåôÞóáìå ôï ðñüâëçìá ôçò óõíå÷ïýò åðåîåñãáóßáò k-domi-


nant åñùôçìÜôùí. Ôá åñùôÞìáôá áõôÜ ðñïôÜèçêáí ðñïêåéìÝíïõ íá áíôéìåôùðé-
óèåß ôï ðñüâëçìá ôùí åñùôçìÜôùí skyline, ôá ïðïßá åðéóôñÝöïõí ðïëý ìåãÜëï
(êáé ìç åëåã÷üìåíï) ðëÞèïò áðáíôÞóåùí üóï áõîÜíåôáé ôï ðëÞèïò ôùí äéáóôÜ-
óåùí. Óôï êåöÜëáéï áõôü, ãéá ðñþôç öïñÜ ôï ðñüâëçìá áíôéìåôùðßóèçêå óå
äõíáìéêÜ äåäïìÝíá. Ï ðñïôåéíüìåíïò áëãüñéèìïò âáóßæåôáé óôçí ðáñáôÞñçóç
üôé Ýíá k-dominant skyline åñþôçìá ìðïñïýìå íá ôï äéá÷ùñßóïõìå óå õðïåñùôÞ-
ìáôá skyline ôùí k äéáóôÜóåùí êáé óôç óõíÝ÷åéá íá õðïëïãßóïõìå ôçí ôïìÞ ôïõò
ãéá ôçí áðïôßìçóç ôïõ åñùôÞìáôïò. Ç ðåéñáìáôéêÞ áðïôßìçóç åðéâåâáéþíåé ôçí
áíùôåñüôçôá ôïõ ðñïôåéíüìåíïõ áëãüñéèìïõ CoSMuQ Ýíáíôé Üëëùí ó÷åôéêþí
ìåèüäùí.

Óôï ÊåöÜëáéï 8 áó÷ïëçèÞêáìå ìå ôï ðñüâëçìá ôçò óõíå÷ïýò åðåîåñãáóßáò


top-k dominating åñùôçìÜôùí, ôá ïðïßá ðñïôÜèçêáí ùò óõíäõáóìüò ôùí åñùôç-
ìÜôùí skyline êáé ôùí åñùôçìÜôùí top-k. Ðñïôåßíáìå Ýíáí áõîçôéêü áëãüñéèìï
ðïõ ëáìâÜíåé õðüøç ôï ÷ñüíï ëÞîçò ìßáò åããñáöÞò êáé Ýôóé õðïëïãßæåé Ýíáí
áóöáëÞ ÷ñüíï áäñÜíåéáò êáôÜ ôïí ïðïßï äåí åßíáé áíáãêáßï íá åíçìåñþíïõìå ôç
âáèìïëïãßá ôçò åããñáöÞò. ÐñïôÜèçêáí âåëôéóôïðïéÞóåéò ãéá íá áíôéìåôùðßóïõí
äýï ðåñéðôþóåéò üðïõ ï âáóéêüò áëãüñéèìïò äåí óõìðåñéöåñüôáí êáëÜ. Åðßóçò
ìåëåôÞèçêå êáé Ýíáò ðñïóåããéóôéêüò áëãüñéèìïò ãéá ôçí ðåñßðôùóç åöáñìïãþí
ðïõ èá ìðïñïýóáí íá èõóéÜóïõí ëßãï áðü ôçí áêñßâåéá ðñïêåéìÝíïõ íá åðéôý÷ïõí
ôá÷ýôåñç åðåîåñãáóßá. Ç ðåéñáìáôéêÞ ìåëÝôç Ýäåéîå üôé ïé ðñïôåéíüìåíïé áëãü-
ñéèìïé åßíáé ðïëý êáëýôåñïé ôçò áðëÞò ðñïóÝããéóçò êáé åðéðëÝïí åðéâåâáßùóå ôçí
éêáíüôçôá ôùí âåëôéóôïðïéÞóåùí íá áíôéìåôùðßóïõí ôá ðñïâëÞìáôá ôçò âáóéêÞò
ðñïôåéíüìåíçò ìåèüäïõ.

Óôï ÊåöÜëáéï 9 áó÷ïëçèÞêáìå óõãêåêñéìÝíá ìå áóýñìáôá äßêôõá áéóèçôÞ-


ñùí êáé ðáñïõóéÜóáìå Ýíá íÝï åñþôçìá, ðïëý ÷ñÞóéìï óå äéÜöïñåò åöáñìïãÝò
áõôþí ôùí äéêôýùí. Ãéá ôçí áðïôßìçóç ôïõ åñùôÞìáôïò ðñïôåßíáìå Ýíáí êáôá-
íåìçìÝíï áëãüñéèìï, áðëü óôçí õëïðïßçóÞ ôïõ. Óôç óõíÝ÷åéá, ðñïôåßíáìå âåëôé-
óôïðïéÞóåéò ãéá íá åëáôôþóïõìå ðåñéóóüôåñï ôçí êáôáíÜëùóç åíÝñãåéáò êáé íá
êáôáóôÞóïõìå äõíáôÞ ôç óõíå÷Þ åðåîåñãáóßá ôïõ åñùôÞìáôïò. ¼ðùò áíáìåíü-
ôáí, ç ðåéñáìáôéêÞ áðïôßìçóç åðéâåâáßùóå ôçí áíùôåñüôçôá ôïõ ðñïôåéíüìåíïõ
êáôáíåìçìÝíïõ áëãïñßèìïõ óå ó÷Ýóç ìå ôçí áðëÞ ðñïóÝããéóç ôçò ìåôáêßíçóçò
ôùí äåäïìÝíùí óå Ýíá êåíôñéêü åîõðçñåôçôÞ êáé ôçò áîéïëüãçóÞò ôïõò êåíôñéêÜ.
216 ÊÅÖÁËÁÉÏ 10. ÅÐÉËÏÃÏÓ

10.2 Äñüìïé ÌåëëïíôéêÞò ¸ñåõíáò


Óôçí åíüôçôá áõôÞ ðáñïõóéÜæïõìå óýíôïìá ìåñéêÝò ðåñéï÷Ýò êáé éäÝåò ãéá ìåë-
ëïíôéêÞ Ýñåõíá.
Óôï ÊåöÜëáéï 3 ãéá ôç óõíå÷Þ êáôçãïñéïðïßçóç êéíïýìåíùí ÷ñïíïóåéñþí
ðáñïõóéÜóáìå Ýíáí áëãüñéèìï âáóéóìÝíï óôéò ôÜóåéò ôïõò. Ôï ðëÞèïò ôùí êáôç-
ãïñéþí åßíáé ðåñéïñéóìÝíï åöüóïí äçìéïõñãåßôáé áðü óõíäõáóìïýò äýï åíäå÷üìå-
íùí ôÜóåùí, ôçò áýîïõóáò êáé ôçò ðôùôéêÞò. Ùò óõíÝ÷åéá áõôÞò ôçò åñåõíçôéêÞò
ðñïóðÜèåéáò èá Þôáí ÷ñÞóéìç ç ìåëÝôç åíüò áëãïñßèìïõ ðïõ èá ìðïñïýóå íá
áíáãíùñßæåé êáé Üëëïõ åßäïõò ôÜóåùí, üðùò ç óôáèåñÞ, êáé èá ìðïñïýóå íá ôéò
áîéïðïéåß êáôÜ ôçí êáôçãïñéïðïßçóç.
Óôï ÊåöÜëáéï 4 ðñïôåßíáìå Ýíáí áõîçôéêü áëãüñéèìï ãéá ôçí ïìáäïðïßçóç
êéíïýìåíùí ÷ñïíïóåéñþí. Óôá ðëáßóéá áõôÞò ôçò åñãáóßáò ðñïôÜèçêå ìßá óõíÜñ-
ôçóç áðüóôáóçò êáôÜëëçëçò ãéá ôÜóåéò ÷ñïíïóåéñþí. Ìßá ìåëëïíôéêÞ åñãáóßá
èá ìðïñïýóå íá ðåñéëáìâÜíåé ôç ÷ñÞóç ìßáò óõíÜñôçóçò áðüóôáóçò ðïõ íá éêá-
íïðïéåß ôçí ôñéãùíéêÞ áíéóüôçôá, ðñïêåßìåíïõ íá êáôáóôåß äõíáôÞ ç áîéïðïßçóç
äïìþí äåéêôïäüôçóçò êáé íá âåëôéùèåß Ýôóé ç áðüäïóç. Åðéðñüóèåôá, ìßá Üëëç
åíäéáöÝñïõóá êáôåýèõíóç áöïñÜ óôç ìåßùóç ôïõ ðëÞèïõò ôùí åíçìåñþóåùí. Ãéá
ðáñÜäåéãìá, áí ç ìåôáâïëÞ ôçò ãñáììéêÞò ÷ñïíïóåéñÜò åßíáé ìéêñüôåñç áðü Ýíá
êáôþöëé, ôüôå ç åíçìÝñùóç íá ìçí ðñáãìáôïðïéåßôáé. Èá Þôáí åíäéáöÝñïí íá ìå-
ëåôÞóïõìå Ýíáí ðñïóåããéóôéêü áëãüñéèìï ðïõ ëáìâÜíåé õðüøç ôçí ðáñáôÞñçóç
áõôÞ.
Óôï ÊåöÜëáéï 5 áó÷ïëçèÞêáìå ìå ôï ðñüâëçìá ôçò óõíå÷ïýò ïìáäïðïßçóçò
óå õðï÷þñïõò. Ïé ìåëëïíôéêÝò êáôåõèýíóåéò ôïõ óõãêåêñéìÝíïõ ðñïâëÞìáôïò
åßíáé ðïëëÝò, áöïý áõôü ôï ðñüâëçìá äåí Ý÷åé ìåëåôçèåß åðáñêþò áðü ôçí åñåõ-
íçôéêÞ êïéíüôçôá. ÊÜðïéåò áðü áõôÝò åßíáé: (á) ç áíÜðôõîç åíüò áíáëõôéêïý
ìïíôÝëïõ ãéá ôçí åêôßìçóç ôïõ ðëÞèïõò ôùí ïìÜäùí óå õðï÷þñïõò, (â) ç ôñïðï-
ðïßçóç ôùí ðñïôåéíüìåíùí ìåèüäùí Ýôóé þóôå ïé ðáñÜìåôñïé ðïõ ÷ñçóéìïðïéåß íá
ðñïóáñìüæïíôáé áõôüìáôá óôéò áëëáãÝò ôùí äåäïìÝíùí, êáé (ã) ç ìåëÝôç åíáë-
ëáêôéêþí ìÝôñùí ïìïéüôçôáò ãéá ôçí ïìáäïðïßçóç óå õðï÷þñïõò âáóéóìÝíç óå
äéáöïñåôéêÜ êñéôÞñéá.
Óôï ÊåöÜëáéï 6 åîåôÜóáìå ôçí áðïôßìçóç óõíå÷þí åñùôçìÜôùí ïìïéüôçôáò
óå êéíïýìåíåò ÷ñïíïóåéñÝò. Ç ìåëëïíôéêÞ Ýñåõíá èá ìðïñïýóå íá ðåñéëáìâÜíåé
ôç ìåëÝôç Üëëùí ìÝôñùí ïìïéüôçôáò Ýíáíôé ôçò Åõêëåßäåéáò áðüóôáóçò üðùò
Dynamic Time Warping (DTW) [27] êáé Discrete Wavelet Transform (DWT)
[148]. Ç ðñïôåéíüìåíç ìÝèïäïò èá ìðïñïýóå íá åðåêôáèåß ìå äýï ôñüðïõò: (á) ìå
ôçí ôáõôü÷ñïíç õðïóôÞñéîç ðïëëþí óõíå÷þí åñùôçìÜôùí, êáé â) ìå ôçí áõôüìáôç
åðéëïãÞ ôïõ ðëÞèïõò ôùí óõíôåëåóôþí DFT áíÜëïãá ìå ôá ÷áñáêôçñéóôéêÜ ôïõ
óõíüëïõ äåäïìÝíùí. ÔÝëïò, ç ìåëÝôç ôùí åñùôçìÜôùí ïìïéüôçôáò óýíäåóçò óå
äõíáìéêÜ ðåñéâÜëëïíôá èá åßíáé ÷ñÞóéìç.
Óôï ÊåöÜëáéï 7 áó÷ïëçèÞêáìå ìå ôá óõíå÷Þ k-dominant skyline åñùôÞìáôá.
¼ðùò óõæçôÞóáìå êáé óôçí Åíüôçôá 7.6, ìßá ÷ñÞóéìç åðÝêôáóç ôïõ ìåèüäïõ
10.2. ÄÑÏÌÏÉ ÌÅËËÏÍÔÉÊÇÓ ÅÑÅÕÍÁÓ 217

èá Þôáí ç áîéïðïßçóç ôçò åðéêÜëõøçò ôùí õðïåñùôçìÜôùí óå üëá ôá åðßðåäá.


ÅðéðëÝïí, ç ðñïôåéíüìåíç ìÝèïäïò ìðïñåß íá åðåêôáèåß ðñïêåéìÝíïõ íá ÷åéñßæåôáé
 -skyline åñùôÞìáôá, óôá ïðïßá ç ðáñÜìåôñïò k ðñïóáñìüæåôáé áõôüìáôá Ýôóé
þóôå ôï ðëÞèïò ôùí áðáíôÞóåùí ôïõ k-dominant skyline åñùôÞìáôïò íá åßíáé .
Óôï ÊåöÜëáéï 8 ìåëåôÞóáìå ôá óõíå÷Þ top-k dominating åñùôÞìáôá. Ç ìåë-
ëïíôéêÞ Ýñåõíá ðåñéëáìâÜíåé ôï ó÷åäéáóìü êáé ôçí áíÜðôõîç áëãïñßèìùí ãéá ôçí
åðåîåñãáóßá óõíå÷þí top-k dominating åñùôçìÜôùí óå ïðïéïäÞðïôå õðï÷þñï
(õðïóýíïëï äéáóôÜóåùí) êáé ôç ìåëÝôç åíáëëáêôéêþí ìåèüäùí ãéá ðñïóåããé-
óôéêÞ åðåîåñãáóßá. ÔÝëïò, ÷ñÞóéìç èá Þôáí ç ìåëÝôç ôçò áðüäïóçò êáé Üëëùí
äïìþí äåéêôïäüôçóçò áíôß ôïõ êáíïíéêïý ðëÝãìáôïò, üðùò ìç-êáíïíéêÜ ðëÝã-
ìáôá êáé R-trees.
Óôï ÊåöÜëáéï 9 ðáñïõóéÜóáìå ôï åñþôçìá -ãåéôïíéÜò k-êÜëõøçò. Ùò åðÝ-
êôáóç ôïõ ðñïôåéíüìåíïõ áëãüñéèìïõ èá ìðïñïýóå íá åßíáé ç ìåëÝôç åíáëëáêôé-
êþí êáé óõíèåôüôåñùí êñéôçñßùí êÜëõøçò. Åðßóçò, åíäéáöÝñïí ðáñïõóéÜæåé ç
ìåëÝôç åíüò áõîçôéêïý áëãïñßèìïõ ðïõ èá ëáìâÜíåé õðüøç ôï ÷ñüíï ëÞîçò ôùí
åããñáöþí/ìåôñÞóåùí ôùí áéóèçôÞñùí. Èá èÝëáìå íá ôïíßóïõìå üôé ç äéá÷åßñéóç
êáé ç åðåîåñãáóßá äåäïìÝíùí ôùí áóýñìáôùí äéêôýùí áéóèçôÞñùí áðü ôçí ðëåõñÜ
ôùí âÜóåùí äåäïìÝíùí ðáñïõóéÜæåé éäéáßôåñï åíäéáöÝñïí, áöïý êáèßóôáôáé áíá-
ãêáßïò ï ó÷åäéáóìüò êáôáíåìçìÝíùí áëãïñßèìùí ãéá ôçí áíôéìåôþðéóç ðïëëþí
ðñïâëçìÜôùí, äéåîïäéêÜ ìåëåôçìÝíùí óôéò ðáñáäïóéáêÝò âÜóåéò äåäïìÝíùí. Äõ-
óôõ÷þò, ç õðÜñ÷ïõóá âéâëéïãñáößá êáôáêëýæåôáé áðü óõãêåíôñùôéêïýò áëãï-
ñßèìïõò (centralized algorithms), ðïëý áðïäïôéêïýò óôéò âÜóåéò äåäïìÝíùí áëëÜ
áêáôÜëëçëïõò ãéá áóýñìáôá äßêôõá áéóèçôÞñùí, äéüôé ôï êñéôÞñéï ãéá ôï ó÷å-
äéáóìü ôïõ áëãïñßèìïõ äåí åßíáé ðëÝïí ç ÷ñïíéêÞ áðüêñéóç áëëÜ ç êáôáíÜëùóç
åíÝñãåéáò. ¸ôóé ðÜñá ðïëëÜ æçôÞìáôá ðáñáìÝíïõí áíïé÷ôÜ ðñïò äéåñåýíçóç.
ÂÉÂËÉÏÃÑÁÖÉÁ
[1] C. Aggarwal. A framework for diagnosing changes in evolving data
streams. In Proceedings ACM International Conference on Management
of Data (SIGMOD), pages 575−586, 2003.
[2] C. Aggarwal. On biased reservoir sampling in the presence of stream evo-
lution. In Proceedings International Conference on Very Large Databases
(VLDB), pages 607−618, 2006.
[3] C. C. Aggarwal. Data streams: Models and algorithms. Springer, 2007.
[4] C. C. Aggarwal, J. Han, J. Wang, and P. S. Yu. A framework for clustering
evolving data streams. In Proceedings International Conference on Very
Large Databases (VLDB), pages 81−92, 2003.
[5] C. C. Aggarwal, J. Han, and P. S. Yu. On demand classi cation of
data streams. In Proceedings ACM SIGKDD International Conference
on Knowledge Discovery and Data Mining (KDD), pages 503−508, 2004.
[6] C. C. Aggarwal, C. Procopiuc, J. L. Wolf, P. S. Yu, and J. S. Park. Fast
algorithms for projected clustering. In Proceedings ACM International
Conference on Management of Data (SIGMOD), pages 61−72, 1999.
[7] C. C. Aggarwal and P. S. Yu. Finding generalized projected clusters in
high dimensional spaces. In Proceedings ACM International Conference
on Management of Data (SIGMOD), pages 70−81, 2000.
[8] R. Agrawal, C. Faloutsos, and A. Swami. Ecient similarity search in
sequence databases. In Proceedings International Conference on Founda-
tions of Data Organization and Algorithms (FODO), pages 69−84, 1993.
[9] R. Agrawal, J. Gehrke, D. Gunopoulos, and P. Raghavan. Automatic
subspace clustering of high dimensional data for data mining application.
In Proceedings ACM International Conference on Management of Data
(SIGMOD), pages 94−105, 1998.

219
220 ÂÉÂËÉÏÃÑÁÖÉÁ

[10] R. Agrawal, T. Imielinski, and A. Swami. Mining association rules be-


tween sets of items in large databases. In Proceedings ACM International
Conference on Management of Data (SIGMOD), pages 207−216, 1993.
[11] R. Agrawal, K. I. Lin, H. S. Sawhney, and K. Swim. Fast similar-
ity search in the presence of noise, scaling, and translation in time-
series databases. In Proceedings International Conference on Very Large
Databases (VLDB), pages 490−501, 1995.
[12] R. Agrawal, H. Mannila, R. Srikant, H. Toivonen, and A. I. Verkamo.
Fast discovery of association rules. In Advances in knowledge discovery
and data mining, pages 307−328. AAAI/MIT Press, 1996.
[13] S. M. N. Alam and Z. J. Haas. Coverage and connectivity in three-
dimensional networks. In Proceedings ACM/IEEE International Confer-
ence on Mobile Computing and Networking (MobiCom), pages 346−357,
2006.
[14] A. D. Amis, R. Prakash, T. H. P. Vuong, and D. T. Huynh. Max-min d-
cluster formation in wireless ad hoc networks. In Proceedings IEEE Inter-
national Conference on Computer Communications (INFOCOM), pages
32−41, 2000.
[15] A. Arasu, S. Babu, and J. Widom. The CQL continuous query language:
Semantic foundations and query execution. Technical Report TR-2003-67,
Computer Science Department, Stanford University, 2003.
[16] B. Babcock, S. Babu, M. Datar, R. Motwani, and J. Widom. Models
and issues in data stream systems. In Proceedings ACM Symposium on
Principles of Database Systems (PODS), pages 1−16, 2002.
[17] B. Babcock, M. Datar, and R. Motwani. Sampling from a moving window
over streaming data. In Proceedings ACM-SIAM Symposium on Discrete
Algorithms (SODA), pages 633−634, 2002.
[18] B. Babcock, M. Datar, and R. Motwani. Load shedding for aggregation
queries over data streams. In Proceedings IEEE International Conference
on Data Engineering (ICDE), pages 350−361, 2004.
[19] B. Babcock, M. Datar, R. Motwani, and L. O'Callaghan. Maintaining
variance and k-medians over data stream windows. In Proceedings ACM
Symposium on Principles of Database Systems (PODS), pages 234−243,
2003.
[20] B. Babcock and C. Olston. Distributed top-k monitoring. In Proceed-
ings ACM International Conference on Management of Data (SIGMOD),
pages 28−39, 2003.
ÂÉÂËÉÏÃÑÁÖÉÁ 221

[21] S. Babu and J. Widom. Continuous queries over data streams. ACM
SIGMOD Record, 30(3):109−120, 2001.
[22] W. T. Balke, U. Guntzer, and J. X. Zheng. Ecient distributed skylining
for web information systems. In Proceedings International Conference on
Extending Database Technology, pages 256−273, 2004.
[23] D. Barbara. Requirements for clustering data streams. SIGKDD Explo-
rations Newsletter, 3(2):23−27, 2002.
[24] N. Beckmann, H. P. Kriegel, R. Schneider, and B. Seeger. The R∗ -tree: An
ecient and robust access method for points and rectangles. In Proceed-
ings ACM International Conference on Management of Data (SIGMOD),
pages 322−331, 1990.
[25] J. L. Bentley, K. L. Clarkson, and D. B. Levine. Fast linear expected-
time algorithms for computing maxima and convex hulls. In Proceedings
ACM-SIAM Symposium on Discrete Algorithms (SODA), pages 179−187,
1990.
[26] S. Berchtold, D. Keim, and Kriegel H. P. The x-tree: An index structure
for high-dimensional data. In Proceedings International Conference on
Very Large Databases (VLDB), pages 28−39, 1995.
[27] D. Berndt and J. Cli ord. Using dynamic time warping to nd pat-
terns in time series. In Proceedings Workshop on Knowledge Discovery
in Databases, pages 359−370, 1994.
[28] K. Beyer, J. Goldstein, R. Ramakrishnan, and U. Shaft. When is near-
est neighbors meaningful. In Proceedings International Conference on
Database Theory (ICDT), pages 217−235, 1999.
[29] S. Borzsonyi, D. Kossmann, and K. Stocker. The skyline operator. In
Proceedings IEEE International Conference on Data Engineering (ICDE),
pages 421−430, 2001.
[30] T. Bozkaya, N. Yazdani, and M. Ozsoyoglu. Matching and indexing se-
quences of di erent lengths. In Proceedings ACM International Conference
on Information and Knowledge Management (CIKM), pages 128−135,
1997.
[31] N. Bruno, S. Chaudhuri, and L. Gravano. Top-k selection queries over re-
lational databases: Mapping strategies and performance evaluation. ACM
Transactions on Database Systems, 27(2):153−187, 2002.
222 ÂÉÂËÉÏÃÑÁÖÉÁ

[32] D. Carney, U. Cetintemel, M. Cherniack, C. Convey, L. Christian, G. Lee,


S. Seidman, M. Stonebraker, N. Tatbul, and S. Zdonik. Monitoring
streams - a new class of data management applications. In Proceedings In-
ternational Conference on Very Large Databases (VLDB), pages 215−226,
2002.
[33] C. Y. Chan, H. V. Jagadish, K. L. Tan, A. K. H. Tung, and Z. Zhang.
Finding k-dominant skylines in high dimensional space. In Proceed-
ings ACM International Conference on Management of Data (SIGMOD),
pages 503−514, 2006.
[34] S. Chandrasekaran, O. Cooper, A. Deshpande, M. Franklin, J. Heller-
stein, W. Hong, S. Krishnamurthy, S. Madden, V. Raman, F. Reiss, and
M. Shah. TelegraphCQ: Continuous data ow processing for an uncer-
tain world. In Proceedings International Conference on Innovative Data
Systems, 2003.
[35] S. Chandrasekaran and M. J. Franklin. Streaming queries over streaming
data. In Proceedings International Conference on Very Large Databases
(VLDB), pages 203−214, 2002.
[36] J. H. Chang and L. Tassiulas. Energy conserving routing in wireless ad-
hoc networks. In Proceedings IEEE International Conference on Computer
Communications (INFOCOM), pages 22−31, 2000.
[37] J. W. Chang and D. S. Jin. A new cell-based clustering method for large,
high-dimensional data in data mining applications. In Proceedings ACM
Symposium on Applied Computing (SAC), pages 503−507, 2002.
[38] M. Charikar, L. O'Callaghan, and R. Panigrahy. Better streaming al-
gorithms for clustering problems. In Proceedings ACM Symposium on
Theory of Computing (STOC), pages 30−39, 2003.
[39] N. Chaudhry, K. Shaw, and M. Abdelguer . Stream data management.
Springer, 2006.
[40] C. M. Chen and Y. Ling. A sampling-based estimator for top-k query. In
Proceedings IEEE International Conference on Data Engineering (ICDE),
pages 617−627, 2002.
[41] J. Chen, D. DeWitt, F. Tian, and Y. Wang. NiagaraCQ: A scalable con-
tinuous query system for internet databases. In Proceedings ACM Inter-
national Conference on Management of Data (SIGMOD), pages 379−390,
2000.
ÂÉÂËÉÏÃÑÁÖÉÁ 223

[42] L. Chen, M. T. Ozsu, and V. Oria. Robust and fast similarity search for
moving object trajectories. In Proceedings ACM International Conference
on Management of Data (SIGMOD), pages 491−502, 2005.
[43] C. Cheng, A. W. Fu, and Y. Zhang. Entropy-based subspace clustering for
mining numerical data. In Proceedings ACM SIGKDD International Con-
ference on Knowledge Discovery and Data Mining (KDD), pages 84−93,
1999.
[44] Y. Cheng and G. M. Church. Biclustering of expression data. In Pro-
ceedings International Conference on Intelligent Systems for Molecular
Biology (ISMB), pages 93−103, 2000.
[45] Y. Chi, P. S. Yu, H. Wang, and R. R. Muntz. Loadstar: A load shedding
scheme for classifying data streams. In Proceedings SIAM International
Conference on Data Mining (SDM), 2005.
[46] J. Chomicki, P. Godfrey, J. Gryz, and D. Liang. Skyline with presorting. In
Proceedings IEEE International Conference on Data Engineering (ICDE),
pages 717−719, 2003.
[47] G. Cormode, M. Datar, P. Indyk, and S. Muthukrishnan. Comparing data
streams using Hamming norms (How to zero in). IEEE Transactions on
Knowledge and Data Engineering, 15(3):529−540, 2003.
[48] C. Cortes, K. Fisher, D. Pregibon, and A. Rogers. Hancock: A lan-
guage for extracting signatures from data streams. In Proceedings ACM
SIGKDD International Conference on Knowledge Discovery and Data
Mining (KDD), pages 9−17, 2000.
[49] T. Dasu, S. Krishnan, S. Venkatasubramaniam, and K. Yi. An
information-theoretic approach to detecting changes in multidimensional
data streams. Technical Report CS-2005-06, Computer Science Depart-
ment, Duke University, 2005.
[50] M. Datar, A. Gionis, P. Indyk, and R. Motwani. Maintaining stream
statistics over sliding windows. In Proceedings ACM-SIAM Symposium
on Discrete Algorithms (SODA), pages 635−644, 2002.
[51] A. Deligiannakis, Y. Kotidis, and N. Roussopoulos. Hierarchical in-
network data aggregation with quality guarantees. In Proceedings Inter-
national Conference on Extending Data Base Technology (EDBT), pages
658−675, 2004.
[52] A. Demers, J. Gehrke, R. Rajaraman, N. Trigoni, and Y. Yao. The Cougar
Project: A work-in-progress report. ACM SIGMOD Record, 34(4):53−59,
2003.
224 ÂÉÂËÉÏÃÑÁÖÉÁ

[53] P. Domingos and G. Hulten. Mining high-speed data streams. In Proceed-


ings ACM SIGKDD International Conference on Knowledge Discovery
and Data Mining (KDD), pages 71−80, 2000.
[54] M. H. Dunham. Data mining: Introductory and advanced topics. Prentice-
Hall, 2002.
[55] M. Ester, H. P. Kriegel, J. Sander, and X. Xu. A density-based algorithm
for discovering clusters in large spatial databases with noise. In Proceedings
ACM SIGKDD International Conference on Knowledge Discovery and
Data Mining (KDD), pages 291−316, 1996.
[56] R. Fagin, A. Lotem, and M. Naor. Optimal aggregation algorithms for
middleware. In Proceedings ACM Symposium on Principles of Database
Systems (PODS), pages 102−113, 2001.
[57] C. Faloutsos, M. Ranganathan, and Y. Manolopoulos. Fast subsequence
matching in time-series databases. In Proceedings ACM International
Conference on Management of Data (SIGMOD), pages 419−429, 1994.
[58] E. Fredkin. Trie memory. Communications of the ACM, 3(9):490−499,
1960.
[59] J. H. Friedman and J. J. Meulman. Clustering ob-
jects on subsets of attributes. Technical report,
http://citeseer.nj.nec.com/friedman02clustering .html, 2002.
[60] T. Y. Fu, W. C. Peng, and W. C. Lee. Optimizing parallel itineraries
for kNN query processing in wireless sensor networks. In Proceedings
ACM International Conference on Information and Knowledge Manage-
ment (CIKM), pages 391−400, 2007.
[61] G. P. C. Fung, J. X. Yu, and W. Lam. News sensitive stock trend pre-
diction. In Proceedings Paci c-Asia Conference on Knowledge Discovery
and Data Mining (PAKDD), pages 481−493, 2002.
[62] R. Gandhi and S. Parthasarathy. Fast distributed well connected domi-
nating sets for ad hoc networks. Technical Report CS-TR-4559, Computer
Science Department, University of Maryland at College Park, 2004.
[63] D. Ganesan, D. Estrin, and J. S Heidemann. Dimensions: Why do we need
a new data handling architecture for sensor networks? ACM SIGCOMM
Computer Communication Review, 33(1):143−148, 2003.
[64] L. Gao and X. S. Wang. Continually evaluating similarity-based pattern
queries on a streaming time series. In Proceedings ACM International
Conference on Management of Data (SIGMOD), pages 370−381, 2002.
ÂÉÂËÉÏÃÑÁÖÉÁ 225

[65] L. Gao and X. S. Wang. Improving the performance of continuous queries


on fast data streams: Time series case. In Proceedings ACM SIGMOD
DMKD Workshop, 2002.
[66] L. Gao, Z. Yao, and X. S. Wang. Evaluating continuous nearest neighbor
queries for streaming time series via pre-fetching. In Proceedings Interna-
tional Conference on Information and Knowledge Management (CIKM),
pages 485−492, 2002.
[67] M. Garofalakis and P. Gibbons. Wavelet synopses with error guarantees.
In Proceedings ACM International Conference on Management of Data
(SIGMOD), pages 476−487, 2002.
[68] J. Gehrke, F. Korn, and D. Srivastava. On computing correlated aggre-
gates over continual data streams. ACM SIGMOD Record, 30(2):13−24,
2001.
[69] C. Giannella, J. Han, J. Pei, X. Yan, and P. Yu. Mining frequent pat-
terns in data streams at multiple time granularities. In Proceedings NSF
Workshop on Next Generation Data Mining, 2002.
[70] S. Goil, H. Nagesh, and A. Choudhary. Ma a: Ecient and scalable
subspace clustering for very large data sets. Technical Report CPDC-TR-
9906-010, Northwestern University, Evanston IL, 1999.
[71] STREAM Group. STREAM: The Stanford stream data manager. IEEE
Data Engineering Bulletin, 26(1), 2003.
[72] S. Guha, P. Indyk, S. Muthukrishnan, and M. Strauss. Histogramming
data streams with fast per-item processing. In Proceedings International
Colloquium on Automata, Languages and Programming (ICALP), pages
681−692, 2002.
[73] S. Guha, A. Meyerson, N. Mishra, R. Motwani, and L. O'Callaghan. Clus-
tering data streams: Theory and practice. IEEE Transactions on Knowl-
edge and Data Engineering, 15(3):515−528, 2003.
[74] S. Guha, N. Mishra, R. Motwani, and L. O’Callaghan. Clustering data
streams. In Proceedings Annual Symposium on Foundations of Computer
Science (FOCS), pages 359−366, 2000.
[75] C. Gupta and R. Grossman. GenIc: A single pass generalized incremental
algorithm for clustering. In Proceedings SIAM International Conference
on Data Mining (SDM), pages 137−153, 2004.
226 ÂÉÂËÉÏÃÑÁÖÉÁ

[76] A. Guttman. R-trees: A dynamic index structure for spatial searching.


In Proceedings ACM International Conference on Management of Data
(SIGMOD), pages 47−57, 1984.
[77] J. Han and M. Kamber. Data mining: Concepts and techniques. Morgan
Kaufmann, 2000.
[78] M. Hefeeda and H. Ahmadi. A probabilistic coverage protocol for wire-
less sensor networks. In Proceedings IEEE International Conference on
Network Protocols (ICNP), pages 41−50, 2007.
[79] W. R. Heinzelman, A. Chandrakasan, and H. Balakrishnan. Energy-
ecient communication protocol for wireless microsensor networks. In
Proceedings International Conference on System Sciences, page 10, 2000.
[80] M. E. Houle and J. Sakuma. Fast approximate similarity search in ex-
tremely high-dimensional data sets. In Proceedings IEEE International
Conference on Data Engineering (ICDE), pages 619−630, 2005.
[81] C.-F. Huang and Y.-C. Tseng. The coverage problem in a wireless sensor
network. ACM Mobile Networks and Applications, 10(4):519−528, 2005.
[82] Z. Huang, H. Lu, B. C. Ooi, and A. K. H. Tung. Continuous skyline
queries for moving objects. IEEE Transactions on Knowledge and Data
Engineering, 18(12):1645−1658, 2006.
[83] G. Hulten, L. Spencer, and P. Domingos. Mining time changing data
streams. In Proceedings ACM SIGKDD International Conference on
Knowledge Discovery and Data Mining (KDD), pages 97−106, 2001.
[84] J. K. Hutson. TRIX - Triple exponential smoothing oscillator. Technical
analysis of stocks and commodities, 1(5):105−108, 1983.
[85] I. F. Ilyas, W. G. Aref, and A. K. Elmagarmid. Joining ranked in-
puts in practice. In Proceedings International Conference on Very Large
Databases (VLDB), pages 950−961, 2002.
[86] I. F. Ilyas, W. G. Aref, and A. K. Elmagarmid. Supporting top-k join
queries in relational databases. The VLDB Journal, 13(3):207−221, 2004.
[87] I. F. Ilyas, R. Shah, W. G. Aref, J. S. Vitter, and A. K. Elmagarmid. Rank-
aware query optimization. In Proceedings ACM International Conference
on Management of Data (SIGMOD), pages 203−214, 2004.
[88] C. Intanagonwiwat, R. Govindan, and D. Estrin. Directed di usion: A
scalable and robust communication paradigm for sensor networks. In Pro-
ceedings ACM International Conference on Mobile Computing and Net-
working, pages 56−67, 2000.
ÂÉÂËÉÏÃÑÁÖÉÁ 227

[89] H. V. Jagadish, J. Madar, and R. T. Ng. Semantic compression and


pattern extraction with fascicles. In Proc-eedings International Conference
on Very Large Databases (VLDB), pages 186−198, 1999.
[90] R. Jin and G. Agrawal. Ecient decision tree construction on streaming
data. In Proceedings ACM SIGKDD International Conference on Knowl-
edge Discovery and Data Mining (KDD), pages 571−576, 2003.
[91] R. Jin and G. Agrawal. An algorithm for in-core frequent itemset mining
on streaming data. In Proceedings IEEE International Conference on Data
Mining (ICDM), pages 210−217, 2005.
[92] W. Jin, J. Han, and M. Ester. Mining thick skylines over large databases.
In Proceedings European Conference on Principles and Practice of Knowl-
edge Discovery in Databases (PKDD), pages 255−266, 2004.
[93] T. Johnson, C. Cranor, O. Spatscheck, and V. Shkapenyuk. Gigascope: A
stream database for network applications. In Proceedings ACM Interna-
tional Conference on Management of Data (SIGMOD), pages 647−651,
2003.
[94] K. Kailing, H. P. Kriegel, and P. Kroger. Density-connected subspace
clustering for high-dimensional data. In Proceedings SIAM International
Conference on Data Mining (SDM), pages 246−257, 2004.
[95] H. Karl and A. Willig. Protocols and architectures for wireless sensor
networks. John Wiley & Sons, 2006.
[96] E. Keogh, K. Chakrabarti, S. Mehrotra, and M. Pazzani. Locally adaptive
dimensionality reduction for indexing large time series databases. In Pro-
ceedings ACM International Conference on Management of Data (SIG-
MOD), pages 151−162, 2001.
[97] E. Keogh and M. Pazzani. A simple dimensionality reduction technique for
fast similarity search in large time series databases. In Proceedings Paci c-
Asia Conference on Knowledge Discovery and Data Mining (PAKDD),
pages 122−133, 2000.
[98] D. Kifer, S. B. David, and J. Gehrke. Detecting change in data streams. In
Proceedings International Conference on Very Large Databases (VLDB),
pages 180−191, 2004.
[99] M. Kontaki, D. Katsaros, and Y. Manolopoulos. The d-hop k-data cov-
erage query problem in wireless sensor networks. In Proceedings Inter-
national Workshop on Data Management for Sensor Networks (DMSN),
pages 14−20, 2008.
228 ÂÉÂËÉÏÃÑÁÖÉÁ

[100] M. Kontaki, D. Katsaros, and Y. Manolopoulos. The d-hop k-data cover-


age query problem in wireless sensor networks. journal submission, 2009.
[101] M. Kontaki and A. N. Papadopoulos. Ecient similarity search in stream-
ing time sequences. In Proceedings International Conference on Scienti c
and Statistical Database Management (SSDBM), pages 63−72, 2004.
[102] M. Kontaki, A. N. Papadopoulos, and Y. Manolopoulos. Similarity range
queries in streaming time series. In Proceedings International Workshop on
Pattern Recognition in Information Systems (PRIS), pages 69−79, 2004.
[103] M. Kontaki, A. N. Papadopoulos, and Y. Manolopoulos. Continuous
trend-based classi cation of streaming time series. In Proceedings East-
European Conference on Advances in Databases and Information Systems
(ADBIS), pages 294−308, 2005.
[104] M. Kontaki, A. N. Papadopoulos, and Y. Manolopoulos. Ecient in-
cremental subspace clustering in data streams. In Proceedings Interna-
tional Database Engineering and Applications Symposium (IDEAS), pages
53−60, 2006.
[105] M. Kontaki, A. N. Papadopoulos, and Y. Manolopoulos. Adaptive sim-
ilarity search in streaming time series with sliding window. Data and
Knowledge Engineering, 63(2):478−502, 2007.
[106] M. Kontaki, A. N. Papadopoulos, and Y. Manolopoulos. Continuous k-
dominant skyline computation on multidimensional data streams. In Pro-
ceedings International Symposium on Applied Computing (SAC), pages
956−960, 2008.
[107] M. Kontaki, A. N. Papadopoulos, and Y. Manolopoulos. Continu-
ous subspace clustering in streaming time series. Information Systems,
33(2):240−260, 2008.
[108] M. Kontaki, A. N. Papadopoulos, and Y. Manolopoulos. Continuous
trend-based clustering in data streams. In Proceedings International Con-
ference on Data Warehousing and Knowledge Discovery (DaWaK), pages
251−262, 2008.
[109] M. Kontaki, A. N. Papadopoulos, and Y. Manolopoulos. Continuous pro-
cessing of top-k dominating queries. conference submission, 2009.
[110] D. Kossmann, F. Ramsak, and S. Rost. Shooting stars in the sky: An on-
line algorithm for skyline queries. In Proceedings International Conference
on Very Large Databases (VLDB), pages 275−286, 2002.
ÂÉÂËÉÏÃÑÁÖÉÁ 229

[111] N. Koudas and D. Srivastava. Data stream query processing: A tutorial. In


Proceedings International Conference on Very Large Databases (VLDB),
2003.
[112] H. T. Kung. On nding the maxima of a set of vectors. Journal of the
ACM, 22(4):469−476, 1975.
[113] D. Kwon, S. Lee, and S. Lee. Indexing the current positions of moving
objects using the lazy update R-tree. In Proceedings International Con-
ference on Mobile Data Management (MDM), pages 113−120, 2002.
[114] M. Last. Online classi cation of nonstationary data streams. Intelligent
Data Analysis, 6(2):129−147, 2002.
[115] Y. Law and C. Zaniolo. An adaptive nearest neighbor classi cation algo-
rithm for data streams. In Proceedings European Conference on Principals
and Practice of Knowledge Discovery in Databases, pages 108−120, 2005.
[116] M. Lee, W. Hsu, C. S. Jensen, B. Cui, and K. L. Teo. Supporting frequent
updates in R-trees: A bottom-up approach. In Proceedings International
Conference on Very Large Databases (VLDB), pages 608−619, 2003.
[117] C. Li, B. C. Ooi, A. K. H. Tung, and S. Wang. DADA: A data cube
for dominant relationship analysis. In Proceedings ACM International
Conference on Management of Data (SIGMOD), pages 659−670, 2006.
[118] X. Lian and L. Chen. Top-k dominating queries in uncertain databases. In
Proceedings International Conference on Extending Database Technology
(EDBT), 2009.
[119] X. Lian, L. Chen, J. X. Yu, G. Wang, and G. Yu. Similarity match
over high speed time-series streams. In Proceedings IEEE International
Conference on Data Engineering (ICDE), pages 1086−1095, 2005.
[120] J. Lin, E. Keogh, and W. Truppel. Clustering of streaming time series is
meaningless. In Proceedings ACM SIGMOD Workshop on Research Issues
in Data Mining and Knowledge Discovery (DMKD), pages 56−65, 2003.
[121] X. Lin, Y. Yuan, Q. Zhang, and Y. Zhang. Selecting stars: The k most
representative skyline operator. In Proceedings IEEE International Con-
ference on Data Engineering (ICDE), pages 86−95, 2007.
[122] B. Liu, Y. Xia, and P. S. Yu. Clustering through decision tree construction.
In Proceedings International Conference on Information and Knowledge
Management, pages 20−29, 2000.
230 ÂÉÂËÉÏÃÑÁÖÉÁ

[123] X. Liu and H. Ferhatosmanoglu. Ecient k-NN search on streaming data


series. In Proceedings International Symposium on Spatial and Temporal
Databases (SSTD), pages 83−101, 2003.
[124] P. Ljubic, L. Todorovski, L. Lavrac, and J. C. Bullas. Time-series analysis
of UK trac accident data. In Proceedings Conference on Data Mining
and Warehouses (SiKDD), 2002.
[125] Y. Lu, J. Zhao, L. Chen, B. Cui, and D. Yang. E ective skyline cardinality
estimation on data streams. In Proceedings International Conference on
Database and Expert Systems Applications (DEXA), pages 241−254, 2008.
[126] Q. Lv, W. Josephson, Z. Wang, M. Charikar, and K. Li. Multi-probe
lsh: Ecient indexing for high-dimensional similarity search. In Proceed-
ings International Conference on Very Large Databases (VLDB), pages
950−961, 2007.
[127] S. Madden, M. A. Shah, J. M. Hellerstein, and V. Raman. Continuously
adaptive continuous queries over streams. In Proceedings ACM Inter-
national Conference on Management of Data (SIGMOD), pages 49−60,
2002.
[128] K. Mouratidis, S. Bakiras, and D. Papadias. Continuous monitoring of
top-k queries over sliding windows. In Proceedings ACM International
Conference on Management of Data (SIGMOD), pages 635−646, 2006.
[129] O. Nasraoui, C. Rojas, and C. Cardona. A framework for mining evolv-
ing trends in web data streams using dynamic learning and retrospective
validation. Computer Networks, 50(10):1488−1512, 2006.
[130] L. O’Callaghan, N. Mishra, A. Meyerson, S. Guha, and R. Motwani.
Streaming-data algorithms for high-quality clustering. In Proceedings
IEEE International Conference on Data Engineering (ICDE), pages
685−694, 2002.
[131] S. Oh, J. Kang, Y. Byun, G. Park, and S. Byun. Intrusion detection based
on on clustering a data stream. In Proceedings ACIS International Confer-
ence on Software Engineering Research, Management and Applocations,
pages 220−227, 2005.
[132] C. Olston, J. Jiang, and J. Widom. Adaptive lters for continuous queries
over distributed data streams. In Proceedings ACM International Confer-
ence on Management of Data (SIGMOD), pages 563−574, 2003.
[133] A. V. Oppenheim and R. W. Schafer. Digital signal processing. Prentice-
Hall, 1975.
ÂÉÂËÉÏÃÑÁÖÉÁ 231

[134] D. Papadias, Y. Tao, G. Fu, and B. Seeger. An optimal and progressive al-
gorithm for skyline queries. In Proceedings ACM International Conference
on Management of Data (SIGMOD), pages 467−478, 2003.
[135] D. Papadias, Y. Tao, G. Fu, and B. Seeger. Progressive skyline com-
putation in database systems. ACM Transactions on Database Systems,
30(1):41−82, 2005.
[136] A. N. Papadopoulos, A. Lyritsis, A. Nanopoulos, and Y. Manolopoulos.
Domination mining and querying. In Proceedings International Confer-
ence on Data Warehousing and Knowledge Discovery (DaWaK), pages
145−156, 2007.
[137] S. Park, W. W. Chu, J. Yoon, and C. Hsu. Ecient searches for simi-
lar subsequences of di erent lengths in sequence databases. In Proceed-
ings IEEE International Conference on Data Engineering (ICDE), pages
23−32, 2000.
[138] J. Pei, W. Jin, M. Ester, and Y. Tao. Catching the best views of skyline:
A semantic approach based on decisive subspaces. In Proceedings Inter-
national Conference on Very Large Databases (VLDB), pages 253−264,
2005.
[139] J. Pei, X. Zhang, M. Cho, H. Wang, and P. S. Yu. Maple: A fast algorithm
for maximal pattern-based clustering. In Proceedings IEEE International
Conference on Data Mining (ICDM), pages 259−266, 2003.
[140] D. M. Pennock, G. W. Flake, S. Lawrence, E. J. Glover, and C. L. Giles.
Winners don't take all: Characterizing the competition for links on the
Web. Proceedings the National Academy of Sciences, 99(8):5207−5211,
2002.
[141] C. M. Procopiuc, M. Jones, P. K. Agarwal, and T. M. Murali. A monte
carlo algorithm for fast projective clustering. In Proceedings ACM Inter-
national Conference on Management of Data (SIGMOD), pages 418−427,
2002.
[142] S. Ratnasamy, B. Karp, S. Shenker, D. Estrin, R. Govindan, L. Yin, and
F. Yu. Data-centric storage in sensornets with GHT: A geographic hash
table. ACM Mobile Networks and Applications, 8(4):427−442, 2003.
[143] L. Sacchi, R. Bellazzi, C. Larizza, P. Magni, T. Curk, U. Petrovic, and
B. Zupan. Clustering and classifying gene expressions data through tem-
poral abstractions. In Proceedings Workshop on Intelligence Data Analysis
in Medicine and Pharmacology (IDAMAP), 2003.
232 ÂÉÂËÉÏÃÑÁÖÉÁ

[144] Y. Sakurai, C. Faloutsos, and M. Yamamuro. Stream monitoring under


the time warping distance. In Proceedings IEEE International Conference
on Data Engineering (ICDE), pages 1046−1055, 2007.
[145] T. Seidl and H. P. Kriegel. Optimal multi-step k-Nearest Neighbor search.
In Proceedings ACM International Conference on Management of Data
(SIGMOD), pages 154−165, 1998.
[146] T. Sellis, N. Roussopoulos, and C. Faloutsos. The R+ -tree: a dynamic in-
dex for multidimensional objects. In Proceedings International Conference
on Very Large Databases (VLDB), pages 507−518, 1987.
[147] M. A. Sharaf, J. Beaver, A. Labrinidis, and P. K. Chrysanthis. Balancing
energy eciency and quality of aggregate data in sensor networks. The
VLDB Journal, 13(4):384−403, 2004.
[148] C. Sidney Burrus, R. A. Gopinath, and H. Guo. Introduction to wavelets
and wavelet transforms. Prentice-Hall, 1997.
[149] I. Stojmenovic, M. Seddigh, and J. Zunic. Dominating sets and neighbor
elimination-based broadcasting algorithms in wireless networks. IEEE
Transactions on Parallel and Distributed Systems, 13(1):14−25, 2002.
[150] H. Sun, G. Yu, Y. Bao, F. Zhao, and D. Wang. S-tree: An e ective index
for clustering arbitrary shapes in data streams. In Proceedings Interna-
tional Workshop on Research Issues in Data Engineering: Stream Data
Mining and Applications, pages 81−88, 2005.
[151] B. Takada, S. Kurihara, T. Hirotsu, and T. Sugawara. Proximity mining:
nding proximity using sensor data history. In Proceedings IEEE Work-
shop on Mobile Computing Systems and Applications (WMCSA), pages
129−138, 2003.
[152] K. L. Tan, P. K. Eng, and B. C. Ooi. Ecient progressive skyline compu-
tation. In Proceedings International Conference on Very Large Databases
(VLDB), pages 301−310, 2001.
[153] P. N. Tan, M. Steinbach, and V. Kumar. Introduction to data mining.
Addison-Wesley, 2006.
[154] Y. Tao and D. Papadias. Maintaining sliding window skylines on
data streams. IEEE Transactions on Knowledge and Data Engineering,
18(3):377−391, 2006.
[155] Y. Tao, X. Xiao, and J. Pei. SUBSKY: Ecient computation of skylines
in subspaces. In Proceedings IEEE International Conference on Data En-
gineering (ICDE), pages 65−65, 2006.
ÂÉÂËÉÏÃÑÁÖÉÁ 233

[156] N. Tatbul, U. Cetintemel, S. Zdonik, and M. Cherniack, M. Stonebraker.


Load shedding in a data stream manager. In Proceedings International
Conference on Very Large Databases (VLDB), pages 309−320, 2003.
[157] D. Terry, D. Goldberg, D. Nichols, and B. Oki. Continuous queries over
append-only databases. In Proceedings ACM International Conference on
Management of Data (SIGMOD), pages 321−330, 1992.
[158] J.S. Vitter. Random sampling with a reservoir. ACM Transactions on
Mathematical Software, 11(1):37−57, 1985.
[159] M. Vlachos, M. Hatjieleftheriou, D. Gunopoulos, and E. Keogh. Indexing
multidimensional time series with support for multiple distance measures.
In Proceedings ACM SIGKDD International Conference on Knowledge
Discovery and Data Mining (KDD), pages 216−225, 2003.
[160] M. Vlachos, G. Kollios, and D. Gunopoulos. Discovering similar multidi-
mensional trajectories. In Proceedings IEEE International Conference on
Data Engineering (ICDE), pages 673−684, 2002.
[161] H. Wang, F. Chu, W. Fan, P. S. Yu, and J. Pei. A fast algorithm for
subspace clustering by pattern similarity. In Proceedings International
Conference on Scienti c and Statistical Database Management (SSDBM),
pages 51−60, 2004.
[162] H. Wang, W. Fan, P. Yu, and J. Han. Mining concept-drifting data
streams using ensemble classi ers. In Proceedings ACM SIGKDD Inter-
national Conference on Knowledge Discovery and Data Mining (KDD),
pages 226−235, 2003.
[163] H. Wang, W. Wang, J. Yang, and P. S. Yu. Clustering by pattern sim-
ilarity in large data sets. In Proceedings ACM International Conference
on Management of Data (SIGMOD), pages 394−405, 2002.
[164] Z. Wang, B. Wang, C. Zhou, and X. Xu. Clustering data streams on
the two-tier structure. In Proceedings Advanced Web Technologies and
Applications, pages 416−425, 2004.
[165] R. Weber, H. J. Schek, and S. Blott. A quantitative analysis and perfor-
mance study for similarity-search methods in high-dimensional spaces. In
Proceedings International Conference on Very Large Databases (VLDB),
pages 194−205, 1998.
[166] K. G. Woo and J. H. Lee. FINDIT: A fast and intelligent subspace cluster-
ing algorithm using dimension voting. Technical report, Korea Advanced
Institute of Science and Technology, 2002.
234 ÂÉÂËÉÏÃÑÁÖÉÁ

[167] H. Wu, B. Salzberg, and D. Zhang. Online event-driven subsequence


matching over nancial data streams. In Proceedings ACM International
Conference on Management of Data (SIGMOD), pages 23−34, 2004.
[168] M. Wu, J. Xu, X. Tang, and W.-C. Lee. Top-k monitoring in wireless
sensor networks. IEEE Transactions on Knowledge and Data Engineering,
19(7):962−976, 2007.
[169] T. Xia and D. Zhang. Refreshing the sky: The compressed skycube with
ecient support for frequent updates. In Proceedings ACM International
Conference on Management of Data (SIGMOD), pages 491−502, 2006.
[170] J. Xin and G. Wang. Energy-ecient skyline queries over sensor network
using mapped skyline lters. In Proceedings International Asia-Paci c
Web Conference/ Web Age Information Management (APWeb/WAIM),
pages 144−156, 2007.
[171] J. Xin, G. Wang, L. Chen, X. Zhang, and Z. Wang. Continuously main-
taining sliding window skylines in a sensor network. In Proceedings In-
ternational Conference on Database Systems for Advanced Applications
(DASFAA), pages 509−521, 2007.
[172] Y. Xu, J. Heidemann, and D. Estrin. Geography-informed energy conser-
vation for Ad Hoc routing. In Proceedings ACM International Conference
on Mobile Computing and Networking, pages 70−84, 2001.
[173] J. Yang, W. Wang, H. Wang, and P. S. Yu. -Clusters: Capturing sub-
space correlation in a large data set. In Proceedings IEEE International
Conference on Data Engineering (ICDE), pages 517−528, 2002.
[174] B. K. Yi and C. Faloutsos. Fast time sequence indexing for arbitrary lp
norms. In Proceedings International Conference on Very Large Databases
(VLDB), pages 385−394, 2000.
[175] B. K. Yi, H. V. Jagadish, and C. Faloutsos. Ecient retrieval of similar
time sequences under time wraping. In Proceedings IEEE International
Conference on Data Engineering (ICDE), pages 201−208, 1998.
[176] M. L. Yiu and N. Mamoulis. Ecient processing of top-k dominating
queries on multi-dimensional data. In Proceedings International Confer-
ence on Very Large Databases (VLDB), pages 483−494, 2007.
[177] J. P. Yoon, Y. Luo, and J. Nam. A bitmap approach to trend clustering
for prediction in time-series databases. In Proceedings Data Mining and
Knowledge Discovery: Theory, Tools, and Technology, 2001.
ÂÉÂËÉÏÃÑÁÖÉÁ 235

[178] M. Younis and K. Akkaya. Strategies and techniques for node placement
in wireless sensor networks: A survey. Ad Hoc Networks, 6:621−655, 2008.
[179] Y. Yuan, X. Lin, Q. Liu, W. Wang, J. X. Yu, and Q. Zhang. Ecient
computation of the skyline cube. In Proceedings International Conference
on Very Large Databases (VLDB), pages 241−252, 2005.
[180] D. Zeinalipour-Yazti, Z. Vagena, D. Gunopulos, V. Kalogeraki, V. J. Tso-
tras, M. Vlachos, N. Koudas, and D. Srivastava. The threshold join al-
gorithm for top-k queries in distributed sensor networks. In Proceedings
ACM International Workshop on Data Management in Sensor Networks
(DMSN), pages 61−66, 2005.
[181] L. Zhang, Z. Li, M. Yu, and G. Zhao. New sampling-based summary
structures for sliding windows over data streams. In Proceedings Inter-
national Conference on Intelligent Computing (ICIC), pages 1242−1249,
2007.
[182] W. Zhang and G. Cao. Optimizing tree recon guration for mobile tar-
get tracking in sensor networks. In Proceedings IEEE International Con-
ference on Computer Communications (INFOCOM), pages 2434−2445,
2004.
[183] Y. Zhu and D. Shasha. StatStream: Statistical monitoring of thousands
of data streams in real time. In Proceedings International Conference on
Very Large Databases (VLDB), pages 358−369, 2002.
236 ÂÉÂËÉÏÃÑÁÖÉÁ
ÐÁÑÁÑÔÇÌÁ A
Ëßóôá åñåõíçôéêþí åñãáóéþí
ÐåñéïäéêÜ äéåèíÞ ìå êñéôÝò
1. M. Kontaki, A.N. Papadopoulos, and Y. Manolopoulos: \Continuous Sub-
space Clustering in Streaming Time Series", Information Systems (Else-
vier), Vol.33, No.2, pp.240-260, 2008.
2. M. Kontaki, A.N. Papadopoulos, and Y. Manolopoulos: \Adaptive Simi-
larity Search in Streaming Time Series with Sliding Window", Data and
Knowledge Engineering (Elsevier), Vol.63, No.2, pp.478-502, 2007.

ÓõíÝäñéá äéåèíÞ ìå êñéôÝò


1. M. Kontaki, A.N. Papadopoulos, and Y. Manolopoulos: \Continuous
Trend-Based Clustering in Data Streams", In Proceedings 10th Interna-
tional Conference on Data Warehousing and Knowledge Discovery (DaWaK),
pp.251-262, Turin, Italy, 2008.
2. M. Kontaki, D. Katsaros, and Y. Manolopoulos: \The d-Hop k-Data
Coverage Query Problem in Wireless Sensor Networks", In Proceedings
5th International Workshop on Data Management for Sensor Networks
(DMSN), (In conjunction with the Very Large Data Bases Conference
(VLDB)), ACM Press, pp.14-20, Auckland, New Zealand, August 24,
2008.
3. M. Kontaki, A.N. Papadopoulos, and Y. Manolopoulos: \Continuous k-
Dominant Skyline Computation on Multidimensional Data Streams", In
Proceedings 2008 ACM Symposium on Applied Computing (SAC), pp.956-
960, Fortaleza, Brazil, 2008.

237
238 ÐÁÑÁÑÔÇÌÁ A. ËÉÓÔÁ ÅÑÅÕÍÇÔÉÊÙÍ ÅÑÃÁÓÉÙÍ

4. M. Kontaki, A.N. Papadopoulos, and Y. Manolopoulos: \Ecient In-


cremental Subspace Clustering in Data Streams", In Proceedings 10th
IEEE International Database Engineering and Applications Symposium
(IDEAS), pp.53-60, Delhi, India, 2006.
5. M. Kontaki, A.N. Papadopoulos, and Y. Manolopoulos: \Continuous
Trend-Based Classi cation of Streaming Time Series", In Proceedings 9th
East-European Conference on Advances in Databases and Information
Systems (ADBIS), pp.294-308, Tallinn, Estonia, 2005.
6. M. Kontaki and A.N. Papadopoulos: \Ecient Similarity Search in Stream-
ing Time Sequences", In Proceedings 16th IEEE Conference on Scien-
ti c and Statistical Database Management (SSDBM), pp.63-72, Santorini,
Greece, 2004.
7. M. Kontaki, A.N. Papadopoulos, and Y. Manolopoulos: \Similarity Range
Queries in Streaming Time Series", In Proceedings 4th International Work-
shop on Pattern Recognition in Information Systems (PRIS), pp. 69-79,
Porto, Portugal, 2004.

ÓõíÝäñéá åèíéêÜ ìå êñéôÝò


1. M. Kontaki, A.N. Papadopoulos, and Y. Manolopoulos: \Continuous Top-
k Dominating Queries in Subspaces", In Proceedings 12th Panhellenic
Conference on Informatics (PCI), IEEE Press, pp.31-35, Samos, Greece,
August 28-30, 2008.
2. M. Kontaki, A.N. Papadopoulos, and Y. Manolopoulos: \Continuous k-
Dominant Skyline Query in Data Streams", In Proceedings 7th Hellenic
Data Management Symposium (HDMS), Heraklion, Crete, Greece, 2008
3. M. Kontaki, Y. Karydis, and Y. Manolopoulos: \Content-based Infor-
mation Retrieval in Streaming Music", In Proceedings 11th Panhellenic
Conference on Informatics (PCI), Patras, Greece, May 18-20, 2007.

ËÞììáôá óå åãêõêëïðáßäåéåò ìå êñéôÝò


1. M. Kontaki, A.N. Papadopoulos, and Y. Manolopoulos: \Similarity Search
in Time Series", Encyclopedia of Database Technologies and Applications,
2nd Edition, (Laura C. Rivero, Jorge H. Doorn, Viviana E. Ferraggine,
Editors), IDEA Group Publishing, accepted, 2008.
2. M. Kontaki, A.N. Papadopoulos, and Y. Manolopoulos: \Similarity Search
in Time Series Databases", Encyclopedia of Database Technologies and
239

Applications, (Laura C. Rivero, Jorge H. Doorn, Viviana E. Ferraggine,


Editors), IDEA Group Publishing, pp. 646-651, 2005.

Åñãáóßåò õðïâëåéèåßóåò Þ õðü ðñïåôïéìáóßá


1. M. Kontaki, A.N. Papadopoulos, and Y. Manolopoulos: \Continuous pro-
cessing of Top-k Dominating Queries", journal submission, 2009.
2. M. Kontaki, D. Katsaros, and Y. Manolopoulos: \The d-Hop k-Data Cov-
erage Query Problem in Wireless Sensor Networks", journal submission,
2009.
3. M. Kontaki, A.N. Papadopoulos, and Y. Manolopoulos: \Continuous Pro-
cessing of k-Dominant Skyline Queries", in preparation for journal sub-
mission, 2009.
4. M. Kontaki, A.N. Papadopoulos, and Y. Manolopoulos: \Content-based
Information Retrieval in Streaming Music Data", in preparation for jour-
nal submission, 2009.

You might also like