Miner

DATA MINING
1. Jepni disa perkufizime te ndryshme per DATA MINING?
1. - Data Mining është procesi automatik/gjysëm automatik i analizimit të një sasie të madhe të të
dhënave me qëllim të zbulimit/gërmimit të modeleve dhe informacioneve tjera të dobishme. Data Mining
në mënyrë tipike realizohet në baza të të dhënave, ku të dhënat janë të ruajtura në formë të strukturuar.
Dhe pikërisht
kjo sasi e madhe e të dhënave mund të analizohet përmes “Mining” duke nxjerrë në pah informacionet e
fshehura të cilat mund të kenë zbatime në forma të ndryshme.
P.sh., kompanitë e kredit kartelave mund të shfrytëzojnë Data Mining për të mësuar më tepër në lidhje me
zakonet e blerjes nga anëtarët e tyre. Duke analizuar blerjet nga kartel-mbajtësit në gjithë Amerikën,
kompania mund të zbulojë zakonet e blerjes për demografi të ndryshme të tilla si: mosha, raca dhe
vendndodhja. Ky informacion mund të jetë i dobishëm për t’iu ofruar klientëve promovime të veçanta. Të
dhënat e njejta mund të zbulojnë modele të blerjeve për rajonet e ndryshme të vendit. Ky informacion
mund të jetë i dobishëm për kompanitë që janë në kërkim të mundësive të reja për fillimin e një biznesi në
shtete të veçanta.
-
Data Mining mund të konceptohet si një grup procedurash që marrin si input (hyrje) një sasi të madhe të
të dhënave, pastaj bën përpunimin e këtyre të dhënave nëpërmjet procedurave të ndryshme dhe krejt në
fund jep si rezultat një “pattern” (një element të përbashkët që i bashkon këto të dhëna). Për të kuptuar
më mirë procesin e Data Mining le të shohim një rast konkret:
Le të konsiderojmë një databazë me sasi të madhe të të dhënave mbi vizitorët e një faqeje interneti. Me
anën e teknikave të Data Mining duam të kuptojmë se cili grup vizitorësh është më i prirur të realizojë
blerje në faqe. Në mënyrë që faqen t’a optimizojmë pikërisht për këtë grup vizitorësh sepse duke
optimizuar faqen për këtë grup vizitorësh, do rritet numri i këtyre llojeve të vizitorëve që vizitojnë faqen
dhe me rritjen e numrit të këtyre vizitorëve, rrjedhimisht do shtohen dhe shitjet.
Ky është një prej zbatimeve më të shpeshta të teknikave të data mining, pra pak a shumë si një studim
tregu në fushën e ekonomisë.
- Në përgjithësi, Data Mining është procesi i analizimit të të dhënave prej perspektivave të ndryshme dhe
permbledhja e saj në informacion të dobishëm- informacion që mund të përdoret për të rritur të ardhurat,
të ulë kostot ose që të dyja. Teknikisht, procesi i Data Mining është procesi i gjetjes së lidhjeve reciproke
ose modeleve nëpërmjet një numri fushash në bazat e mëdha relacionale.
2. Cilat jane arsyet qe bejne teknikat tradicionale te papershtatshme per Data Mining?
2. Per shkak të:
Enormity of Data
Shume dimensionaliteti i te dhenave
Natyra e shperndare dhe natyra heterogjene e te dhenave

3. Shpjegoni qka jane a) te dhenat, b) atributet dhe c)observimet?
3. Te dhenat jane fakte te paperpunuara lidhur me gjerat, aktivitetet, transaksionet. E Dhena mund te jete
fjale, numer apo ndonje shenje speciale e cila sistemohet dhe perpunohet ne informata.
Atributi eshte vetia ose karakteristika e objektit. Atributi ndryshe njihet edhe si variabel, fushe apo
karakteristike. Ndersa koleksioni i atributeve pershkruan nje objekt.
Observimi eshte njesia e analizimit, ku koncepti objekt eshte i njohur edhe si rekord, pika, rast, entitet,
shembull apo shembull vezhgimi (observimi).
4. Jepni nje krahasim te te dhenave vezhguese dhe te dhenave eksperimentale?
4. Të dhënat eksperimentale përshkrujnë të dhënat e mbledhura nga dikush i cili ushtron kontroll të rreptë
mbi të gjitha atributet.
Kurse Të dhënat vëzhguese përshkrujnë të dhënat e mbledhura pa kontrolle të tilla. Shumica e të dhënave
te përdorura në data mining jane të dhënat vëzhgimore kështu që duhet të jeni të kujdesshëm.
P.sh. Coca cola dietike kunder peshes; Dioksidi i karbonit ne atmosfere kunder temperatures se Tokes.
5. Jepni nje permbledhje te llojeve te variablave?
5. Variabla kualitative ose atributive: karakteristikat e variablave që studiohen, janë jo numerike.

SHEMBUJ: Gjinia, përkatësia fetare, tipi i automobilit, vendi i lindjes, ngjyra e syve, nota e suksetit, IP
adresa, kodi i postes etj.
Variabla kuantitavie (sasiore-numerike): variablat mund të raportohen në mënyrë numerike.

SHEMBULL: bilanci në llogarinë e juaj bankare, mosha e punëtorëve të një firme, numri i fëmijëve në
një familje, pesha e personi, temperatura etj.
Variablat Kualitative (ose Kategorike) jane ose Nominale(jorendore) ose Ordinale(rendore). Nominale =
kategoria pa rend no order Ordinale = kategoria me rend
Variablat Kuantitative (ose Numerike) jane ose Intervale ose Proporcionale(Ratio). Intervale = nuk ka
vleren “zero, pjestimi nuk ka shume kuptim Ratio = ka vleren zero, dhe pjestimi ka kuptim.
Shembuj te variablave:
-Numri i biçikletave që janë shitur për një vit në dyqanin më të madh sportiv. (kuantitative)
- Ngjyra e kapelave të bejsbollit në një dyqan (kualitative)
- Lloji i qokollatave që preferoj (nominale)
- Pesha e macës sime (ratio)
- Madhësia e vezëve (ordinale)
- Numri i qokollotave të shitura çdo ditë nga dyqan i njohur (diskrete)

- Temperatura e ujit në 6 pishina të Pitsburg-it në një ditë të caktuar (kontinuale)
6. Qka eshte mostrimi (sampling)? Si realizohet mostrimi ne R? Cilat jane llojet e ndryshme te
sampling metodave? Kur nuk mund te perdoret sampling? Realizoni nje eksperment me R me te
cilin do te vertetohet raporti i njohur si “rrenja katrore e madhesise se mostres”?
6. Mostrimi (sampling) eshte nje proces i cili perdoret ne analizat statistikore ne te cilat nje numer i
paracaktuar i vezhgimeve merren nga nje popullsi me e madhe. Marrja e mostrave përfshin përdorimin e
vetëm nengrupit te rastit e të dhënave për analizë. Mostra e thjeshtë të rastit është lloji më i zakonshëm
dhe themelore e mostrimit Në një mostër të rastit të thjeshtë çdo objekt ka të njëjtin probabilitet të
përfshirjes dhe çdo mostër e madhësisë fikse ka të njëjtin probabilitet të përzgjedhjes
Mostrimi mund të jetë me zëvendësim (= objekte mund të jenë të zgjedhur më shumë se një herë), ose pa
zëvendësim (= objekte mund të zgjidhet vetëm një herë).
Mostrimi ne R:
Llojet e ndryshme te sampling metodave:
Simple Random Sampling
Stratified Sampling
Cluster Sampling
Systematic Sampling
Multistage Sampling
Kur nuk mund te perdoret Sampling?
Nese informacioni kerkohen per secilen njesi gjate studimit, kjo e ben te veshtire intervistimin e secilit
person ne metodat e mostrimit.
Rrenja katrore e madhesise se mostrave ne R:
P.sh.
Nëse do të ndryshojmë madhësinë e mostrës nga 10 ne 100, qka do te jete pergjigjja?
Përgjigje: Kjo bëhet rreth 5
real_mean<-mean(data$V7)
store_diff<-rep(0,10000)
for (k in 1:10000){ sam<-sample(seq(1,1922),100,replace=T) my_sample<-data$V7[sam] store_diff[k]<-

abs(mean(my_sample)-real_mean) }
mean(store_diff)
[1] 4.970632
Kur mirren mostrat, diferenca midis vlerave te mostres dhe vlerave ne teresi jane ne raportin e rrënjes
katrore e madhësisë së mostrës për statistika shumëta siq ishte shembulli per vleren e mesatarjes.
Për shembull, në ushtrimin e mëparshem kemi ulur gabimin tonë ne marrjen e mostrave nga një faktor te
rrënjes katrore e numrit 10 (= 3.2) nga rritja e madhësisë së mostrës nga 10 ne 100 meqenese 100/10 = 10.
Kjo mund të vërehet edhe duke llogaritur raportin 15.5/4.97 = 3,2.
Shënim: Këtu vetëm madhësitë e mostrave kanë rëndësi, dhe jo madhësite e te gjite dhenave (popullsia
komplete) pasi që kjo marrëdhënie supozon një popullsi pafundësisht të madh.
sample_size<-sqrt(NROW(data$V7))
7. Qka eshte vizualizimi i te dhenave? Cilat jane metodat me te perhapura te vizualizimit? Cilat nga
metodat ekzistojne ne R dhe si mund te perdoren (jepni disa shembuj ne R)?
7. "Vizualizimi të dhënave është shfaqje e informacionit në një format grafike ose tabelore. Vizualizimi i
suksesshëm kërkon që të dhënat (informacioni) të konvertohet në një format vizuale në mënyrë që
karakteristikat e të dhënave dhe marrëdhëniet midis variablave ose të vet objekteve mund të analizohen
apo raportuar. Qëllimi i vizualizimit është interpretimi i informacionit vizualizuar nga një person dhe
formimi e një modeli mendor e informacionit. "
Metodat me te perhapura te vizualizimit jane: histogrami, poligonini i frekuencave, funksioni kumulativ i

shperndarjes.
Shembuj te implementimit ne R:
Rezultate te provimit te nje kursi:
192 160 183 136 162
165 181 188 150 163
192 164 184 189 183
181 188 191 190 184
171 177 125 192 149
188 154 151 159 141
171 153 169 168 168
157 160 190 166 150
Histogrami ne R:
> exam_scores<- read.csv("exam_scores.csv",header=F)
> hist(exam_scores[,1],breaks=seq(120,200,by=10), col="red", xlab="Exam Scores", ylab="Frequency",

main="Exam Score Histogram")
Poligonini i frekuencave ne R:
> my_hist<-hist(exam_scores[,1], breaks=seq(120,200,by=10),plot=FALSE)
> counts<-my_hist$counts > breaks<-my_hist$breaks
> plot(c(115,breaks+5), c(0,counts,0), pch=19, xlab="Exam Scores",

ylab="Frequency",main="Frequency Polygon")
> lines(c(115,breaks+5),c(0,counts,0))
Funksioni kumulativ i shperndarjes:
> plot(ecdf(exam_scores[,1]), verticals= TRUE, do.p = FALSE, main ="ECDF for Exam Scores",
xlab="Exam Scores", ylab="Cumulative Percent")
8. Perputhe cdo figure me koeficientin e saj te sakte te korrelacionit:

8. r1= -1 r2= -0.3
R3= +1 r4=0.3
9. Detyra eshte te gjeni te gjitha rregullat qe kane mbeshtetje >/ 3 dhe koefidencen >/ 5 per
transaksionet nga tabela:
9.
10. Llogaritni vleren mesatare, vleren mediane, variancen dhe devijimin standard per keto te
dhena:
{1,12,19,34,43,9}
10.
Mesatarja :
Vlera x =1+12+19+34+43+9 / 6 = 118/6= 19.66...
Mediana:
1,12,19,34,43,9 - Mediana eshte 19
Varianca:
11.
11. Provimi 1 eshte ma i suksesshem se numri i pikeve eshte me i madh. Jane mbi 120 pike. Ndersa
provimi 2 nr i pikeve eshte me i vogel prandaj ky provim rezulton ma i ulet.
12. a) Nga tabela e meposhtme le te ndertohet pema e vendimarrjes:
b) Me pemen e prodhuar nen a) le te klasifikohen observimet ne vazhdim:
G= Y, L=2, H=T, S=N
12.
(Legs=3) ∨
(Legs=2 ∧ Green=Yes ∧ Height=Tall) ∨
(Legs=2 ∧ Green=No ∧ Height=Short ∧ Smelly=Yes)
Ne te vertete jane te nevojshme vetem 2 lidhjet:
(Green=Yes ∧ Height=Tall) ∨ (Smelly=Yes ∧ Height=Short)
13. Shpjegoni se qka kuptohet nga klasifikimi e cka nga clustering. Jepni nga nje shembull per
secilin. Shembujt te jene nga bota e kompjuterave. Cilat jane algoritmat per perdorim. Shpjegoni
disa nga ato:
13. Duke pasur parasysh një koleksion të shënimeve (dhenat trajnimit), ku cdo rekord përmban një grup të
atributeve (x), me një atribut shtesë që tregon klasën (y):
parashikuar klasën si një funksion i vlerave të

atributeve të tjera.
eshte te caktohet një klasë te sa me sakte

qe eshte e mundur.
–Dhenat per testim përdoren për të përcaktuar saktësinë e modelit. Zakonisht, dhënat te dhena ndahen ne
dy grupe: dhenat te trajnimit dhe dhenat te testimit. Ketu grupi te dhenave të trajnimit jane përdorura për
të ndërtuar modelin dhe dhenat të testimit jane përdorur për të vërtetuar (testuar) atë.
Klasifikimi I transaksiove me kartë Krediti, si legjitime ose mashtruese.
Ka shumë teknika / algoritme për realizimin te klasifikimit
pema e vendimmarrjes qe eshtë algoritëm

jashtëzakonisht i rëndësishëm për Inteligjencën Artificiale sepse është shumë i fuqishëm, por po ashtu i
thjeshtë dhe efikas për nxjerrjen e njohurisë nga shënimet. Shembulli i shqyrtuar i ilustron disa nga
veprimet themelore të paraprocesimit dhe të klasifikimit që mund të bëhen duke e përdorur WEKA-n.
Grupi i shënimeve (dataset-i) mostër i përdorur është “shënimet e bankës” që është në dispozicion në
format të ndarë me presje.
“Analiza kllaster ndan të dhënat në grupe që janë të rëndësishme, të dobishme, ose që jane te dyja
bashke"
nuk e dimë "përgjigjen” e sakte (ne nuk kemi

etiketa te sakta)
, kllasterimi quhet shpesh nxenja pa mbikëqyrje ndërsa klasifikimi nxenja me mbikëqyrje.
“Analiza kllaster i grumbullon te dhenat bazuar vetem ne informata te gjetuara ne dhena qe pershkruajne
objektet dhe ngjajshmerite midis tyre”
“Qellimi eshte qe objektet mbranda grupit te jene te ngjajshme (te lidhura) ndermjet vete dhe te
ndryshme nga objektet e grupit tjeter”
Shembull : Gjetja e informatave: pytja ne makinen e kerkimit (google) = film, kllasterat = vleresimet,
trillerat, yjet, kinemat.
Kllasterimi K-means eshte nje nder teknikat per te popullarizuar/zakonshem
– kjo ehste zakonishte vlera mesatare e grupit – qe eshte

ne vertet prototipi i kllasterit afer
paraprakishte.
14. Detyra eshte te gjeni te gjitha rregullat qe kane mbeshtetje >/0.22 dhe koefidencen >/0.777 per
transaksionet e meposhtme:
14.
b)
15. Kalkuloni Ginni Index per tabelat e dhena me poshte:

15.
16. Kalkuloni SMC (Simple matching coefficient) dhe Jaccards Coefficient nga vektoret binare te
meposhtem:
P= 1101010000
Q= 0000011101
16.
M01=3
M10=3
M00=3
M11=1
SMC = (M11 +M00) / (M01+ M10+M00+M11)
= (1+3) / (3+3+3+1)
= 4 / 10
= 0.4
J= (M11) / (M01+M10+M11)
= 1 / (3+3+1)
= 1/7
=0.14..

Miner

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Miner

Uploaded by

Copyright:

Available Formats

DATA MINING

1. Jepni disa perkufizime te ndryshme per DATA MINING?

2. Per shkak të:

Shume dimensionaliteti i te dhenave

Natyra e shperndare dhe natyra heterogjene e te dhenave

4. Jepni nje krahasim te te dhenave vezhguese dhe te dhenave eksperimentale?

5. Jepni nje permbledhje te llojeve te variablave?

5. Variabla kualitative ose atributive: karakteristikat e variablave që studiohen, janë jo numerike.

Variabla kuantitavie (sasiore-numerike): variablat mund të raportohen në mënyrë numerike.

- Lloji i qokollatave që preferoj (nominale)

- Pesha e macës sime (ratio)

- Madhësia e vezëve (ordinale)

- Numri i qokollotave të shitura çdo ditë nga dyqan i njohur (diskrete)

Llojet e ndryshme te sampling metodave:

Simple Random Sampling

Rrenja katrore e madhesise se mostrave ne R:

Nëse do të ndryshojmë madhësinë e mostrës nga 10 ne 100, qka do te jete pergjigjja?

Përgjigje: Kjo bëhet rreth 5

for (k in 1:10000){ sam<-sample(seq(1,1922),100,replace=T) my_sample<-data$V7[sam] store_diff[k]<-

Metodat me te perhapura te vizualizimit jane: histogrami, poligonini i frekuencave, funksioni kumulativ i

192 160 183 136 162

165 181 188 150 163

192 164 184 189 183

181 188 191 190 184

171 177 125 192 149

188 154 151 159 141

171 153 169 168 168

157 160 190 166 150

> exam_scores<- read.csv("exam_scores.csv",header=F)

> hist(exam_scores[,1],breaks=seq(120,200,by=10), col="red", xlab="Exam Scores", ylab="Frequency",

> my_hist<-hist(exam_scores[,1], breaks=seq(120,200,by=10),plot=FALSE)

> counts<-my_hist$counts > breaks<-my_hist$breaks

> plot(c(115,breaks+5), c(0,counts,0), pch=19, xlab="Exam Scores",

Funksioni kumulativ i shperndarjes:

8. Perputhe cdo figure me koeficientin e saj te sakte te korrelacionit:

Vlera x =1+12+19+34+43+9 / 6 = 118/6= 19.66...

12. a) Nga tabela e meposhtme le te ndertohet pema e vendimarrjes:

b) Me pemen e prodhuar nen a) le te klasifikohen observimet ne vazhdim:

G= Y, L=2, H=T, S=N

(Legs=2 ∧ Green=Yes ∧ Height=Tall) ∨

(Legs=2 ∧ Green=No ∧ Height=Short ∧ Smelly=Yes)

Ne te vertete jane te nevojshme vetem 2 lidhjet:

(Green=Yes ∧ Height=Tall) ∨ (Smelly=Yes ∧ Height=Short)

parashikuar klasën si një funksion i vlerave të

eshte te caktohet një klasë te sa me sakte

Klasifikimi I transaksiove me kartë Krediti, si legjitime ose mashtruese.

Ka shumë teknika / algoritme për realizimin te klasifikimit

pema e vendimmarrjes qe eshtë algoritëm

nuk e dimë "përgjigjen” e sakte (ne nuk kemi

, kllasterimi quhet shpesh nxenja pa mbikëqyrje ndërsa klasifikimi nxenja me mbikëqyrje.

Kllasterimi K-means eshte nje nder teknikat per te popullarizuar/zakonshem

– kjo ehste zakonishte vlera mesatare e grupit – qe eshte

15. Kalkuloni Ginni Index per tabelat e dhena me poshte:

SMC = (M11 +M00) / (M01+ M10+M00+M11)

You might also like