Professional Documents
Culture Documents
1. - Data Mining është procesi automatik/gjysëm automatik i analizimit të një sasie të madhe të të
dhënave me qëllim të zbulimit/gërmimit të modeleve dhe informacioneve tjera të dobishme. Data Mining
në mënyrë tipike realizohet në baza të të dhënave, ku të dhënat janë të ruajtura në formë të strukturuar.
Dhe pikërisht
kjo sasi e madhe e të dhënave mund të analizohet përmes “Mining” duke nxjerrë në pah informacionet e
fshehura të cilat mund të kenë zbatime në forma të ndryshme.
P.sh., kompanitë e kredit kartelave mund të shfrytëzojnë Data Mining për të mësuar më tepër në lidhje me
zakonet e blerjes nga anëtarët e tyre. Duke analizuar blerjet nga kartel-mbajtësit në gjithë Amerikën,
kompania mund të zbulojë zakonet e blerjes për demografi të ndryshme të tilla si: mosha, raca dhe
vendndodhja. Ky informacion mund të jetë i dobishëm për t’iu ofruar klientëve promovime të veçanta. Të
dhënat e njejta mund të zbulojnë modele të blerjeve për rajonet e ndryshme të vendit. Ky informacion
mund të jetë i dobishëm për kompanitë që janë në kërkim të mundësive të reja për fillimin e një biznesi në
shtete të veçanta.
-
Data Mining mund të konceptohet si një grup procedurash që marrin si input (hyrje) një sasi të madhe të
të dhënave, pastaj bën përpunimin e këtyre të dhënave nëpërmjet procedurave të ndryshme dhe krejt në
fund jep si rezultat një “pattern” (një element të përbashkët që i bashkon këto të dhëna). Për të kuptuar
më mirë procesin e Data Mining le të shohim një rast konkret:
Le të konsiderojmë një databazë me sasi të madhe të të dhënave mbi vizitorët e një faqeje interneti. Me
anën e teknikave të Data Mining duam të kuptojmë se cili grup vizitorësh është më i prirur të realizojë
blerje në faqe. Në mënyrë që faqen t’a optimizojmë pikërisht për këtë grup vizitorësh sepse duke
optimizuar faqen për këtë grup vizitorësh, do rritet numri i këtyre llojeve të vizitorëve që vizitojnë faqen
dhe me rritjen e numrit të këtyre vizitorëve, rrjedhimisht do shtohen dhe shitjet.
Ky është një prej zbatimeve më të shpeshta të teknikave të data mining, pra pak a shumë si një studim
tregu në fushën e ekonomisë.
- Në përgjithësi, Data Mining është procesi i analizimit të të dhënave prej perspektivave të ndryshme dhe
permbledhja e saj në informacion të dobishëm- informacion që mund të përdoret për të rritur të ardhurat,
të ulë kostot ose që të dyja. Teknikisht, procesi i Data Mining është procesi i gjetjes së lidhjeve reciproke
ose modeleve nëpërmjet një numri fushash në bazat e mëdha relacionale.
2. Cilat jane arsyet qe bejne teknikat tradicionale te papershtatshme per Data Mining?
Enormity of Data
3. Te dhenat jane fakte te paperpunuara lidhur me gjerat, aktivitetet, transaksionet. E Dhena mund te jete
fjale, numer apo ndonje shenje speciale e cila sistemohet dhe perpunohet ne informata.
Atributi eshte vetia ose karakteristika e objektit. Atributi ndryshe njihet edhe si variabel, fushe apo
karakteristike. Ndersa koleksioni i atributeve pershkruan nje objekt.
Observimi eshte njesia e analizimit, ku koncepti objekt eshte i njohur edhe si rekord, pika, rast, entitet,
shembull apo shembull vezhgimi (observimi).
4. Të dhënat eksperimentale përshkrujnë të dhënat e mbledhura nga dikush i cili ushtron kontroll të rreptë
mbi të gjitha atributet.
Kurse Të dhënat vëzhguese përshkrujnë të dhënat e mbledhura pa kontrolle të tilla. Shumica e të dhënave
te përdorura në data mining jane të dhënat vëzhgimore kështu që duhet të jeni të kujdesshëm.
P.sh. Coca cola dietike kunder peshes; Dioksidi i karbonit ne atmosfere kunder temperatures se Tokes.
Variablat Kualitative (ose Kategorike) jane ose Nominale(jorendore) ose Ordinale(rendore). Nominale =
kategoria pa rend no order Ordinale = kategoria me rend
Variablat Kuantitative (ose Numerike) jane ose Intervale ose Proporcionale(Ratio). Intervale = nuk ka
vleren “zero, pjestimi nuk ka shume kuptim Ratio = ka vleren zero, dhe pjestimi ka kuptim.
Shembuj te variablave:
-Numri i biçikletave që janë shitur për një vit në dyqanin më të madh sportiv. (kuantitative)
- Ngjyra e kapelave të bejsbollit në një dyqan (kualitative)
6. Qka eshte mostrimi (sampling)? Si realizohet mostrimi ne R? Cilat jane llojet e ndryshme te
sampling metodave? Kur nuk mund te perdoret sampling? Realizoni nje eksperment me R me te
cilin do te vertetohet raporti i njohur si “rrenja katrore e madhesise se mostres”?
6. Mostrimi (sampling) eshte nje proces i cili perdoret ne analizat statistikore ne te cilat nje numer i
paracaktuar i vezhgimeve merren nga nje popullsi me e madhe. Marrja e mostrave përfshin përdorimin e
vetëm nengrupit te rastit e të dhënave për analizë. Mostra e thjeshtë të rastit është lloji më i zakonshëm
dhe themelore e mostrimit Në një mostër të rastit të thjeshtë çdo objekt ka të njëjtin probabilitet të
përfshirjes dhe çdo mostër e madhësisë fikse ka të njëjtin probabilitet të përzgjedhjes
Mostrimi mund të jetë me zëvendësim (= objekte mund të jenë të zgjedhur më shumë se një herë), ose pa
zëvendësim (= objekte mund të zgjidhet vetëm një herë).
Mostrimi ne R:
Stratified Sampling
Cluster Sampling
Systematic Sampling
Multistage Sampling
Kur nuk mund te perdoret Sampling?
Nese informacioni kerkohen per secilen njesi gjate studimit, kjo e ben te veshtire intervistimin e secilit
person ne metodat e mostrimit.
P.sh.
real_mean<-mean(data$V7)
store_diff<-rep(0,10000)
mean(store_diff)
[1] 4.970632
Kur mirren mostrat, diferenca midis vlerave te mostres dhe vlerave ne teresi jane ne raportin e rrënjes
katrore e madhësisë së mostrës për statistika shumëta siq ishte shembulli per vleren e mesatarjes.
Për shembull, në ushtrimin e mëparshem kemi ulur gabimin tonë ne marrjen e mostrave nga një faktor te
rrënjes katrore e numrit 10 (= 3.2) nga rritja e madhësisë së mostrës nga 10 ne 100 meqenese 100/10 = 10.
Kjo mund të vërehet edhe duke llogaritur raportin 15.5/4.97 = 3,2.
Shënim: Këtu vetëm madhësitë e mostrave kanë rëndësi, dhe jo madhësite e te gjite dhenave (popullsia
komplete) pasi që kjo marrëdhënie supozon një popullsi pafundësisht të madh.
sample_size<-sqrt(NROW(data$V7))
7. Qka eshte vizualizimi i te dhenave? Cilat jane metodat me te perhapura te vizualizimit? Cilat nga
metodat ekzistojne ne R dhe si mund te perdoren (jepni disa shembuj ne R)?
7. "Vizualizimi të dhënave është shfaqje e informacionit në një format grafike ose tabelore. Vizualizimi i
suksesshëm kërkon që të dhënat (informacioni) të konvertohet në një format vizuale në mënyrë që
karakteristikat e të dhënave dhe marrëdhëniet midis variablave ose të vet objekteve mund të analizohen
apo raportuar. Qëllimi i vizualizimit është interpretimi i informacionit vizualizuar nga një person dhe
formimi e një modeli mendor e informacionit. "
Shembuj te implementimit ne R:
Rezultate te provimit te nje kursi:
Histogrami ne R:
Poligonini i frekuencave ne R:
> lines(c(115,breaks+5),c(0,counts,0))
> plot(ecdf(exam_scores[,1]), verticals= TRUE, do.p = FALSE, main ="ECDF for Exam Scores",
xlab="Exam Scores", ylab="Cumulative Percent")
R3= +1 r4=0.3
9. Detyra eshte te gjeni te gjitha rregullat qe kane mbeshtetje >/ 3 dhe koefidencen >/ 5 per
transaksionet nga tabela:
9.
10. Llogaritni vleren mesatare, vleren mediane, variancen dhe devijimin standard per keto te
dhena:
{1,12,19,34,43,9}
10.
Mesatarja :
Mediana:
1,12,19,34,43,9 - Mediana eshte 19
Varianca:
11.
11. Provimi 1 eshte ma i suksesshem se numri i pikeve eshte me i madh. Jane mbi 120 pike. Ndersa
provimi 2 nr i pikeve eshte me i vogel prandaj ky provim rezulton ma i ulet.
12.
(Legs=3) ∨
13. Shpjegoni se qka kuptohet nga klasifikimi e cka nga clustering. Jepni nga nje shembull per
secilin. Shembujt te jene nga bota e kompjuterave. Cilat jane algoritmat per perdorim. Shpjegoni
disa nga ato:
13. Duke pasur parasysh një koleksion të shënimeve (dhenat trajnimit), ku cdo rekord përmban një grup të
atributeve (x), me një atribut shtesë që tregon klasën (y):
–Dhenat per testim përdoren për të përcaktuar saktësinë e modelit. Zakonisht, dhënat te dhena ndahen ne
dy grupe: dhenat te trajnimit dhe dhenat te testimit. Ketu grupi te dhenave të trajnimit jane përdorura për
të ndërtuar modelin dhe dhenat të testimit jane përdorur për të vërtetuar (testuar) atë.
“Analiza kllaster ndan të dhënat në grupe që janë të rëndësishme, të dobishme, ose që jane te dyja
bashke"
“Analiza kllaster i grumbullon te dhenat bazuar vetem ne informata te gjetuara ne dhena qe pershkruajne
objektet dhe ngjajshmerite midis tyre”
“Qellimi eshte qe objektet mbranda grupit te jene te ngjajshme (te lidhura) ndermjet vete dhe te
ndryshme nga objektet e grupit tjeter”
Shembull : Gjetja e informatave: pytja ne makinen e kerkimit (google) = film, kllasterat = vleresimet,
trillerat, yjet, kinemat.
paraprakishte.
14. Detyra eshte te gjeni te gjitha rregullat qe kane mbeshtetje >/0.22 dhe koefidencen >/0.777 per
transaksionet e meposhtme:
14.
b)
16. Kalkuloni SMC (Simple matching coefficient) dhe Jaccards Coefficient nga vektoret binare te
meposhtem:
P= 1101010000
Q= 0000011101
16.
M01=3
M10=3
M00=3
M11=1
= (1+3) / (3+3+3+1)
= 4 / 10
= 0.4
J= (M11) / (M01+M10+M11)
= 1 / (3+3+1)
= 1/7
=0.14..