2016 07-15-13 32 Data Mining Seminarski Rad

SVEUČILIŠTE/UNIVERZITET SVEUČILIŠTE/UNIVERZ ITET „VITEZ“ U VITEZU FAKULTET POSLOVNE INFORMATIKE STUDIJ I CIKLUSA; GODINA STUDIJA: I CIKLUS; IV GODINA SMJER: INFORMACIONE INFORMACIONE TEHNOLOGIJE

IZRADA WEB STRANICE

SEMINARSKI RAD

Travnik, Juli 2016.god

SVEUČILIŠTE/UNIVERZITET SVEUČILIŠTE/UNIVERZ ITET „VITEZ“ U VITEZU FAKULTET POSLOVNE INFORMATIKE STUDIJ I CIKLUSA; GODINA STUDIJA: I CIKLUS; IV GODINA SMJER: INFORMACIONE INFORMACIONE TEHNOLOGIJE

SEMINARSKI RAD

IZJAVA: Ja Almin Hardauš, student Sveučilišta/Univerziteta „Vitez“ u Vitezu, Index broj: ________ odgovorno i uz moralnu i akademsku odgovornost izjavljujem da sam ovaj rad izradio

potpuno samostalno samostalno uz korištenje citirane literature i pomoć profesora. profesora. Potpis studenta: ___________________ ___________________

STUDENT: Almin Hardauš PREDMET: Data mining PROFESOR: prof. Dr. Ines isaković ASISTENT: Dinka Šakić

SADRŽAJ

1. Uvod........................................................................................................................................1 1.1 Predmet istraživanja..............................................................................................................1 1.2 Svrha i cilj istraživanja .........................................................................................................1 1.3 Radna hipoteza .....................................................................................................................1 1.4 Struktura rada........................................................................................................................1 2. Definisanje pojma DATA WAREHOUSE-A........................................................................2 3. Uloga DATA WAREHOUSE................................................................................................4 4. OLTP i OLAP (Analitičke i transakcione baze podataka) ......................................................4 5. RAZVOJ SKLADIŠTA PODATAKA…..............................................................................8 5.1. Analiza izvora podataka.......................................................................................................9 5.2. Priprema podataka..............................................................................................................10 5.2.1. Denormalizacija podataka...............................................................................................11 5.2.2. Definisanje hijerarhija.....................................................................................................11 5.2.3. Kreiranje agregacija........................................................................................................11 5.2.4. Kreiranje fizičkog modela ...............................................................................................12 5.2.5. Generisanje baze podataka..............................................................................................12 6. ARHITEKTURA DATA WAREHOUSA........................................................................ …13 6.1. Izvori podataka...................................................................................................................14 6.2. ETL procesi........................................................................................................................15 6.2.1. Ekstrakcija podataka.......................................................................................................16 6.2.2. Proces transformacije podataka......................................................................................16 6.2.3. Punjenje (Loading)..........................................................................................................17 6.3. Modeli baze podataka........................................................................................................17 6.4. Metapodaci.........................................................................................................................19 6.5. Skladište operativnih podataka (ODS). ..............................................................................19 6.6 Data Mart-ovi......................................................................................................................20 6.7. Alati za izveštavanje i analizu............................................................................................21 7. ZAKLJUČAK......................................................................................................................22 8.LITERATURA......................................................................................................................23

1. UVOD

1.1 Predmet istraživanja Skladište podataka (engl. data warehouse) je baza podataka osobite podatkovne strukture koja omogućuje relativno brzo i jednostavno izvođenje radnji (npr. pretraga, upita) nad velikim količinama podataka

1.2 Svrha i cilj istraživanja

Skladište podataka namijenjeno je menadžerima, ali i svima koji u svom poslu obavljaju različite analitičke zadatke, kao što su poslovi praćenja i izvještavanja, koji se temelje na primjeni različitih poslovnih pravila, a obavljaju se postavljanjem usmjerenih upita i analizom dobivenih rezultata, poslovi analize i dijagnosticiranja,koji se t emelje na umješnosti, a obavljaju se iterativnim pronalaženjem i analizom dobivenih informacija, i poslovi planiranja i simulacije, koji se temelje na znanju, a obavljaju se modeliranjem i izvršenjem izrađ enog modela.

1.3 Radna hipoteza

od današnjih informacionih sistema preduzeća, očekuje da osiguraju informacije čiji sadržaj, brzina pristupa i način prikaza odgovaraju trenutnim potrebama menadžera u procesu odlučivanja. Radna hipoteza seminarskog rada jesta da

1.4 Struktura rada Ovaj rad se sastoji iz 3 glavne cijeline.

U prvom dijelu predstavljeno je opšte o Data Warehouse -u. U drugom dijelu su definisani OLTP i OLAP te njihove podjele i sl.

U trećem dijelu je predstavljena arhitektura i razvoj skladišta podataka.

1

2. Definisanje pojma DATA WAREHOUSE-A

Pojam „skladište podataka“ (Data Warehouse) podrazum ijeva zbirku podataka dobijenih iz operativnih baza, spremljenih u posebne baze odnosno skladišta podataka. Opšte prihvaćena definicija skladišta podataka koju je razvio Bill Inmon krajem 80-tih glasi: Data Warehouse predstavlja subjektivno usmeren, integrisan, vezan za vrijeme i sadržajno neprom jenljiv skup podataka, a krajnji cilj mu je potpora menadžmentu pri donošenju odluka. Subjektivna usmerenost -podaci se organizuju oko predmeta, na način da daju informacije o tačno određenim predmetima u okviru funkcionalnih područja um jesto o tekućim operacijama preduzeća.

I ntegr isanost - podaci se skupljaju u bazi podataka iz različitih izvora i pohranjuju uv ijek u istom formatu, konzistentni su i prikazuju se na doslj edan način. Vezanost uz vrijeme- svi podaci u skladištu podataka vezani su i identifikuju se uz određeni vremenski period, što znači da imaju istorijski karakter. Za razliku od njih, u operativnim bazama.

Slika 1. – Vremenska zavisnost DW Sadržajna neprom jenjivost - podaci u skladištu su stabilni i kada se jednom učitaju u skladište po pravilu se ne mijenjaju. Time se omogućuje da menadžment, ili neko drugi ko koristi skladište podataka može biti siguran da će dobiti jednak odg ovor, nezavisno od vremena, ili učestalosti postavljanja upita.

2

Slika 2. – Nepromjenljivost DW

Skladištenje podataka (Data Warehousing) je proces integracije podataka u jedan repozitorijum iz kojeg krajnji korisnici mogu sprovoditi ad-hoc analize podataka praviti izvještaje. Data Warehousing je skup metodologija punjenje i održavanje skladišta podataka.

i tehnologija koji služe za dizajn, kreiranje,

Postupak skladištenja podataka predstavlja kontinuiran proces planiranja, građenja i prikupljanja podataka iz različitih izvora, njegovog korišćenja, održavanja, upravljanja i unapređenja. Među mnogim koracima u tom kompleksnom procesu bitno je naglasiti važnost posjedovanja vizije o tome šta se želi postići kreiranjem skladišta. Komponente sistema sk ladišta podataka su: 

I zvori podataka- izvorni sistemi su operacioni sistemi npr. OLTP sistemi koji mogu biti relacioni





Oblast za pripremu podataka-podrazumijeva skup procesa koji čisti, transformiše, povezuje i priprema izvorne podatke za korišćenje u Da ta Warehouse-u. Podaci se transformišu u konzistentne formate. Data Mart - je podskup Data Warehouse- a koji sadrži podatke specifične za određenu poslovnu oblast kao što su finansije ili analiza klijenata. Data Mart -ovi mogu biti uključeni u Data Warehous, mogu se izgraditi u relacionom ili OLAP bazama 3

podataka i mogu da sadrže detaljne ili sumarne podatke koji se mogu ili ne, d ijeliti kroz Data Mart -ove. 

Data Warehouse- može se definisati kao virtualna unija Data Mart-ova sa integrisanim

informacijama

koje

su

djeljive

kroz Data

centralizovano, integrisano skladište podataka koje obezbeđuje

Mart -ove ili kao podatke Data Mart -

ovima.

3. Uloga DATA WAREHOUSE

Glavni cilj skladišta podataka je osloboditi informacije koje su „zaključane u operativnim bazama podataka i „pom iješati“ ih sa sa informacijama iz ostalih, po pravilu eksternih izvora podataka. Da bi skladište podataka moglo ispuniti cilj i svrhu svog postojanja moraju pr ije svega biti ispunjeni sljedeći preduslovi: 









skladište mora sadržati veliku količinu detaljnih podataka, što znači da sve poslovne transakcije bitne za donošenje poslovnih odluka, koje su nastale u procesima preduzeća moraju biti evidentirane u skladište podataka. ažuriranje novim podacima mora biti kontinuiran proces, po mogućnosti treba da se odvija u stvarnom vremenu, praktično odmah nakon što se neki poslovni događaj odigrao ili odmah po završetku nekog procesa. mora uvijek biti raspoloživo i oblikovano na način da može poslužiti svakoj svrsi koju nije uvijek moguće unapr ijed predvidjeti treba predvidjeti mogućnost izdvajanja i međusobnog povezivanja dobijanja svih mjera i pokazatelja poslovanja u preduzeću

podataka u smislu

podaci u skladištu koji se prikupljaju iz različitih izvora, čiste se uz osiguranje kvaliteta i samo takvi su dostupni korisnicima.



mora biti proširivo da bi moglo sl ijediti strategiju proširenja poslovanja kompanije .

4. OLTP i OLAP (Analitičke i transakcione baze podataka) Za razumijevanje

suštine koncepta Data Warehouse -a od velikog značaja je uočavanje karakteristika OLTP transakcione i OLAP analitičke baze podataka. 4

OLTP (On Line Transaction Processing) opisuje način na koji računarski sistemi i krajnji korisnici obrađuju podatke. Usm jeren je na detalje, sa čestim ažuriranjem od strane krajn jih korisnika. OLTP sistemi se zasnivaju na relacionim bazama podataka, izgrađeni su u skladu sa Kod-ovim pravilima normalizacije, da bi se obezbijedio inegritet i konzistentnost podataka.

OLAP (On Line Analitical Processing) je vrsta tehnologije koja omogućava analitičarima i menadžerima uvid u podatke kroz brz, konzistentan i interaktivan pristup velikom broju raznovrsnih izveštaja, sačinjenih na osnovu dobijenih transformacijom sirovih podataka. Data Warehouse podrazumijeva ovaj pristup. Jedna od karakteristika koja razdvaja OLTP od OLAP jeste dizajn baze podataka: 



Transakcioni sistemi su dizajnirani tako da preuzimaju podatke, vrše izm jene nad postojećim podacima, daju izveštaje, održavaju integritet podataka i upravljaju transakcijama što je brže moguće Analitički sistemi su dizajnirani za veliki broj podataka namj enjenih samo za čitanje,

obezbeđujući informacije koje se koriste za donošenje odluka.

Slika 4. – OLTP i OLAP baze podataka Krajnji korisnik zahtjeva sljedeće:



da može da postavi bilo koje poslovno pitanje da bilo koji podatak iz preduzeća koristi za analizu



da dobijeni podaci budu integrisani i pouzdani



mogućnost neograničenog izveštavanja



U početku su upiti korisnika bili jednostavni. Međutim, vremenom su postali toliko složeni da relacioni alati (OLTP) nisu bili u mogućnosti da daju odgovore u prihvatljivom vremenskom periodu. Upravo u tu svrhu se koriste OLAP sistemi. Oni omogućavaju jednostavnu sintezu, 5

analizu i konsolidaciju podataka. OLAP je način obrade podataka koji karakterišu ad -hoc upiti, slabo struktuirani izveštaji i analiza koja obuhvata relativno mali broj transakcija ali koja uključuje veliki broj tabela i zapisa u njima. OLAP sistemi podržavaju kompleksne analize koje sprovode analitičari i omogućavaju analizu podataka iz različitih perspektiva (poslovnih dimenzija). OLAP sistemi kao skladišta podataka koriste multidimenzionalnost i denormalizaciju.

OLTP Obrada podataka Veliki broj transakcija MG-Gb podataka Sirovi podaci

OLAP Analiza podataka Kompleksni upiti Gb-Tb podataka

Sumarni i prerađeni podaci Donosioci odluka i analitičari

Mnoštvo različitih korisnika Istorijski podaci Ažurirani podaci Slika 5. Sažet prikaz osnovnih razlika OLTP i OLAP obrade Postoje sljedeće arhitekture OLAP sistema:    

višedimenzioni OLAP (MOLAP), relacioni OLAP (ROLAP), hibridni OLAP (HOLAP). Elasticni OLAP (EOLAP)

MOLAP i ROLAP se razlikuju po načinu fizičkog čuvanja podataka. Kod MOLAP sistema podaci se čuvaju u višedimenzionoj strukturi, a u slučaju ROLAP sistema podaci se čuvaju u relacionim bazama podataka.

Prednost MOLAP sistema je što obezbeđuju odlične performanse sistema kada se radi sa već sračunatim podacima (agregacijama). Nedostatak MOLAP sistema je teškoća dodavanja novih dimen zija.

6

Slika 6. – MOLAP sistem

Podaci iz različitih transakcionih sistema učitavaju u višedimenzionu bazu podataka pomoću batch rutina. Kada se završi sa učitavanjem podataka atomskog nivoa, prelazi se na kreiranje agregacija, nakon čega je baza podataka spremna za rad. Korisnici zadaju svoje zahtjeve za OLAP izveštajima putem interfejsa.

Slika 7. Relacioni OLAP (ROLAP) ROLAP sistemi pristupaju podacima direktno iz skladišta podataka i rade sa relacionim bazama podataka. ROLAP sistemi mogu da rade sa velikim skupovima podataka. Čim se

7

odredi izvor podataka, korisnik može započeti analizu. S obzirom da se radi direktno nad bazom podataka, korisniku su uvek na raspolaganju tekući podaci. Kod ROLAP sistema ne postoje ograničenja po pitanju broja dimenzija koja postoje u slučaju MOLAP sistema. HOLAP alati mogu pristupati i relacionim i višedimenzionim bazama podataka. Cilj korišćenja HOLAP alata jeste da se iskoriste prednosti MOLAP alata (kratko vrijeme odziva sistema i analitičke mogućnosti) i ROLAP alata (dinamički pristup podacima). Pri tome se ne može reći da je HOLAP prost zbir MOLAP-a i ROLAP-a. To je zapravo ROLAP koji ima

mogućnost izvršavanja vrlo složenih SQL naredbi. Cilj je bio da se zadrže sve prednosti ROLAP-a, ali da se pri tome dodaju i neke nove mogućnosti za rad sa višedimenzionim bazama podataka.

Slika 8. HOLAP sistem

5. RAZVOJ SKLADIŠTA PODATAKA Za razliku od transakcionih sistema koji su orjentisani poslovnim procesima, skladišta podataka su subjektivno orjentisana, što znači da su fokusirana na subjekte u poslovnim procesima. Integrisanost podataka u skladištima podataka obezb jeđuje da se podaci predstavljaju u konzistentnim formatima korištenjem konvencija pri zadavanju imena i ograničenja nad domenima, atributima i mjerama. Podaci u skladištima podataka su vremenski zavisni, što znači da je svaki podatak u vezi sa nekim vremenskim trenutkom. Pri izgradnji skladišta podataka najbitniji su sami podaci, a ne poslovni procesi kao što je to slučaj sa transakcionim sistemima. Baze podataka namj enjene sistemima za podršku 8

odlučivanju mogu biti veoma velike, pri čemu neke tabele mogu sadržati i gigabajt podataka. Zato se veličina baze mora uzeti u obzir pri planiranju skladišta podataka. Za izgradnju DW bitni su sami podaci i potrebno je:   

izvršiti analizu izvora podataka, pripremiti podatake,

izgraditi skladište podataka.

5.1. Analiza izvora podataka

Osnovni izvori podataka za koncept skladišta podataka su operativni (transakcioni), tzv. OLTP (On-Line Transaction Processing) podaci, kao i spoljne informacije nastale kao istorija poslovanja ili industrijski i demografski podaci uzeti iz velikih javnih baza podataka. Analiza izvornih podataka se smatra ključnim elementom i oduzima 80% vremena, jer je potrebno definisati odgovarajuća pravila za preuzimanje podataka iz izvornih podataka. Znanja vezana za ovu oblast su najčešće u glavama onih koji treba da koriste skladište podataka. Analiza izvora podataka prolazi kroz sljedeće faze: 



Prikupljanje zahtjeva, o prikupljanje izvornih zahtjeva o prikupljanje korisničkih zaht jeva Izbor tehnike analize podataka.

U fazi prikupljanje zahtjeva razmatraju se poslovne potrebe i zahtjevi sistema.

budućih korisnika

Prikupljanje izvornih zahtjeva je metoda bazirana na definisanju zahtjeva korišćenjem izvornih podataka u proizvodno-operativnim sistemima. Ovo se radi analiziranjem ERmodela( konceptualan model podataka koji realan svij et “vidi” kroz entitete i njihove odnose) izvornih podataka. Glavna prednost su podržavanje svih podataka i svođenje na minimum vrijeme potrebno korisniku u ranim fazama (stanjima) projekta dok su nedostaci: umanjivanjem korisnikovog učešća povećava se rizik od promašaja ispunjenja zaht jeva korisnika i oduzima dosta vremena. Prikupljanje korisničkih

zaht jeva je metoda koja se bazira na definisanju zahtjeva istraživanjem funkcija kojima korisnik teži, odnosno koje korisnik izvršava. Ovo se obično postiže kroz seriju sastanaka i/ili intervjua sa korisnikom.Glavna prednost ovog pristupa je što se koncentriše na ono što je potrebno, a ne na ono što je dostupno. Postupak prikupljanja zahteva: 9







intervjuisanje ključnih ljudi u organizaciji, npr: analitičari, menadžeri i izvršioci. utvrditi protok informacija u i iz svakog odjelenja (koji izvj eštaji i dokumentacija pristižu u od jelenje, kako se koriste, ko ih koristi, koliko često pristižu itd).

dobijene podatke organizovati u nekoliko sekcija, kao što su: o o



podaci o analizi (podaci o svim vrstama analiza koje se trentuno koriste) i zahtjevi vezani za podatke (opis svih polja podataka koja se koriste, izvori).

Organizovane podatke proslj editi eventualnih korekcija.

svim učesnicima intervjua radi mišljenja i

Postoji nekoliko tehnika analize podataka: 

Upiti i izvještaji,



Višedimenzionalne analize i



Data mining-cilj Data mininga jeste otkrivanje skrivenih veza, predvidivih sekvenci i tačnih klasifikacija u ulaznim podacima.

5.2. Priprema podataka

U procesu razvoja skladišta podataka priprema podataka je jedna od najbitnijih aktivnosti. Dalji proces r azvoja skladišta podataka biće usp ješan samo ako je ova aktivnost usp ješno završena. Priprema podataka se vrši na osnovu ranije određenog izvora podataka, pravila za preuzimanje tih podataka, procedure pripreme i zahtjeva korisnika. Priprema se vrši određenim ekstrakcionotransformacionim alatima kroz sljedeće korake: 

ekstrakcija i čišćenje podataka,



transformacija podataka.

Izgradnja skladišta podataka obuhvata sl jedeće zadatake:



denormalizacija podataka, definisanje hijerarhija, kreiranje agregacija,



kreiranje fizičkog modela,

 

 

generisanje baze podataka, učitavanje podataka .

10

5.2.1. Denormalizacija podataka

Kod denormalizovanog modela dimenzije su organizovane normalizovaog u šemu sn ježne pahuljice. Postoje situacije u pogodna za skladištenje podataka. Osnovni razlozi za to su:

u šemu zv ijezde, a kod kojima šema zvijezde nije



denormalizovana šema zv ijezde može zahtevati previše memorijskog kapaciteta,



veoma velike dimenzione tabele mogu utjecati na pad performansi sistema.

Ovi problemi se mogu rij ešiti

normalizacijom dimenzija, čime se šema zv ijezde prevodi u šemu pahulje. Glavni nedostatak šeme pahulje je njena složenost u odnosu na šemu zv ijezde, čime se otežava održavanje skladišta podataka. Zato je potrebno vršiti normalizaciju samo onih dimenzija koje sadrže mnogo redova podataka i koje imaju mnogo atributa. Najčešće se postižu najbolji rezultati ako se izvrši normalizacija samo par dimenzija, a da se ostale ostave onakve kakve su i bile. Na taj način se dolazi do d jelimične šeme pahulje.

5.2.2. Definisanje hijerarhija

Dimenzije veoma često mogu biti organizovane u hijerarhiji. Primjer: dimenzija Proizvod ima tri dimenziona elementa: proizvod, grupa i vrsta proizvoda, gde je proizvod najniži hijerarhijski nivo, a vrsta najviši nivo.

• Analiza podataka moguća je sa različitim nivoima detalja : o Spuštanje u dubinu (drill down)- prelazak sa opštijeg na detaljniji nivo na zahtjev korisnika. Primjer : iz podatka o prodaji u regionu, spušta se naniže do prodaje po opštinama; hijerarhija organizacije geografskih podataka: SVIJET – > KONTINENT –> DRŽAVA – > OBLAST – > GRAD Dizanje naviše (drill-up)- prelazaka sa detaljnijeg na opštiji nivo, tzv. sumarnih podataka 

Primjer: upit bi mogao prezentovati prodaju u odnosu na neke regione. 

Presjek (Drill across)-za povezivanje dve, hijerarhije. VA – > OBLAST – > GRAD

ili više činjeničnih tabela na istom nivou

5.2.3. Kreiranje agregacija

Agregacijama se sumiraju detalji podataka i smiještaju u posebne tabele. Na prim jer, moguće je kreirati sumarne podatke o prodaji po regionu i oblasti skupljajući ih iz svake prodavnice, 11

tj. najnižeg nivoa detalja. Glavni razlozi kreiranja agregacija su da se poboljšaju performanse upita, tj. da se smanji vrijeme odziva na upit, kao i da se smanji broj resursa potrebnih za izvršenje upita.

5.2.4. Kreiranje fizičkog modela U okviru kreiranja fizičkog modela baze podataka, izvodi se postupak prevođenja logičkog modela u fizički model prikazan preko dijagrama entiteti – veze, koji fokusira podatke. Neposredno prije kreiranja modela treba izabrati sistem za upravljanje bazama podataka na kome će biti implementirana baza podataka. 5.2.5. Generisanje baze podataka

Aktivnost generisanja baze podataka vrši se korišćenjem SQL jezika. Naime, alat u kome je izvršeno kreiranje fizičkog modela (npr. ERWin) omogućava automatsko generisanje koda preko takozvanih DDL (Data Definition Language) datoteka. U slj edećem koraku se vrši izvršavanje DDL datoteka pomoću Query Analyzer -a, alata koji je sastavni dio SQL Servera 2003. Ovaj alat omogućava direktno zadavanje SQL naredbi i njihovo izvršavanje u cilju generisanja baze podataka. Kada se svi ovi poslovi uspj ešno urade, baza (skladište) podataka je generisana.

Slika 9. Razvoj skladišta podatak

12

6. ARHITEKTURA DATA WAREHOUSA

Arhitektura Data Warehouse-a opisuje elemente i usluge koje skladištenje pruža, sa detaljnim prikazom integracije i optimizacije komponenata, kao i potencijalnog rasta razvoja.

Postoje dva dominantna pravca kada je reč o arhitekturi sistema za skladištenje podataka. Prvi pravac propagira B. Inmon, koji se smatra „ocem“ skladištenja podataka. Drugi pravac propagira R. Kimball, danas zasigurno najuticajnija osoba u oblasti skladištenja podataka. Ova dva dominantna pristupa razvoju arhit ekture skladišta podataka poznata su pod nazivom CIF i BUS arhitektura. U CIF (eng. Corporate Information Factory) arhitekturi, podaci se iz operacionalnih, izvornih sistema prevode, transformišu i sakupljaju u sveobuhvatno, korporativno skladište podataka.

Skladište podataka sadrži istorijske podatke koji se ne ažuriraju, kao i neke izvedene podatke i služi kao izvor svakom pojedinačnom Data Mart -u. Korisnici CIF arhitekture pristupaju Data Martovima preko korisničkih alata i podatke prilagodjavaju svojim potrebama. U BUS arhitekturi skladište podataka se posmatra kao skup različitih Data Mart podsistema, koji poseduju konformisane (usaglašene) dimenzije. Ovakvi Data Mart -ovi se grade tako što se direktno iz operacionalnih sistema izdvajaju podaci koji su značajni za pojedini poslovni proces. Kimball smatra da se Data Mart-ovi moraju graditi tako da zadovoljavaju princip konformnosti dimenzija i činjenica, kako bi se omogućila njihova integracija. Na taj način dobijeni podsistemi prodaje, nabavke, finansija, magacina dij ele zajedničke informacije izmedju sebe, jer su povezani skupom zajedničkih ili usagalašenih dimenzija. Za takve

podsisteme kaže se da se nalaze na zajedničkoj „magistrali“ (eng. Bus) i svi zajedno čine deo arhitekture. Razlikujemo dve osnov ne arhitekture skladištenja  

podataka:

arhitektura ''od vrha prema dole'' (eng. ''top down'') arhitektura ''od dna prema gore'' (eng. ''bottom up'').

Arhitektura '' od vrha prema dole'' zahtjeva da se prvo izgradi središnje skladište podataka. Data Mart se zatim razvija iz skladišta podataka i čini podskup skladišta podataka. U ovom

slučaju Data Mart obično sadrži samo sumirane podatke, dok osnovno skladište podataka sadrži detaljne podatke. Ovakvu arhitekturu karakteriše dugotrajna i skupa izgradnja sistem a. Arhitektura '' od dna prema gore' ' podrazumijeva postupnu izgradnju Data Mart skupova podataka, gde se na osnovu planirane sveobuhvatne arhitekture izgrađuje skladište podataka preduzeća. Ovde Data Mart sadrži detaljne podatke. Prednost ovakve arhitekture je brza

izgradnja sistema, a nedostatak veća mogućnost nekonzistentnosti unutar sistema i problem integracije sistema.

13

Dijelovi arhitekture su:



Izvori podataka (Data Sources) ETL procesi (Extraction Transformation Loading) Model baze podataka (logički i fizički) OLAP server Metapodaci (Metadate)



Skladište operativnih podataka (Operational Data Storage)

   

 

Data Mart-ovi (Data Marts) Alati za izvještavanje i analizu (Reporting and Analitycal tools)

Slika 10. Arhitektura Data Warehouse-a

6.1. Izvori podataka Postoje dvije vrste izvora podataka: spoljašnji i unutrašnji. Unutrašnji podaci pripadaju kompaniji i generisani su putem transakciskog sistema, i opisuju aktivnosti koje su se

dogodile u preduzeću. 14

Spoljašnji podaci se prikupljaju izvan kompanije posredstvom specijalizovanih funkcija koje se bave prikupljanjem i distribucijom informacija. Mogu se nalaziti na raznim platformama koje sadrže struktuirane podatke, kao što su tabele, ili nestruktuirane podatke kao što su tekstualni fajlovi, fotografije i dr. Od suštinske važnosti su za strateške odluke, jer pomoću

njih organizacija uočava povoljne mogućnosti kao i pretnje. 6.2. ETL procesi

Kao što je već rečeno, podaci ulaze u skladište podataka iz različitih izvora, najčešće iz transakcionih sistema preduzeća. Najopsežniji posao u aktivnostima skladištenja podataka predstavlja proces integrisanja podataka i organizovanja njihovog sadržaja. Skup procesa ima zadatak da izvrši c jelovito transformisanje i punjenje iz jednog ili više transakcionih sistema u skladište podataka.

Slika 11. ETL procesi

Prije

početka ETL procesa potrebno je izvršiti pripremne aktivnosti vezane za skladištenje podataka. Izvorne podatke unešene iz različitih datoteka potrebno je standardizo vati, odnosno prevesti ih u standardni format. U tom formatu podaci će se koristiti u svim daljim fazama obrade. Osim što se u informacionom sisremu isti podaci mogu pojaviti na više m jesta, oni mogu biti različiti, odnosno njihove vr ijednosti nisu iste na svim mjestima na kojima se ti podaci javljaju.

Zbog toga je potrebno izvršiti njihovo usklađivanje. Čišćenje ima zadatak da ukloni sve one podatke koji se pojavljuju kao poslj edica ranijih grešaka u radu informacionog sistema ili unošenja netačnih i lažni h podataka u sistem.

15

6.2.1. Ekstrakcija podataka

Proces ekstrakcije podataka potrebno je izvesti na način da pri tom redovni operativni poslovi što manje trpe. Ekstrakcija predstavlja proces prikuplanja podataka iz različitih izvora i platformi i smještanje tih podataka u Data Warehouse -u. Ekstrakcija podataka je mnogo više od prostog kopiranja podataka sa jednog sistema na drugi. Programi i alati za ekstrakciju su oblikovani tako da ETL proces mogu obavljati što produktivnije uz nastojanje da potrebne podatke iz operativnih procesa preuzimaju što je moguće brže. Pri tom se kao problem može javiti potencijalno visok stepen redundanse podataka u transakciskim sistemima i zato je neophodno izabrati takav pristup ekstrakciji kojim se vrši uzimanje samo onih podataka koji će se koristiti u aplikacijama poslovne inteligencije.

Slika 12. Ekstrakcija podataka

6.2.2. Proces transformacije podataka

U okviru ETL procesa najviše vremena se troši na postupak transformacije podataka, prema stručnim procenama on traje i do 80% od ukupnog ETL procesa. U postupku transformacije mogu se pojaviti različiti problemi koji usporavaju proces a kao najčešći se izdvajaju: nekonzistentne vrijednosti podataka, nepodudarnost primarnih ključeva, netačnost podataka, različiti formati podataka. Neke od metoda transformacije su: Selektovati samo odgovarajuće tabele za unošenje Prevođenje kodiranih podataka  



Stvaranje nove vrijednosti Spajanje podataka iz raznih izvora



Sumiranje više redova podataka



16

6.2.3. Punjenje (Loading)

Za proces punjenja skladišta podataka koriste se više vrsta ETL alata kao što su alati za inicijalno punjenje, punjenje istorijskih podataka i programi za punjenje. Karakteristika programa za inicijalno punjenje skladišta podataka je da sadrže rutine za čišćenje i

usklađivanje podataka, da bi se iz podataka eliminisale greške. Kod istorijskih podataka ponekad nije moguće prim ijeniti postupke čišćenja koji se prim jenjuju za „žive podatke“, jer je od vremena nastanka tih podataka do danas možda došlo do različitih prom jena u slogovima i formatima podataka. Za razliku od ažurnih, istorijski podaci su statičnog karaktera i čine samo sadržaj arhivskih datoteka. Treću vrstu predstavljaju programi za inkrementalno punjenje podataka, a aktiviraju se vremenski nakon predhodna dva. Pokreću se periodično i imaju ulogu stalno aktivnog mehanizma punjenja skladišta odgovarajućim sadržajem.

Slika 13. Mjesto i tok ETL procesa u kreiranju koncepta poslovne inteligencije

6.3. Modeli baze podataka

Prilikom kreiranja skladišta podataka danas u praksi susrećemo tri osnovna modela: 17

  

Dvoslojna arhitektura sa jednim zajedničkim skladištem podataka Dvoslojna arhitektura sa više nezavisnih lokalnih skladišta podataka Troslojna arhitektura sa zajedničkim skladištem podataka i više povezanih lokalnih skladišta podataka

karakteriše jedinstveno, centralizovano skladište podataka. Takva skladišta su velikog obima i vrlo složena i u njima se po pravilu skladišti ogromna količina podataka. Troškovi održavanja ovakve arhitekture su veoma visoki i uz to zahtj evaju veći anganžman ljudstva na održavanju skladišta.

Dvosloju

arhitekturu

sa

jednim

zajedničkim

skladištem

Dvoslojnu arhitekturu sa više nezavisnih lokalnih skladišta karakteriše postojanje veceg broja nezavisnih lokalnih skladišta podataka nam jenjenih za rad pojedinačnih aplikacija po

organizacionim jedinicama preduzeća. Rezultat ovakve arhitekture je veliki broj sistema u kojima se posebno unose podaci iz različitih transakcionih baza podataka. Troslojna ar hitektura skladišta podataka sastoji se od veceg broja lokalnih skladišta podataka(Data Mart-ova ) i jednog zajedničkog skladišta ( Data Warehous-a) koje je smješteno između skladišta podataka i različitih izvora podataka unutar i izvan preduzeća. Skladišta podataka se oslanjaju na centralno skladište podataka koje im isporučuje podatke u obliku koji daje ujednačen uvid u sve segmente poslovanja preduzeća.

Slika 14. Troslojna arhitektura sa zajedničkim DW i više povezanih Data Mart -ova

18

Slika 15. Razlike između Data Warehouse -a i Data Mart-a

6.4. Metapodaci

ili “podaci o podacima” opisuju informacije i podatke unutar skladišta , inegrišu dolazeće podatke, predstavljaju alat za redefinisanje i ažuriranje određenog modela Data Warehouse-a. Oni služe da pruže informacije o podacima koji su sm ješteni u Data Metapodaci

Warehouse-u.

Uključuju opise elemenata podataka, kao što su opisi tipova podataka, opisi atributa, opisi domena, zatim nazive, veličinu i dozvoljene vr ijednosti. Predmetno su orjentis ani, definišu način na koji će se transformisani podaci inerpretirati, pružaju informacije o srodnim informacijama u Data Warehouse-u i predviđaju vr ijeme odziva prikazujući broj slogova koji treba da se obradi u upitu. Sa stanovišta administradora Data Wa rehouse-a, Metapodaci predstavljaju skladište podataka i dokumentaciju o sadržaju i procesima u Data Warehouse -u. Sa druge strane, sa stanovišta korisnika Metapodaci predstavljaju mapu za kretanje kroz podatke.

6.5. Skladište operativnih podataka (ODS) Tradicionalna Data Warehouse arhitektura nije u skladu sa potrebama menadžera za “up -tothe minute” podacima, neophodnim u odlučivanju u stvarnom vremenu. U takvoj situaciji kad perfomanse postaju kritične, javlja se ideja o kreiranju živih, operativnih skladišta podataka, tzv. “report server” ili “ogledalo baze”. ODS je predmetno orjentisan(na jednom mestu su svi podaci), inegrisan(predstavlja inegrisanu sliku predmetno orjentisanih podataka izvučenih iz bilo kog d ijela operativnog sisteme),orjentisan na trenutnu vrijednost(oslikava trenutni sadržaj njegovih izvornih sistema, pri čemu se trenutna vr ijednost može definisati na različite načine, za različite izvore, u 19

zavisnosti od zahtjeva implementacije), promjenljiv(kako je ODS orjentisan na predmet, on je podložan prom jenama onoliko često koliko je to potrebno za oslikavanje trenutnog stanja. To znači da se podaci m ijenjaju u stilu OLTP sistema, pa će jedan isti upit dati različite vrijednosti u rezličitim trenucima vremena, jer su se podaci u međuvreme nu promijenili) i brzina ažuriranja se odvija u kraćim vremenskim intervalima nego kod Data Warehouse-a.

6.6. Data Mart-ovi

su podskupovi podataka skladišta podataka i m jesto gde se odvija najviše analitičkih aktivnosti. Podaci u svakom Dat a Mart-u su uobičajeno kreirani za određenu mogućnost ili funkciju. Svaki specifični Data Mart je optimizovan za unapred definisano područje i ne mora biti odgovarajući za druge upotrebe. Data Mart-ovi

Najčešći oblik Data Mart-a je multi-dimenzionalan, što omogućava l ak pristup, brzu i kvalitetnu analizu podataka. Problem koji se može javiti u organizaciji koja je implementirala nekoliko Data Mart-ova pre implementacije centralnog skladišta podataka, je integracija postojećih Mart-ova u celovit sistem. Potrebno je neprestano praviti balans između težnje da se oni kreiraju kao odvojeni silosi ili odeljenja, i potrebe za uspešnim funkcionisanim skladišta na globalnom nivou. Međusobno usklađeni i kordinirani Data Mart-ovi se nazivaju super Mart-ovi. Svaki Data Mart se sastoji iz niza tabela činjenica, čiji je ključ sastavljen od više spoljnih kljiučeva koji dolaze iz tabela dimenzija. Konformisana dimenzija je ona koja ima potpuno isto značenje u svakoj tabeli činjenica sa kojom je povezana. Zato je ta dimenzija identična u svakom Data Mart-u. Upravo to dovodi do integracije Data Mart-ova, a međusobne veze se uspostavljaju preko deljenih dimenzija. Može biti realizovan kao:  

nezavisni Data Mart » izolovan od drugih Data Warehous sistema zavisni Data Mart » naslonjen na druge Data Warehous sisteme

20

Slika 16. Zavisni Data Mart

6.7. Alati za izveštavanje i analizu Da bi se ispunio primarni cilj poslovanja Data Warehouse-a podaci moraju biti na raspolaganju za analizu, izveštavanje, postavljanje upita i slične procese. Po stoje mnoge aplikacije koje mogu obavljati ove funkcije a neke od njih su: 

Business Intelligence alati



Izvršni informacioni sistemi



OLAP alati



Analitičke aplikacije



Data Mining

Sa aspekta krajnjeg korisnika ovaj sloj je najbitniji sloj u Data Warehous arhitekturi. Kako bi se pronašli odgovarajući prezentacioni alati za informacione zahteve krajnjih korisnika, pretpostavka je da postoje četiri kategorije korisnika: “moćni korisnici” koji su spremni i sposobni da koriste kompleksnije alate za kreiranje sops tvenih izveštaja, “povremeni korisnik” koji direktno nije zaineresovan za detalje o Data Warehouse-u, ali mu je povremeno potreban pristup informacijama, “korisnici koji imaju potrebu za statičkim informacijama” koji imaju potrebu za precizno definisanim p odacima u određenom vremenskom intervalu i “korisnici koji zaht jevaju ad hoc upite i analitičke mogućnosti alata” a to su uglavnom analitičara kojima svaka informacija u Data Warehouse-u može biti značajna u nekom trenutku.

Različite vrste korisnika zaht jevaju različite prezentacione alate, ali svi mogu da pristupaju zajedničkom Data Warehouse -u. Takođe, različite sposobnosti korisnika određuju i razne načine prezentacije rezultata obrade, od tabelarnih prikaza do najrazličitijih grafičkih prikaza.

21

7. ZAKLJUČAK Na tržištu koje se globalizira vlada sve veća konkurencija. Istodobno su kupci sve izbirljiviji. To tjera proizvođače da stalno provjeravaju svoju konkurentnost na tržištu i da pronalaze uspješnu poslovnu strategiju. Stratešku prednost pred konkurentima nastoje ostvariti ispravnim planiranjem tržišta, inovacijama proizvoda, ispravnim odnosima s kupcima, odnosno klijentima. Pritom je neophodno da posjeduju pravovremene i relevantne informacije o svim aspektima poslovanja i situaci ji na tržištu.

Skladištenje podataka je važan koncept učinkovitog sustava potpore odlučivanju , koji se intenzivno razvija posljednjih godina. Donosi ideju

aktivnog pronalaženja i nuđenja

informacija menadžeru, potrebnih u procesu odlučivanja. Koristi se postupcima analitičke obrade i otkrivanjem znanja iz podataka. Spomenutim se konceptima i metodama na

temeljima informacijske tehnologije želi postići "inteligentno" poslovanje poduzeća u kompleksnim tržišnim uvjetima. Za to se već uvriježio naziv poslovna inteligencija. U doba internetske ekonomije poslovna inteligencija počiva na podacima, koji se transformiraju u informacije potrebne za odlučivanje i upravljanje.

Poduzeće koje analizira ponašanje svojih kupaca ponaša se "inteligentno". Ono npr. ima sve potrebne podatke o kupcu te u bazi podataka bilježi svaku aktivnost koja je s njim povezana. Analizom tih podataka, npr. analizom što je i kada kupac kupio, koliko je reklamacija i na koje proizvode imao, izrađuje profil kupca ili ga svrstava u neku kateg oriju. Daljnje akcije prema kupcu usmjerava temeljem nalaza analize. To npr. može biti nuđenje novog proizvoda specijalno krojenog za potrebe jednog kupca ili skupine kupaca. Kriterije za grupiranje

kupaca u skupine pronalazi analizom različitih varijabli poslovanja. Analize tržišta radi učestalo, a na promijenjene okolnosti reagira promptno. Radi na tome da analizom podataka informacije

vlastitog poslovanja i vanjskih čimbenika dobije

koje koristi u donošenju optimalnih poslovnih odluka i na kraju ostvari profit i

osigura daljnju egzistenciju.

22

8. LITERATURA



http://poslovna-inteligencija.blogspot.ba/2011/06/data-warehouse.html



http://www.skladistenje.com/skladno-skladistenje/



http://www.skladistenje.com/active-data-warehouse/



www.management.ac.me/files/1353922032.ppt

23

2016 07-15-13 32 Data Mining Seminarski Rad

Recommend Documents