1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza aurkitzea
1. Datu-Meatzaritzarako sarrera
Irakasgaia: Konputazio-Zientzien Metodo MatematikoakTitulazioa: Informatikan Ingeniaria
Konputazio Zientzia eta Adimen Artifiziala sailaUniversidad del Paıs Vasco - Euskal Herriko Unibertsitatea
1 / 22
1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza aurkitzea
Aurkibidea
1 Datu-Meatzaritza
2 Knowledge Discovery from Databases (KDD): datubaseetan eza gutza aurkitzea
2 / 22
1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza aurkitzea
Aurkibidea
1 Datu-Meatzaritza
2 Knowledge Discovery from Databases (KDD): datubaseetan eza gutza aurkitzea
3 / 22
1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza aurkitzea
Definizio batzuk
Data mining. Aurretik ezezaguna den ezagutza erabilgarrieta ulergarria erauztea formatu desberdinetan gordetadauden datu-multzo handietatik (Witten eta Frank, 2000)
Knowledge discovery in databases. Datubaseetanezagutza aurkitzea, datuetatik abiatuz eredu baliagarriak,berriak eta azken batean ulergarriak identifikatuz (Fayyadeta lag. 1996)
4 / 22
1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza aurkitzea
Eredu-motak
Datuetatik ezagutza lortzea eredu konputazionalak erabilizEredu deskribatzaileak: datuak deskribatzen edo laburtzendira
Erregelak: datuen portaera-ereduak erakusten diraClustering: homogenoak diren kasuak multzokatzen dira
Eredu iragarleak: aldagai iragarleen balioetatik abiatuziragarri beharreko beste aldagai batzuren balioakestimatzen dira
Erregresioa: Iragarri beharreko aldagaia jarraia daGainbegiratutako sailkapena: Iragarri beharreko aldagaiadiskretua da (ordinala edo nominala)
5 / 22
1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza aurkitzea
Datu-motak
Datubase erlazionalak
Erlazio-multzoak (taulak). Ezaugarri-multzo baterako (aldagaiak, zutabeak,eremuak) n-koteak gordetzen dira (kasuak, errenkadak, erregistroak)Taula moduko aurkezpena: ezaugarri-balio
Datubase espazialak: geografi-datuak, medikuntza-irudiak, garraio-sareak, ....
Datubase tenporalak: denborazko une edo tarte desberdinak
Datubase dokumentalak: Objektuak testu-dokumentuak dira, aldagaiek hitzakadierazi ditzakete, edo laburpenak...
Multimedia datubaseak: irudiak, soinua, bideoa
World Wide Web: gaurregun dagoen informaziorako gunerik handiena etaanitzena
Edukiaren analisia: web orrietan ereduak aurkitzeaEgituraren analisia: hiperestekak eta URL-ak aztertzeaErabileraren analisia: nabigazioa aztertzea
6 / 22
1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza aurkitzea
Erlazioa beste zenbait arlorekinEstatistika. Datu-meatzaritzaren ′′ ama ′′
Ikasketa automatikoa. Konputagailuak adibideetatikikasten du
Ereduen ezagutza. Clustering. Sailkapen-gainbegiratua
Erabakiak hartzeko sistemak. Zuzendaritzari laguntzekotresnak eta sistemak
Datuen bistaratzea. Grafiken bidez datuetatik ateratakoereduak ikusten eta ulertzen laguntzea
Datubaseak. Datuen biltegiak. Atzipen eraginkorra
Informazioaren erauzketa. Testuak. Liburutegi digitalak.Bilaketak Interneten
Konputazio paraleloa eta banatua. Datu-meatzaritzakdakarren kostu konputazionala banatu egiten daprozesamendu paraleloa eta banatua erabiliz
7 / 22
1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza aurkitzea
Aplikazioak
Finantza-aplikazioak
Kreditu-txartelen iruzurrezko erabilerak hautematea
Kreditu-txartelaren bidezko gastuaren iragarpena
Kreditua ematerakoan arriskua aztertzea
Datu historikoetatik merkatu-erregelak identifikatzea
”Fidelak” ez diren bezeroak identifikatzea
8 / 22
1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza aurkitzea
Aplikazioak
MerkataritzaErosketa-saskiaren analisia
Publizitate-kanpainen ebaluazioa
Bezeroen sailkatzea
Salgaien, kostuen edota salmenten estimazioak egitea
9 / 22
1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza aurkitzea
Aplikazioak
Aseguruak
Garesti gerta daitezkeen bezeroak identifikatzea
Poliza berriak kontratatzen dituzten bezero-motakidentifikatzea
Arrisku egoeran egon daitezkeen bezeroenportaera-ereduak identifikatzea
Iruzurrerako portaerak identifikatzea
10 / 22
1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza aurkitzea
Aplikazioak
HezkuntzaIkasleen aukeraketa
Eskola-porrota hautematea
Ikasleek ikastegian emango duten denboraren estimazioaegitea
11 / 22
1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza aurkitzea
Aplikazioak
MedikuntzaGaixotasunak diagnostikatzea
Gaixotasun jakin bat jasateko arriskuan egon daitezkeenpazienteak identifikatzea
Ospitale-kudeaketarako. Baliabideen erabilera hobetzekoasmoz osasun-zentroetarako denbora-iragarpenak egitea
Mediku-irudien tratamendua egitea
12 / 22
1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza aurkitzea
Aplikazioak
Bioinformatika, bioingeniaritza
Geneen bilaketa (genoma kodifikatzen duten eremuak)
Proteinen bigarren mailako egituraren iragarpena egitea
Uholdeen iragarpena
Uren kalitatea neurtzeko ereduak sortzea
13 / 22
1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza aurkitzea
Aplikazioak
Beste zenbait arlotanTelekomunikabideak: iruzurra identifikatzea
Posta elektronikoa eta agenda pertsonalak: postarensailkapena eta banaketa automatikoa, spam mezuakhautematea
Ogasuna: zerga-iruzurrak hautematea
Web: erabiltzaileen portaeraren analisia egitea
Kirolak: datu medikuetatik abiatuz lesioak jasatekoarriskua identifikatzea
14 / 22
1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza aurkitzea
Aurkibidea
1 Datu-Meatzaritza
2 Knowledge Discovery from Databases (KDD): datubaseetan eza gutza aurkitzea
15 / 22
1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza aurkitzea
Datubaseetan ezagutza aurkitzea
Prozesu iteratibo eta elkarreragilearen faseak
1 Datuak bildu eta bateratu2 Aukeratu, garbitu eta eraldatu3 Datu-meatzaritza egin4 Ebaluatu eta interpretatu5 Zabaldu eta erabili
16 / 22
1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza aurkitzea
Datubaseetan ezagutza aurkitzea
1. Datuak bildu eta bateratu
Datubaseak eta datuen prozesamendu tradizionala (On-LineTransaction Processing, OLTP): eguneroko beharrak asetzekonahikoak dira (fakturazioa, inbentarioen kontrola, ...)
Erabaki estrategikoak analisian, plangintzan eta iragarpeneanoinarrituta: datuak sail desberdinetan egon daitezke
Jatorrizko datuak formatu desberdinetan egoten dira
Datubaseen bateratzea: datuen biltegiak (data warehousing)
Datuen biltegiak gomendagarriak dira informazio-kantitateahandia denean. Hala ez denean ez dira beharrezkoak(testu-fitxategiak, kalkulu-orriak, ...)
17 / 22
1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza aurkitzea
Datubaseetan ezagutza aurkitzea
2. Aukeratu, garbitu eta eraldatu
Aurkitutako ezagutzaren kalitatea datu-meatzaritzan erabilitakoalgoritmoaren mende egoteaz gain aztertutako datuenkalitatearen mende dago
Datuen portaera orokorrera egokitzen ez den zenbait daturenpresentzia egon daiteke (outliers)
Balioak falta dituzten datuak egon daitezke (missing values)
Aldagai esanguratsuak aukera daitezke (feature subsetselection)
Datubase oso handietan kasuen auzazko aukeraketa egindaiteke
Aldagai berriak modu automatikoan eraiki daitezke
Aldagai jarraiak diskretiza daitezke18 / 22
1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza aurkitzea
Datubaseetan ezagutza aurkitzea
3. Datu-MeatzaritzaEredu deskribatzaileak
ErregelakMultzokatzea (clustering): partizionala, probabilistikoa,ierarkikoa, kontzeptuala
Eredu iragarleak
Erregresioa: regresio lineala...Gainbegiratutako sailkapena: sailkapen-zuhaitzak, K-NN,sailkatzaile Bayestarrak, erregelen indukzioa, erregresiologistikoa, sare neuronalak, sailkatzaileen konbinaketa
19 / 22
1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza aurkitzea
Datubaseetan ezagutza aurkitzea
4. Ebaluatu eta interpretatu
Ebaluazio teknikak: balidazio sinplea (entrenamendua +testa), k-geruzatako balidazio gurutzatua, bootstrapping
Erregelak: estaltzea, konfidantza
Multzokatzea (Clustering): multzo barruko elementuen etamultzoen arteko distantzia
Erregresioa: batazbesteko errore kuadratikoa
Gainbegiratutako sailkapena: ondo sailkatutakoenportzentaia, erroreen matrizea, ROC analisia
Eredu ulerterrazak eta interesgarriak (erabilgarriak etaberritzaileak)
20 / 22
1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza aurkitzea
Datubaseetan ezagutza aurkitzea
5. Zabaldu eta erabiliZabaldu: eraikitako eredua erabiltzaileen artean zabaldueta erabili erabakiak hartzeko
Ereduaren garapena neurtu behar da denboran zehar:
BerrebaluatuBerrentrenatuBerreraiki
21 / 22
1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza aurkitzea
Oinarrizko bibliografia
Liburua: Introduccion a la Minerıa de DatosCapıtulo 1: ¿Que es la minerıa de datos?Capıtulo 2: El proceso de extraccion de conocimiento
Egileak: Jose Hernandez Orallo, Ma Jose RamırezQuintana, Cesar Ferri Ramırez
Departamento de Sistemas Informaticos y Computacion,Universidad Politecnica de Valencia
Argitaratzailea: Pearson Prentice Hall, 2004
ISBN: 84-205-4091-9
22 / 22