Descubrimientodesubgruposaplicadoalportaldecomerciodeelectrónico:OrOliveSur.comCarmonaCJ*,delJesusMJ,GarcíaSDepartamentodeInformática*[email protected]|953.21.19.56ResumenEldescubrimientodesubgruposesunatécnicademineríadedatosdescriptivacapazdedescribirconocimientoconunaestadísticainusualconrespectoaunavariabledeinterésenunconjuntodedatos.AlgoritmosbasadosenestatécnicasehanaplicadoalasvisitasregistradasporlosusuariosdelportaldecomercioelectrónicoOrOliveSur.com,quesecentraenlaventadeaceitedeolivavirgenextradelacomarcadeSierraMágina.Entrelosresultadosobtenidoscabedestacarlaobtencióndeunospatronesdecomportamientoporpartedelosvisitantesinteresantesdecaraalrediseñodelportalwebyasímejorarlasventasdelmismo.Abstract Subgroupdiscoveryisadescriptivedataminingtechniqueinordertodescribeknowledgewithanunusualstatisticalwithrespecttoaninterestvariableofthedataset.Analgorithmbasedonsubgroupdiscoveryisappliedtothevisitsregisteredinthee-commercewebsiteOrOliveSur.comwhichisfocusedontheextravirginoliveoilfromSierraMagina.Resultsobtainedshowbehaviourpatternsoftheusersveryinterestingwithrespecttothedesignofthewebsite.Theimprovementsindicatedinthisworkcouldincreasetheordersofthee-commerce.
1.IntroducciónElcomercioelectrónicoeslacompra-ventadeproductososerviciosmedianteunmedioelectrónico,talescomointernetoredesdecomputadores.Originalmente,estetérminoseaplicómediantelaejecucióndetransaccionescomointercambiodedatoselectrónicos.Sinembargo,amediadosdelos90conlaaparicióndeinternetsecomenzóprincipalmentearealizarventasdebienesyservicioseninternet,utilizandoprimordialmentepagoselectrónicos.Lacantidaddepagoselectrónicoshacrecidodeformaexponencialenlosúltimosaños.Unaampliavariedaddecomercioselectrónicoshansidopublicadosenlosúltimostiempos[Soaresetal.2008],estimulandolacreaciónyutilizacióndeinnovacionescomotransferenciaselectrónicas,marketingeninternet,procesamientodetransaccionesonline,sistemasderecolecciónautomáticadedatos,etc.EnAndalucíaexisteunaaltaconcentracióndecooperativasolivarerasqueenlosúltimostiemposestánproliferandoenlaexportacióndesusproductos[Moral-PajaresandLanzas-Molina,2009],yelusodeportalesdecomercioelectrónicoenlascooperativasylaadopcióndeTecnologíasdelaInformaciónylaComunicación(TIC)sonclavesparaestasexportaciones.LautilizacióndelasTICssurgeparaproponermetodologíasdeanálisisinteligentedelosdatosparahabilitarlaextraccióndeconocimientoútildelosmismos[Fayyadetal,1996].EsteeselconceptodeDescubrimientodeConocimientoenGrandesBasesdeDatos(eninglés,KnowledgeDiscoveryDatabases–KDD),quefuedefinidocomoelprocesonotrivialdeidentificacióndepatronesenlosdatosconlassiguientescaracterísticas:válido,novedoso,útilycomprensible[Han,2005].ElprocesoKDDesunconjuntodepasosinteractivoseiterativos,incluyendoentreelloselpre-procesamientodelosdatosparacorregirimprecisionesoinconsistencias,reducirelnúmeroderegistrosoencontrarlaspropiedadesmásrepresentativas,mineríadedatosqueeslaetapafundamentaldelprocesodondeseextraeelconocimiento,yanálisisyvisualizacióndelosresultados.KDDcombinalastécnicastradicionalesdelaextraccióndeconocimientoconnumerososrecursosdesarrolladoseneláreadelainteligenciaartificial.Enelproyectoabordadosehadescritounametodologíaespecíficaparaextraerinformaciónútildelosdatosderegistrosdeusuariosregistradosenelportaldecomercioelectrónicohttp://www.orolivesur.com.EstosdatosderegistrosdeusuariosdeOrOliveSurhansidoobtenidosmediantelaherramientaGoogleAnalytics.OrOliveSur.comsecentraenlaventaanivelnacionaleinternacionaldeaceitedeolivavirgenextradelacomarcadeSierraMágina.Lasetapasllevadasacaboenelanálisisdeesteportalsonlasdescritaspreviamente,esdecir,unaetapadepreprocesamientoparaprepararlosdatos,extraccióndeconocimientoyanálisisdelosresultadosobtenidos.AlolargodeestetrabajosepresentaráunresumendelportaldecomercioelectrónicoOrOliveSur,delasdiferentestécnicasyalgoritmosdedescubrimientodesubgruposutilizadosparaobtenerconocimiento
relacionadoconelcomportamientodelosusuariosenelportal,yparafinalizarsepresentanlosresultadosobtenidosenesteestudio.2.MaterialesyMétodosEnestasecciónsepresentanlascaracterísticasmásdestacadasdelportalOrOliveSur.com,lasprincipalescaracterísticasdelamineríadeusowebylospropiedadesyalgoritmodedescubrimientodesubgruposaplicadosalosdatos.2.1.Portaldecomercioelectrónico:OrOliveSur.comOrOliveSuresunproyectonacidoenlaprovinciadeJaénenAndalucía(España)enelaño2010.Elprincipalpropósitoesdaraconocerenelmundoeltesorodenuestratierra,elaceitedeolivavirgenextra.EstawebsecentroenelaceitedeolivaproducidoenunparticularterritoriodeJaén:ElparquenaturaldeSierraMágina.Estazonaesunáreaprotegidadeunas50.000hectáreasdeparquenaturalformadoporladerasboscosas,vallesrecónditosypicosmontañososescarpados.Elpicomásalto,MáginaeselmásaltodelaprovinciadeJaén,llegandoalos2167metrosdealtitudsobreelniveldelmar.
Ilustración1.Páginaprincipaldelportalwebhttp://www.OrOliveSur.com
ElampliocatálogoquepresentaOrOliveSursecentraenlavariedaddeaceitepicual.EstavariedadeslamásextensadelmundorepresentandoenEspañael
50%delaproducción.LamayoríadeestaseencuentrasituadaenAndalucía,especialmenteenlaprovinciadeJaén.Laaceitunaesdeuntamañograndeyconformaalargadaconunpicoalfinaldelamisma.Losárbolesdeestavariedadsondeuncolorplataintenso,abiertosybienestructurados.Además,lavariedadpicualtieneunaspropiedadesexcelentesyaqueeslavariedadconmejorestabilidadyácidooleicoconrespectoaotrasvariedadescomoarbequinauhojiblanca,entreotras.Enlaactualidad,esteportaldeventadeaceiteseencuentratraducidoíntegramentealinglés,yparcialmentealalemán,francésydanés.
Ilustración2.Descripcióndeunproductodelportalwebhttp://www.OrOliveSur.com
Alolargodelosúltimosaños,OrOliveSurharecibidopedidostantonacionalescomointernacionalesdesdeDinamarca,Alemania,ReinoUnido,Francia,etc.,ysuspedidosyvisitasincrementandíaadía.Lacaracterísticamásdestacadadeesteportalserelacionaconlacalidad-preciodesusproductos,puesseofrecenproductosdecalidadavaladosporelConsejoReguladordelaDenominacióndeOrigen“SierraMágina”abaratandosuscostesenenvíoypresentandomúltiplesmétodosdepago.Todoslosproductosllevanunadescripcióndetalladadelos
mismosconrespectoapropiedadesparafacilitaralosvisitanteslaeleccióndesusaceites.Porejemplo,enlaIlustración2sepuedeobservarlapresentacióndeunodesusproductos.2.2.MineríadeusowebEtzioni[Etzioni,1996]definiómineríawebcomoelusodetécnicasparadescubriryextraerconocimientoenunawebdeformaautomática,mientrasCooley[Cooleyetal,1999]fuemásalláenremarcarlaimportanciadeconsiderarelcomportamientoypreferenciasdelusuario.Encualquiercaso,losautorescoincidenensepararlamineríawebendistintasetapas[KosalaandBockeel,2000][Liu,2006]:
• Encontrarrecursos.• Seleccionarlainformaciónypreprocesar.• Descubrirelconocimiento.• Analizarlospatronesobtenidos.
Lamineríawebsepuedeclasificarentresdominiosconrespectoalanaturalezadelosdatos[Cooleyetal,1997][MarkovandLarose,2007]:mineríawebdecontenido,mineríadeestructuradedatosymineríadeusoweb.EnesteproyectonoscentramosenlamineríadeusowebquefuedefinidaporSrivastava[Srivastavaetal,2000]como:Elprocesodeaplicartécnicasdemineríadedatosparaeldescubrimientodepatronesútilesdesdelosdatosweb.Lospatronesserepresentancomounacoleccióndepáginasoítemsvisitadosporlosusuarios.Estospatronessepuedenemplearparacomprenderlasprincipalescaracterísticasdelcomportamientodelosusuariosparamejorarlaestructuradelawebycrearrecomendacionespersonalesydinámicassobreelcontenidodelaweb[Mobasher,2005].Lamineríadeusowebsepuedeemplearendiversaspropuestascomoporejemploparaanalizarsecuenciasdepáginas,calidaddeunawebobúsquedasglobalesefectivas.Todaslaspropuestashansidoclasificadasconrespectoaunataxonomíadefinidaen[FaccaandLanzi,2005]:
• Personalizacióncuyoobjetivosestábasadoenlarecomendacióndesistemas.
• Pre-fetchingycachingqueintentamejorarelrendimientodelosservidoresyaplicacionesenlacargadepáginasencachéantesquelosusuarioslassoliciten.
• Diseñoqueestárelacionadoconlausabilidaddeunaweb.Estudiosendiseñopuedenproporcionarlasmetasparamejorareldiseñodelaweb.
• ComercioelectrónicodondelastécnicasutilizadasdentrodeestegruposerelacionanconelCustomerRelationshipsManagement,queesunmodelodegestiónquepermiteincrementarlasventasdelosportalesdecomercioelectrónico.
2.3.DescubrimientodesubgruposElconceptodedescubrimientodesubgruposfueintroducidoinicialmenteporKloesgen[Kloesgen,1996]yWrobel[Wrobel,1997]ydefinidoformalmentecomo[Wrobel,2001]:Endescubrimientodesubgrupos,asumimosunapoblacióndeindividuosdada(objetos,clientes,…)yunapropiedaddeestosindividuosenlaqueestemosinteresados.Latareadeldescubrimientodesubgruposesentoncesdescubrirlossubgruposdelapoblaciónquesonestadísticamente``másinteresantes'',esdecir,individuosqueseantangrandescomoseaposibleytengaunadistribuciónestadísticalosmásatípicaposible,conrespectoaunapropiedaddeinterés.Eldescubrimientodesubgruposintentabuscarrelacionesentrediferentespropiedadesovariablesdeunconjuntoconrespectoaunavariableobjetivo.Debidoaqueeldescubrimientodesubgruposestácentradoenlaextracciónderelacionesconcaracterísticasinteresantes,noesnecesarioobtenerrelacionescompletassinoquesuelesersuficienteconrelacionesparciales.Estasrelacionessondescritasenformadereglasindividuales.Así,unareglaR,queconsistedeunadescripcióndeunsubgrupoinducido,puedeserdefinidaformalmentecomo:
R:Cond->VarObjdondeVarObjeselvalordelavariabledeinterésovariableobjetivoparalatareadedescubrimientodesubgrupos(puedeaparecerademásenlabibliografíaespecíficacomoClase),yCondescomúnmenteunaconjuncióndefunciones(paresatributo-valor)queescapazdedescribirunadistribuciónestadísticainusualconrespectoalavariableobjetivo.EnunarecienterevisiónpresentadaporHerrerayotros[Herreraetal,2011]sepuedenobservarloselementosfundamentalesdeldescubrimientodesubgrupos,medidasdecalidadutilizadas,algoritmosyaplicacionesaproblemasreales.Acontinuaciónsemencionanlosprincipaleselementosdeldescubrimientodesubgrupos,lasmedidasdecalidadutilizadasenelprocesoyelalgoritmoempleadoenesteestudio.2.3.1.PrincipaleselementosdeldescubrimientodesubgruposExistendiferenteselementosaespecificareneldiseñodeunalgoritmodedescubrimientodesubgrupos.Estoselementossedefinenacontinuación[Atzmuelleretal,2004]:
• Tipodelavariableobjetivo.Sepuedenencontrardiferentestiposdevariableobjetivo:binaria,nominalonumérica.Paracadaunadeellassepuedenaplicardiferentesanálisisconsiderandoeltipodelavariableobjetivo.
• Lenguajededescripción.Larepresentacióndelossubgruposdebeser
adecuadaparaobtenerreglasinteresantes.Lasreglasdebensersencillasyporellosesuelenrepresentarmedianteparesatributo-valorgeneralmenteenformanormalconjuntivaodisyuntiva.Además,losvaloressepuedenrepresentarmediantevalorespositivosy/onegativos,mediantelógicadifusa,omedianteelusodedesigualdadesoigualdades,entreotros.
• Medidasdecalidad.Éstassonunfactorclaveparalaextracciónde
conocimientoyaqueelinterésdelconocimientoextraídodependedirectamentedeellas.Además,lasmedidasdecalidadproporcionanalexpertolacalidadeimportanciadelossubgruposobtenidos.Sehanpresentadodiferentesmedidasdecalidadenlabibliografíaespecializada[GambergerandLavrac,2003][Kloesgen,1996][KloesgenandMay,2002][Lavracetal,2004],peroenningúnestudiopreviosehapresentadounconsensosobrecuálessonlasmásadecuadasparausarendescubrimientodesubgrupos.Enlasiguientesecciónsepresentaunresumendelasmedidasdecalidadutilizadas.
• Estrategiadebúsqueda.Esteelementoesmuyimportante,yaquela
dimensióndelespaciodebúsquedatieneunarelaciónexponencialrespectoalnúmerodepropiedadesyvaloresconsiderados.Hastaelmomentosehanutilizadodiferentesestrategias,porejemplobeamsearch,algoritmosevolutivos,búsquedaenespaciosmultirelacionales,etc.
2.3.2.MedidasdecalidadempleadasenesteestudioUnodelosaspectosmásrelevantespararesolverunproblemadedescubrimientodesubgruposeslaeleccióndelasmedidasmásadecuadasautilizarparaextraerlasmejoresreglasyevaluarlas.Enlaactualidad,existeunamplionúmerodemedidasdecalidadenlabibliografía.Lasmedidasmáscomunesdentrodeestatareasedescribenacontinuación:
• Confianzadifusa:Determinalafrecuenciarelativadelosejemplosquesatisfacentantoelantecedentecomoelconsecuentedeunareglaentreaquellosquesatisfacensóloelantecedente[DelJesusetal,2007].Secalculacomo:
𝐶𝑛𝑓𝐷 𝑅 =𝐴𝑃𝐶(𝐸! ,𝑅)!!∈!/!!∈!"#$%&
𝐴𝑃𝐶(𝐸! ,𝑅)!!∈!
dondeAPCeselgradodecompatibilidadentreunejemplo(E)yelantecedentedeunaregladifusa.Enelcasodereglasnodifusas,losgradosdepertenenciasonloscorrespondientesaconjuntosclásicos,esdecir0ó1.Estollevaríaalaobtencióndelosmismosvalores,tantoparalaconfianzadifusa,comoparalanítidaenproblemasquecontenganúnicamentevariablesdiscretas.
• Relevancia:Larelevanciadeunareglasecalculaentérminosdesurazóndeverosimilitud,normalizadaconlarazóndeverosimilituddelumbralderelevancia,ysemidecomolarelacióndeprobabilidaddeunaregla[Kloesgen,1996].
𝑅𝑒𝑙𝑒 𝑅 = 2 ∙ 𝑛(𝑉𝑎𝑟𝑂𝑏𝑗! ∙ 𝐶𝑜𝑛𝑑) ∙ 𝑙𝑜𝑔𝑛(𝑉𝑎𝑟𝑂𝑏𝑗! ∙ 𝐶𝑜𝑛𝑑)
𝑛(𝑉𝑎𝑟𝑂𝑏𝑗!) ∙ 𝑝(𝐶𝑜𝑛𝑑)
!!
!!!
donden(VarObj-Cond)eselnúmerodeejemplosquesatisfacenlacondiciónyademáspertenecenalvalordelavariableobjetivoenlaregla,p(Cond)calculadocomon(Cond)/ns,seutilizacomounfactornormalizador,n(Cond)eselnúmerodeejemplosquesatisfacenlacondicióndeterminadaporelantecedentedelaregla,nseselnúmerodeejemplos,n(VarObj)eselnúmerodeejemplosdelavariableobjetivo,ynceselnúmerodevaloresdelavariableobjetivo.Aunquecadareglaestádefinidaparaunvalorespecíficodelavariableobjetivosedebedestacarquelamedidaderelevanciamidelanovedadenladistribuciónimparcialmente,paratodoslosvaloresdeestavariable.
• Sensibilidad:Estamedidamidelaproporcióndeejemploscorrectamente
descritos[Kloesgen,1996].Sepuedecalcularcomo:
𝑆𝑒𝑛𝑠 𝑅 = 𝑇𝑃𝑟 =𝑇𝑃𝑃𝑜𝑠 =
𝑛(𝑉𝑎𝑟𝑂𝑏𝑗 ∙ 𝐶𝑜𝑛𝑑)𝑛(𝑉𝑎𝑟𝑂𝑏𝑗)
dondePossontodoslosejemplosdelvalordelavariableobjetivoqueseestáanalizandon(VarObj).EstamedidadecalidadseutilizaparaevaluarlacalidaddelossubgruposenelespacioROC(ReceiverOperatingCharacteristic).Lamedidadesensibilidadcombinalaprecisiónygeneralidadgeneradaparaunvalordelavariableobjetivo.
• Atipicidad:Estamedidasedefinecomolaprecisiónrelativaconpesos
[Lavracetal,1999].Sepuedecalcularcomo:
𝐴𝑡𝑖𝑝 𝑅 =𝑛(𝐶𝑜𝑛𝑑)
𝑛!𝑛(𝑉𝑎𝑟𝑂𝑏𝑗 ∙ 𝐶𝑜𝑛𝑑)
𝑛(𝐶𝑜𝑛𝑑) ∙𝑛(𝑉𝑎𝑟𝑂𝑏𝑗)
𝑛!
Laatipicidaddeunareglasepuededescribircomoelbalanceentrelacoberturadelareglap(Condi)ysugananciadeprecisiónp(VarObj-Cond)-p(VarObj).
2.3.4.NMEEF-SDElalgoritmoutilizadoenestetrabajosedenominaNMEEF-SD,queprovienedelasinicialesdeNon-dominatedMulti-objectiveEvolutionaryalgorithmforExtractingFuzzyrulesinSubgroupDiscovery[Carmonaetal,2010b].Estealgoritmoesunsistemadifusoevolutivo,en[Herrera,2008]sepuedeencontrarunaampliadescripcióndeestetipodesistemas.
ElobjetivoprincipaldelNMEEF-SDesextraersubgruposdescriptivosdifusosy/onítidos(dependiendodelanaturalezadelproblemaaresolver)queaportennovedad,precisióneinterpretabilidadalproblema.Elalgoritmoutilizamedidasdecalidaddereglasparaguiarelprocesodeaprendizaje,esdecirempleadiferentesmedidascomoobjetivosdelproceso,ytienecomoobjetivoobtenerreglasquealcancenvaloresadecuadosnosoloenestasmedidassinotambiénenotrosindicadoresdecalidadrelacionadosperonoconsideradosenesteprocesodebúsqueda.Además,estemodelopermiteelegirentreunconjuntodemedidascomosoporte,cobertura,relevancia,atipicidadyconfianza,lasmedidasdecalidadmásadecuadaspararesolverelproblemaplanteado.NMEEF-SDestáorientadoaresolverproblemasdedescubrimientodesubgruposyporelloutilizaoperadoresparaextraersubgrupossimpleseinterpretables,yconunaaltacalidadenlasmedidasestudiadas.ComoelobjetivogeneraldeNMEEF-SDesobtenerunconjuntodereglas,quedeberíansergeneralesyprecisas,elalgoritmoincluyecomponentesquepotencianestascaracterísticas.Másconcretamente,ladiversidadsemejoraenlapoblaciónutilizandounoperadordere-inicializaciónbasadaencobertura,ademásdelatécnicasdenichos(ladistanciadecrowdingeneloperadordeselección).Paraoptimizarlageneralidaddelossubgrupos,elalgoritmoincluyeoperadoresdeinicializaciónsesgadaymutaciónsesgada.Finalmente,parapotenciarlaprecisión,ademásdelosobjetivosempleadosporNMEEF-SDparaguiarelprocesoevolutivoysobrelasreglas,éstesolodevuelvecomosolucionesfinalesaquellasreglasquealcancenundeterminadoumbraldeconfianza.LaestructuradelasreglasutilizadasenelalgoritmoNMEEF-SDestábasadaenelusodelalógicadifusaparalarepresentacióndelasvariablescontinuas.Lasvariablescontinuassonconsideradascomovariableslingüísticas,ylosconjuntosdifusoscorrespondientesalasetiquetaslingüísticassepuedenespecificarporelusuarioodefinirsepormediodeunaparticiónuniformesielconocimientodelosexpertosnoestádisponible.ElalgoritmoNMEEF-SDpermitelaobtencióntantodereglasdifusascomonítidas,enfuncióndelanaturalezadelasvariablesdelproblemaaestudiar.Encasodetrabajarconvariablescontinuasseobtendránreglasdifusas,sisetrabajaconvariablesdiscretasseobtendránreglasnítidas,yencasodetrabajarenunproblemaconambostiposdevariablesseobtendránreglasquetendránamboscomponentes.3.ResultadosyDiscusiónElprincipalpropósitorealizadoenestetrabajosecentraenelestudiodeldiseñodelawebOrOliveSur.commediantetécnicasdemineríadeusoweb.EstastécnicassonaplicadasdentrodelprocesoKDDquesedivideendiferentesfases.Enconcreto,esteestudioserealizasiguiendolassiguientesfases:
3.1.Recopilaciónypre-procesamientodelosdatosLosdatossonobtenidosmediantelaherramientaGoogleAnalyticsdesdeelperiodo1deeneroa31dediciembreenelaño2011.Además,seaplicandiversosfiltrosenelconjuntodedatosdecaraaobtenersoloinstanciasconíndicesdereboteinferioresal100%.Estevaloreselporcentajedevisitasdeunapáginaúnicaovisitasenlasquelapersonadejaelportalenlamismapáginaenlaquellega,esdecir,soloseconsideranvisitadondelosusuarioshanvisitadolawebdurantemásdeunsegundo.Entotalelconjuntodedatosestácompuestopor8832instancias,juntocondistintaspropiedadesdelasvisitasquesedetallanacontinuación:
• Navegador:Estapropiedadcontieneelnombregenéricodelnavegador
utilizadoporelusuarioensuvisita.Entrelosposiblesvaloresquesepuedenencontrarsepuedever:InternetExplorer,MozillaFirefox,Chrome,Safari,etc.
• Tipodevisitante:Contieneeltipodevisitante.Estevalorpuedecontenerel
valordenuevovisitante(N)orecurrente(R).
• Palabraclave:Eslapalabraclavedeaccesoporpartedelusuarioalaweb.Todaslaspalabrasclaveshansidoclasificadasenseiscategorías.Hayqueremarcarquelaspalabrasclavesepuedenencontrarendistintosidiomas,perotodasellashansidoclasificadossiguiendolatraducciónenelinglés:
o Oliveoil:Estevalorcontienetodaslaspalabrasgenéricas
relacionadasconaceitedeoliva,comoporejemplo:buyoliveoil,ventadeaceite,aceiteecológico,huiled’olive,etc.
o Iberianproduct:Enestevalorseagrupantodaslaspalabras
genéricassobreproductosibéricoscomojamónibérico,comprarjamóndebellota,buyibéricoacorn-fedham,etc.
o Brand:Estapalabracontienetodaslasentradasrelacionadasala
marcadelosproductosdelcatálogocomoLaCasona,VerdeSalud,GámezPiñar,OrOlivesur,etc.
o Gift:Contienevaloresrelacionadosaregaloscomoboda,cestasde
navidad,etc.
o Other:Estevaloragrupatodoslosaccesosconpalabrasclavenoclasificadapreviamente.
o Nothing:Losaccesossinpalabrasclavesonclasificadosconesta
palabraclavecomoporejemplolosaccesosdirectos.
• Recurso:Estapropiedadindicaelrecursoutilizadoporelvisitanteparaaccederalaweb:
o Directo(D):Estevalorseutilizaparaaccesosrealizadosdirectosenlawebhttp://www.orolivesur.com
o MotordeBúsqueda(E):Estevalorseutilizaparaaccesosrealizados
atravésdemotoresdebúsquedacomoGoogle,YahoooBing,porejemplo.
o Correo(M):Indicaelaccesorealizadoatravésdecorreos
electrónicosconunenlacealaweb.
o Referencia(R):EstevalorseencuentraenaccesosrealizadosdesdeotraswebsconunenlacehaciaOrOliveSur.
o RedesSociales(N):Contienetodoslosaccesosrealizadosatravésde
redessocialescomoFacebook,Twitter,GooglePlus,etc.
• Nuevasvisitas:Indicaelnúmerodevisitasnuevasrealizadasconelmismonavegador,tipodevisitante,palabraclaveyrecurso.
• Páginasvistas:Indicaelnúmerodepáginasvistasporelusuarioconel
mismonavegador,tipodevisitante,palabraclaveyrecurso.
• Tiempoporvisita:Estapropiedadindicaeltiempoempleadoenlawebporlosusuariosconelmismonavegador,tipodevisitante,palabraclaveyrecurso.
• Visitas:Estapropiedadmuestraelnúmerodevisitasrealizadasconel
mismonavegador,tipodevisitante,palabraclaveyrecurso.
• Páginasvistasúnicas:Presentaelnúmerodepáginasúnicasporlosusuariosconelmismonavegador,tipodevisitante,palabraclaveyrecurso.
• Páginasvistasporvisita:Muestraelnúmerocompletodepáginasvistaspor
cadavisita.
• Páginasvistasúnicasporvisita:Muestraelnúmerocompletodepáginasúnicasvistasporcadavisita.
• Tiempoporpágina:Presentaeltiempoempleadoporcadausuariopor
páginavista.
3.2.MineríadedatosUnavezquelosdatoshansidopreparados,yaestánlistosparapasaralafasedemineríadedatosyaplicarelalgoritmoNMEEF-SD.ElprincipalobjetivodelaaplicacióndeNMEEF-SDesproporcionaralequipodedesarrolladoresdelportalweb,informaciónparamejorareldiseñodelawebe
incrementarelnúmerodevisitasrecibidas.Enconclusiónelobjetivoesmejorarlavisualizacióndelportalyaumentarlasventasyclientesenelfuturo.Estatécnicasehautilizadoendiferentesdominiosysehanobtenidomuybuenosresultados[Romeroetal,2009][Carmonaetal,2010a][Carmonaetal,2011a][Carmonaetal,2011b][Carmonaetal,2013].EnlaTabla1sedescribenlosparámetrosutilizadosporNMEEF-SDenelestudiorealizado.Tabla1.ParámetrosutilizadosporelalgoritmoNMEEF-SD
Tamañodelapoblación=50Númerodeevaluaciones=10000Probabilidaddecruce=60%Probabilidaddemutación=10%Confianzamínima=0.6Representacióndelasreglas=CanónicasEtiquetaslingüísticas=9{Bastantebajo,Muybajo,Bajo,Normal,Alto,MuyAlto,BastanteAlto}Objetivo1=SensibilidadObjetivo2=Atipicidad3.3.AnálisisyvalidacióndelosdatosEnestasecciónsepresentanlosresultadosobtenidosporelalgoritmoNMEEF-SDparalosdatosobtenidosdelawebhttp://www.OrOliveSur.com.Comoyahemosmencionadopreviamente,elobjetivodeldescubrimientodesubgruposesobtenerrelacionesatípicasenlosdatosconrespectoaunavariabledeinterésuobjetivo.Enconcretoparaesteproblema,seanalizanpropiedadescomopalabrasclave,recursosdetipodevisitante,porejemplocomovariableobjetivo.Acontinuación,lossubgruposmásrelevantesquesehanobtenidoenesteestudioparaelalgoritmoNMEEF-SDconrespectoadiferentesvariablesobjetivoysusmedidasdecalidadasociadassemuestranenlaTabla2.Enestatablasedescribenlasreglasylasmedidasdecalidadrelevancia(RELE),atipicidad(ATIP),sensibilidad(SENS)yconfianzadifusa(FCNF).
Tabla2.ReglasyresultadosobtenidosporNMEEF-SD
# Regla RELE ATIP SENS FCNFR1 SIrecurso=EENTONCESpalabraclave=
oliveoil1949.707 0.117 0.999 0.483
R2 SIrecurso=EENTONCESpalabraclave=Brand
1949.707 0.073 1.000 0.303
R3 SItiempo/páginasvistas=BajoENTONCESpalabraclave=nothing
3.920 0.001 0.999 0.448
R4 SItiempo=BajoENTONCESpalabraclave=nothing
11.175 0.005 0,982 0.486
R5 SIpalabraclave=nothingY páginasvistas=MuybajoY páginasvistas=MuybajoENTONCESrecurso=R
2216.810 0.090 0.996 0.373
R6 SIpalabraclave=nothingY únicaspáginasvistas=MuybajoENTONCESrecurso=R
2265.863 0.089 0.999 0.368
R7 SIpalabraclave=nothingY páginasvistas=MuybajoY page/visits=MuybajoENTONCESrecurso=R
2216.810 0.090 0.996 0.372
R8 SIpalabraclave=nothingY únicaspáginasvistas=MuybajoY únicaspage/visits=MuybajoENTONCESrecurso=R
2265.863 0.089 0.999 0.368
R9 SItipovisitante=NY únicaspáginasvistas=BajoENTONCESrecurso=E
90.077 0.038 0.658 0.653
R10 SInavegador=IEY páginasvistas=BajoENTONCESrecurso=E
137.419 0.057 0.575 0.709
R11 SInuevasvisitas=0 ENTONCEStipovisitante=R
2819.825 0.229 1.000 1.000
ComosepuedeobservarenlosresultadosobtenidosporNMEEF-SD,hayunagrannúmerodereglasconvaloresaceptablesenlamayoríademedidasdecalidad.AunquealgunasreglascomoR11esobviayaquesilosvisitantesnosonnuevoselconsecuenteesquelosusuariossonrecurrentes,nosayudanamostrarelcorrectofuncionamientodelalgoritmo.Entretodaslasreglasobtenidasporelalgoritmo,esinteresanteremarcarquelosusuariosqueaccedendirectamentealaweb,esdecirsinutilizaspalabrasclavecomoindicanlasreglasR3yR4,permanecenenlawebduranteuntiempoaceptableenlawebyeltiempoporpáginaesmuyinteresante.Además,lasreglasR5,R6,R7yR8muestranquelaspáginaswebquehacenreferenciaaOrOliveSur,talescomodirectoriosoblogs,sonvisitasconnúmeromuybajodepáginasvistasypáginasúnicasvistas.Enestesentido,elequipodedesarrolladoresdebemejorarladescripciónylaimagendeOrOliveSurenestaspáginasporqueesprobablequelosusuariosnoencuentrenloqueesperabanunavezlleganalaweb.Juntoatodoesto,lareglamásdestacadadescubiertaporelalgoritmoNMEEF-SDeslautilizacióndelnavegadorInternetExplorerporlamayoríadeusuarioquevisitanOrOliveSurmediantemotoresdebúsquedacomoGoogleoYahoo,porejemplo.Estosusuariosvisitanunamplionúmerodepáginasdentrodelportal.Enestesentido,recomendamosalequipodedesarrolladoresaanalizareldiseñodelawebparacomprobarquesemuestracorrectamenteenestenavegadorencualquierversión.
4.ConclusionesEnestetrabajosehapresentadounestudiobasadoentécnicasdemineríadedatosendatos,paraanalizarelaccesodeusuariosaunportaldeventadeaceitedeolivaonline.ElpropósitoeraextraerconocimientosobrelainformacióndeaccesodelosusuariosalportaldecomercioelectrónicoOrOliveSur.com.LosdatoshansidoobtenidosmedianteherramientasdeanalíticaquefacilitanlaobtencióndelosmismoscomoGoogleAnalytics.Lacombinacióndemineríadedatosendatosprovenientesdeaccesodeusuariosenweb,secatalogacomomineríaweb.Enconcreto,enesteestudiosehapresentadounestudiodemineríadeusowebrealizadomedianteelalgoritmoNMEEF-SDparalaobtencióndesubgruposdifusosconrespectoadiferentesvariablesobjetivocomorecursodeacceso,palabraclavedeacceso,etc.Losresultadosobtenidosmuestrandosfactoresclave:
• Primero,elequipodedesarrolladoresdebenprestarespecialatenciónalosvisitantesquellegandesdepáginasdereferenciaporquepermanecenmuypocotiempoenelportal.
• Segundo,lamayoríadevisitasvienendesdeelnavegadorInternetExplorer.Ademásestasvisitassonusuariosquenaveganduranteunbuenperiododetiempoatravésdelaweb.
5.AgradecimientosEstetrabajohasidosoportadoporelMinisteriodeEconomíayCompetitividadbajoelproyectoTIN-2012-33856(FondosFEDER),porelPlanAndaluzdeInvestigaciónbajoelproyectoTIC-3928(FondosFEDER),porelPlandeInvestigacióndelaUniversidadbajoelproyectoUJA2010/13/07ypatrocinadoporlaCajaRuraldeJaén.6.Bibliografía
• [Atzmuelleretal,2004]Atzmueller,M.,Puppe,F.&Buscher,H.P.(2004):TowardsKnowledge-IntensiveSubgroupDiscovery.InProceedingsoftheLernen-Wissensentdeckung-Adaptivität-FachgruppeMaschinellesLernen,(pp.111–117).
• [Carmonaetal,2010a]Carmona,C.J.,González,P.,DelJesus,M.J.,Romero,C.,&Ventura,S.(2010).Evolutionaryalgorithmsforsubgroupdiscoveryappliedtoe-learningdata.InProceedingsoftheIEEEinternationaleducationengineering(pp.983–990).
• [Carmonaetal,2010b]Carmona,C.J.,González,P.,DelJesus,M.J.,&Herrera,F.(2010).NMEEF-SD:Nondominatedmulti-objectiveevolutionaryalgorithmforextractingfuzzyrulesinsubgroupdiscovery.IEEETransactionsonFuzzySystems,18,958–970.
• [Carmonaetal,2011a]Carmona,C.J.,González,P.,DelJesus,M.J.,Navío,M.,&Jiménez,L.(2011).Evolutionaryfuzzyruleextractionforsubgroup
discoveryinapsychiatricemergencydepartment.SoftComputing,15,2435–2448.
• [Carmonaetal,2011b]Carmona,C.J.,González,P.,DelJesus,M.J.,&Ventura,S.(2011).Subgroupdiscoveryinane-learningusagestudybasedonMoodle,InProceedingsoftheinternationalconferenceofEuropeantransnationaleducation(pp.446–451).
• [Carmonaetal,2013]CarmonaCJ,ChrysostomouC,SekerH,delJesusMJ.(2013).FuzzyRulesforDescribingSubgroupsfromInfluenzaAVirusUsingaMulti-objectiveEvolutionaryAlgorithm.AppliedSoftComputing,13,3439-3448.
• [Cooleyetal,1997]Cooley,R.,Mobasher,B.,&Srivastava,J.(1997).Webmining:InformationandpatterndiscoveryontheWorldWideWeb.OnToolswithArtificialIntelligence,558–567.
• [Cooleyetal,1999]Cooley,R.,Mobasher,B.,&Srivastava,J.(1999).DatapreparationforminingWorldWideWebbrowsingpatterns.KnowledgeandInformationSystems,1,5–32.
• [Debetal,2002]Deb,K.,Pratap,A.,Agrawal,S.,&Meyarivan,T.(2002).Afastandelitistmultiobjectivegeneticalgorithm:NSGA-II.IEEETransactionsEvolutionaryComputation,6,182–197.
• [DelJesusetal,2007]DelJesus,M.J.,González,P.,Herrera,F.&Mesonero,F.(2007)EvolutionaryFuzzyRuleInductionProcessforSubgroupDiscovery:Acasestudyinmarketing.IEEETransactionsonFuzzySystems,15(4),578–592.
• [Etzioni,1996]Etzioni,O.(1996).TheWorldWideWeb:Quagmineorgoldmine.CommunicationsoftheACM,39,65–68.
• [FaccaandLanzi,2005]Facca,F.M.,&Lanzi,P.L.(2005).MiningInterestingKnowledgefromWeblogs:ASurvey,53,225–241.
• [Fayyadetal,1996]Fayyad,U.M.,Piatetsky-Shapiro,G.,&Smyth,P.(1996).Fromdataminingtoknowledgediscovery:Anoverview.InAdvancesinknowledgediscoveryanddatamining(pp.1–34).AAAI/MITPress.
• [GambergerandLavrac,2003]Gamberber,D.&Lavrac,N.(2003)Activesubgroupmining:acasestudyincoronaryheartdiseaseriskgroupdetection.ArtificialIntelligenceinMedicine,2003,28(1),27–57.
• [Han,2005]Han,J.(2005).Datamining:Conceptsandtechniques.MorganKaufmannPublishersInc.
• [Herrera,2008]HerreraF.(2008).Geneticfuzzysystems:taxomony,currentresearchtrendsandprospects.EvolutionaryIntelligence,1,27–46.
• [Herreraetal,2011]Herrera,F.,Carmona,C.J.,González,P.,&DelJesus,M.J.(2011).Anoverviewonsubgroupdiscovery:Foundationsandapplications.KnowledgeandInformationSystems,29,495–525.
• [Kloesgen,1996]Kloesgen,W.(1996).Explora:Amultipatternandmultistrategydiscoveryassistant.InAdvancesinknowledgediscoveryanddatamining(pp.249–271).AmericanAssociationforArtificialIntelligence.
• [KloesgenandMay,2002]Kloesgen,W.&May,M.(2002)CensusDataMining-Anapplication.InProceedingsofthe6thEuropeanConferenceonprinciplesofdataminingandknowledgediscovery,pp.65–79.
• [KosalaandBockeel,2000]Kosala,R.,&Bockeel,H.(2000).Webminingresearch:Asurvey.SIGKDDExplorations,2,1–15.
• [Lavracetal,1999]Lavrac,N.,Flach,P.A.&Zupan,B.(1999)RuleEvaluationMeasures:AUnifyingView.InProceedingsofthe9thInternationalWorkshoponInductiveLogicProgramming,vol.1634LNCS,pp.174–185.Springer.
• [Lavracetal,2004]Lavrac,N.,Cestnik,B.,Gamberger,D.&Flach,P.A.(2004)DecisionSupportThroughSubgroupDiscovery:ThreeCaseStudiesandtheLessonsLearned.MachineLearning,57(1-2),115–143.
• [Liu,2006]Liu,B.(2006).Webdatamining:Exploringhyperlinks,contents,andusagedata(datacentricsystemsandapplications).Springer-Verlag.
• [MarkovandLarose,2007]Markov,Z.,&Larose,D.T.(2007).Dataminingtheweb.Uncoveringpatternsinwebcontent,structureandusage.Wiley-Interscience.
• [Mobasher,2005]Mobasher,B.(2005).Webusageminingandpersonalization.CRCPress,LLC.
• [Moral-PajaresandLanzas-Molina,2009]Moral-Pajares,E.,&Lanzas-Molina,J.R.(2009).LaexportaciondeaceitedeolivavirgenenAndalucia:Dinamicayfactoresdeterminantes.RevistadeEstudiosRegionales,86.
• [Romeroetal,2009]Romero,C.,González,P.,Ventura,S.,DelJesus,M.J.,&Herrera,F.(2009).Evolutionaryalgorithmforsubgroupdiscoveryine-learning:ApracticalapplicationusingMoodledata.ExpertSystemswithApplications,36,1632–1644.
• [Soaresetal.2008]Soares,C.,Peng,Y.,Meng,J.,Washio,T.,&Zhou,Z.H.(Eds.).(2008).Applicationsofdataminingine-businessandfinance.Frontiersinartificialintelligenceandapplications.IOSPress.
• [Srivastavaetal,2000]Srivastava,J.,Cooley,R.,Deshpande,M.,&Tan,P.(2000).Webusagemining:Discoveryandapplicationsofusagepatternsfromwebdata.SIGKDDExplorations,12–23.
• [Wrobel,1997]Wrobel,S.(1997).Analgorithmformulti-relationaldiscoveryofsubgroups.InProceedingsofthe1stEuropeansymposiumonprinciplesofdataminingandknowledgediscovery(pp.78–87).Springer.
• [Wrobel,2001]Wrobel,S.(2001).Inductivelogicprogrammingforknowledgediscoveryindatabases.Springer[ChapterRelationalDataMining,pp.74–101].