Contestar:
a. Queslamineradedatosyqueotrosnombrestiene?
Eselprocesodedescubrirpatronesinteresantesyconocimientoengrandes
cantidadesdedatos.Lasfuentesdedatospuedenincluirbasesde
datos,almacenesdedatos,laweb,repositoriosdeinformacinodatosqueson
transmitidosporstreamingdinmicamenteelsistema.Alamineradedatos
tambinseleconocecomo:knowledgeminingfromdata(minerade
conocimientoapartirdedatos),knowledgeextraction(extraccinde
conocimiento),data/patternanalysis(anlisisdedatos/patrones),data
archaeology(arqueologadedatos)ydatadredging(dragadodedatos).
b. Cualessonlospasosdeunprocesodedescubrimientodeconocimiento?De
unaexplicacincortadecadapaso
i. Datacleaning(Limpiezadedatos):pararemoverelruidoydatos
inconsistentes.
ii. Dataintegration(Integracindedatos):secombinandatosdediferentes
fuentes
iii. Dataselection(seleccindedatos):seescogenlosdatosrelevantesala
investigacin.
iv. Datatransformation(transformacindedatos):dondelosdatosson
consolidadoseninformacinapropiadaparalamineradeconocimientoa
travsderesmenes.
v. Datamining(mineradedatos):unprocesoesencialdondemetodos
inteligentessonaplicadosparaextraerpatronesdedatos.
vi. Patternevaluation(evaluacindepatrones):paraidentificarlospatrones
msinteresantesdeconocimientomidiendolosconinteresometros.
vii. Knowledgepresentation(presentaciondelconocimiento):dondetecnicas
devisualizacinyrepresentacinsonusadasparaexponerel
conocimientominadoalosusuarios.
c. Cualessonloscomponentestpicosdeunarquitecturatpicadeunsistemade
mineradedatos?Deunaexplicacincortadecadauno
i. Basesdedatos:sealmacenalainformacinsinprocesar
ii. Almacenesdedatos:sealmacenanlosdatosdespusdeunpreproceso
delimpiado
iii. Algoritmodemineradedatos:filtralosdatosyencuentrapatrones
iv. Interfazgrficadondesepresentanelconocimiento
2. Enqutipodedatosseusalamineradedatos?Hagaunaexplicacinresumidade
cadatipo
Lamineradedatossepuedeusarencualquiertipodedatosiempreycuandotenga
sentidoenlaaplicacinaunameta.Lasformasmsbsicasdedatosparalaminera
son:
a. Datosdebasesdedatos:Unsistemadebasededatosconsisteenuna
coleccindedatosinterrelacionadosconocidoscomobasededatosyunsetde
programasdesoftwareparamanejaryaccederalosdatos.Elsoftwareprovee
herramientasparadefinirlaestructuradelabasededatosyparaespecificary
manejarunaccesoconcurrentecompartidoodistribuidoyparaasegurarla
seguridadyconsistenciadelainformacincontenidaenella.
b. Almacenesdedatos:repositoriodeinformacinreunidodediferentesfuentes,
almacenadobajounesquemaunificadoyusualmentelocalizadoenunsolositio.
Losalmacenesdedatossonconstruidosmedianteelprocesodelimpiezade
datos,integracindedatos,transformacindedatos,cargadedatosy
actualizacinperidicadeestos.
c. Datostransaccionales:Engeneralcadaregistroenunabasededatos
transaccionalalmacenaunatransaccindealgnclientecomounacompra,una
reservadevuelosolosclicksdeunusuarioenunapgina.Unatransaccin
tpicamenteseconstituyedeunidentificadordetransaccinyunalistadetems
quecomponenlatransaccincomolosobjetosqueseadquirieron.
d. Otrostiposdedatos:Haymuchasclasesdedatosademsdeestasquepueden
serminadas,talescomodatosrelacionadosconeltiempoosecuencias,flujos
dedatos,datosespaciales(mapas),datosdeingenieraydiseo,hipertextoy
datosdemultimedia,grficosydatosderedes,ylaweb.
3. Quetiposdepatronessepuedenexplorar?Hagaunaexplicacinydeunejemplode
cadatipo.
a. Discriminacinporclase/concepto:caracterizacinydiscriminacin
Losdatospuedenserasociadosconclasesyconceptospuedesertilpara
describirclasesindividualesyconceptosresumidamenteyaunasienterminos
precisos.Estosconceptosydescripcionessonllamadosdescripcinpor
clase/concepto,estasdescripcionessepuedenhacerpordosformas.
i. Caracterizacindelosdatos:resumiendolosdatosbajolaclasea
observarllamadatargetclass,entrminosgenerales,esunresumende
lascaractersticasgeneralesdelaclase,porejemploparaestudiarlas
caractersticasdelasventasdeproductosdesoftwarequesubieronsus
ventasenun10%elaopasadopodemosejecutarunabsquedaenla
basededatos.Elresultadodeestepatrndebsquedalopodemos
representarenvariadasformascomogrficasdebarras,decurvasopie,
ocubosmultidimensionalesdedatos.
ii. Discriminacindedatos:estemtodoconsisteenlacomparacindelas
caractersticasdelatargetclassconunconjuntodecaractersticas
generalesdeunaclaseopuesta.Lasclasesobjetivoydecontraste
puedenserespecificadasporelusuarioylosdatossepuedenobtener
mediantebsquedasenlabasededatos,porejemplo,alusuariole
podrainteresarcompararlascaractersticasdeproductosdesoftware
quesubieronsusventasun10%elaopasado,conlosquebajaronen
msde30%susventas.Losmtodosusadosenladiscriminacinde
datossonsimilaresalosdelacaracterizacin.
b. Patronesfrecuentes
Sonpatronesqueocurrenfrecuentementeenlosdatos,haymuchostiposde
patronesquesonfrecuentes,incluyendoconjuntosdetems,subsecuenciasy
subestructuras.Unconjuntodetemsfrecuentecorrespondealosobjetosque
frecuentementeaparecenjuntosenlamismatransaccincomoelpanyla
leche.Porejemplo:
compra(x,computador)=>compra(x,software)[apoyo=1%,confianza=50%]
Dondexesunavariablequerepresentaalcliente,unaconfianzadel50%
significaquesiunclientecomprauncomputadorhayun50%deposibilidadde
quecompresoftwareyun1%deapoyosignificaqueenun1%detodaslas
transaccionesbajoanlisisqueelcomputadoryelsoftwarefueroncomprados
juntos.
c. Clasificacinyprediccin
Clasificacineselprocesodeencontrarunmodeloquedescribaydiferencie
clases/conceptosdedatosparaelpropsitodeusarelmodeloparapredecirlas
etiquetasdeclasesdedatosquesondesconocidas,elmodeloderivadoesta
basadoenelanlisisdeunconjuntodedatosenentrenamiento(datoscuya
etiquetadeclaseesdesconocida).
Elmodeloderivadopuedeserpresentadoendiferentesformascomo
clasificacinporreglasde(IFTHEN),rbolesdedecisin,frmulasmatemticas,
oredesneuronales.Aunquelaclasificacinpuedepredeciretiquetas
desordenadasydiscretas,yencontrastelaprediccinproducevaloresde
funcionescontinuas.Ejemplo,sequierepredecirdeacuerdoconunacampaa
larespuestadelosclientes,tambinsequieredeterminarcualeselfactorque
mspesaenlacompradeartculos(precio,lugardefabricacin,marca)y
clasificarlosen3clases(a,b,c).Larepresentacindeestotienemuchasformas,
aquunadeellas.
Laclasificacinposteriordistinguecadaclasedeotrasyidentificaelpreciocomo
elfactormsimportanteenladecisindelascompras.
d. Anlisisdecluster
Adiferenciadelanlisisdeclasificacinyprediccin,queanalizaclasesya
etiquetadasdeinformacin,elclusteringanalizadatossinconsultarsuetiquetao
conunetiquetadesconocida.Elclusteringgenera
estasetiquetas.
Losobjetossonagrupadosbasadosenelprincipiode
maximizarlascaractersticasysimilitudentres,pero
queseanmuydismilesdeotrosobjetosdeotros
clusters,cadaclusterformadopuedeservistocomo
ununaclasedeobjetodedondesepuedenderivar
reglas.Porejemplo,podemosutilizarelanlisisde
clusterenunatiendadeelectrnicaparaidentificar
subpoblacioneshomogneasdecompradores.Estospuedenrepresentargrupos
objetosparahacermarketing.
e. AnlisisdeOutlier(valoresatpicos)
Unabasededatospuedecontenerobjetosquenocumplanconel
comportamientogeneralomodelodedatos.Estosobjetossonvaloresatpicos.
Lamayoradedemtodosdemineradedatosdescartanestoscomoruidoo
excepciones.SInembargoenalgunasaplicacionescomodeteccindefraude,
loseventosrarospuedensermsinteresantesquelosquepasanhabitualmente.
Porejemplo,unanlisisdeoutlierpuededetectarusofraudulentodetarjetasde
crdito,registrandocomprasdemuyaltovalorenunperiododetiempocortoa
comparaciondelasquegeneralmenteselecarganalatarjetadecrdito.
f. AnlisisdeEvolucin
Describeymodelalastendenciasparaobjetoscuyocomportamientocambia
coneltiempo.Estosanlisispuedenincluirtodoslospatronesanteriores,tienen
unagregadoparticulardeanlisisdedatoseneltiempo,emparejamientode
periodosyfrecuenciasyanlisisdesimilaridad.Porejemplo:
Supongamosquetenemosunabasededatosdebolsasdevaloresdelos
ltimosaosyqueremosinvertirenempresasdealtatecnologa.Unanlisisde
mineradedatospodraidentificarlaevolucinregulardealgunosmercadosyde
valoresdeempresasparticulares.
4. Cualessonlascuestionesimportantesencuantoalametodologadelaminerade
datoseinteraccinconelusuario?Hagaunaexplicacinresumidadecadacuestin.
a. Minardiferentestiposdedatosenbasesdedatos
Porquediferentesusuariospuedenestarinteresadosendiferentestiposde
basesdedatos,lamineradedatosdeberacubrirunanchoespectrodelanlisis
dedatosytareasdeldescubrimientodelconocimiento.Todaslastcnicasde
patronesusanlamismabasededatosenformasdiferentesyrequierenel
desarrollodediferentesherramientasdeminadodedatos.
b. Minadointeractivoenmltiplesnivelesdeabstraccin
Porqueesdifcilsaberdeprimeraconocimientopuedeestarescondidoenuna
basededatoselprocesodeminadodedatosdebeserinteractivo.Parabasesde
datosquecontieneninmensascantidadesdedatos,tcnicasdemuestreo
sencillaspuedenseraplicadasprimeroparafacilitarlaexploracininteractivade
datos.Elminadointeractivolepermitealosusuariosenfocarseenlabsqueda
depatrones,proporcionandoyrefinandolaspeticionesdeminadodedatos
basadoenlosresultadosqueretorna.
c. Incorporacindeconocimientodefondo
Informacindefondoodatosqueconciernenaltemaquesequiereestudiar
puedenserusadosparaguiarelprocesodedescubrimientoypermitirqueel
conocimientoestudiadoseaexpresadoentrminosprecisosydiferentesniveles
deabstraccin.
d. Lenguajesdeconsultademinadodedatosyminadodedatosconpropsito
LoslenguajesrelacionalesdebasesdedatoscomoSQLpermitenalosusuarios
formularpreguntasconpropsitoparalarecuperacindedatos,enuncamino
similar,lenguajesdemineradedatosdealtoniveldebenserdesarrolladospara
permitiralosusuariosusarconsultasadhocfacilitandolaespecificacindelos
conjuntosrelevantesdereglasydatosparaelanlisis,eldominiodel
conocimientoylostiposdeconocimientosaminar.
e. Presentacinyvisualizacindelosresultadosdelminadodedatos
Elconocimientodescubiertodeberiaserexpresadoenlenguajesdealtonivel,
representacionesvisualesootrasformasdeexpresinparaqueelconocimiento
puedaserfcilmenteentendidoydirectamenteusableporhumanos.Estoes
especialmentecrucialsilamineradedatosapuntaaserinteractiva.Esto
requierequelossistemasadaptenformasexpresivasderepresentacincomo
tablas,rbolesygrficas.
f. Manejarinformacinruidosaoincompleta
Losdatosalmacenadosenunabasededatospuedencontenerruido,datos
incompletosoexcepciones.Cuandoseminaporregularidadesestopuede
confundirelprocesocausandoquesesobreajusteelmodeloresultante.Como
resultadolaprecisindelmodelopuedeserpobre.Mtodosdelimpiezay
mtodosdeanlisisdedatosquepuedanmanejarelruidosonnecesarios.
g. Evaluacindepatroneselproblemadecuninteresante.
Unsistemademinerapuederevelarmilesdepatrones,peromuchosdeestos
puedenserdepocointersparaelusuario,yaseaporquerepresentan
conocimientocomnofaltadenovedad.Muchosretosquedanrespectoael
desarrollodetcnicasqueasesorenyjuzguenqupatronessonms
interesantesentrelosdescubiertos,particularmenteavaloressubjetivosque
estimenelvalordelospatronesconrespectoasuclasedadabasadoen
creenciasdeelusuariooexpectativa.