Anda di halaman 1dari 6

1.

Contestar:
a. Queslamineradedatosyqueotrosnombrestiene?

Eselprocesodedescubrirpatronesinteresantesyconocimientoengrandes
cantidadesdedatos.Lasfuentesdedatospuedenincluirbasesde
datos,almacenesdedatos,laweb,repositoriosdeinformacinodatosqueson
transmitidosporstreamingdinmicamenteelsistema.Alamineradedatos
tambinseleconocecomo:knowledgeminingfromdata(minerade
conocimientoapartirdedatos),knowledgeextraction(extraccinde
conocimiento),data/patternanalysis(anlisisdedatos/patrones),data
archaeology(arqueologadedatos)ydatadredging(dragadodedatos).

b. Cualessonlospasosdeunprocesodedescubrimientodeconocimiento?De
unaexplicacincortadecadapaso
i. Datacleaning(Limpiezadedatos):pararemoverelruidoydatos
inconsistentes.
ii. Dataintegration(Integracindedatos):secombinandatosdediferentes
fuentes
iii. Dataselection(seleccindedatos):seescogenlosdatosrelevantesala
investigacin.
iv. Datatransformation(transformacindedatos):dondelosdatosson
consolidadoseninformacinapropiadaparalamineradeconocimientoa
travsderesmenes.
v. Datamining(mineradedatos):unprocesoesencialdondemetodos
inteligentessonaplicadosparaextraerpatronesdedatos.
vi. Patternevaluation(evaluacindepatrones):paraidentificarlospatrones
msinteresantesdeconocimientomidiendolosconinteresometros.
vii. Knowledgepresentation(presentaciondelconocimiento):dondetecnicas
devisualizacinyrepresentacinsonusadasparaexponerel
conocimientominadoalosusuarios.

c. Cualessonloscomponentestpicosdeunarquitecturatpicadeunsistemade
mineradedatos?Deunaexplicacincortadecadauno
i. Basesdedatos:sealmacenalainformacinsinprocesar
ii. Almacenesdedatos:sealmacenanlosdatosdespusdeunpreproceso
delimpiado
iii. Algoritmodemineradedatos:filtralosdatosyencuentrapatrones
iv. Interfazgrficadondesepresentanelconocimiento

2. Enqutipodedatosseusalamineradedatos?Hagaunaexplicacinresumidade
cadatipo

Lamineradedatossepuedeusarencualquiertipodedatosiempreycuandotenga
sentidoenlaaplicacinaunameta.Lasformasmsbsicasdedatosparalaminera
son:
a. Datosdebasesdedatos:Unsistemadebasededatosconsisteenuna
coleccindedatosinterrelacionadosconocidoscomobasededatosyunsetde
programasdesoftwareparamanejaryaccederalosdatos.Elsoftwareprovee
herramientasparadefinirlaestructuradelabasededatosyparaespecificary
manejarunaccesoconcurrentecompartidoodistribuidoyparaasegurarla
seguridadyconsistenciadelainformacincontenidaenella.

b. Almacenesdedatos:repositoriodeinformacinreunidodediferentesfuentes,
almacenadobajounesquemaunificadoyusualmentelocalizadoenunsolositio.
Losalmacenesdedatossonconstruidosmedianteelprocesodelimpiezade
datos,integracindedatos,transformacindedatos,cargadedatosy
actualizacinperidicadeestos.

c. Datostransaccionales:Engeneralcadaregistroenunabasededatos
transaccionalalmacenaunatransaccindealgnclientecomounacompra,una
reservadevuelosolosclicksdeunusuarioenunapgina.Unatransaccin
tpicamenteseconstituyedeunidentificadordetransaccinyunalistadetems
quecomponenlatransaccincomolosobjetosqueseadquirieron.
d. Otrostiposdedatos:Haymuchasclasesdedatosademsdeestasquepueden
serminadas,talescomodatosrelacionadosconeltiempoosecuencias,flujos
dedatos,datosespaciales(mapas),datosdeingenieraydiseo,hipertextoy
datosdemultimedia,grficosydatosderedes,ylaweb.

3. Quetiposdepatronessepuedenexplorar?Hagaunaexplicacinydeunejemplode
cadatipo.
a. Discriminacinporclase/concepto:caracterizacinydiscriminacin
Losdatospuedenserasociadosconclasesyconceptospuedesertilpara
describirclasesindividualesyconceptosresumidamenteyaunasienterminos
precisos.Estosconceptosydescripcionessonllamadosdescripcinpor
clase/concepto,estasdescripcionessepuedenhacerpordosformas.

i. Caracterizacindelosdatos:resumiendolosdatosbajolaclasea
observarllamadatargetclass,entrminosgenerales,esunresumende
lascaractersticasgeneralesdelaclase,porejemploparaestudiarlas
caractersticasdelasventasdeproductosdesoftwarequesubieronsus
ventasenun10%elaopasadopodemosejecutarunabsquedaenla
basededatos.Elresultadodeestepatrndebsquedalopodemos
representarenvariadasformascomogrficasdebarras,decurvasopie,
ocubosmultidimensionalesdedatos.

ii. Discriminacindedatos:estemtodoconsisteenlacomparacindelas
caractersticasdelatargetclassconunconjuntodecaractersticas
generalesdeunaclaseopuesta.Lasclasesobjetivoydecontraste
puedenserespecificadasporelusuarioylosdatossepuedenobtener
mediantebsquedasenlabasededatos,porejemplo,alusuariole
podrainteresarcompararlascaractersticasdeproductosdesoftware
quesubieronsusventasun10%elaopasado,conlosquebajaronen
msde30%susventas.Losmtodosusadosenladiscriminacinde
datossonsimilaresalosdelacaracterizacin.

b. Patronesfrecuentes
Sonpatronesqueocurrenfrecuentementeenlosdatos,haymuchostiposde
patronesquesonfrecuentes,incluyendoconjuntosdetems,subsecuenciasy
subestructuras.Unconjuntodetemsfrecuentecorrespondealosobjetosque
frecuentementeaparecenjuntosenlamismatransaccincomoelpanyla
leche.Porejemplo:

compra(x,computador)=>compra(x,software)[apoyo=1%,confianza=50%]

Dondexesunavariablequerepresentaalcliente,unaconfianzadel50%
significaquesiunclientecomprauncomputadorhayun50%deposibilidadde
quecompresoftwareyun1%deapoyosignificaqueenun1%detodaslas
transaccionesbajoanlisisqueelcomputadoryelsoftwarefueroncomprados
juntos.

c. Clasificacinyprediccin
Clasificacineselprocesodeencontrarunmodeloquedescribaydiferencie
clases/conceptosdedatosparaelpropsitodeusarelmodeloparapredecirlas
etiquetasdeclasesdedatosquesondesconocidas,elmodeloderivadoesta
basadoenelanlisisdeunconjuntodedatosenentrenamiento(datoscuya
etiquetadeclaseesdesconocida).
Elmodeloderivadopuedeserpresentadoendiferentesformascomo
clasificacinporreglasde(IFTHEN),rbolesdedecisin,frmulasmatemticas,
oredesneuronales.Aunquelaclasificacinpuedepredeciretiquetas
desordenadasydiscretas,yencontrastelaprediccinproducevaloresde
funcionescontinuas.Ejemplo,sequierepredecirdeacuerdoconunacampaa
larespuestadelosclientes,tambinsequieredeterminarcualeselfactorque
mspesaenlacompradeartculos(precio,lugardefabricacin,marca)y
clasificarlosen3clases(a,b,c).Larepresentacindeestotienemuchasformas,
aquunadeellas.

Laclasificacinposteriordistinguecadaclasedeotrasyidentificaelpreciocomo
elfactormsimportanteenladecisindelascompras.

d. Anlisisdecluster
Adiferenciadelanlisisdeclasificacinyprediccin,queanalizaclasesya
etiquetadasdeinformacin,elclusteringanalizadatossinconsultarsuetiquetao
conunetiquetadesconocida.Elclusteringgenera
estasetiquetas.

Losobjetossonagrupadosbasadosenelprincipiode
maximizarlascaractersticasysimilitudentres,pero
queseanmuydismilesdeotrosobjetosdeotros
clusters,cadaclusterformadopuedeservistocomo
ununaclasedeobjetodedondesepuedenderivar
reglas.Porejemplo,podemosutilizarelanlisisde
clusterenunatiendadeelectrnicaparaidentificar
subpoblacioneshomogneasdecompradores.Estospuedenrepresentargrupos
objetosparahacermarketing.

e. AnlisisdeOutlier(valoresatpicos)
Unabasededatospuedecontenerobjetosquenocumplanconel
comportamientogeneralomodelodedatos.Estosobjetossonvaloresatpicos.
Lamayoradedemtodosdemineradedatosdescartanestoscomoruidoo
excepciones.SInembargoenalgunasaplicacionescomodeteccindefraude,
loseventosrarospuedensermsinteresantesquelosquepasanhabitualmente.
Porejemplo,unanlisisdeoutlierpuededetectarusofraudulentodetarjetasde
crdito,registrandocomprasdemuyaltovalorenunperiododetiempocortoa
comparaciondelasquegeneralmenteselecarganalatarjetadecrdito.

f. AnlisisdeEvolucin
Describeymodelalastendenciasparaobjetoscuyocomportamientocambia
coneltiempo.Estosanlisispuedenincluirtodoslospatronesanteriores,tienen
unagregadoparticulardeanlisisdedatoseneltiempo,emparejamientode
periodosyfrecuenciasyanlisisdesimilaridad.Porejemplo:
Supongamosquetenemosunabasededatosdebolsasdevaloresdelos
ltimosaosyqueremosinvertirenempresasdealtatecnologa.Unanlisisde
mineradedatospodraidentificarlaevolucinregulardealgunosmercadosyde
valoresdeempresasparticulares.

4. Cualessonlascuestionesimportantesencuantoalametodologadelaminerade
datoseinteraccinconelusuario?Hagaunaexplicacinresumidadecadacuestin.

a. Minardiferentestiposdedatosenbasesdedatos

Porquediferentesusuariospuedenestarinteresadosendiferentestiposde
basesdedatos,lamineradedatosdeberacubrirunanchoespectrodelanlisis
dedatosytareasdeldescubrimientodelconocimiento.Todaslastcnicasde
patronesusanlamismabasededatosenformasdiferentesyrequierenel
desarrollodediferentesherramientasdeminadodedatos.

b. Minadointeractivoenmltiplesnivelesdeabstraccin

Porqueesdifcilsaberdeprimeraconocimientopuedeestarescondidoenuna
basededatoselprocesodeminadodedatosdebeserinteractivo.Parabasesde
datosquecontieneninmensascantidadesdedatos,tcnicasdemuestreo
sencillaspuedenseraplicadasprimeroparafacilitarlaexploracininteractivade
datos.Elminadointeractivolepermitealosusuariosenfocarseenlabsqueda
depatrones,proporcionandoyrefinandolaspeticionesdeminadodedatos
basadoenlosresultadosqueretorna.

c. Incorporacindeconocimientodefondo

Informacindefondoodatosqueconciernenaltemaquesequiereestudiar
puedenserusadosparaguiarelprocesodedescubrimientoypermitirqueel
conocimientoestudiadoseaexpresadoentrminosprecisosydiferentesniveles
deabstraccin.

d. Lenguajesdeconsultademinadodedatosyminadodedatosconpropsito

LoslenguajesrelacionalesdebasesdedatoscomoSQLpermitenalosusuarios
formularpreguntasconpropsitoparalarecuperacindedatos,enuncamino
similar,lenguajesdemineradedatosdealtoniveldebenserdesarrolladospara
permitiralosusuariosusarconsultasadhocfacilitandolaespecificacindelos
conjuntosrelevantesdereglasydatosparaelanlisis,eldominiodel
conocimientoylostiposdeconocimientosaminar.

e. Presentacinyvisualizacindelosresultadosdelminadodedatos

Elconocimientodescubiertodeberiaserexpresadoenlenguajesdealtonivel,
representacionesvisualesootrasformasdeexpresinparaqueelconocimiento
puedaserfcilmenteentendidoydirectamenteusableporhumanos.Estoes
especialmentecrucialsilamineradedatosapuntaaserinteractiva.Esto
requierequelossistemasadaptenformasexpresivasderepresentacincomo
tablas,rbolesygrficas.

f. Manejarinformacinruidosaoincompleta

Losdatosalmacenadosenunabasededatospuedencontenerruido,datos
incompletosoexcepciones.Cuandoseminaporregularidadesestopuede
confundirelprocesocausandoquesesobreajusteelmodeloresultante.Como
resultadolaprecisindelmodelopuedeserpobre.Mtodosdelimpiezay
mtodosdeanlisisdedatosquepuedanmanejarelruidosonnecesarios.

g. Evaluacindepatroneselproblemadecuninteresante.

Unsistemademinerapuederevelarmilesdepatrones,peromuchosdeestos
puedenserdepocointersparaelusuario,yaseaporquerepresentan
conocimientocomnofaltadenovedad.Muchosretosquedanrespectoael
desarrollodetcnicasqueasesorenyjuzguenqupatronessonms
interesantesentrelosdescubiertos,particularmenteavaloressubjetivosque
estimenelvalordelospatronesconrespectoasuclasedadabasadoen
creenciasdeelusuariooexpectativa.

Anda mungkin juga menyukai