Anda di halaman 1dari 22

Universidad*Tcnica*Particular*de*Loja*

Campus*Universitario:*San*Cayetano*Alto*SN*
Seccin*Departamental,*Tecnologas*Avanzadas*de*la*Web*y*SBC*
Telf.:**(593*7)*3701444*
Loja*Q*Ecuador!

!
*
*
*
*
*
*
*
*
*
*
*
*

Generacin!de!datos!RDF!con!OpenRefine!
Gua

*
*
Versin*2.1*
*

Universidad*Tcnica*Particular*de*Loja*
Campus*Universitario:*San*Cayetano*Alto*SN*
Seccin*Departamental,*Tecnologas*Avanzadas*de*la*Web*y*SBC*
Telf.:**(593*7)*3701444*
Loja*Q*Ecuador!

NDICE'
OPENREFINE'Y'LINKED'DATA'

3!

INTRODUCCIN'

3!

PRESENTACIN!DE!OPENREFINE!

3!

LA!EXTENSIN!RDF!PARA!GOOGLE!REFINE!CREADA!POR!DERI!

4!

CREACIN'DE'PROYECTOS'EN'OPENREFINE'Y'GENERACIN'DE'
DATOS'RDF'
6!
EXPLICACIN'DEL'CASO'

6!

FASE'A:'CREAR'PROYECTO'EN'OPENREFINE'

8!

FASE'B:'MAPPING'A'PREDICADOS'DE'VOCABULARIOS'SELECCIONADOS'

9!

RECONCILIACIN'DE'DATOS'

19!

RECONCILIACIN'BASADA'EN'SPARQL'

21!

Universidad*Tcnica*Particular*de*Loja*
Campus*Universitario:*San*Cayetano*Alto*SN*
Seccin*Departamental,*Tecnologas*Avanzadas*de*la*Web*y*SBC*
Telf.:**(593*7)*3701444*
Loja*Q*Ecuador!

OpenRefine!y!Linked!Data!
Introduccin!
Presentacin!de!OpenRefine!
Open* Refine* (anteriormente* denominada* Google* Refine)* es* una* herramienta* creada* por*
Google* para* el* manejo* de* datos* desordenados,* ambiguos,* y* con* formatos* diferentes.*
Actualmente* es* soportado* como* un* proyecto* de* software* libre* por* la* comunidad* de*
voluntarios.**
Open* Refine* permite* limpiar* datos,* transformarlos* en* diferentes* formatos,* extendindolos*
como* servicios* Web,* * enlazar* datos* a* bases* de* datos* como* DBPedia* o* Freebase,* y*arreglar* y*
manejar*las*bases*para*un*mejor*uso.**
Como*se*puede*ver*en*la!Figura!1,*OpenRefine*es*similar*a*aplicaciones*de*Hoja*de*Clculo,*sin*
embargo*se*comporta*como*una*base*de*datos1.**

*
Figura!1.!Visualizacin!de!un!conjunto!de!datos!en!OpenRefine!

A*continuacin,*se*enlistan*algunas*de*sus*caractersticas:**

En* un* proyecto* Open* Refine* el* usuario* puede* filtrar* las* filas* utilizando* facetas* que*
definen*los*criterios*de*filtrado;*por*ejemplo,*presentar*las*filas*que*no*tengan*valores*
con*columnas*vacas.***
A* diferencia* de* las* hojas* de* clculo,* en* Google* Refine* no* hay* frmulas* que* se*
almacenen*en*las*celdas,*sino*frmulas*que*se*utilizan*para*transformar*los*datos.*Las*
expresiones*de*transformacin*se*pueden*escribir*en*el*lenguaje*GREL*(Google&Refine&
Expression&&Language).*
A*diferencia*de*las*hojas*de*clculo,*la*mayora*de*las*operaciones*se*hacen*en*todas*
las*filas*visibles,*por*ejemplo,*creacin*de*una*nueva*columna*basada*en*una*columna*
de*datos*existente.**
Todas*las*acciones*que*han*sido*aplicadas*a*un*conjunto*de*datos*son*almacenadas*en*
un*proyecto*y*pueden*ser*reproducidas*en*un*conjunto*de*datos*diferente.*

*************************************************************
1

*http://goo.gl/S18veo*

Universidad*Tcnica*Particular*de*Loja*
Campus*Universitario:*San*Cayetano*Alto*SN*
Seccin*Departamental,*Tecnologas*Avanzadas*de*la*Web*y*SBC*
Telf.:**(593*7)*3701444*
Loja*Q*Ecuador!

Funciona* como* ejecutable* sobre* cualquier* navegador* web* y* est* disponible*


para*Windows,*Mac*y*Linux.***
Puede*ayudar*a*explorar*grandes*conjuntos*de*datos*con*facilidad.*
Soporta*la*importacin*de*diferentes*formatos*de*archivos:*TCS,*CSV,*archivos*de*texto*
con*separadores*de*campo*personalizados*o*con*columna*de*ancho*fijo,*XML,*RDF*(en*
formatos*de*serializacin*RDF/XML*y*N3),*JSON,*Google*Spreadsheets*y*Google*Fusion*
Tables.* Adems* Open* Refine* tambin* puede* descargar* archivos* de* datos* desde* una*
URL*o*un*conjunto*de*URLs.*
OpenRefine* permite* exportar* los* datos* procesados* en* formatos* como:* TSV,* CSV,*
Microsoft*Excel,*tablas*HTML,*adems*es*posible*definir*una*plantilla*de*exportacin.*
Mediante*el*plugin*RDF&Extension,*tambin*es*posible*guardar*datos*RDF.*
Open*Refine*es*una*herramienta*potente*para*tareas*relacionadas*con*Linked*Data*a*
travs*de*la*extensin*de*exportacin*de*datos*a*RDF*y*la*extensin*de*reconciliacin*
de*datos*con*fuentes*de*datos*en*RDF.*

La!extensin!RDF!para!Google!Refine!creada!por!DERI!
La*extensin*RDF*aade*una*interfaz*grfica*de*usuario*a*Google*Refine,*para*la*exportacin*de*
datos*como*datos*RDF*interQrelacionados.*Si*se*dispone*de*una*fuente*de*datos*estructurada*
se*puede*utilizar*GoogleRefine*para*de*una*forma*sencilla*crear*datos*RDF.*
Los* datos* pueden* ser* reconciliados* contra* cualquier* SPARQL* Endpoint* o* archivo* RDF.* La*
reconciliacin* es* la* identificacin* de* mltiples* representaciones* del* mismo* objeto.* * En* el*
campo*de*la*Web*Semntica,*esto*generalmente*se*conoce*como*correspondencia*de*instancia*
y*se*refiere*a*identificar*recursos*equivalentes*en*dos*o*ms*conjuntos*de*datos*RDF.*Los*datos*
reconciliados*puede*ser*exportados*a*RDF*basados*en*una*plantilla.*
Para*convertir*los*datos*de*una*fuente*estructurada*a*datos*RDF,*descargue!la!versin!2.5!de!
GoogleRefine* desde* el* sitio:* http://openrefine.org/download.html* e* instale* la* herramienta.*
Realice*los*siguientes*pasos*para*tener*preparar*Refine*para*generar*datos*RDF:*
1.
2.

Ir*a*la*interfaz*Web*de*Open*Refine:*http://127.0.0.1:3333/*
Localizar*el*directorio*de*trabajo*de*Open*Refine*(workspace&directory)*

*
3.

Descargar* RDF* extension.* Puede* descargar* este* plugin* desde* la* direccin:*
http://refine.deri.ie/download*

Universidad*Tcnica*Particular*de*Loja*
Campus*Universitario:*San*Cayetano*Alto*SN*
Seccin*Departamental,*Tecnologas*Avanzadas*de*la*Web*y*SBC*
Telf.:**(593*7)*3701444*
Loja*Q*Ecuador!

*
4.

5.
6.

Extraer* el* archivo* zip* descargado* y* ubicarlo* dentro* del* directorio* de* trabajo* de*
OpenRefine*(direccin*consultada*en*el*paso*1).*Luego*ir*a*la*ruta*webapp*y*finalmente**
extensions.*
Reiniciar*Google*Refine.*
Verificar*si*el*espacio*de*trabajo*contiene*una*carpeta*llamada*extensions.*

Universidad*Tcnica*Particular*de*Loja*
Campus*Universitario:*San*Cayetano*Alto*SN*
Seccin*Departamental,*Tecnologas*Avanzadas*de*la*Web*y*SBC*
Telf.:**(593*7)*3701444*
Loja*Q*Ecuador!

Creacin! de! proyectos! en! OpenRefine! y! generacin! de! datos!


RDF!
Se*requiere*datos*abiertos*como*Linked*Data,*no*solo*datos*sin*procesar.*

Explicacin!del!caso!
Se* explicar* el* presente* caso* de* generacin* * de* RDF* a* partir* de* datos* sobre* el* ranking* de*
algunas*universidades*de*Latinoamrica.*Una*tabla*con*informacin*como*la*que*se*muestra*a*
continuacin*es*tomada*como*base.*

*
*
En*cuanto*a*informacin*de*Universidades*se*tiene*su*nombre*y*direccin*web.***
En*relacin*a*informacin*de*ranking,*se*tiene*la*posicin*de*la*institucin*segn*dos*sistemas:*
Scimago,*que*mide*la*produccin*cientfica*y*Webometrics*que*mide*el*posicionamiento*de*la*
institucin*en*la*web*a*nivel*de*LatinoAmrica.*
Finalmente,*cada*institucin*est*asociada*a*un*pas,*del*cual*se*conoce*su*nombre*y*direccin*
en*la*Wikipedia.*
Con*informacin*estructurada*como*la*indicada*(en*formato*de*Excel,*csv,*etc.)*deber*primero*
definirse*el*modelo*de*datos.**Es*decir,*debern*elegirse*los*metadatos*y*conceptos*a*partir*de*
los*cuales*se*generar*la*data*RDF.**
*

Universidad*Tcnica*Particular*de*Loja*
Campus*Universitario:*San*Cayetano*Alto*SN*
Seccin*Departamental,*Tecnologas*Avanzadas*de*la*Web*y*SBC*
Telf.:**(593*7)*3701444*
Loja*Q*Ecuador!

*
dbpedia-owl:Country
foaf:name

foaf:Organization
foaf:name

foaf:weblog

dbpedia-owl:country

foaf:weblog
:hasDataRank

:Rank
:position

:region

:provenance

:ranking date

*
*
Como* se* ha* explicado,* bsicamente* se* pueden* distinguir* 3* tipos* de* conceptos:* Institucin*
Educativa* (foaf:Organization),* Pas* (dbpediaQowl:Country)* y* Ranking.* Para* los* dos* primeros*
conceptos* se* pueden* reutilizar* los* vocabularios* populares* de* FOAF* y* DBPedia.* * Para* agrupar*
informacin*de*ranking,*se*puede*definir*un*esquema*o*vocabulario*propio*(representado*en*la*
figura*por*los*trminos*que*aparecen*en*azul).*
En*este*punto,*recuerde*que*puede*consultar*en*LOV*(Linked*Open*Vocabulary)*para*encontrar*
los*trminos*que*se*pueden*reutilizar.*En*la*siguiente*figura*se*muestra*un*ejemplo*al*buscar*
por*la*palabra*organization.*
*

*
*
Una* vez* que* se* definido* el* modelo* de* datos* y* se* tiene* claro* cmo* ir* emparejando* cada*
columna*del*archivo*de*datos*fuente*a*un*metadato*o*clase,*se*puede*iniciar*con*creacin*del*
proyecto*en*Open*Refine,*como*se*explica*a*continuacin.*
*

Universidad*Tcnica*Particular*de*Loja*
Campus*Universitario:*San*Cayetano*Alto*SN*
Seccin*Departamental,*Tecnologas*Avanzadas*de*la*Web*y*SBC*
Telf.:**(593*7)*3701444*
Loja*Q*Ecuador!

Fase!A:!Crear!Proyecto!en!OpenRefine!
1.
2.
3.
4.

Abrir*OpenRefine**
Desde*un*navegador*abrir*la*interfaz*web*de*la*herramienta*(http://127.0.0.1:3333/)*
Desde*la*seccin*Create!Project,*hacer*clic*en*el*botn*Examinar*
Ir*a*la*ruta*donde*se*tiene*el*archivo*de*datos,*elegirlo*y*hacer*clic*en*el*botn*Abrir*

*
5. Para*continuar*con*la*creacin*del*proyecto,*hacer*clic*en*Next.**
6. En*la*siguiente*ventana*que*muestra*los*datos*del*archivo*seleccionado*en*paso*4,*hacer*clic*
en*el*botn*Create!Project*

Universidad*Tcnica*Particular*de*Loja*
Campus*Universitario:*San*Cayetano*Alto*SN*
Seccin*Departamental,*Tecnologas*Avanzadas*de*la*Web*y*SBC*
Telf.:**(593*7)*3701444*
Loja*Q*Ecuador!

*
*

Fase!B:!Mapping!a!predicados!de!vocabularios!seleccionados!
1.

Una*vez*creado*el*proyecto,*hacer*clic*en*la*lista*RDF,*elegir*Edit!RDF!Skeleton.*

2.

*
En*la*ventana*desplegable*RDF!Schema!Aligment,*realizar*las*siguientes*acciones:*
a. Agregar* los* namespaces* de* todos* los* vocabularios* a* reutilizar.* Segn* el* modelo* de*
datos*definido*para*describir*el*dataset,*se*utilizarn*tres*prefijos:*
*
Prefijo!
foaf*
dbpediaQowl*
rank*

URI!
http://xmlns.com/foaf/0.1/*
http://dbpedia.org/ontology/*
http://example.org/univrankingQonto/*

*
Por* defecto* OpenRefine* ya* incluye* ciertos* prefijos* como:* rdf,* owl,* xsd,* entre* otros.*
Utilizar*el*link*Add!prefix*para*agregar:*dbpediaQowl*y*Rank*puesto*que*FOAF*ya*est*
cargado.*

Universidad*Tcnica*Particular*de*Loja*
Campus*Universitario:*San*Cayetano*Alto*SN*
Seccin*Departamental,*Tecnologas*Avanzadas*de*la*Web*y*SBC*
Telf.:**(593*7)*3701444*
Loja*Q*Ecuador!

b.

En* el* caso* del* vocabulario* propio,* puede* colocar* cualquier* URI* vlida* aunque* no*
exista*realmente.*
*
Editar*la*URI*base*a*partir*del*cual*se*comenzarn*a*generar*los*datos*RDF.*Se*puede*
colocar:*http://example.org/univranking/data*

*
*
3.

Mapear*cada*columna*del*archivo*de*datos*y*cada*trmino*del*modelo*definido.*Para*que*
pueda* crear* las* correspondencias* correctas,* observe* que* el* RDF! Skeleton,* est*
estructurado*segn*el*patrn*RDF,*es*decir:*sujeto,*predicado,*objeto.*

Universidad*Tcnica*Particular*de*Loja*
Campus*Universitario:*San*Cayetano*Alto*SN*
Seccin*Departamental,*Tecnologas*Avanzadas*de*la*Web*y*SBC*
Telf.:**(593*7)*3701444*
Loja*Q*Ecuador!

*
Para* iniciar* el* proceso,* se* mapearn* primero* las* propiedades* de* los* datos* de*
Universidades.*
*
a.

Elegir*el*nodo*RDF*que*ser*el*sujeto*de*las*tripletas,*para*ello*elegir*la*columna*de*
datos*institutionName.*
*

*
*
Esta* accin,* lo* que* har* es* crear* las* URIs* que* representarn* a* cada* institucin*
(sujetos)*a*partir*del*nombre*de*cada*institucin.*Se*puede*utilizar*el*mtodo*urlify()*
para* formatear* las* URIs* y* convertir* caracteres* extraos* a* cdigo* ASCII;* para* aadir*

Universidad*Tcnica*Particular*de*Loja*
Campus*Universitario:*San*Cayetano*Alto*SN*
Seccin*Departamental,*Tecnologas*Avanzadas*de*la*Web*y*SBC*
Telf.:**(593*7)*3701444*
Loja*Q*Ecuador!

*
este*mtodo,*puede*hacer*clic*en*el*link*preview/edit*y*en*el*cuadro*de*cdigo*que*se*
despliega*completar*la*expresin:*value.urlify().**
*
b.

Elegir*el*concepto*al*que*pertenece*el*nodo*raz.*Bajo*el*trmino*recin*configurado*
(nodo:institutionName)*hacer*clic*en*el*enlace*rdf:type!y*tipear*foaf:Organization.*
*

*
c.

*
Una*vez*que*se*ha*configurado*el*nodo*raz,*se*pueden*configurar*los*dos*predicados*
asociados* a* institution* (sujeto).* Hacer* clic* sobre* los* links* de* las* primeras* dos*
propiedades* (property?)* para* completar* con* el* nombre* de* cada* predicado*
correspondiente:*foaf:name*para*institutionName*y*foaf:weblog*para*institutionURL.**
*

*
*
d.

Para* hacer* el* seguimiento* del* proceso* de* generacin,* se* puede* cambiar* a* la* ficha*
RDF!Preview*y*ver*el*cdigo*RDF*resultante.*Este*paso*es*opcional*

Universidad*Tcnica*Particular*de*Loja*
Campus*Universitario:*San*Cayetano*Alto*SN*
Seccin*Departamental,*Tecnologas*Avanzadas*de*la*Web*y*SBC*
Telf.:**(593*7)*3701444*
Loja*Q*Ecuador!

*
*

*
*
Para* continuar* con* el* proceso* de* mapping,* ahora* se* crearn* nodos* o* recursos* para*
agrupar*la*informacin*de*ranking*de*las*universidades.*En*el*punto*e,*se*explica*lo*que*se*
deber* hacer* para* agrupar* la* informacin* de* ranking* segn* Scimago,* se* deber* repetir*
este*paso*para*describir*en*ranking*segn*Webometrics.*
e.

Volver*a*la*ficha*RDF*Skeleton,*y*al*lado*izquierdo*de*la*columna:*rankingScimagoLA,*
en*el*nombre*de*la*propiedad,*cambiar*a*<rank:hasDataRank>.*Mediante*la*relacin*
<rank:hasDataRank>* se* vincular* cada* nodo* de* tipo* foaf:Organisation* a* ranking*
segn*Scimago.*
*
Para* crear* los* sujetos* de* raking,* hacer* clic* sobre* la* columna* <rankingScimagoLA>* y*
elegir*row!index*y*as!a!URI.**

Universidad*Tcnica*Particular*de*Loja*
Campus*Universitario:*San*Cayetano*Alto*SN*
Seccin*Departamental,*Tecnologas*Avanzadas*de*la*Web*y*SBC*
Telf.:**(593*7)*3701444*
Loja*Q*Ecuador!

*
*
*
En*este*caso*como*no*se*tiene*una*columna*con*valores*que*permitan*generar*las*URIs,*
se*elige*row:index.*
Para* generar* URIs* amigables,* desde* la* ventana* RDF! Node,* hacer* clic* sobre* el* link*
preview/edit* para* aadir* una* expresin* a* partir* de* la* cual* se* obtengan* las* URIs:*
scimago*+*(value+1).**El*objetivo*en*este*punto*es*generar*direcciones*secuenciales*
como:*
<http://example.org/univranking/scimago1>*
o*
<http://example.org/univranking/scimago2>*,*por*cada*fila*de*informacin*de*ranking.*
Para*aceptar*la*expresin*ingresada,*hacer*clic*sobre*en*OK.*

*
*
*
Para*terminar*de*configurar*este*nodo,*agregar*como*rdf:type*la*clase*rank:Rank.*
Ahora* que* se* ha* creado* el* nodo* sujeto* para* la* informacin* de* ranking,* se* * deben*
configurar* dos* propiedades* con* valores* constantes.* Para* hacerlo* se* debern* agregar*
las* propiedades:* region* =* Latinoamerica* y* provenance* =* Scimago,* de* la* siguiente*
manera:*
*

Universidad*Tcnica*Particular*de*Loja*
Campus*Universitario:*San*Cayetano*Alto*SN*
Seccin*Departamental,*Tecnologas*Avanzadas*de*la*Web*y*SBC*
Telf.:**(593*7)*3701444*
Loja*Q*Ecuador!

*
*
Para* completar* de* configurar* la* informacin* de* ranking* segn* Webometrics,* realizar*
un*proceso*similar*al*explicado*en*este*punto.*El*resultado*final*sera*como*el*que*se*
muestra*en*la*siguiente*figura.*
*

*
*
f.

El*proceso*de*mapping*terminar*cuando*configuremos*los*nodos*y*propiedades*para*
la*informacin*de*pases.*Las*URIs*que*agrupen*la*informacin*de*pases*se*generarn*
a* partir* de* los* nombres* de* los* pases,* por* tanto,* el* resultado* final* ser* como* en* el*
que*se*muestra*a*continuacin.*
*

*
*
4. Una* vez* que* se* ha* completado* el* mapping,* se* podrn* exportar* los* resultados* en*
formato* RDF/Turtle* o* RDF/XML.* Para* hacerlo,* desde* la* ventana* RDF! Schema!
Alignment,* hacer* clic* en* el* botn* OK,* y* desde* la* ventana* principal* elegir* en* la* lista*
Export,*la*opcin*que*requiera.*
*
5. A*partir*de*este*momento,*puede*analizar*el*cdigo*generado*y*puede*ir*identificando*
las* tripletas* y* su* semntica.* Por* ejemplo,* la* descripcin* de* una* Universidad* y* su*
informacin*relacionada*quedara*expresada*con*el*siguiente*cdigo*RDF:*

Universidad*Tcnica*Particular*de*Loja*
Campus*Universitario:*San*Cayetano*Alto*SN*
Seccin*Departamental,*Tecnologas*Avanzadas*de*la*Web*y*SBC*
Telf.:**(593*7)*3701444*
Loja*Q*Ecuador!

*
*
<?xml version="1.0" encoding="UTF-8"?>
<rdf:RDF
xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#"
xmlns:rank="http://example.org/univranking-onto/"
xmlns:dbpedia-owl="http://dbpedia.org/ontology/"
xmlns:foaf="http://xmlns.com/foaf/0.1/"
xmlns:owl="http://www.w3.org/2002/07/owl#"
xmlns:xsd="http://www.w3.org/2001/XMLSchema#"
xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#">

<rdf:Description
rdf:about="http://example.org/univranking/Universidad+Catolica+de+Santa+Fe">
<rdf:type rdf:resource="http://xmlns.com/foaf/0.1/Organisation"/>
<foaf:name>Universidad Catolica de Santa Fe</foaf:name>
<foaf:weblog>http://www.ucsf.edu.ar/</foaf:weblog>
<rank:hasDataRank
rdf:resource="http://example.org/univranking/scimago1"/>
<rank:hasDataRank
rdf:resource="http://example.org/univranking/webometrics1"/>
<dbpedia-owl:country
rdf:resource="http://example.org/univranking/Argentina"/>
</rdf:Description>

<rdf:Description rdf:about="http://example.org/univranking/scimago1">
<rdf:type rdf:resource="http://example.org/univranking-onto/Rank"/>
<rank:position>381</rank:position>
<rank:region>LatinAmerica</rank:region>
<rank:provenance>Scimago</rank:provenance>
</rdf:Description>

<rdf:Description rdf:about="http://example.org/univranking/webometrics1">
<rdf:type rdf:resource="http://example.org/univranking-onto/Rank"/>
<rank:position>1099</rank:position>
<rank:region>LatinAmerica</rank:region>
<rank:provenance>Webometrics</rank:provenance>
</rdf:Description>

<rdf:Description rdf:about="http://example.org/univranking/Argentina">
<rdf:type rdf:resource="http://dbpedia.org/ontology/Country"/>
<foaf:name>Argentina</foaf:name>
<foaf:weblog>http://es.wikipedia.org/wiki/Argentina</foaf:weblog>
</rdf:Description>
</rdf:RDF>

Universidad*Tcnica*Particular*de*Loja*
Campus*Universitario:*San*Cayetano*Alto*SN*
Seccin*Departamental,*Tecnologas*Avanzadas*de*la*Web*y*SBC*
Telf.:**(593*7)*3701444*
Loja*Q*Ecuador!

*
*
Al* validar* este* cdigo* con* el* servicio* de* la* W3C2,* comprobaremos* que* pasa* la* validacin* de*
forma*exitosa*y*las*siguientes*tripletas*son*el*resultado.*
*
Nu
b.

Subject

Predicate

Object

http://example.org/univranking/Universidad+Catoli
ca+de+Santa+Fe

http://www.w3.org/1999/0
2/22QrdfQsyntaxQns#type

http://xmlns.com/foaf/0.1/Organis
ation

http://example.org/univranking/Universidad+Catoli
ca+de+Santa+Fe

http://xmlns.com/foaf/0.1/
name

"Universidad*Catolica*de*Santa*Fe"*

http://example.org/univranking/Universidad+Catoli
ca+de+Santa+Fe

http://xmlns.com/foaf/0.1/
weblog

"http://www.ucsf.edu.ar/"*

http://example.org/univranking/Universidad+Catoli
ca+de+Santa+Fe

http://example.org/univran
kingQonto/hasDataRank

http://example.org/univranking/sci
mago1

http://example.org/univranking/Universidad+Catoli
ca+de+Santa+Fe

http://example.org/univran
kingQonto/hasDataRank

http://example.org/univranking/we
bometrics1

http://example.org/univranking/Universidad+Catoli
ca+de+Santa+Fe

http://dbpedia.org/ontolog
y/country

http://example.org/univranking/Ar
gentina

http://example.org/univranking/scimago1

http://www.w3.org/1999/0
2/22QrdfQsyntaxQns#type

http://example.org/univrankingQ
onto/Rank

http://example.org/univranking/scimago1

http://example.org/univran
kingQonto/position

"381"*

http://example.org/univranking/scimago1

http://example.org/univran
kingQonto/region

"LatinAmerica"*

10

http://example.org/univranking/scimago1

http://example.org/univran
kingQonto/provenance

"Scimago"*

11

http://example.org/univranking/webometrics1

http://www.w3.org/1999/0
2/22QrdfQsyntaxQns#type

http://example.org/univrankingQ
onto/Rank

12

http://example.org/univranking/webometrics1

http://example.org/univran
kingQonto/position

"1099"*

13

http://example.org/univranking/webometrics1

http://example.org/univran
kingQonto/region

"LatinAmerica"*

14

http://example.org/univranking/webometrics1

http://example.org/univran
kingQonto/provenance

"Webometrics"*

15

http://example.org/univranking/Argentina

http://www.w3.org/1999/0
2/22QrdfQsyntaxQns#type

http://dbpedia.org/ontology/Count
ry

16

http://example.org/univranking/Argentina

http://xmlns.com/foaf/0.1/

"Argentina"*

*************************************************************
2

*http://www.w3.org/RDF/Validator/*

Universidad*Tcnica*Particular*de*Loja*
Campus*Universitario:*San*Cayetano*Alto*SN*
Seccin*Departamental,*Tecnologas*Avanzadas*de*la*Web*y*SBC*
Telf.:**(593*7)*3701444*
Loja*Q*Ecuador!

*
Nu
b.

Subject

Predicate

Object

name
17

http://example.org/univranking/Argentina

*
*
*
*

http://xmlns.com/foaf/0.1/
weblog

"http://es.wikipedia.org/wiki/Argen
tina"

Universidad*Tcnica*Particular*de*Loja*
Campus*Universitario:*San*Cayetano*Alto*SN*
Seccin*Departamental,*Tecnologas*Avanzadas*de*la*Web*y*SBC*
Telf.:**(593*7)*3701444*
Loja*Q*Ecuador!

Reconciliacin!de!Datos!
*
Google*Refine*puede*reconciliar*valores*de*una*columna*especfica*con*entidades*en*Freebase*
o* DBPedia.* La* reconciliacin* con* Freebase* es* una* operacin* muy* til* para* mapaear* con*
precisin*valores*textuales*ambiguos*con*entidades*identificadas*en*Freebase.*
Cuando* hay* una* peticin* de* reconciliacin,* Google* Refine* inicia* invocando* el* servicio* de*
reconciliacin* con* un* conjunto* de* muestras* de* valores* de* datos.* Este* usa* el* resultado* para*
suponer*un*tipo*de*entidad*para*los*valores*de*la*columna*correspondiente.**
La*lista*de*supuestos*tipos*de*entidad*se*presentan*al*usuario*que*puede*seleccionar*un*tipo*
especfico*o*continuar*sin*elegir*ninguna.**
El*usuario*tambin*puede*optar*por*incluir*propiedades*adicionales*en*la*solicitud*para*ayudar*
a*mejorar*la*precisin*del*proceso*de*reconciliacin.*Las*propiedades*adicionales*deben*estar*
claramente* identificadas* para* el* servicio* de* reconciliacin.* Para* ayudar* al* usuario* en* esta*
tarea,*un*servicio*de*reconciliacin*puede*autocompletar*las*propiedades*de*bsqueda.*
En*la*siguiente*figura*se*observa*un*ejercicio*de*reconciliacin*de*una*columna*que*tiene*datos*
sobre* ciudades.* En* la* parte* superior* de* la* lista* se* sugieren* un* conjunto* de* tipos*
City/Town/Village*(con*ID*/location/citytown).**
En* la* parte* derecha* de* la* figura* se* muestra* el* autocompletado* de* propiedades* en* accin.*
Proceder* con* la* reconciliacin* como* se* muestra* en* la* figura* significa* que* el* conjunto* * de*
valores* ser* reconciliado* contra* Freebase* para* las* entidades* de* tipo* /location* /citytown*
teniendo* en* cuenta* que* la* ciudad* es* contenida* por* una* localizacin* que* coincide* con* el*
contenido*correspondiente*a*al*contenido*de*la*columna*estado*en*la*tabla*de*datos.**
*

Universidad*Tcnica*Particular*de*Loja*
Campus*Universitario:*San*Cayetano*Alto*SN*
Seccin*Departamental,*Tecnologas*Avanzadas*de*la*Web*y*SBC*
Telf.:**(593*7)*3701444*
Loja*Q*Ecuador!

*
*
Despus*de*recibir*la*respuesta,*los*tres*principales*candidatos*que*coinciden*son*presentados*
al*usuario,*que*puede*acepta*alguno*o*rechace*todas*las*sugerencias.*Para*apoyar*la*decisin*
del* usuario,* la* herramienta* proporciona* una* vista* previa* de* los* recursos* de* cada* candidato.*
Adems,* se* muestra* una* puntuacin* numrica* calculada* a* partir* de* los* resultados*
proporcionados* por* el* servicio,* con* el* objetivo* de* ayudar* al* usuario* a* encontrar* un* umbral*
aceptable*de*aceptacin*o*rechazo*de*los*resultados.*
*
La*siguiente*figura*muestra*una*captura*de*pantalla*en*la*que*se*muestra*una*vista*previa*para*
el* candidato* con* la* etiqueta* Cambridge.* * Los* resultados* marcados* como* de* coincidencia*
exacta*(exact*match)*sern*aceptados*automticamente*por*Google*Refine,*sin*necesidad*de*
intervencin*del*usuario.*
*

Universidad*Tcnica*Particular*de*Loja*
Campus*Universitario:*San*Cayetano*Alto*SN*
Seccin*Departamental,*Tecnologas*Avanzadas*de*la*Web*y*SBC*
Telf.:**(593*7)*3701444*
Loja*Q*Ecuador!

*
*

Reconciliacin!Basada!en!SPARQL!
*
La* reconciliacin* pueden* estar* basada* en* consultas* SPARQL* mediante* la* comparacin* de*
expresiones* regulares.* * Este* mtodo* es* generalmente* limitado* y* tiene* mal* desempeo* en*
grandes*conjuntos*de*datos.**
*
El* servicio* de* reconciliacin* basado* en* SPARQL* comienza* con* una* comparacin* de* cadenas*
(coincidencia*exacta),*y*solo*si*no*se*encuentra*resultados*se*intenta*comparaciones*basadas*
en* la* expresin* regular.* * El* autocompletado* de* propiedad* y* tipo* tambin* son* soportadas* en*
comparaciones* de* expresin* regular,* con* tipos* y* propiedades* de* etiquetas* (representadas*
usando*rdfs:label*o*skos:prefLabel)**
*
A*continuacin*de*ejemplos*de*consultas*SPARQL*usadas*para*reconciliacin.*
*
Comparacin*de*coincidencia*exacta*con*la*propiedad*de*etiquetado*rdfs:label*
Entrada:!label="Galway"*
*****
Consulta!SPARQL:*

Universidad*Tcnica*Particular*de*Loja*
Campus*Universitario:*San*Cayetano*Alto*SN*
Seccin*Departamental,*Tecnologas*Avanzadas*de*la*Web*y*SBC*
Telf.:**(593*7)*3701444*
Loja*Q*Ecuador!

*
*

**SELECT*?entity**

**WHERE{*

?entity*<http://www.w3.org/2000/01/rdfQschema#label>*?label.**

FILTER*(str(?label)*=*'Galway').**

FILTER*isIRI(?entity).**

**}*LIMIT*3;*

*****

***
Comparacin*de*expresin*regular*con*la*propiedad*de*etiquera*rdfs:label*
Entrada:!label="Galway"*
*****
Consulta!SPARQL:*
*

**SELECT*?entity*?label1*

**WHERE{*

?entity*<http://www.w3.org/2000/01/rdfQschema#label>*?label1.**

FILTER*regex(str(?label1),'Galway','i').**

FILTER*isIRI(?entity).**

**}*LIMIT*3*

*****

***
*
*

Anda mungkin juga menyukai