Anda di halaman 1dari 20

PROTOCOLO DE EMPAREJAMIENTO

DE DATOS:

INFORMACIÓN CATASTRAL DIGITAL


BASE CATASTRAL DE INFORMACION PREDIAL

BACH. ARQ. Adrián Chuquipiondo Celestino


Mayo, 2018
TABLA DE CONTENIDO

1. ENTRADAS DE INFORMACIÓN .......................................................................................... 1


1.1. Información Catastral Digital ..................................................................................... 1
1.2. Base Catastral de Información Predial ....................................................................... 2
2. OBJETIVO ........................................................................................................................ 3
2.1. Reconocimiento del Atributo Común ......................................................................... 3
3. REQUISITOS PARA EL EMPAREJADO DE DATOS ................................................................. 3
3.1. Del dibujo CAD al SIG .................................................................................................. 3
Exportación de datos dxf desde el software cad ...................................................... 4
Importación de datos DXF al software SIG ................................................................ 5
Preparación de geometrías ...................................................................................... 6
Añadido de atributos de texto a geometrías ............................................................. 7
3.2. Atributo único de emparejamiento y optimización................................................... 11
4. ASEGURAMIENTO DEL EMPAREJADO ............................................................................. 13
4.1. Procesos de extracción .............................................................................................. 13
4.2. Definición del formato .............................................................................................. 14
5. EMPAREJADO Y VALIDACIÓN ......................................................................................... 16
5.1. Resultados espurios y óptimos.................................................................................. 17
6. BALANCE Y RESULTADOS .............................................................................................. 18
PROTOCOLO DE EMPAREJAMIENTO DE DATOS:
INFORMACIÓN CATASTRAL DIGITAL
BASE CATASTRAL DE INFORMACION PREDIAL

1. ENTRADAS DE INFORMACIÓN

1.1. Información Catastral Digital

La información catastral brindada por la Municipalidad de Huancayo se encuentra en un


formato digital conocido como DWG. Dicho formato es un estándar en el desarrollo de dibu-
jos asistidos por computadora (CAD) en softwares especializados para el diseño arquitectó-
nico, diseño industrial o ingeniería civil. Su uso en el ámbito de los gobiernos municipales
es ampliamente extendido para la elaboración de planos, cuya información gráfica contri-
buye a la gestión del territorio.

El archivo (ver Figura 1) contiene un plano del distrito de Huancayo con información catas-
tral de algunos de sus sectores. Es decir, contiene información de algunas características
físicas de sus predios. Por ejemplo áreas de uno, dos o tres pisos dentro de un mismo lote o
ubicación del acceso al predio. También contiene información útil para la gestión del terri-
torio como la red de vial, los nombres de cada calle, los polígonos con la subdivisión del
territorio, el número de dirección de los lotes, coordenadas, etc.

Dado que gran parte de esta información es una referencia al espacio geográfico de Huan-
cayo, se expresa gráficamente a través de líneas, polígonos y texto. Sin embargo, en el for-
mato DWG lo que observamos finalmente es un dibujo digital más no una base de datos.

Figura 1. Plano Catastral del distrito de Huancayo

Pág. 1
1.2. Base Catastral de Información Predial

En cambio, los datos recogidos de la Base Tributaria tienen un formato de hoja de cálculo
(ver Figura 2). Es decir, una tabla de datos alfanuméricos que contiene atributos asignados
a predios donde cada fila contiene la información de un predio. Entre los datos se encuentra
el nombre del contribuyente, sea persona natural o jurídica, la dirección del predio, el tipo
de predio (rural o urbano), la vía en donde se ubica, área del predio, etc. La tabla contiene
información de 89 395 predios listados y 64 datos por cada uno de ellos.

Dado que los datos presentados por cada predio contienen información que difícilmente
pueda ser representada en un plano, resulta adecuado el formato de tabla alfanumérica. Sin
embargo, dado que la información listada corresponde a una unidad predial asignada a un
lote ubicado en el distrito de Huancayo entre los datos listados debería encontrarse alguno
que pudiese servir para la gestión, fiscalización o actualización del territorio.

Estos datos se caracterizan por ser un conjunto de caracteres únicos para cada predio que
pudiese servir como un identificador. Entre los datos que cumplen esta característica se
encuentran predio_id, código predial y dirección.

El atributo del código predial es un conjunto de números conformados por la concatenación


de tres valores conocidos: id_sector / id_ manzana / id_lote. Dichos valores son empleados
en la gestión del territorio y cuyo formato es un estándar empleado en otras gestiones mu-
nicipales, por ejemplo la Municipalidad Metropolitana de Lima. Estos datos serán de utili-
dad para realizar el emparejado entre ambas conjuntos de datos con la finalidad de ubicar
espacialmente la información predial con la información catastral.

Figura 2. Base Catastral de Información Predial

Pág. 2
2. OBJETIVO

El objetivo del emparejamiento de datos es reconocer la ubicación espacial de los predios


de la base de información predial. Por lo cual es necesario reconocer un atributo único a
cada predio y que se encuentre en ambos conjuntos de datos. Este dato compartido servirá
de ‘puente’ entre ambas bases. Este atributo único no necesariamente se encuentra en am-
bos conjuntos de datos sino que puede ser elaborado a partir de la información existente.

2.1. Reconocimiento del Atributo Común

Se emplearon dos estrategias para el emparejamiento de datos: vinculación mediante el


código predial y la vinculación entre la dirección del predio. Pese a que la vinculación me-
diante el código predial requiere de pocos y sencillos procesos, esta estrategia resultó en
relaciones espurias dado que ambos conjuntos de datos presentan ordenamientos comple-
tamente diferentes de la sectorización del territorio, por tanto diferentes numeraciones de
manzanas y lotes. Por lo cual, se empleó la dirección de los predios para tal fin.

Ambas conjuntos cuentan con dicha información pero no de manera explícita sino que debe
de ser construida a partir de los datos que cuenta cada una. Además, una vez obtenido el
valor de la dirección de cada lote se hará necesario establecer un formato único para asegu-
rar el emparejado de la mayor cantidad de predios.

3. REQUISITOS PARA EL EMPAREJADO DE DATOS

3.1. Del dibujo CAD al SIG

La información gráfica del dibujo digital expresada en figuras geométricas y texto que han
de integrarse en un sistema de información geográfica para realizar el emparejado mediante
la ejecución de operaciones que afecten a cada uno de los datos. La importancia de elaborar
un SIG con el conjunto de datos del dibujo digital radica en la diferencia del tratamiento de
las figuras geométricas. Mientras que en un dibujo digital, las figuras geométricas sólo tie-
nen atributos que corresponden a la naturaleza de sus geometrías como longitud, área o
volumen; en un SIG, las figuras geométricas tienen, además, atributos vinculados a dichos
objetos. Con lo cual, la línea que representa una avenida pueden tener vinculado el nombre
de la misma, el polígono que representa a una manzana tendría su número de manzana en
su sector correspondiente y un lote podría tener su dirección.

Logrado esto, se podrá realizar operaciones de extracción de datos a todos los lotes, y a la
vez, que facilitarán la vinculación con la otra base. El trabajo con los atributos en un SIG es
idéntico al trabajo con datos en una hoja de cálculo; por tanto, se pueden realizar operacio-
nes matemáticas, operaciones lógicas, extracciones de textos, etc. A continuación se deta-
llan los procesos de elaboración del SIG y los procesos necesarios para que los lotes tengan
la información de la avenida a la que pertenece y su número asociado.

Pág. 3
Exportación de datos DXF desde el software CAD

Como primer paso es necesario revisar para luego discriminar las capas de información que
se requieren exportar al SIG. Aquellas que interesan son las que contienen el trazado vecto-
rial de lotes, la red vial de Huancayo, los nombres de los lotes y los nombres de las vías. Es
importante considerar que son tipos de información distintas entre sí, por tanto deben de ser
exportadas una a la vez; además, debe de asegurarse que la información cumpla una serie
de requisitos. Entre ellos que la información pertenezca al mismo layer 1y que los polígo-
nos no estén duplicados.

Estas operaciones aseguran que la información exportada sea la estrictamente necesaria y se


eviten errores posteriores. A continuación, deberá exportarse cada uno de los layers por
separado. Es decir, en archivos que únicamente contengan la información de un solo layer.
El formato de exportación debe de ser DXF, el cual es un formato que facilita el intercambio
de información vectorial entre softwares. Debe de asegurarse que los polígonos a exportar
no hayan sido alterados ni en sus formas ni en su ubicación.

Esta tarea debe realizarse con cada uno de los layers requeridos. Aquellos que contengan
los polígonos con los lotes, el trazado de la red urbana, los nombres de los lotes y los de la
avenida. En todo caso, la información requerida debe de ser elementos vectoriales únicos.

Figura 3. Revisión y discriminación de Layers en el software AutoCAD

1
También conocido como capa, el layer es parte de la organización de datos vectoriales del software Auto-
CAD. El comando LAYWALK facilita la revisión y organización de las capas.

Pág. 4
Importación de datos DXF al software SIG

Los archivos DXF serán importados para elaborar los insumos del sistema de información
geográfico. Para lo cual es necesario abrir los archivos uno a uno desde el entorno del soft-
ware SIG. En el desarrollo de este trabajo se empleó QGIS (vs. 2.18.19 – LTR). La importa-
ción amerita que para todas las capas sea añadido un Sistema de Referencia de Coordena-
das. El sistema escogido será el EPSG: 32718 - WGS 84 / UTM zone 18S. Luego deberán ser
guardadas con un formato reconocible por el software. Durante el desarrollo de este trabajo
se empleó únicamente el formato ESRI shapefile2 (SHP).

Una vez realizada la exportación se observará que los datos vectoriales de líneas (los lotes y
las vías) se habrán de mostrar como tal. Mientras que los datos de textos se mostrarán como
puntos. Los cuales, entre sus atributos tendrán el texto que se mostraba en el software CAD.

Lo siguiente (ver Figura 4), requiere diferenciar el tratamiento que cada tipo de información
requerirá para juntar la data tipo texto a las demás vectores. Las líneas que representan el
trazado vial mantendrán su tipo de geometría lineal pero se requerirá de procesos para que
cada calle (línea o polilínea comprendida entre dos cruces de calle, o el equivalente a una
cuadra) sea una sola entidad geométrica. Mientras que los lotes, dado que delimitan un te-
rritorio, deben de ser convertidos a una geometría tipo polígono.

Figura 4. Importación al entorno SIG

2
El formato ESRI shapefile es un formato estándar en la elaboración de sistemas de información geográfica.
Es un formato de información no-topológico, quiere decir que no administra relaciones espaciales entre las
entidades contenidas en el archivo. Es un formato multi-archivo compuesto de un archivo SHP, SHX y DBF. Las
entidades geometrías que maneja son tres: líneas, polígonos y puntos.

Pág. 5
Preparación de geometrías

Una vez logrado la exportación con éxito, lo siguiente es vincular a las geometrías los atri-
butos de texto. Para lo cual, deben de realizarse procesos de limpieza de los vectores. Para
el trazado vial es necesario que haya una sola entidad geométrica por vía3. El proceso co-
mienza por una inspección ocular y edición manual en los casos que ameriten, la cual es
similar a la que se realizaría en un software CAD.

Luego de la depuración, se procede a asegurar el trazado con la siguiente rutina de proce-


sos: convertir todo el trazado en un solo objeto multiparte, del cual se extraerán los nodos
de cada intersección con el algoritmo v.net.nodes4. Se obtendrá un archivo de líneas y pun-
tos. Se realizará un buffer5 con un radio equivalente a 0.01 m a la red de puntos. Luego se
realizará una diferencia geométrica, restando el buffer de los nodos a las líneas. Con lo cual
se observará que ahora la red vial está compuesta por líneas que cumplen la condición re-
querida, excepto que no están conectadas entre ellas.

Finalmente, se usará el algoritmo v.clean.snap6el cual unirá las líneas más cercanas dentro
de un rango definido (treshold). Ya que anteriormente se realizó una separación entre las
líneas, el parámetro treshold que unirá las líneas debe ser equivalente al valor de separa-
ción. En este caso sería de 0.02m

Figura 5. Resultado de la preparación de un fragmento de la red vial

3
Entiéndase por vía el trazado comprendido entre dos intersecciones de vías (nodos). Una vía puede estar
compuesta por más de una línea (lo que en software CAD equivale a una polilínea) en todo caso es preferible
4
Este algoritmo se encuentra en la caja de procesos, dentro del conjunto de herramientas GrassGIS.
5
Un buffer es un polígono derivado de una línea u otro polígono, a partir de un radio definido por el usuario.
6
Este algoritmo es un método para unir líneas en un mismo shape mediante un valor numérico límite.

Pág. 6
La preparación para los polígonos de los lotes es distinta. Dado que son polígonos cerrados,
el archivo importado que es un archivo de líneas será convertido a geometrías poligonales.
Por tanto, la única preparación que requiere es dicha conversión. El resultado será un archi-
vo que contiene los perímetros de los lotes y además, propiedades de área. Lo que permitirá
realizar posteriores procesos geométricos como sustracciones, adiciones, intersecciones o
intersecciones geométricas.

Figura 6. Preparación del shapefile de lotes

Añadido de atributos de texto a geometrías

El añadido de los atributos de texto existentes a las geometrías se realiza uno a uno. Se re-
quiere que la información contenida en un punto sea transferida a una entidad geométrica.
Esta es la razón por la cual se ha de asegurar que por cada tramo de calle exista una sola
entidad geométrica, ya que en el Plano Catastral hay una etiqueta de texto por cuadra.

Es importante definir una estrategia según las características de la relación espacial entre
las entidades geométricas de entrada y salida de información. En el caso de la red vial, las
entidades de entrada de información son los puntos que contienen la etiqueta y las de salida
son la red vial. Se observa (ver Figura 7) que en algunos casos los puntos y líneas están
superpuestos y en otros separados por distancias menores a 1 metro, por tanto la relación
espacial entre geometrías no es uniforme. Sería uniforme si todos los puntos estuviesen
contenidos en las líneas o todos cerca de ellas.

Por tanto se realizará un proceso denominado Matriz de Distancia, el cual señala la distan-
cia mínima entre un par de puntos conformado por dos capas. Por lo cual se empleará el
centroide de cada calle de la red vial; que es un producto derivado de la red vial mediante la
elaboración de un buffer y el algoritmo centroide de polígono.

Pág. 7
Los insumos que requiere la elaboración de dicha matriz son las dos capas de información
de puntos, un atributo por cada capa que contenga un valor único de identificación o ID7, el
tipo de matriz y la cantidad de puntos más cercanos que se calculará (ver Figura 8). El pro-
ducto de dicha matriz será una tabla de datos donde se encuentran apareadas ambas capas y
el valor de la distancia entre ambos puntos apareados expresada como un número real. Lo-
grado esto, lo siguiente es vincular el emparejamiento con la geometría de las vías.

Figura 7. Reconocimiento de los vectores importados

Lo cual se realiza mediante la herramienta Uniones8, que vincula atributos de una capa a
otra mediante un atributo que ambas capas tengan con valores similares. Mediante esta ope-
ración uniremos la tabla con el resultado de la Matriz de distancia a la red vial.

Vinculados los puntos que contienen los nombres de vías y la red vial mediante sus valores
ID, se puede traspasar el valor del nombre de las vías. Luego debe de revisarse el conteni-
do, estructura y redacción del texto a fin de subdividirlo y redactarlo bajo un formato único.

En el ítem 3.2 se detalla las operaciones necesarias para extraer el texto empleado para la
redacción de la dirección, dichas operaciones son empleadas tanto en el manejo del Plano
Catastral como de la Base Catastral de Información Predial. En el caso del texto traspasado
a la red vial se observa que el texto contiene un código identificador, una categoría de calle
y el nombre de la vía; de la siguiente manera:(042845) CA. CANTUTA.

7
Es la abreviatura para Identificación, se refiere a un valor numérico único asignado a cada entidad geométri-
ca en una determinada capa de información. Este valor es inherente a cada capa y se deriva del orden en el
que cada entidad geométrica ha sido trazada. Para realizar operaciones con el ID, se debe acceder a la herra-
mienta Calculadora de Campos y emplear la función $ID.
8
Se accede a la herramienta Uniones desde la ventana de herramientas de la capa vectorial que recibirá la
información. Requiere de la indicación de un atributo idéntico de cada capa y los atributos a traspasar.

Pág. 8
Las operaciones siguientes a la red vial tendrán por objetivo extraer los datos por tipo. Se
creará un atributo que contenga el código numérico, otro para el tipo de vía y otro para el
nombre. Los dos últimos valores serán empleados en la redacción de la dirección de cada
lote. Luego de realizadas las operaciones que vinculen el texto de número de lote a sus po-
lígonos, se deberá traspasar los tres atributos de la vía.

Figura 8. Puntos Origen y Puntos Destino. Parámetros de la Matriz de Distancia

De manera similar, el traspaso de atributos de la geometría de puntos a la geometría de lo-


tes comienza con la observación de las relaciones entre ambos tipos de entidades. En este
caso, los puntos siempre se encuentran fuera del polígono del lote.

Sin embargo, se observa que hay más de un punto por lote, y que muchos de los textos no
contienen valores que puedan generar un emparejado con la Base Catastral de Información
Predial. Reconocidos estos valores9 se procede a separarlos del procesamiento.

Bajo esta situación se ejecutará el algoritmo v.net10, el cual conectará mediante una línea a
los puntos con el polígono más cercano. Este algoritmo requiere de un parámetro threshold,
que es un valor numérico que funciona como límite superior para la búsqueda del punto
más cercano a las geometrías poligonales. Es recomendable realizar sucesivas pruebas para
encontrar el límite que permita la mayor cantidad de conexiones y la menor cantidad de
relaciones erróneas. En el desarrollo se empleó un valor entre 10 y 11m.

9
(P), (S), S/N, etc.
10
Se accede a este algoritmo mediante la caja de herramientas de procesos, en el grupo de algoritmos
GRASSGIS

Pág. 9
Como resultado de ejecutar el algoritmo v.net se obtiene un conjunto de líneas que conec-
tan los lotes con los puntos más cercanos (ver Figura 9). Con lo cual el traspaso de infor-
mación se realiza de los puntos a las líneas de conexión y de las líneas de conexión a los
polígonos, este proceso se realizará empleando la herramienta Unir atributos por localiza-
ción, la cual requiere dos capas de entradas con geometrías poligonales; no admite puntos
ni capas de líneas. Por tanto, se usará la herramienta buffer con un radio de 0.1m para ase-
gurar la intersección entre las figuras.

En este proceso se traspasó el texto a 8 332 lotes sin posibilidad de error, la cantidad de
lotes exportados al SIG es de 16 194. Es decir, sólo 51% del total son aptos para

En este proceso, se traspasó el atributo de texto a 8 332 líneas de conexión. De las cuales
sólo se traspasó 4 654 valores ya que dicho grupo cumplía con tener una sola etiqueta de
texto para un solo lote; en el resto de casos hubo más de una etiqueta con valores diferentes
entre sí. Con lo cual, solo 28.7% del total de lotes obtuvo un valor de texto operable.

Como siguiente paso se revisará el contenido de los textos; luego se uniformizará el conte-
nido. Una de las medidas empleadas fue la de emplear como mínimo dos dígitos para los
datos numéricos. Por tanto a los números menores a 10 se les añadió un cero a la izquierda.

Se encontró que algunos lotes tenían la etiqueta bajo el formato Mz XX Lt NN, por lo cual
se extrajo la data pero recibió un tratamiento distinto. En dicho formato, se separó los valo-
res del nombre de manzana y número de lote.

Figura 9. Conexiones entre puntos de texto y polígonos de lotes

Pág. 10
Asegurado la información en la red vial y los lotes, el siguiente paso es el traspaso de in-
formación de la red vial a los lotes. Este proceso requiere de realizar una serie de traspasos
de información entre diferentes objetos geométricos (ver Figura 10) empleando algunos
elementos que ya hemos utilizado anteriormente. Anteriormente se creó una línea auxiliar
que conectó los lotes con la capa que contenía los nombres de cada lote, esa geometría ser-
virá para conectar los lotes con la avenida a la que pertenecen.

El algoritmo v.net, requiere de una capa de puntos y de una capa de líneas para elaborar una
red auxiliar que conecte ambas geometrías. Por tanto se empleará el centroide de la línea
auxiliar (punto amarillo) que conectó los lotes con sus etiquetas (en el gráfico la línea ver-
de). Ya que esta línea se encuentra ubicada frente a la avenida requerida.

El resultado, es una línea que conecta a la red vial con los puntos que a su vez están vincu-
lados al lote. Logradas estas conexiones geométricas, lo siguiente es realizar una serie de
procesos de Unir atributos por localización, entre las geometrías de las cuales queremos
traspasar la información hasta llegar a la geometría de lotes.

A diferencia del traspaso de información entre la red vial y la geometría con los nombres de
avenidas, se ha empleado una estrategia diferente. Mientras que en el caso anterior se em-
pleó una matriz de distancia, un cálculo matemático, para los lotes se ha empleado geome-
trías auxiliares para lograr relaciones geométricas tangibles (intersecciones) y lograr el
traspaso. Es importante, que se observen las relaciones espaciales entre los objetos que se
desean vincular para encontrar el patrón que predomina y elaborar una estrategia.

Figura 10. Traspaso de información de la red vial hacia la geometría de lotes mediante geometrías auxiliares

Pág. 11
3.2. Atributo único de emparejamiento y optimización

Reconocido que el único atributo en común es la dirección de los lotes, lo siguiente es ase-
gurar que el valor de dirección tenga un único formato para ambas fuentes de información.
Mientras que con el plano catastral debe de elaborarse un SIG, en la Base Catastral de In-
formación Predial debe de asegurarse que la nomenclatura de la dirección sea clara y redu-
cir en lo posible el volumen de procesamiento.

Esta base cuenta con información de 89 395 predios, muchos de estos predios comparten
código predial y dirección. Por lo cual se detectó todas las repeticiones de predios con los
mismos valores de código predial, para trabajar con sus valores de dirección; en total se
encontraron 41 159 valores lotes con valores únicos. Posteriormente, el cruce de bases se
realizará con la base original.

Pese a que el procesamiento de datos se redujo al 46% del total, procesar 41 159 datos de
direcciones amerita tiempos considerables entre proceso y proceso. Por lo cual es altamente
recomendable observar la redacción de las direcciones, reconocer la mayor cantidad de
patrones en la redacción y definir estrategias de extracción de la información para cada uno
de los patrones. De esta manera se reducirán los tiempos de espera entre proceso y proceso.

En la redacción de la dirección (ver Figura 11) lo importante es detectar el tipo de vía, el


nombre de la vía y el número del lote. Para extraerlos es necesario reconocer su expresión.
Por ejemplo, se observa que el tipo de vía está expresado en mayúsculas, abreviado y se-
guido de un espacio en blanco.

Figura 11. Valores únicos del Código Predial y redacciones del valor de dirección

Pág. 12
4. ASEGURAMIENTO DEL EMPAREJADO

4.1. Procesos de extracción

Para ambas fuentes de información, los procesos de extracción comienzan con la detección
de los patrones de la redacción y según el caso, se realizan operaciones. Las operaciones de
búsqueda y extracción se realizaron con expresiones regulares11. En la base de datos de
información predial se reconoce que el tipo de avenida está expresado en mayúsculas, abre-
viado y seguido de un espacio. Extraído el texto se observa lo encontrado.

Dado que el contenido del texto es una clasificación, es de esperarse que en más de un lote
se encuentre el mismo dato. Para lo cual se realiza un listado de todos los valores únicos
encontrados. Observándose que para un mismo tipo de vía hay más de una expresión en el
texto original; lo cual amerita indicar el contenido explícitamente (ver Figura 12).

Extacción Procesamiento 1 Procesamiento 2 Formato Final


ALA alameda ALAMEDA ALAMEDA
ALAMEDA alameda ALAMEDA ALAMEDA
Aso.Vivien asociacion de vivienda ASOCIACION DE VIVIENDA S/N
Asoc asociacion ASOCIACION S/N
AV avenida AVENIDA AVENIDA
AVENIDA avenida AVENIDA AVENIDA
Barrio barrio BARRIO S/N
Block bloque BLOQUE S/N
CALLE calle CALLE CALLE
CARRET carretera CARRETERA CARRETERA
Chalet chalet CHALET S/N
CL calle CALLE CALLE
CLLLE calle CALLE CALLE
CONJ conjunto CONJUNTO S/N
Coop cooperativa COOPERATIVA S/N
Dpto departamento DEPARTAMENTO S/N
Edif edificio EDIFICIO S/N
Entr entrada ENTRADA S/N
FUNDO fundo FUNDO S/N
Int interior INTERIOR S/N
JIRON jiron JIRON JIRON
JR jiron JIRON JIRON
JR. jiron JIRON JIRON
Lt lote Figura 12. De la extracción
LOTE
al formateo del Tipo de Vía S/N
MAL malecon MALECON MALECON
11
MALECON malecon MALECON MALECON
Una expresión que describe a una cadena de texto. Cada lenguaje descrito por una expresión regular puede
Mz manzana MANZANA
ser representada mediante un modelo matemático. (Mitkov, 2003)
S/N
Nº numero NUMERO S/N
OTROS otros Pág. 13
OTROS S/N
PASAJE pasaje PASAJE PASAJE
PASEO paseo PASEO PASEO
Piso piso PISO S/N
Además, se realizó un proceso de discriminación de todos aquellos valores extraídos que no
correspondían al valor deseado. Dado que el valor esperado es el tipo de vía, resultados
como cooperativa, edificio, fundo o bloque no favorecen el emparejamiento de datos. Por
tanto reciben el valor S/N para separar dichos predios de los siguientes procesos.

En el caso del nombre de la avenida se observan las siguientes características: precede a un


espacio en blanco, está escrito en mayúsculas y minúsculas, tienen tildes y se anteponen a
la expresión Nº, la cual da pie al inicio del número del lote. La suma de estas características
facilita la extracción del nombre. Por otro lado el número del lote está precedido por la ex-
presión Nº, está escrito en números y usualmente seguido de una coma.

Este patrón no es el único. En muchos casos la información brindada es incompleta para


establecer un formato único de dirección. En muchos casos el valor obtenido de la extrac-
ción no es el número del lote sino el valor S/N. En casos como este, la ausencia del nombre
de la vía o el número de lote puede descalificar a un predio de ser apareado. Por lo cual es
necesario reconocer otras posibilidades de patrón.

La información brindada en el atributo dirección de la base catastral de información predial


incluye en muchos casos una denominación para la manzana y el número de lote al que
pertenecen el predio. En efecto, muchos predios tienen por nomenclatura la denominación
de la manzana y el número de lote dentro del conjunto de lotes de la misma manzana; en
vez del número de dirección compuesto por el número de cuadra y la serie consecutiva de
número pares o impares. Por lo cual, se consideró los valores de manzana y lote como me-
dio opcional para la paridad de datos.

En algunos casos, el atributo dirección ofrece datos complementarios que especifican la


ubicación del predio; a modo de referencia de ubicación. La cual puede ser otro lote, una
vía o un fragmento del lote con alguna denominación (p. ej. sección A, sub lote 3, etc.).
Dicha información, aunque útil, debe de ser considerada sólo en el caso de que la otra base
cuente con la misma información. Caso contrario, no contribuiría a lograr mayor paridad.

4.2. Definición del formato

La definición del formato debe considerar todos los aspectos mencionados con anteriori-
dad: los resultados de cada extracción y la diversidad de patrones de información recogida.
Por tanto, se definen dos estructuras para la escritura de la dirección predial:

 Dirección 1: tipo de vía, nombre de vía y número de predio


 Dirección 2: tipo de vía, nombre de vía, nombre de manzana y número de lote
Los formatos específicos para cada valor consisten en una definición conceptual, tipo de
dato (número entero, línea de texto o número real), cantidad de caracteres y redacción.

Pág. 14
 Tipo de vía, consiste en un valor de categoría de la vía derivado de los datos exis-
tentes en la fuente de información. El dato se expresará como línea de texto12 con un
máximo de 50 caracteres. No admite abreviatura, debe escribirse en mayúsculas y
no debe de tener tildes. Por ejemplo: CALLE, AVENIDA, MALECON, PASAJE.
 Nombre de vía, consigna el nombre con el que denomina a la vía y cuyo dato es un
derivado de la información existente. El nombre será expresado como una línea de
texto con un máximo de 250 caracteres. No admite abreviaturas, debe de escribirse
en mayúsculas y no debe de tener tildes. Por ejemplo: CANTUTA, ANGARAES, TAY-
LOR, LAS DALIAS, LOS QUINGUALES.

 Número de Predio, consigna el valor único asignado a un predio y cuyo dato deriva
de la información existente. El valor será expresado como una línea de texto con 10
caracteres como máximo. Pese a que es un formato numérico, se expresará como lí-
nea de texto considerando que hay casos donde no existe información. En dichos
casos se escribirá el valor S/N. En los valores de una cifra se escribirá un 0 a la iz-
quierda. De tal manera que como mínimo el número de lote tendrá dos cifras. Por
ejemplo: 02, 14, 929, 1925, S/N.
Luego se hará una concatenación de estos tres datos dejando un espacio en blanco entre
cada valor. El resultado se expresaría en una línea de texto con un máximo de 250 caracte-
res. Por ejemplo: PASAJE DANIEL ALCIDES CARRION 1925, PROLONGACION SAN CARLOS 06,
JIRON PANAMA 1286, CALLE REAL 602, AVENIDA SAN CARLOS 502.

En aquellos casos donde es reconocible el nombre de manzana y lote, dichos valores ten-
drán los siguientes formatos:

 Nombre de Manzana, consigna el valor del nombre de manzana derivado de la in-


formación existente. El valor será expresado como una línea de texto con 10 carac-
teres como máximo. Dado que los nombres de manzana toman el nombre de una le-
tra y en otros casos, una letra. Se considerará un 0 a la izquierda de ser un valor nu-
mérico de una cifra. De ser el valor un compuesto de letras y números, no habrá es-
pacio entre caracteres. No se admiten valores no alfanuméricos. Por ejemplo: E, J, B,
F, 09, J5, 02B.

 Número de Lote, consigna el valor del lote derivado de la información existente. El


valor será expresado como una línea de texto con 10 caracteres como máximo. Da-
do que los nombres toman un número. Se considerará un 0 a la izquierda de ser un
valor numérico de una cifra. De ser el valor un compuesto de números y letras, no
habrá espacio entre caracteres. No se admiten valores no alfanuméricos. Por ejem-
plo: 12, 04, 16B, 23, 01C.

12
También conocido como string, una cadena de texto es un tipo de dato que admite caracteres alfanuméri-
cos.

Pág. 15
Luego se hará una concatenación de estos tres datos dejando un espacio en blanco entre
cada valor. Precediendo al valor de manzana y lote se añadirá respectivamente las abre-
viaciones MZ y LT, seguido de un espacio en blanco. El resultado se expresaría en una
línea de texto con un máximo de 250 caracteres. Por ejemplo: PASAJE DANIEL ALCIDES
CARRION MZ E LT 16B, PROLONGACION SAN CARLOS MZ 09 LT 01C, JIRON PANAMA MZ J5
LT 04, CALLE REAL MZ F LT 02, AVENIDA SAN CARLOS MZ J LT 04.

5. EMPAREJADO Y VALIDACIÓN

Realizada la extracción y formateo de los datos de dirección se realizará el emparejado de


ambas fuentes de información mediante la herramienta Join (Unión). Esta herramienta pue-
de ejecutarse desde un software de elaboración de sistemas de información geográficos. En
el ejemplo (ver Figura 13) se realizó el emparejado mediante el software libre QGIS.

La ejecución de la herramienta requiere de por lo menos dos fuentes de información. Para


una fuente de información A, se debe de escoger una fuente B y un campo de cada una de
ellas para el emparejado. Luego, debe de señalarse aquellos atributos que desean unirse (las
direcciones). En este caso, la fuente A es aquella elaborada con el plano catastral y la B, la
base catastral de información predial; el campo a unirse, el código predial. Con lo cual se
logra que los lotes del plano catastral tengan un código predial. Dado que se elaboró dos
secuencias distintas, se ejecutó dos veces la herramienta Join, una para cada juego de direc-
ciones con el mismo patrón. Como resultado se obtuvieron 5 374 pares.

Figura 13. Herramienta Join en el Software QGIS

Pág. 16
5.1. Resultados espurios y óptimos

Se observó los resultados y se aseguró que los pares de datos cumpliesen con la condición
de que coincidan al 100% los caracteres en el atributo de dirección. Para lo cual se realizó
una validación, calificando aquellos predios con dicho requisito. Resultando en 1 759 lotes
vinculados (ver Figura 14), con los cuales se podrá realizar un cruce entre los datos del
plano catastral y la base catastral de información predial.

Se observa que el primer formato de dirección logró la mayor cantidad de pares (tipo de
vía, nombre de vía y número de lote), mientras que el formato sin número de lote pero con
nombre de manzana y número de lote, sólo logró el 5,3% de los resultados óptimos.

Dirección Dirección
TOTAL
(formato 1) (formato 2)
Pares obtenidos 1,950 3,424 5,374
Resultados espurios 284 3,331 3,615
Resultados óptimos 1,666 93 1,759
Figura 14. Resultados óptimos y espurios del emparejamiento

Considerando que el plano catastral cuenta con 16 194 lotes, el resultado está por debajo
del 11% (ver Figura 15). Hay varios factores que justifican este resultado, todos ellos tienen
se deben a la ausencia de datos en alguna de las bases. Por ejemplo, del dibujo catastral
sólo 3 615 lotes tuvieron información suficiente para completar la dirección.

Figura 15. Distribución geográfica de lotes emparejados

Pág. 17
6. BALANCE Y RESULTADOS

La estrategia de vinculación del plano catastral y la base catastral de información predial,


una fuente gráfica y otra alfanumérica, se ha realizado con el empleo de herramientas del
entorno de trabajo de los SIG. Mediante la cual se ha logrado el objetivo pero sólo en el
28.7% del total de lotes.

La causa de este porcentaje se debe al contenido de los datos de texto en el desarrollo de las
direcciones. La ausencia de datos específicos que generen un par único entre ambas fuen-
tes, reduce la posibilidad del emparejado.

Otro motivo es la relación espacial de los objetos en el plano catastral. En el plano catastral
los objetos contenidos en él están dispuestos para que el contenido del plano sea legible
visualmente, por tanto la relación espacial de dichos objetos está pensada bajo esta lógica.
En este caso, la elaboración de un plano legible es el producto de la información catastral;
mas no la gestión de la información.

En un entorno de trabajo SIG, el objetivo principal es la gestión de la información y un pro-


ducto derivado es el plano, que es finalmente un medio de comunicar la información catas-
tral. El empleo de entornos de trabajo que no sean SIG dificulta la gestión de información y
dirigen los esfuerzos hacia la producción del plano, pese a que los entornos CAD incluyan
herramientas de gestión de información.

En ambas fuentes de información se observó que una codificación numérica para los lotes,
lo cual es altamente recomendable para la gestión de información e integración de bases de
datos. Sin embargo, cada conjunto de datos tiene una codificación distinta por tanto la inte-
gración no es posible. Para realizarla es estrictamente necesario un dato en común.

La estrategia empleada fue el emparejamiento mediante las direcciones de los lotes, dado
que se reconoció como el único dato común entre bases. Sin embargo durante la ejecución,
se observó que las direcciones no son siempre únicas y al no serlo el emparejamiento de los
lotes no es posible en su totalidad. Por tanto, pese a la logrado con los procedimientos de
emparejado es altamente recomendable contar a futuro con una codificación numérica de
lotes que sea compartida entre ambas bases.

En cuanto al desarrollo de los procesos empleados en el emparejado, debe de entenderse


que muchos procesos requieren más de un intento. El entorno de trabajo SIG no es el mismo
que el CAD, considerar que hay parámetros necesarios para realizar los cálculos y que el
aprendizaje de las herramientas requiere de pruebas y errores, el entorno del software QGIS
facilita la realización de pruebas y el aprendizaje.

La ventaja de la ejecución de procesos sobre la edición manual de atributos es el ahorro de


tiempo. Bajo una misma lógica, muchos atributos pueden ser modificados a la vez. Sin em-
bargo, siempre es posible realizar ediciones manuales de datos dentro del entorno SIG.
Pág. 18

Anda mungkin juga menyukai