Anda di halaman 1dari 7

INSTITUTO TECNOLGICO SUPERIOR DE LERDO

Ensayo: Formatos de archivos de secuencia

Primer corte

Datos del trabajo Alumno: Nmero de control: Grupo: Carrera: Materia: Titular de la materia:

Erick Rodrguez 10231006 3O4B Ingeniera en Informtica Administracin y organizacin de datos Ing. Ricardo de Jess Bustamante Gonzlez
Cd. Lerdo, Durango. 9 de Febrero 2012

[FORMATOS DE ARCHIVOS DE SECUENCIAS] 9 de febrero de 2012

Introduccin
En el mbito de la Informtica, el trmino de archivo digital se define como la encapsulacin de una cadena finita de bits en una entidad lgica, la cual se almacena en el sistema de archivos de un dispositivo de memoria secundaria (disco duro, memoria USB, disco compacto, etc.) con la finalidad de ser utilizada posteriormente. Los archivos guardados en un dispositivo de almacenamiento se organizan mediante la utilizacin de carpetas y unidades lgicas, recibiendo cada archivo un identificador (nombre y extensin) que lo diferencia de los dems. La extensin de un archivo permite asociarlo a un tipo determinado de aplicacin informtica, a travs de la cual ser posible realizar operaciones bsicas sobre el documento, tales como la creacin, consulta, actualizacin, etc. Y la extensin depender del tipo de contenido que posea el archivo, es decir si es de msica, fotos, video, texto simple, texto normal, animaciones, etc. De manera general, existen dos tipos de archivos informticos: los archivos binarios y los archivos ASCII. En la clasificacin de los archivos binarios se encuentran los archivos de imagen, archivos de audio, archivos de video, archivos de compresin y los archivos ejecutables de aplicaciones informticas. Pero en el caso de los archivos ASCII, existen los archivos de texto plano, archivos de intercambio y loar archivos de fuente. Sin embargo, en esta ltimo tipo de archivos se encuentra otra clasificacin que se utiliza para fines ms especficos y enfocados al rea de la bioinformtica, es decir, los archivos de secuencia. Existente diferentes formatos de archivos de secuencia en la actualidad, los cuales sirven para diferentes usos y que presentan caractersticas que los hacen diferentes unos de otros. El propsito del presente ensayo es presentar al lector una definicin clara sobre lo qu son los archivos de secuencia, cules son sus usos, qu formatos existen en la actualidad y las caractersticas que pueden observarse en cada uno de ellos.

INSTITUTO TECNOLGICO SUPERIOR DE LERDO |Erick Rodrguez

[FORMATOS DE ARCHIVOS DE SECUENCIAS] 9 de febrero de 2012

Desarrollo
Un archivo de secuencia es un fichero lgico que permite almacenar de manera ordenada y sucesiva una coleccin de caracteres, siguiendo un principio preestablecido para ello. Como se mencion anteriormente, los archivos de secuencia forman parte de la clasificacin de archivos ASCII. La principal caracterstica con la que cuentan los archivos ASCII es que el contenido que poseen son conjuntos de cadenas de caracteres (letras, nmeros y secuencias de escape como retorno de carro y el espacio) que pueden ser fcilmente interpretados por cualquier persona a simple vista. Los archivos de secuencia se pueden clasificar a su vez dependiendo del nmero de lneas o secuencias que pueda contener, por lo que existen archivos de secuencia nica y de secuencia mltiple. Los archivos de secuencia nica son aquellos que solamente pueden manejar una secuencia por archivo creado, mientras que archivos de secuencia mltiple son los que pueden soportar una o varias secuencias por archivo creado. En esta ltima clasificacin, los datos contenidos en las cadenas de caracteres pueden manipularse de forma secuencial o mediante intervalos. En la forma secuencial, cada cadena que es ingresada en el archivo se escribe de manera completa antes de que pueda ingresar una nueva cadena. En la forma intercalada, es posible llevar a cabo la escritura ms de una cadena a la vez. Los archivos de secuencias se encuentran conformados bsicamente por una o varias cadenas de caracteres que se encuentran ordenados siguiendo una lgica determinada, la cual depende de la naturaleza de informacin que se est manejando. Sin ser una regla formal, se incluyen anotaciones, cadenas de identificacin o indicaciones a manera de comentario. Un ejemplo de ello es el que se presenta a continuacin:
>ABCD Comentario ttcctctttctcgactccatcttcgcggtagctgggaccgccgttcagtcgccaatatgc agctctttgtccgcgcccaggagctacacaccttcgaggtgaccggccaggaaacggtcg cccagatcaaggctcatgtagcctcactggagggcatt

Los archivos de secuencias son utilizados para aplicaciones muy especficas, un ejemplo de ello es dentro del mbito cientfico, ms explcitamente en el campo de investigaciones de la bioinformtica, los cuales suelen crearse para manejar informacin referente al alineamiento de las protenas en la hemoglobina o la estructura de aminocidos y el ADN, por citar algn ejemplos. Para llevar a cabo las operaciones ms bsicas (creacin, consulta, actualizacin, compresin, etc.) sobre estos archivos, se suelen desarrollar aplicaciones de software que sean
INSTITUTO TECNOLGICO SUPERIOR DE LERDO |Erick Rodrguez 3

[FORMATOS DE ARCHIVOS DE SECUENCIAS] 9 de febrero de 2012 capaces de entender su contenido y manipularlo. Algunos ejemplos de programas de software que permiten el manejo de archivos de secuencias son SeqVerter (conversin entre formatos), ClustalW2 (manejo de informacin del ADN y protenas), ModelTest (creacin de modelos de nucletidos), entre otros Debido a que en la actualidad existe una gran cantidad de programas informticos desarrollados para el manejo de secuencia, tambin existe una variedad de formatos de archivos de secuencia ya que de manera general cada uno de los programas cuenta con su propio formato para trabajar de manera nativa con esta clase de archivos. A continuacin se describen algunos de los formatos ms comunes de archivos de secuencias. Clustal. Es uno de los formatos ms difundidos y almacena informacin referente a nucletidos y aminocidos, representndolos mediante el cdigo de letras. Al inicio del archivo se escribe la palabra Clustal. Ejemplo: CLUSTAL W(1.60) multiple sequence alignment
YVKE1 YVKE2 SQLSWKRLLMKGYIPPYKPAVS-----NSMDTSNFDEEFTR-----EKPIDSVVDEYLSES KDISWKKLLLKGYIPPYKPIVK-----SEIDTANFDQEFTK-----EKPIDSVVDEYLSAS

Phylip. Al igual al anterior formato, este se utiliza para manipular informacin referente nucletidos y aminocidos, sirviendo de entrada para diferentes programas de anlisis de frecuencias. Al iniciar el archivo es necesario indicar mediante nmeros en primera instancia el nmero de secuencias que analizar el programa y enseguida el nmero de caracteres de nucletidos o aminocidos separados por espacios en blanco. Ejemplo:
6 39 Archaeopt CGATGCTTAC CGCCGATGCT Hesperorn CGTTACTCGT TGTCTCTGCC Baluchith TAATGTTAAT TGTCGATGCT

FASTA. Es uno de los formatos de archivos de secuencia ms populares actualmente y el ms simple. Cada una de las secuencias que contiene un archivo de este formato comienza con el carcter > seguido del identificador de dicha secuencia. Es posible incluir adems una descripcin. Ejemplo:
>sec_1 descripcin GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT >sec_2 ATCGTAGTCTAGTCTATGCTAGTGCGATGCTAGTGCTAGTCGTATGCATGGCTATGTGTG

INSTITUTO TECNOLGICO SUPERIOR DE LERDO |Erick Rodrguez

[FORMATOS DE ARCHIVOS DE SECUENCIAS] 9 de febrero de 2012 RSF. Es un formato de archivo que puede contener una o ms secuencias, el cual puede ser creado mediante la aplicacin NetFech. Ejemplo:
!!RICH_SEQUENCE 1.0 .. { name DQ160058 descrip Taraxacum officinale TO52-2 (To52-2) mRNA, partial cds.

Staden. Es un formato que es exclusivo de la suite de anlisis biolgico Staden, en cuyo contenido nicamente se almacena la secuencia a manipular. Ejemplo:
GGTACGTAGTAGCTGCTGCTACGTGCGCTAGCTAGTACGTCATTA CGACGTAGATGCTAGCTGACTCGATGCAGTACGTAGTAGCTGCTG CTACGTGCGCTAGCTAGTACGTCACGACGTAGATGCTAGCTGACT CGATGC

Gcg. Al igual que el formato anterior, este es exclusivo de una suite de anlisis biolgico, llamada GCG. Posee por caractersticas que la primer lnea debe de estar escrita en mayscula, cuenta con lneas de descripcin que detallan las secuencias y lneas que se encargan de dividir el contenido introduciendo el nmero de residuos en cada secuencia. Ejemplo:
!!NA_SEQUENCE 1.0 test.seq Length: 5390 April 22, 1999 13:50 Type: N Check: 8167 .. 1 ttatataaaa aatgctgaaa acaggatcaa ggaggaagat ttaaatatag 51 atataatata tgggaagaaa cataaaaacg aaataagaac agctaaatat

ABI. Este formato es utilizado por el secuenciador aplicado conocido como BioSystem. Posee la caracterstica de guardar una nica secuencia y ser de slo lectura. EMBL. Es un formato por el cual se generan una serie de reportes acerca de secuencias de nucletidos y protenas, el cual se encuentra respaldado por el Laboratorio Europeo de Biologa Molecular (EMBL por sus siglas en ingls). Para utilizarse en otros programas como el GCG, es necesario realizar su conversin en una primera instancia. Ejemplo:
ID AC SV NI DT ECGOR standard; DNA; PRO; 1500 BP. M13141; M13141.1 g146247 5

19-SEP-1987 (Rel. 13, Created) INSTITUTO TECNOLGICO SUPERIOR DE LERDO |Erick Rodrguez

[FORMATOS DE ARCHIVOS DE SECUENCIAS] 9 de febrero de 2012

Conclusin
En base a lo anteriormente expuesto, se llega a la conclusin de que los archivos de secuencias forman parte de la clasificacin de archivos ASCII, los cuales se caracteriza por contener caracteres que pueden ser legibles por el ser humano cuando son consultados o abiertos. Adems, los archivos de secuencias a su vez pueden dividirse en archivos de secuencia nica y mltiple (segn su contenido) o tambin en archivos secuenciales (permiten la escritura de una secuencia a la vez) e intercalado (permite la escritura de varias secuencias a la vez). Los archivos de secuencias permiten almacenar cadenas de caracteres que poseen un ordenamiento o patrn lgico, el cual est condicionado a la informacin que es manejada en el mismo. Estos archivos son utilizados principalmente para aplicaciones cientficas y un ejemplo muy claro de ello son los estudios realizados en el rea de la bioinformtica con respecto a aminocidos y nucletidos. Para poder realizar las operaciones ms bsicas sobre estos archivos es necesaria la utilizacin de aplicaciones de software especializadas que sean capaces de entender su contenido, hablando tanto de las secuencias como de otro texto adicional (explicaciones, indicaciones, etc.). Debido a la gran cantidad de aplicaciones que permiten el manejo de archivos de secuencias, existe a la vez una gran variedad de formatos que en ocasiones son exclusivos de una suite determinada o que pueden ser compatibles entre aplicaciones de software diferentes.

INSTITUTO TECNOLGICO SUPERIOR DE LERDO |Erick Rodrguez

[FORMATOS DE ARCHIVOS DE SECUENCIAS] 9 de febrero de 2012

Referencias bibliogrfica
Bazinet, Adam. molecularevolution.org, file formats [en lnea]. Recuperado el 8 de febrero del 2012, de http://molecularevolution.org/resources/fileformats. European Bioinformatics Institute. EMBL EBI site, Sequence Formats. Recuperado el 8 de febrero de 2012, de http://www.ebi.ac.uk/2can/tutorials/formats.html. Computational Biology Research Group (2011, 18 de Noviembre). Bioinformatics FAQ, Examples of common sequence file formats. Recuperado el 8 de febrero de 2012, de http://www.compbio.ox.ac.uk/bioinformatics_faq/format_examples.shtml. GeneStudio.com. GeneStudio site. Sequence file format notes. Recuperado el 8 de febrero de 2012, de http://www.genestudio.com/formats. Blanca, Jos y Caizares, Joaqun (2012, 30 de Enero). Bioinformatics at COMAV, Sequence file formats. Recuperado el 8 de febrero de 2012, de http://bioinf.comav.upv.es/courses/sequence_analysis/sequence_file_formats.ht ml. Hernndez, Hctor y Gutirrez, Javier. Preguntas frecuentes, Tipos de archivos y archivos de secuencias. Recuperado el 8 de febrero de 2012, de http://www.cecalc.ula.ve/bioinformatica/UNIX/node62.html.

INSTITUTO TECNOLGICO SUPERIOR DE LERDO |Erick Rodrguez

Anda mungkin juga menyukai