Anda di halaman 1dari 24

http://ocw.innova.uned.

es/ocwuniversia



Contenido

Introduccion ............................................................................................ Error! Bookmark not defined.
PYTHON ...................................................................................... Error! Bookmark not defined.
Marco Terico ................................................................................................................................... 4
Descripcin de la Solucin ................................................................................................................ 5
Conclusiones .................................................................................................................................... 6
Recomendaciones ............................................................................................................................ 7
Anexo ............................................................................................................................................... 8
Introduccion ..................................................................................................................................... 13
HTML 5 ..................................................................................................................................... 13
Marco Terico ................................................................................................................................. 15
Descripcin de la Solucin .............................................................................................................. 18
Conclusiones .................................................................................................................................. 19
Recomendaciones .......................................................................................................................... 20
Anexo ............................................................................................................................................. 21
Info .................................................................................................. 2Error! Bookmark not defined.

Introduccin ....................................................................................................................................... 4
Marco Terico ..................................................................................................................................... 5
Descripcin de la Solucin ................................................................................................................ 6
Conclusiones ...................................................................................................................................... 7
Recomendaciones.............................................................................................................................. 8
Anexos ................................................................................................................................................ 9
Introduccin ..................................................................................................................................... 15
Marco Terico ................................................................................................................................... 16
Descripcin de la Solucin .............................................................................................................. 19
Conclusiones .................................................................................................................................... 20
Recomendaciones............................................................................................................................ 21
Anexos .............................................................................................................................................. 22
Bibliografa ....................................................................................................................................... 24

Introduccin ....................................................................................................................................... 4
Marco Terico ..................................................................................................................................... 5
Descripcin de la Solucin ................................................................................................................ 6
Conclusiones ...................................................................................................................................... 7
Recomendaciones.............................................................................................................................. 8


Anexos ................................................................................................................................................ 9
Introduccin ..................................................................................................................................... 15
Marco Terico ................................................................................................................................... 16
Descripcin de la Solucin .............................................................................................................. 19
Conclusiones .................................................................................................................................... 20
Recomendaciones............................................................................................................................ 21
Anexos .............................................................................................................................................. 22
Bibliografa ....................................................................................................................................... 24






Introduccin
PYTHON
Python es un potente lenguaje de programacin muy flexible y muy fcil de aprender, que podemos
usar en un desarrollo web/de Internet. Cuenta con estructuras de datos de alto nivel eficientes y un
enfoque simple pero eficaz para programacin orientada a objetos.
Python tiene una elegante sintaxis y tipo dinmico, su naturaleza interpretada lo convierte en un
lenguaje ideal para secuencias de comandos y el desarrollo rpido de aplicaciones en muchas reas en la
mayora de las plataformas.
El intrprete de Python se extiende fcilmente con nuevas funciones y tipos de datos implementados
en C o C++; u cualquier otro idioma que se puede llamar desde C; tambin es adecuado como un lenguaje
de extensin para aplicaciones personalizables.
El intrprete y la extensa biblioteca de Python son disponibles gratuitamente en formato fuente o
binario para todas las plataformas desde su sitio web de Python, y pueden ser distribuidos libremente. Su
propio sitio contiene distribuciones del mismo, y enlaces a muchos mdulos libres de Python de terceros,
programas, herramientas y documentacin adicional.
Para una descripcin ms detallada de los objetos y los mdulos estndares; Python tiene una
biblioteca estndar de s mismo, y la referencia de su lenguaje que da una definicin ms formal de la
lengua.


Marco Terico
Python
Python es un lenguaje de programacin interpretado cuya filosofa hace hincapi en una sintaxis que
favorezca un cdigo legible.
Se trata de un lenguaje de programacin multiparadigma, ya que soporta orientacin a objetos,
programacin imperativa y, en menor medida, programacin funcional. Es un lenguaje interpretado, usa
tipado dinmico y es multiplataforma.
Scrapy
Es de cdigo abierto y escrito en Python. Se utiliza para la extraccin de informacin de pginas web.
Web Scraping
Web scraping es una tcnica utilizada mediante programas de software para extraer informacin de
sitios web. Usualmente, estos programas simulan la navegacin de un humano en la World Wide Web ya
sea utilizando el protocolo HTTP manualmente, o incrustando un navegador en una aplicacin.
Spiders
Son las clases que definen cmo se extrae un sitio determinado (o un grupo de pginas Web),
incluyendo la forma de realizar el rastreo (es decir, seguir enlaces) y cmo extraer informacin
estructurada de sus pginas (es decir, el raspado artculos). En otras palabras, spiders son el lugar donde
se define el comportamiento personalizado para el rastreo y anlisis de pginas para un sitio en particular
(o, en algunos casos, un grupo de sitios).
LinkExtractors
Son objetos cuyo nico propsito es extraer los enlaces de pginas web. Hay dos Extractores de
enlace disponibles en Scrapy por defecto, pero se cree sus propias Extractores Vnculo personalizado para
satisfacer sus necesidades mediante la implementacin de una interfaz sencilla.
Scrapy Shell
Es un Shell interactivo donde se puede probar y depurar el cdigo raspando muy rpidamente, sin
tener que correr a la araa. Est destinado a ser utilizado para probar el cdigo de extraccin de datos,
pero en realidad se puede utilizar para probar cualquier tipo de cdigo, ya que tambin es un terminal de
Python regular.
IPython
IPython es un Shell interactivo que aade funcionalidades extra al modo interactivo incluido con
Python, como resaltado de lneas y errores mediante colores, una sintaxis adicional para el shell,
autocompletado mediante tabulador de variables, mdulos y atributos; entre otras funcionalidades. Es un
componente del paquete SciPy.







Descripcin de la Solucin
Como es de conocimiento Scrapy es un marco de rastreo Web con soporte para extraer elementos
web. Es de cdigo abierto y escrito en Python. Se controla el uso de las herramientas de lnea de
comandos, que pueden ser utilizados para activar la extraccin.
En este proyecto que se desarroll, se nos asign a nuestro grupo una pgina web a la cual le
hicimos la extraccin de informacin como los href, src de las imgenes, etc. Se desarroll esto
basndonos en los conocimientos obtenidos a lo largo del curso de python-scrapy, el proyecto extrae los
datos de la pgina principal, y de las pginas que esta a su vez contiene dentro de la misma.
Los elementos extrados se guardan en un archivo con la extensin csv, de esta manera se puede
tener todo de una manera ordenada y podremos identificar cada parte extrada con mayor facilidad.
Para realizar esto primero debemos crear un entorno virtual para desde aqu comenzar a trabajar,
primero instalando todo y de ah para ejecutar el spider que es el que contiene el cdigo en el cual se
realiza la extraccin de la informacin.



































Conclusiones
El proyecto de Python nos es de mucha ayuda porque es muy sencillo para ser usado, y siendo un
lenguaje de programacin demasiado potente ayuda a la formacin como profesionales.
Y a la finalizacin del proyecto, se ha obtenido un sistema que cumple con los objetivos dados por el
tutor correspondiente. Adems de obtener mucha ms experiencia, manejo, eficiencia y seguridad en la
realizacin de nuestro proyecto en Python.











Recomendaciones
Cada lenguaje tiene sus herramientas, su forma de trabajar, sus reglas de estilo, entro otras., aparte
cada uno de nosotros poseemos trucos y reglas para trabajar ordenadamente., y como recomendaciones
podremos decir lo siguiente:
Su cdigo debe ser escrito de forma que no tenga desventajas en otras implementaciones de
Python aparte de CPythn.
Se debe seguir las reglas de Python, para conocerlas basta con ejecutarlas.
Se debe aprovechar la potencia del lenguaje. Python tiene muchas cosas interesantes, como
ejemplo las list comprehesions que agilizan mucho el desarrollo.
Tiene que tenerse cuidado con los imports. Porque primeramente es que no sepas ni lo que
quieras usar, segundo porque se puede ser una fuente de bugs importante.



Anexos
Creamos nuestro entorno con cualquier nombre.

Despus de creado debemos activar el entorno.








Luego instalamos paquetes que necesitamos para crear y realizar nuestro proyecto



Provamos con scrapy shell para ver si podemos crear o realizar nuestro proyecto.




Entramos a nuestra carpeta en donde realizaremos nuestro proyecto.







Codigo:
# -*- encoding: utf-8 -*-
from scrapy import log
#from demo1.items import TestItem

from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import Selector
import codecs
class MySpider(CrawlSpider):
name = 'demoname'
#allowed_domains = ['example.com']


start_urls=['http://ocw.innova.uned.es/ocwuniversia/diplomado_en_ciencias_empresariales


','http://ocw.innova.uned.es/ocwuniversia/analisis_%20geografico_%20regional/','http://
ocw.innova.uned.es/ocwuniversia/cartografia-
geologica/','http://ocw.innova.uned.es/ocwuniversia/ciencias/','http://ocw.innova.uned.
es/ocwuniversia/tecnologias-
audiovisuales/','http://ocw.innova.uned.es/ocwuniversia/derecho-
constitucional/','http://ocw.innova.uned.es/ocwuniversia/competencias-genericas-en-
informacion/','http://ocw.innova.uned.es/ocwuniversia/economia-aplicada-e-ha-
economica/','http://ocw.innova.uned.es/ocwuniversia/educacion_para_la_salud/','http://o
cw.innova.uned.es/ocwuniversia/Educacion-
Vial/','http://ocw.innova.uned.es/ocwuniversia/filologia/','http://ocw.innova.uned.es/o
cwuniversia/filosofia/','http://ocw.innova.uned.es/ocwuniversia/geografia-
fisica/','http://ocw.innova.uned.es/ocwuniversia/historia-del-
arte/','http://ocw.innova.uned.es/ocwuniversia/ingenieria-electrica-electronica-y-de-
control/','http://ocw.innova.uned.es/ocwuniversia/Ing_tecnico_infor_sistemas/','http://
ocw.innova.uned.es/ocwuniversia/ingenieria-
industrial/','http://ocw.innova.uned.es/ocwuniversia/matematicas-
fundamentales/','http://ocw.innova.uned.es/ocwuniversia/proyecto-
epica/','http://ocw.innova.uned.es/ocwuniversia/psicologia/','http://ocw.innova.uned.es
/ocwuniversia/educacion/','http://ocw.innova.uned.es/ocwuniversia/tendencias-
sociales/','http://ocw.innova.uned.es/ocwuniversia/tecnologia-
electronica/','http://ocw.innova.uned.es/ocwuniversia/tecnologias-del-medio-
ambiente/','http://ocw.innova.uned.es/ocwuniversia/teoria-del-derecho/']
print len(start_urls)

def parse(self, response):

archivo=codecs.open('salida.csv','a','utf-8')
cad="http://ocw.innova.uned.es/ocwuniversia"
log.msg('Ingresando al proceso')
sel = Selector(response)
las =
sel.xpath('/html/body/div/table/tbody/tr/td[2]/div/div[3]/div/table/tbody/tr/td/a[2]')
l=sel.xpath('/html/body/div/table/tbody/tr/td[2]/div/div[3]/div/div[3]/div/table/
tbody/tr/td/img')
src=l.xpath('@src').extract()[0]
src=cad+src
archivo.write("%s;"%(src))
for a in las:
href= a.xpath("@href").extract()[0]
archivo.write("%s;"%(href))

archivo.write("\n")
archivo.close()



Ya hecho nuestro proyecto seguimos con = scrapy crawl demoname ( demoname es el nombre de
nuestro archivo ) corremos nuestro proyecto ya hecho












Seguimos abriendo el archivo generado por nuestro codigo, y segn las especificaciones requeridas.



Integrantes: - Jordy Sarango
- Junior Torres
- Cristian Mendoza
Introduccin
HTML 5 y CSS3
HTML5 es el ltimo estndar para el HTML; la versin anterior de HTML, HTML 4.01, se produjo en
1999, y el Internet ha cambiado mucho desde entonces.
HTML5 fue diseado para reemplazar y mejorar otros sus versiones anteriores como: HTML4,
XHTML y DOM HTML Nivel 2; as como tambin ofrecer un contenido rico sin necesidad de algn tipo de
plugins adicional, ya que su versin actual ofrece de todo, desde la animacin de grficos, msica de
pelculas y tambin se pueden utilizar para construir aplicaciones web completas.
HTML5 es una plataforma, est diseada para trabajar desde un PC o un Tablet, un Smartphone o
una Smart TV.
Es una colaboracin entre el consorcio World Wide Web y el grupo de trabajo de Tecnologa Web de
hipertexto Aplicacin.
Sus nuevas funciones ms importantes:
El elemento <canvas> para el dibujo 2D
El <video> y <audio> para la reproduccin multimedia
Soporte para almacenamiento local
Nuevos elementos especficos de contenido, como <article>, <footer>, <header>, <nav>, <section>
Nuevos controles de formulario, como el calendario, la fecha, hora, correo electrnico, URL,
bsqueda
Todos los principales navegadores (Chrome, Firefox, Internet Explorer, Safari, Opera) apoyan a los
nuevos elementos de HTML5 y APIs, continuando agregando nuevas caractersticas HTML5 a sus ltimas
versiones; el grupo de trabajo de HTML5 incluye AOL, Apple, Google, IBM, Microsoft, Mozilla, Nokia,
Opera y cientos de otros proveedores.
CSS3 es el ltimo estndar de CSS, compatible con todas las versiones anteriores de CSS; se ha
dividido en mdulos; algunos de los mdulos de CSS3 ms importantes son:
Selectores
Modelo de caja
Fondos y bordes
Los valores de imagen y contenido de Reemplazo
Efectos de texto
2D/3D transformaciones
Animacin
Diseo de columna mltiple
Interfaz de usuario
La especificacin CSS3 est todava en desarrollo por el W3C, sin embargo, muchas de las nuevas
propiedades de CSS3 se ha implementado en los navegadores.





Marco Terico
HTML5
Es la ltima evolucin de la norma que define HTML. El trmino representa dos conceptos diferentes,
se trata de una nueva versin del lenguaje HTML, con nuevos elementos, atributos y comportamientos y
un conjunto ms amplio de tecnologas que permite a los sitios Web y las aplicaciones ms diversas y de
gran alcance, este conjunto se le llama HTML5 y amigos y, a menudo reducido a slo HTML5.
Diseado para ser utilizable por todos los desarrolladores de Open Web, esta referencia pgina
enlaza numerosos recursos sobre las tecnologas de HTML5, que se clasifican en varios grupos segn su
funcin.



ELEMENTOS DE CABEZA































Elementos Descripcin
<head> Define informacin sobre el documento.
<title> Define el titulo para el documento.
<base> Define una direccin predeterminada o un destino
predeterminado para todos los enlaces de una pgina
<link> Define la relacin entre un documento y un recurso
externo
<meta> Define los metadatos de un documento HTML
<script> Define un script del lado del cliente
<style> Define la informacin de estilo para un documento










SECCIONES




AGRUPACIONES PARA CONTENIDO


Elemento Descripcin
<body>
Representa el contenido principal de un documento HTML. Solo hay un
elemento <body> en un documento.
<section> Define una seccin en un documento.
<nav> Define una seccin que solamente contiene enlaces de navegacin
<aside>
Define algunos contenidos vagamente relacionados con el resto del
contenido de la pgina. Si es removido, el contenido restante seguir teniendo
sentido
<h1>,<h2>,<h3>,<h4>,<h5>
,<h6>
Los elemento de cabecera implementan seis niveles de cabeceras de
documentos; <h1> es la de mayor y <h6> es la de menor importancia. Un
elemento de cabecera describe brevemente el tema de la seccin que introduce.
<header>
Define la cabecera de una pgina o seccin. Usualmente contiene un
logotipo, el ttulo del sitio Web y una tabla de navegacin de contenidos.
<footer>
Define el pie de una pgina o seccin. Usualmente contiene un mensaje
de derechos de autora, algunos enlaces a informacin legal o direcciones para
dar informacin de retroalimentacin.
<address> Define una seccin que contiene informacin de contacto.
Ele
mento
Descripcin
<p> Define una parte que debe mostrarse como un prrafo.
<hr>
Representa un quiebre temtico entre parrafos de una seccin o articulo o cualquier
contenido.


TABLAS

Ele
mento
Descripcin
<tab
le>
Representa datos con ms de una
dimensin.
<tr> Representa una fila de celdas en una tabla.
<td> Representa una celda de datos en una
tabla.
<th> Representa una celda encabezado en una
tabla.



FORMULARIOS






<ul> Define una lista de artculos sin orden.
<li> Define un artculo de una lista ennumerada.
<div
>
Representa un contenedor genrico sin ningn significado especial.
Ele
mento
Descripcin
<for
m>
Representa un formulario, consistendo de controles que puede ser enviado a un servidor
para procesamiento.
<lab
el>
Representa el ttulo de un control de formulario.
<inp
ut>
Representa un campo de datos escrito que permite al usuario o usuaria editar los datos.
<but
ton>
Representa un botn.

























Descripcin de la Solucin
Est claro que HTML5 ha dejado ya de ser el futuro para convertirse en el presente, la mayora de
navegadores modernos soportan gran cantidad de los nuevos elementos del estndar lo que hace que su
uso sea posible hoy en da. Pero HTLM5 no es el nico en su evolucin, junto a el tambin ha crecido
CSS3 y la nueva generacin de JavaScript.
Para realizar este proyecto, se me asign una pgina web a la cual debamos realizar una copia de
dicha pgina, con diseos y dems mejoras personales.
Para realizar el proyecto usamos el programa Sublime Text lo cual nos permitir crear un index
(pgina modelo) con su respectivo css el cual es una hoja de estilos.




































Conclusiones
La nueva versin de HTML contiene elementos dedicados ampliamente a mejorar la experiencia del
usuario en nuestra pgina web, haciendo ms fcil al diseador poder agregar elementos de audio, video y
en general del web 2.0 as como organizar sus contenidos utilizando menos cdigo.
La nueva versin es ms eficiente y ocupa menos recursos en la computadora del cliente, en particular
mediante el uso del nuevo reproductor que no requiere flash o adobe player para utilizarse, y siendo el
HTML5 compatible con las versiones anteriores de HTML, utilizar la nueva versin en una pgina ya
diseada implica un menor trabajo que si fuera una coleccin completamente nueva.
Por el contrario, HTML5 radica fuertemente en las capacidades del explorador, por lo que en estos
momentos no todos los exploradores lo soportan (actualmente slo Chrome, Safari, Firefox y Opera
soportan la mayora de las caractersticas).












Recomendaciones

La nueva sintaxis de HTML5 se la puede trabajar sin riesgo de incompatibilidad a no ser que se est
usando un navegador obsoleto como Internet Explorer v6.
HTML5 y CSS3 tiene nuevos elementos de estructura que permiten concebir de manera semntica
sus pginas web, as como tambin los nuevos elementos de tipos de formularios cuando sean
reconocidos por el navegador, sern interpretados como objetos de tipo text.




Anexos

Primero en nuestra carpeta principal creamos un archivo cualquiera, con el cual vamos a iniciar .html
y con los dems recursos que vamos a usar.


Carpeta con las hojas de estilos creados individualmente para cada una de las pginas, para el mejor
manejo y eficiencia.






Sublime text con el cdigo de cada una de las pginas y su respetivo hoja de estilo.

Cdigo adjunto al archivo.






Bibliografa

https://www.python.org/
https://docs.python.org/3/tutorial/index.html
https://docs.python.org/3/
https://docs.python.org/3/whatsnew/3.4.html
https://docs.python.org/3/using/index.html
http://es.wikipedia.org/wiki/Python
http://es.slideshare.net/ortizximena/como-hacer-introduccion
http://html5.dwebapps.com/
http://es.wikipedia.org/wiki/HTML5
http://js.devexpress.com/WebDevelopment/DataGrid
http://www.w3schools.com/html/html5_intro.asp
http://virtualtec.cl/html5-capitulo-2/
http://html5tutoriales.com/
http://www.w3schools.com/css/css3_intro.asp
http://blep.blogspot.com/2010/03/consejos-para-trabajar-con-python.html
http://www.juanjoconti.com.ar/2008/10/28/recomendaciones-al-programar-en-python/
http://www.trazos-web.com/2010/02/01/html5-que-es-y-como-usarlo/

Anda mungkin juga menyukai