Anda di halaman 1dari 8

Internet profunda

Deep web redirige aqu. Para el documental, vase Deep Web (documental).

Este artculo tiene referencias, pero necesita ms para complementar


su verificabilidad.
Puedes colaborar agregando referencias a fuentes fiables como se indica aqu. El
material sin fuentes fiables podra ser cuestionado y eliminado.
Este aviso fue puesto el 23 de mayo de 2015.

Cifrado de la Internet profunda

Se conoce como internet profunda,1 internet invisible2 o internet oculta3 al contenido


de internet que no es indexado por los motores de bsqueda convencionales, debido a
diversos factores.4 El trmino se atribuye al informtico Mike Bergman.5 Es el opuesto
al Internet superficial.

ndice
[ocultar]

1Origen
2Tamao
3Motivos
4Denominacin
5Rastreando la internet profunda
6Mtodos de profundizacin
o 6.1Las araas (web crawlers)
o 6.2Tor
o 6.3Bitcoin
7Recursos de la internet profunda
8Vase tambin
9Referencias
10Enlaces externos

Origen[editar]
La principal causa de la existencia del internet profunda es la imposibilidad de los motores
de bsqueda (Google, Yahoo, Bing, etc.) de encontrar o indexar gran parte de la
informacin existente en Internet. Si los buscadores tuvieran la capacidad para acceder a
toda la informacin entonces la magnitud de la internet profunda se reducira casi en su
totalidad. No obstante, aunque los motores de bsqueda pudieran indexar la informacin
del internet profunda esto no significara que esta dejara de existir, ya que siempre
existirn las pginas privadas. Los motores de bsqueda no pueden acceder a la
informacin de estas pginas y slo determinados usuarios, aquellos con contraseas o
cdigos especiales, pueden hacerlo.

Tamao[editar]
La internet profunda es un conjunto de sitios web y bases de datos que buscadores
comunes no pueden encontrar ya que no estn indexadas. El contenido que se puede
hallar dentro de la internet profunda es muy amplio.6
El internet se ve dividido en dos ramas, La internet profunda y la superficial. La internet
superficial se compone de pginas estticas o fijas, mientras que la web profunda est
compuesta de pginas dinmicas. Las pginas estticas no dependen de una base de
datos para desplegar su contenido sino que residen en un servidor en espera de ser
recuperadas, y son bsicamente archivos HTML cuyo contenido nunca cambia. Todos los
cambios se realizan directamente en el cdigo y la nueva versin de la pgina se carga en
el servidor. Estas pginas son menos flexibles que las pginas dinmicas. Las pginas
dinmicas se crean como resultado de una bsqueda de base de datos. El contenido se
coloca en una base de datos y se proporciona slo cuando lo solicite el usuario.7
En 2010 se estim que la informacin que se encuentra en la internet profunda es de
7500 terabytes, lo que equivale a aproximadamente 550 billones de documentos
individuales. El contenido de la internet profunda es de 400 a 550 veces mayor de lo que
se puede encontrar en la internet superficial. En comparacin, se estima que la internet
superficial contiene solo 19 terabytes de contenido y un billn de documentos individuales.
Tambin en 2010 se estim que existan ms de 200 000 sitios en la internet profunda.8
Estimaciones basadas en la extrapolacin de un estudio de la Universidad de California en
Berkeley especula que actualmente la internet profunda debe tener unos 91 000
terabytes.9
La Association for Computing Machinery (ACM) public en 2007 que Google
y Yahoo indexaban el 32 % de los objetos de la internet profunda, y MSN tena la
cobertura ms pequea con el 11 %. Sin embargo, la cobertura de los tres motores era de
37 %, lo que indicaba que estaban indexando casi los mismos objetos.10
Se estima que alrededor del 95 % del internet es internet profunda, tambin le llaman
invisible u oculta, ya que la informacin que alberga no siempre est disponible para su
uso. Por ello se han desarrollado herramientas como buscadores especializados para
acceder a ella.11

Motivos[editar]
Motivos por los que los motores de bsqueda no pueden indexar algunas pginas:

Web contextual: pginas cuyo contenido vara dependiendo del contexto (por
ejemplo, la direccin IP del cliente, de las visitas anteriores, etc.).
Contenido dinmico: pginas dinmicas obtenidas como respuesta a parmetros, por
ejemplo, datos enviados a travs de un formulario.
Contenido de acceso restringido: pginas protegidas con contrasea, contenido
protegido por un Captcha, etc.
Contenido No HTML: contenido textual en archivos multimedia, otras extensiones
como exe, rar, zip, etc.
Software: Contenido oculto intencionadamente, que requiere un programa o protocolo
especfico para poder acceder (ejemplos: Tor, I2P, Freenet)
Pginas no enlazadas: pginas de cuya existencia no tienen referencia los
buscadores; por ejemplo, pginas que no tienen enlaces desde otras pginas.

Denominacin[editar]
Son pginas de texto, archivos, o en ocasiones informacin a la cual se puede acceder por
medio de la World Wide Web que los buscadores de uso general no pueden, debido a
limitaciones o deliberadamente, agregar a sus ndices de pginas web.
La Web profunda se refiere a la coleccin de sitios o bases de datos que un buscador
comn, como Google, no puede o no quiere indexar. Es un lugar especfico del internet
que se distingue por el anonimato. Nada que se haga en esta zona puede ser asociado
con la identidad de uno, a menos que uno lo desee.12
Bergman, en un artculo semanal sobre la Web profunda publicado en el Journal of
Electronic Publishing, mencion que Jill Ellsworth utiliz el trmino Web invisible en
1994 para referirse a los sitios web que no estn registrados por ningn motor de
bsqueda.13
En su artculo, Bergman cit la entrevista que Frank Garca hizo a Ellsworth en 1996:14
Sera un sitio que, posiblemente est diseado razonablemente, pero no se molestaron en
registrarlo en alguno de los motores de bsqueda. Por lo tanto, nadie puede encontrarlos! Ests
oculto. Yo llamo a esto la Web invisible.

Otro uso temprano del trmino Web Invisible o web profunda fue por Bruce Monte y Mateo
B. Koll de Personal Library Software, en una descripcin de la herramienta @ 1 de web
profunda, en un comunicado de prensa de diciembre de 1996.15
La importancia potencial de las bases de datos de bsqueda tambin se reflej en el
primer sitio de bsqueda dedicado a ellos, el motor AT1 que se anunci a bombo y platillo
a principios de 1997. Sin embargo, PLS, propietario de AT1, fue adquirida por AOL en
1998, y poco despus el servicio AT1 fue abandonado.13
El primer uso del trmino especfico de web profunda, ahora generalmente aceptada,
ocurri en el estudio de Bergman de 2001 mencionado anteriormente.
Por otra parte, el trmino web invisible se dice que es inexacto porque:

Muchos usuarios asumen que la nica forma de acceder a la web es consultando un


buscador.
Alguna informacin puede ser encontrada ms fcilmente que otra, pero esto no
quiere decir que est invisible.
La web contiene informacin de diversos tipos que es almacenada y recuperada en
diferentes formas.
El contenido indexado por los buscadores de la web es almacenado tambin en bases
de datos y disponible solamente a travs de las peticiones o consultas del usuario, por
tanto no es correcto decir que la informacin almacenada en bases de datos es
invisible.16

Rastreando la internet profunda[editar]


Infografa sobre la deep web

Los motores de bsqueda comerciales han comenzado a explorar mtodos alternativos


para rastrear la Web profunda. El Protocolo del sitio (primero desarrollado e introducido
por Google en 2005) y OAI son mecanismos que permiten a los motores de bsqueda y
otras partes interesadas descubrir recursos de la internet profunda en los servidores web
en particular. Ambos mecanismos permiten que los servidores web anuncien las
direcciones URL que se puede acceder a ellos, lo que permite la deteccin automtica de
los recursos que no estn directamente vinculados a la Web de la superficie. El sistema de
bsqueda de la Web profunda de Google pre-calcula las entregas de cada
formulario HTML y agrega a las pginas HTML resultantes en el ndice del motor de
bsqueda de Google. Los resultados surgidos arrojaron mil consultas por segundo al
contenido de la Web profunda.17 Este sistema se realiza utilizando tres algoritmos claves:

La seleccin de valores de entrada, para que las entradas de bsqueda de texto


acepten palabras clave.
La identificacin de los insumos que aceptan solo valores especficos (por ejemplo,
fecha).
La seleccin de un pequeo nmero de combinaciones de entrada que generan URLs
adecuadas para su inclusin en el ndice de bsqueda Web.

Mtodos de profundizacin[editar]
Las araas (web crawlers)[editar]
Cuando se ingresa a un buscador y se realiza una consulta, el buscador no recorre la
totalidad de internet en busca de las posibles respuestas, sino que busca en su propia
base de datos, que ha sido generada e indexada previamente. Se utiliza el trmino araa
web (en ingls web crawler) o robots (por software, comnmente llamados "bots")
inteligentes que van haciendo bsquedas por enlaces de hipertexto de pgina en pgina,
registrando la informacin ah disponible.18
El contenido que existe dentro de la internet profunda es en muy raras ocasiones mostrado
como resultado en los motores de bsqueda, ya que las araas no rastrean bases de
datos ni los extraen. Las araas no pueden tener acceso a pginas protegidas con
contraseas, algunos desarrolladores que no desean que sus pginas sean encontradas
insertan etiquetas especiales en el cdigo para evitar que sea indexada. Las araas son
incapaces de mostrar pginas que no estn creadas en lenguaje HTML, ni tampoco puede
leer enlaces que incluyen un signo de interrogacin. Pero ahora sitios web no creados
con HTML o con signos de interrogacin estn siendo indexados por algunos motores de
bsqueda. Sin embargo, se calcula que incluso con estos buscadores ms avanzados solo
se logra alcanzar el 16 % de la informacin disponible en la internet profunda. Existen
diferentes tcnicas de bsqueda para extraer contenido de la internet profunda como
libreras de bases de datos o simplemente conocer el URL al que quieres acceder y
escribirlo manualmente.19
Tor[editar]
Artculo principal: Tor (red de anonimato)

Logo de tor

The Onion Router (abreviado como TOR) es un proyecto diseado e implementado por la
marina de los Estados Unidos lanzado el 20 de septiembre de 2002. Posteriormente fue
patrocinado por la EFF (Electronic Frontier Foundation, una organizacin en defensa de
los derechos digitales). Al presente (2017), subsiste como TOR Project, una organizacin
sin nimo de lucro galardonada en 2011 por la Free Software Foundation por permitir que
millones de personas en el mundo tengan libertad de acceso y expresin en internet
manteniendo su privacidad y anonimato.11
A diferencia de los navegadores de internet convencionales, Tor le permite a los usuarios
navegar por la Web de forma annima. Tor es descargado de 30 millones a 50 millones de
veces al ao, hay 0,8 millones de usuarios diarios de Tor y un incremento del 20 %
solamente en 2013. Tor puede acceder a unos 6500 sitios web ocultos.20
Cuando se ejecuta el software de Tor, para acceder a la internet profunda, los datos de la
computadora se cifran en capas. El software enva los datos a travs de una red de
enlaces a otros equipos llamados en ingls relays (nodos) y lo va retransmitiendo
quitando una capa antes de retransmitirlo de nuevo, esta trayectoria cambia con
frecuencia. Tor cuenta con ms de 4000 retransmisiones y todos los datos cifrados pasan
a travs de por lo menos tres de estos relays. Una vez que la ltima capa de cifrado
es retirado por un nodo de salida, se conecta a la pgina web que desea visitar.
El contenido que puede ser encontrado dentro de la internet profunda es muy vasto, se
encuentran por ejemplo, datos que se generan en tiempo real, como pueden ser valores
de Bolsa, informacin del tiempo, horarios de trenes; bases de datos sobre agencias de
inteligencia, disidentes polticos y contenidos criminales.18
Bitcoin[editar]

Logo de Bitcoin

Mercados ilegales estn alojados en servidores que son exclusivos para usuarios de Tor.
En estos sitios, se pueden encontrar drogas, armas, o incluso asesinos a sueldo. Se utiliza
la moneda digital llamada Bitcoin, que tiene sus orgenes en 2009, pero que se ha vuelto
todo un fenmeno desde 2012,11 que se intercambia a travs de billeteras digitales entre
el usuario y el vendedor, lo que hace que sea prcticamente imposible de rastrear.21
Existen muchos mitos acerca de la internet profunda. La internet profunda no es una
regin prohibida o mstica de internet, y la tecnologa relacionada con ella no es malvola,
ya que en ella tambin se alberga lo que ahora se conoce como AIW (Academic Invisible
Web: internet acadmica invisible por sus siglas en ingls) y se refiere a todas las bases
de datos que contienen avances tecnolgicos, publicaciones cientficas, y material
acadmico en general.22

Recursos de la internet profunda[editar]


Los recursos de la internet profunda pueden estar clasificados en las siguientes
categoras:

Contenido de acceso limitado: los sitios que limitan el acceso a sus pginas de una
manera tcnica (Por ejemplo, utilizando el estndar de exclusin de robots o captcha,
que prohben los motores de bsqueda de la navegacin por y la creacin de copias
en cach.23
Contenido dinmico: las pginas dinmicas que devuelven respuesta a una pregunta
presentada o acceder a travs de un formulario, especialmente si se utilizan elementos
de entrada en el dominio abierto como campos de texto.
Contenido no enlazado: pginas que no estn conectadas con otras pginas, que
pueden impedir que los programas de rastreo web tengan acceso al contenido. Este
material se conoce como pginas sin enlaces entrantes.
Contenido programado: pginas que solo son accesibles a travs de enlaces
producidos por JavaScript, as como el contenido descargado de manera dinmica a
partir de los servidores web a travs de soluciones de Flash o Ajax.
Sin contenido HTML: contenido textual codificado en multimedia (imagen o video)
archivos o formatos de archivo especficos no tratados por los motores de bsqueda.
Web privada: los sitios que requieren de registro y de una contrasea para iniciar
sesin
Web contextual: pginas con contenidos diferentes para diferentes contextos de
acceso (por ejemplo, los rangos de direcciones IP de clientes o secuencia de
navegacin anterior).

Vase tambin[editar]
.onion
I2P
Darknet
The Hidden Wiki

Referencias[editar]
1. Volver arriba internet profunda, mejor que Deep Web. (Aunque es posible emplear
tanto el masculino como el femenino, la forma femenina es la que de hecho est ms
extendida con gran diferencia.). Fundeu. Consultado el30 de marzo de 2016.
2. Volver arriba Devine, Jane; Egger-Sider, Francine (julio de 2004). Beyond google: the
invisible web in the academic library. The Journal of Academic Librarianship 30 (4): 265-
269. doi:10.1016/j.acalib.2004.04.010. Consultado el 6 de febrero de 2014.
3. Volver arriba Raghavan, Sriram; Garcia-Molina, Hector (11-14 de septiembre de
2001). Crawling the Hidden Web. 27th International Conference on Very Large Data
Bases (Rome, Italy).
4. Volver arriba 'Deep web': gua bsica para saber qu es y cmo se usa. 2016.
Consultado el 2017.
5. Volver arriba Wright, Alex (22 de febrero de 2009). Exploring a 'Deep Web' That Google
Cant Grasp. The New York Times. Consultado el 23 de febrero de 2009.
6. Volver arriba Grossman, Lev (11 de noviembre de 2013). The Deep Web.. Time (en
ingls). Consultado el 28 de octubre de 2014. Technically the Deep Web refers to the
collection of all the websites and databases that search engines like Google don't or can't
ndex.
7. Volver arriba Iffat, Rabia (1 de octubre de 2010). Understanding the Deep Web. Library
Philosophy and Practice 2010 (en ingls). Consultado el 28 de octubre de 2014. Surface
Web is made up of static and fixed pages, whereas Deep Web is made up of dynamic
pages. Static pages do not depend on a database for their content. They reside on a server
waiting to be retrieved, and are basically html files whose content never changes.
8. Volver arriba Iffat, Rabia (1 de octubre de 2010). Understanding the Deep Web. Library
Philosophy and Practice 2010 (en ingls). Consultado el 28 de octubre de 2014. Public
information on the Deep Web is currently 400-550 times larger than the commonly-defined
World Wide Web. The Deep Web contains 7,500 terabytes of information, compared to 19
on the Surface Web. Deep Web contains nearly 550 billion individual documents compared
to one billion on the Surface Web. More than 200,000 Deep Web sites presently exist.
9. Volver arriba [1]
10. Volver arriba He, Bin (1 de mayo de 2007). Communications of the ACM (en
ingls) http://eds.b.ebscohost.com/eds/pdfviewer/pdfviewer?sid=d1f42ee9-d949-4a44-
b3da-1431daba94ac%40sessionmgr198&vid=6&hid=114 |url= sin ttulo (ayuda).
Consultado el 29 de octubre de 2014. Google and Yahoo both indexed 32% of the deep
Web objects, and MSN had the smallest coverage of 11%. However, there was significant
overlap in what they covered: the combined coverage of the three largest search engines
increased only to 37%, indicating they were indexing almost the same objects.
11. Saltar a:a b c Becerra Gutirrez Juan Armando. Mitos y realidades de la internet
profunda. Consultado el 30 de octubre de 2014.
12. Volver arriba Grossman, Lev; Newton-Small, Roy & Stampler (noviembre de 2013). The
Deep Web. Time 182 (20).
13. Saltar a:a b Bergman, Michael K. White Paper: The Deep Web: Surfacing Hidden
Value (en ingls). Consultado el 30 de octubre de 2014.
14. Volver arriba Garcia, Frank (enero de 1996). Business and Marketing on the
Internet. Masthead 9 (1). Archivado desde el original el 5 de diciembre de 1996.
Consultado el 24 de febrero de 2009.
15. Volver arriba @1 comenz con 5.7 terabytes de contenido, estimado en 30 veces el
tamao de la naciente World Wide Web; PLS fue adquirida por AOL en 1998 y @1 fue
abandonado.PLS introduce AT1, el servicio de la primera "segunda generacin" de
bsqueda en internet. Personal Library Software. diciembre de 1996. Consultado el 24 de
febrero de 2009.
16. Volver arriba Llanes Vilaragut, Lourdes & Surez Carro, Juan R. Para acceder al web
profundo: conceptos y herramientas. Consultado el 30 de octubre de 2014.
17. Volver arriba Madhavan, Jayant; Ko, David; Kot, Lucja; Ganapathy, Vignesh;
Rasmussen,Alex & Havely, Alon. Googles DeepWeb Crawl (en ingls). Consultado el 30
de octubre de 2014.
18. Saltar a:a b Salazar, Idoia (2005): El inmenso ocano del Internet profundo. 20 de
octubre de 2005. El Pas (Madrid). Consultado el 29 de octubre de 2014.
Cuando una persona realiza una consulta, el buscador no recorre la totalidad de internet
en busca de las posibles respuestas, lo cual supondra una capacidad de reaccin
bastante lenta. Lo que hace es buscar en su propia base de datos, que ha sido generada
e indizada previamente. En sus labores de bsqueda, indizacin y catalogacin, utilizan
las llamadas araas (o robots inteligentes) que van saltando de una pgina web a otra
siguiendo los enlaces de hipertexto y registran la informacin all disponible.

[...] datos que se generan en tiempo real, como pueden ser valores de Bolsa, informacin
del tiempo, horarios de trenes.

19. Volver arriba Iffat, Rabia (1 de octubre de 2010). Understanding the Deep Web. Library
Philosophy and Practice 2010 (en ingls). Consultado el 28 de octubre de 2014. The
content of the Deep Web is rarely shown in a search engine result, since the search engine
spiders do not crawl into databases and extract the data. These spiders can neither think
nor type, but jump from link to link. As such, a spider cannot enter pages that are password
protected. Web page creators who do not want their page shown in search results can
insert special meta tags to keep the page from being indexed. Spiders are also unable to
pages created without the use of html, and also links that include a question mark. But now
parts of the Deep Web with non-html pages and databases with a question mark in a stable
URL are being indexed by search engines, with non-html pages converted to html. Still, it is
estimated that even the best search engines can access only 16 percent of information
available on the Web. There are other Web search techniques and technologies that can be
used to access databases and extract the content.
20. Volver arriba Grossman, Lev (11 de noviembre de 2013). The Deep Web.. Time (en
ingls). Consultado el 28 de octubre de 2014. Unlike conventional Internet browsers, Tor's
allows users to surf the Web anonymously. Tor is downloaded 30 million-50 million times a
year. There are 800,000 daily Tor usersa jump of 20% in the past year. Tor can access
6,500 hidden websites.
21. Volver arriba Grossman, Lev (11 de noviembre de 2013). The Deep Web.. Time (en
ingls). Consultado el 28 de octubre de 2014. Bitcoin.
22. Volver arriba Lewandowski, Exploring the academic invisible web (11 de noviembre de
2013). Library Hi Tech (en ingls). the Academic Invisible Web (AIW). We define the
Academic Invisible Web as consisting of all databases and collections relevant to academia
but not searchable by the general-purpose internet search engines.
23. Volver arriba Hypertext Transfer Protocol (HTTP/1.1): Caching. (en ingls). junio de
2014. Consultado el 30 de octubre de 2014.

Anda mungkin juga menyukai