Supercomputadora
Una supercomputadora o un superordenador es aquella con capacidades de cálculo
muy superiores a las computadoras comunes y de escritorio y que son usadas con fines
específicos. Hoy día los términos de supercomputadora y superordenador están siendo
reemplazados por computadora de alto rendimiento y ambiente de cómputo de alto
rendimiento, ya que las supercomputadoras son un conjunto de poderosos ordenadores
unidos entre sí para aumentar su potencia de trabajo y rendimiento. Al año 2011, los
superordenadores más rápidos funcionaban en aproximadamente más de 1 petaflops(que
en la jerga de la computación significa que realizan más de 1000 billones de operaciones
por segundo). La lista de supercomputadoras se encuentra en la lista TOP500.
Características[editar]
Las principales son:
Principales usos[editar]
Las supercomputadoras se utilizan para abordar problemas muy complejos o que no
pueden realizarse en el mundo físico bien, ya sea porque son peligrosos, involucran cosas
increíblemente pequeñas o increíblemente grandes. A continuación, damos algunos
ejemplos:
Rmax
Tipo de
Rank Rpeak Nombre Modelo Interconexión Ensamblador
(PFLOPS) procesador P
Nati
93,015 Sunway Sunway Sup
1 SW26010 Sunway5 NRCPC
125,436 TaihuLight MPP Cen
Nati
Xeon E5– Sup
33,863 TH-IVB-
2 Tianhe-2 2692, Xeon Phi TH Express-2 NUDT Cen
54,902 FEP
31S1P Gua
Oak
Opteron
17,590 Labo
3 Titan Cray XK7 6274, Tesla Gemini Cray Inc.
27,113
K20X
Unid
Law
Live
17,173 Blue
4 Sequoia PowerPC A2 Custom IBM Labo
20,133 Gene/Q
Unid
10,51 K RIKE
5 K computer SPARC64 VIIIfx Tofu Fujitsu
11,28 computer
Introducción
Desde la creación de Internet y cada vez más, se ha contado con datos generados por
infinidad de aplicaciones y que tenemos a nuestro alcance esperando a ser usados. Antaño,
tener y consumir todo este ingente material se podía volver una tarea prácticamente
imposible o inviable tanto económica como tecnológicamente. Esto limitaba el uso de la
información a aquella que era más relevante y punto. Vamos a ver en que herramientas
podemos iniciarnos para solventar este handicap y sacar el máximo valor a nuestros
datos. Herramientas open-source y que cualquiera tiene a su disposición. El
ecosistema Hadoop.
Hardware
Hoy en día tenemos a nuestro alcance el poder consumir esta información sin necesidad de
contar con un carísimo supercomputador en nuestro trastero. Podemos llegar a hacer
pruebas con sistemas de 8-16GB de RAM y unos cuantos GB de disco duro. En un entorno
de producción se usa "comodity hardware", es decir, máquinas que no necesitan tener un
alto grado de fiabilidad y sofisticación (sistemas RAID, discos duros enterprise, componentes
redundantes, etc). Máquinas de este tipo son mucho más baratas y si se rompen, ponemos
otras y ya está. El peso de la fiabilidad recae sobre el software. Tendremos, esto sí, que
dimensionar las características según los requerimientos de nuestro escenario. Una
configuración típica de un nodo de un entorno productivo podría ser una máquina con 8-24
cores, 32-256GB de RAM y unos 8-12 discos HDD.
Para introducirnos en el uso de este software, no es necesario tener un cluster de máquinas
potentes, podremos ponernos a trastear con un ¿Cubieboard cluster :)?, unas simples VM's
en nuestro PC o con alguna VM como la Cloudera QuickStart VM con todo ya montado, que
sirve justamente para aprender.
Motivación
Antes de nada, dejemos clara una cosa y no nos engañemos, Big Data es para tratar con
grandes volúmenes de datos. Big Data aparece cuando decidimos dejar de quedarnos con
lo que era más relevante y pasar a quedarnos con TODO. Toda información sirve en
algún momento y nos puede permitir ver cosas que con solamente "lo importante" no
podemos llegar a ver y que en muchas ocasiones nos puede aportar mucho valor.
Como decíamos, hoy en día se ha vuelto factible tener mucha información y ser capaz de
consumirla, pero también hay que entender cuando tiene sentido usar herramientas Big Data
y cuando no. Si tenemos un volumen alto de datos y tenemos que lidiar con gigas y gigas
de datos (o alguna magnitud mayor) estará bien usar estas herramientas. De no ser así,
también podemos hacer uso de todo esto, pero matar moscas a cañonazos quizás no es tan
adecuado, aunque sea la moda.
La Base
Hablar de Big Data es hablar de Hadoop y todo lo que lo rodea. Vamos a ver qué es Hadoop.
Hadoop se sustenta en la forma en la que almacena y accede a los datos. Hadoop está
formado por HDFS y MapReduce. La combinación de estos dos permite que los datos estén
replicados y distribuidos por N nodos beneficiando la capacidad de acceso a grandes
volúmenes. Cuando queremos ejecutar alguna operación sobre estos datos distribuidos,
Hadoop se encarga de procesar cada porción de los datos en el nodo que los contiene.
De esta forma se aprovecha la localidad de tener los datos cerca de donde se van a procesar
y permite escalar de forma casi lineal. Si queremos crecer en capacidad, añadimos más
nodos y listo. Del almacenamiento se encarga HDFS y del procesamiento MapReduce.
Complementos Básicos
Con HDFS y MapReduce tenemos la capacidad básica de almacenar datos en crudo y
realizar procesos en paralelo abstrayéndonos de la complejidad de este tipo de
computación. Ahora bien, podemos utilizar otras herramientas encima de Hadoop que nos
potencian estas capacidades. Todo dependerá de nuestras necesidades. Estos son los dos
más típicos:
HDFS
El prototipo presentado tiene 160 terabytes (TB) de memoria, lo que lo hace capaz de trabajar
simultáneamente con cinco veces los datos que contienen todos los libros de la Biblioteca del
Congreso de los Estados Unidos, lo que equivale a aproximadamente 160 millones de libros.
Nunca hasta ahora fue posible almacenar y manipular conjuntos de datos completos de ese
tamaño en un sistema de memoria única, y esto es solo una pequeña muestra del potencial del
Cómputo Basado en Memoria.
Basado en el prototipo actual, La empresa espera que la arquitectura pueda escalar con
facilidad a un sistema de memoria única a escala de exabyte y, más allá de eso, a un conjunto
de memoria casi ilimitado de 4,096 yottabytes. Para tener una idea, eso equivale a 250,000
veces todo el universo digital completo actual.
Con esa cantidad de memoria, será posible trabajar simultáneamente con las historias clínicas
de todos los habitantes del planeta; con cada porción de datos de Facebook; con todos los
viajes de los vehículos autónomos de Google; y con todos los conjuntos de datos de la
exploración espacial al mismo tiempo, lo que permitirá obtener respuestas y descubrir nuevas
oportunidades a una velocidad sin precedentes.
El nuevo prototipo se apoya en logros del programa de investigación The Machine, que
incluyen:
• 160 TB de memoria compartida dispersos en 40 nodos físicos, interconectados usando un
protocolo de tejido de alto rendimiento.
• Un sistema operativo (SO) optimizado basado en Linux que ejecuta en ThunderX2, el SoC
(System on a Chip) de punta de segunda generación optimizado para carga de trabajo de
doble socket ARMv8-A, de Cavium.
• Enlaces de comunicación fotónicos/ópticos, que incluyen el nuevo módulo de fotónica X1,
que están en línea y operativos.
• Nuevas herramientas de programación de software diseñadas para aprovechar las ventajas
de la memoria persistente abundante.
Los 15 grandes del Big Data
La siguiente es una lista de 15 empresas de Big Data a las que deberíamos
prestarles atención, 10 de ellas son muy conocidas y las cinco restantes son
nuevas.
IBM
IBM fue el proveedor más grande de Big Data en el 2012 con un ingreso
de 1,3 mil millones de dólares, según un reporte reciente de Wikibon,
gracias a la venta de productos y servicios relacionados con Big Data. Las
ofertas incluyen hardware de servidor y de almacenamiento, software de
base de datos, aplicaciones analíticas y servicios asociados. Los productos
más conocidos son las plataformas de base de datos DB2, Informix e
InfoSphere, y las aplicaciones analíticas Cognos y SPSS. IBM también
apoya la plataforma de análisis de datos de código abierto Hadoop.
María Korolov, Network World (EE.UU.)
HP
HP fue el segundo proveedor más grande de Big Data en el 2012 por sus
ingresos de 664 millones de dólares. Esta empresa también ofrece una
mezcla de hardware, software y servicios, y es conocida por la plataforma
de análisis Vertica.
María Korolov, Network World (EE.UU.)
Teradata
Teradata fue el tercer proveedor más grande de Big Data del 2012 con un
ingreso de 435 millones de dólares. Esta es conocida por sus plataformas
de hardware, de software analítico y de base de datos. También ofrece
herramientas analíticas específicas para industrias de distribución y
transporte.
María Korolov, Network World (EE.UU.)
Oracle
HP
HP fue el segundo proveedor más grande de Big Data en el 2012 por sus
ingresos de 664 millones de dólares. Esta empresa también ofrece una
mezcla de hardware, software y servicios, y es conocida por la plataforma
de análisis Vertica.
María Korolov, Network World (EE.UU.)
Teradata
Teradata fue el tercer proveedor más grande de Big Data del 2012 con un
ingreso de 435 millones de dólares. Esta es conocida por sus plataformas
de hardware, de software analítico y de base de datos. También ofrece
herramientas analíticas específicas para industrias de distribución y
transporte.
María Korolov, Network World (EE.UU.)
Oracle
HP
HP fue el segundo proveedor más grande de Big Data en el 2012 por sus
ingresos de 664 millones de dólares. Esta empresa también ofrece una
mezcla de hardware, software y servicios, y es conocida por la plataforma
de análisis Vertica.
María Korolov, Network World (EE.UU.)
Teradata
Teradata fue el tercer proveedor más grande de Big Data del 2012 con un
ingreso de 435 millones de dólares. Esta es conocida por sus plataformas
de hardware, de software analítico y de base de datos. También ofrece
herramientas analíticas específicas para industrias de distribución y
transporte.
María Korolov, Network World (EE.UU.)
Oracle
Oracle
Aunque Oracle es conocido principalmente por su conocida base de
datos, también es un gran jugador en el ámbito de Big Data. Su Oracle Big
Data Appliance combina un servidor Intel, distribución Hadoop de
Cloudera y la base de datos NoSQL de Oracle. Fue el quinto gran
proveedor en el 2012 con un ingreso de 415 millones de dólares.
María Korolov, Network World (EE.UU.)
SAP
SAP ofrece una variedad de herramientas analíticas, pero es más conocido
por su base de datos en memoria, HANA. Fue el sexto gran proveedor de
Big Data en el 2012 con un ingreso de 368 millones de dólares.
María Korolov, Network World (EE.UU.)
EMC
EMC ayuda a las compañías a almacenar y analizar Big Data y es también
la sede del Marketing Science Lab, un think tnak en análisis de Big Data
que se enfoca en analizar datos de marketing. Esta primavera ocupó los
titulares con su spinf-off de Pivotal, también respaldado por VMware y
General Electric. Pivotal combina el Hadoop con la base de datos
Greenplum de EMC y herramientas de consulta HAWQ. EMC fue el
séptimo gran proveedor de Big Data en el 2012 con un ingreso de 336
millones de dólares.
María Korolov, Network World (EE.UU.)
Amazon
Oracle
Aunque Oracle es conocido principalmente por su conocida base de
datos, también es un gran jugador en el ámbito de Big Data. Su Oracle Big
Data Appliance combina un servidor Intel, distribución Hadoop de
Cloudera y la base de datos NoSQL de Oracle. Fue el quinto gran
proveedor en el 2012 con un ingreso de 415 millones de dólares.
María Korolov, Network World (EE.UU.)
SAP
SAP ofrece una variedad de herramientas analíticas, pero es más conocido
por su base de datos en memoria, HANA. Fue el sexto gran proveedor de
Big Data en el 2012 con un ingreso de 368 millones de dólares.
María Korolov, Network World (EE.UU.)
EMC
EMC ayuda a las compañías a almacenar y analizar Big Data y es también
la sede del Marketing Science Lab, un think tnak en análisis de Big Data
que se enfoca en analizar datos de marketing. Esta primavera ocupó los
titulares con su spinf-off de Pivotal, también respaldado por VMware y
General Electric. Pivotal combina el Hadoop con la base de datos
Greenplum de EMC y herramientas de consulta HAWQ. EMC fue el
séptimo gran proveedor de Big Data en el 2012 con un ingreso de 336
millones de dólares.
María Korolov, Network World (EE.UU.)
Amazon
Minería de datos
Las empresas guardan billones de datos sobre sus empleados y esto puede
ser particularmente útil para el reclutamiento de nuevos trabajadores. Mediante
el análisis de estos datos - por ejemplo, sobre antigüedad, rendimiento, o
satisfacción de clientes - la empresa puede dar información valiosa a los
reclutadores para que hagan buenas contrataciones.
Sin embargo, hay unas áreas donde el big data está marcando la diferencia.
Hemos resumido a continuación las aplicaciones de big data en 10 áreas
donde actualmente se están concentrando las instalaciones y obteniendo los
mejores resultados.
Marketing y ventas son quizá las áreas de mayor aplicación de big data en la
actualidad. Los datos se utilizan para comprender mejor a los clientes, sus
comportamientos y preferencias. Las empresas están dispuestas a ampliar los
centros de datos tradicionales con los de redes sociales, logs de navegación,
análisis de textos y datos de sensores para obtener una imagen completa de su
cliente. El objetivo principal es en la mayoría de casos crear modelos
predictivos. Como vimos en un artículo anterior, tuvo bastante repercusión la
noticia de que la cadena de distribución Target fue capaz de detectar cuándo sus
clientes esperaban un bebé. Las empresas de telecomunicaciones pueden gracias
al big data predecir mejor el churn de clientes. Los hipermercados pueden
predecir mejor qué productos se venderán mejor, y las aseguradoras de coches
pueden comprender mejor cómo conducen sus clientes. Incluso las campañas
electorales pueden optimizarse gracias a big data analytics. Hay quienes
sostienen que las recientes elecciones presidenciales en varios países han sido
ganadas por los equipos con mayor capacidad de entender y aplicar el
análisis de datos para buscar las preferencias de votantes y llegar a ellos por
sus canales preferidos.
El big data se está utilizando cada vez más para optimizar los procesos de
negocio en las empresas. En el sector de retail los negocios están optimizando
su stock basándose en predicciones generadas gracias a datos de redes
sociales, tendencias de búsquedas en la web y predicciones meteorológicas.
Un proceso que se está transformando particularmente gracias al big data es el
de la cadena de suministro y la optimización de rutas de reparto. Gracias al
posicionamiento geográfico y sensores de identificación por radiofrecuencia se
puede realizar un seguimiento de las mercancías y vehículos de reparto,
optimizando las rutas, integrando datos de tráfico en tiempo real. Los procesos
de recursos humanos también están siendo mejorados gracias al análisis del
big data. Desde la detección y adquisición de talento, como en la película
Moneyball, hasta la medición de la cultura empresarial y la involucración de la
plantilla gracias a herramientas de big data.
3. CUANTIFICACIÓN Y OPTIMIZACIÓN DE
RENDIMIENTO PERSONAL
Otro ejemplo donde la gente se beneficia del análisis del big data es para
buscar a cupido. A la hora de encontrar a la mejor pareja compatible hacerlo
sin la ayuda de algoritmos y técnicas de big data sería prácticamente imposible.
Los coches que usan para el proyecto están equipados con cámaras, GPS,
conexión a internet, y un abanico de computadoras y sensores que permiten al
vehículo circular de forma segura por la vía pública sin necesidad de
intervención humana.
También se usan herramientas de análisis de big data para optimizar las redes
de energía a partir de datos de los medidores inteligentes. podemos también
aprovechar estas tecnologías para optimizar el rendimiento de servidores y
datawarehouses.
El último área de ejemplos de uso de Big Data que vamos a revisar, aunque no
de menor volumen ni importancia es el de la aplicación del big data en los
mercados de capitales. Las actividades relacionadas con High-Frequency
Trading (HFT) es donde se da el mayor uso del big data. Una serie de
algoritmos para realizar decisiones de compra venta de valores por millones en
fracciones de segundo, teniendo en cuenta además de las señales
tradicionales que tienen en cuenta los traders humanos como análisis
técnicos, comportamientos de materias primas, resultados de empresas,
sectores, índices, … se le añaden noticias en tiempo real, mensajes de redes
sociales, foros, declaraciones públicas de personalidades, etc. Es decir un
nuevo tipo de datos (estructurados y no estructurados) que anteriormente al big
data eran imposible de manejar.
Este ha sido un resumen de 10 áreas donde el big data se está utilizando más
en la actualidad. Obviamente hay muchas más áreas y aplicaciones, ¿se le
ocurre alguna situación donde se le esté sacando provecho? ¿Está de acuerdo
con esta revolución de los datos? Por favor comparta su punto de vista y deje
su comentario abajo.