Tema 1 AIC

Arquitectura e Ingeniera de Computadores
Tema 1 Introduccin a las arquitecturas paralelas
Ingeniera en Informtica
Departamento de Tecnologa Informtica y Computacin
AIC Tema 1 Introduccin a las arq. paralelas

Introduccin Evolucin Clasificacin Rendimiento Problemas
Marco de la asignatura: Niveles de descripcin de un computador

(Planteamiento inicial) (Pl t i t i i i l)

Marco de la asignatura:
Arquitectura e Ingeniera de Computadores

Qu estudia la asignatura?
Je erarqua de memor d ria

Qu estudia la asignatura?
P M P M P M P M
Red de Interconexin Multiprocesadores + Redes de i t R d d interconexin i Comunicacin: Memoria compartida, paso de mensajes, paralelismo de datos
Elementos: Switch (S) Procesador (P) Memoria (M)
Red: topologa, encaminamiento, ancho de banda, latencia

Definicin de arquitectura
Conjunto de instrucciones, recursos y caractersticas del procesador que son visibles al software que se ejecuta en el mismo. Por tanto, la arquitectura determina el software que el procesador puede ejecutar directamente, y esencialmente define las especificaciones a las que debe ajustarse la microarquitectura [Ortega, 2005]
Definicin de microarquitectura q
Conjunto de recursos y mtodos utilizados para satisfacer las especificaciones que establece la arquitectura. El trmino incluye tanto la forma en que se organizan los recursos como las tcnicas utilizadas para alcanzar los objetivos de costes y prestaciones planteados. La microarquitectura define las especificaciones para la implementacin lgica [Ortega 2005] [Ortega,

Niveles de descripcin de un computador:

Niveles estructurales de Bell y Newell: Descripcin del computador mediante una aproximacin por capas. Cada capa utiliza los servicios que proporciona la del nivel inferior inferior. Propone 5 niveles: De componente p Electrnico Digital Transferencia entre registros (RT) Procesador-Memoria-Interconexin (PMS)

Niveles de Interpretacin de Levy: C t Contemplan al computador d d un punto d vista f l l t d desde t de i t funcional. i l Constituido por una serie de mquinas virtuales superpuestas. Cada mquina interpreta las instrucciones de su nivel nivel, proporcionando servicios a la mquina de nivel superior y aprovechando los de la mquina de nivel inferior. S distinguen 5 niveles: Se di ti i l Aplicaciones Lenguajes de alto nivel Sistema Operativo Instrucciones mquina Microinstrucciones Estos niveles son similares a los niveles funcionales de Tanenbaum. Tanenbaum

Niveles de abstraccin para un computador:

SW
ARQUITECTURA A
Niv. Soft. Superiores
Llamadas al Sistema, Comandos,
Sistema Operativo
Sistemas de cmputo, Ensamblador,
TECNO OLOGA
Integra la orientacin estructural de los niveles de Bell y Newell y el punto de vista funcional de los niveles de Levy y Tanenbaum.
Sist. C Si t Computador t d
Procesadores, Interfaces E/S, Datapath
Nivel RT
ALUs, registros, memorias, MUX,
Digital
Puertas lgicas, inversores, P ertas lgicas in ersores biestables
Electrnica
Uniones P N, Metal, Polisilicio
Componente
HW

Componentes fsicos
Semiconductores de tipo n y p metales polisilicio, etc p, metales, polisilicio etc A partir de estos se construyen bloques: transistores, resistencias, etc. Las leyes que lo rigen son las de la electrnica fsica.
Circuito electrnico
Puertas lgicas, biestables, etc. Utilizan componentes del nivel anterior. Las leyes que lo rigen son las de la electricidad, de naturaleza continua. El comportamiento del circuito se describe en trminos de corrientes corrientes, tensiones y frecuencias.
Lgica digital
Las leyes que lo rigen son las del lgebra de Boole Boole. Se divide en 2 partes: circuitos combinacionales y secuenciales. Nivel combinacional: se utilizan como componentes las puertas NAND, NOR, NOT, etc, para generar bloques como, multiplexores, decodificadores, conversores de cdigos y circuitos aritmticos. Nivel secuencial: se utilizan como componentes elementos de memoria (biestables) y bloques del nivel anterior para obtener circuitos secuenciales, como registros contadores memorias etc registros, contadores, memorias, etc.

Transferencia entre registros (RT) Estudio del comportamiento de las unidades de un computador en trminos de transferencia de informacin entre registros. registros Utiliza los componentes del nivel anterior, registros, circuitos aritmticos, memorias, etc, aritmticos memorias etc para crear componentes del procesador o de otros elementos del computador (interfaces). ( ) En este nivel se incluye como un posible subnivel la microprogramacin.

Sistema computador
Especificacin de componentes (memorias, procesador, buses, redes de interconexin, perifricos, etc). interconexin entre ellos y operacin del sistema completo. Programacin a bajo nivel (lenguaje mquina y ensamblador). bl d )
Diseo
Alternativas Procedimientos Herramientas -Descripcin -Verificacin -Simulacin
Interfaz para el Programador Interfaz para el Diseador Fsico
Eficiencia
Prestaciones Coste
Arquitectura Abstracta Arquitectura Concreta

Estructura Organizacin

Sistema operativo
Interfaz entre hardware y software. Encargado de facilitar el uso eficiente de los recursos hardware por parte de los usuarios y de los programas de aplicacin.
Niveles superiores
Niveles software: compiladores, programas escritos en lenguajes de alto nivel, etc. Realizacin de programas y compiladores eficientes requieren el conocimiento d l arquitectura d l computador i l i i t de la it t del t d incremento de prestaciones.

Ejemplo de niveles de abstraccin:

Una definicin ms amplia de arquitectura:

La Arquitectura de Computadores abarca las abstracciones que proporcionan las interfaces entre hardware/software y usuario/sistema, y la estructura y / f / organizacin que permiten implementar dichas abstracciones, abstracciones proporcionando prestaciones y costes razonables en la ejecucin de los programas de computador p

El mbito de la Arquitectura de Computadores incluye:

El lenguaje mquina del computador, la microarquitectura del procesador y la interfaz para los programas en lenguaje mquina ( g j (lenguaje mquina y arquitectura concreta del p q q procesador). ) Los elementos del computador y como interactan (es decir la arquitectura concreta del computador, la estructura y organizacin). La interfaz L i t f que se ofrece a los programas d alto nivel y l mdulos f l de lt i l los d l que permiten controlar el funcionamiento del computador (sistema operativo y la arquitectura abstracta del computador). Los procedimientos cuantitativos para evaluar los sistemas (benchmarking). Las alternativas posibles y las tendencias en su evolucin evolucin.

Con el objeto de:

Evaluar las prestaciones y caractersticas del computador y analizar su comportamiento, identificando los posibles cuellos de botella que limitaran las prestaciones de las aplicaciones. p p Disear y/o configurar un sistema para que se ajuste a los requisitos establecidos. Aprovechar l caractersticas del computador para escribir programas, A h las t ti d l t d ibi sistemas operativos y compiladores eficaces, que permitan a las distintas aplicaciones obtener el nivel de prestaciones ptimo que requieren.

Aplicacin de los conocimientos de arquitectura:
PROBLEMA
APLICACIN
Se podr ejecutar en, por ejemplo, un Pentium IV a 1 Ghz con 512 Mb de SDRAM, en 3 seg.? Si la plataforma est un poco ajustada se puede optimizar el cdigo para utilizar mejor los recursos? Si no es posible cul es la mejor opcin a adquirir para implementarla: memoria, E/S, procesador, ...longevidad? computador d propsito d l id d? t d de it general o arquitectura especfica?

Optimizacin de cdigo (I)

MOV EBX, [MEM1] INC EBX ADD EAX, [MEM2] ADD [MEM3] EAX [MEM3], ADD EAX, [MEM2] MOV EBX, [MEM1] INC EBX ADD [MEM3], EAX 1 uop (D0) 1 uop (D1) 2 uops (D0) 4 uops (D0) 2 uops (D0) 1 uop (D0) 1 uop (D1) 4 uops (D0)
Para optimizar cdigo no es necesario utilizar el ensamblador, pero: Permite saber si el compilador ha realizado una optimizacin Permite realizar ciertas optimizaciones no realizadas por el compilador (no puede asumir ciertas cosas)
Necesita 2 ciclos frente a los 3 del caso anterior

Optimizacin de cdigo (II)

int *p, *new_p; p = ( int* ) malloc( sizeof( int ) * N + BOUND ); new_p = ( i t * ) ( ( ( i t ) p + BOUND ) & ~ ( BOUND 1 ) int int ); p new_p p
Transformaciones de cdigo justificadas desde la arquitectura del computador: La instruccin malloc slo se entiende desde el punto de vista de la arquitectura (el programa probablemente funcionara correctamente sin ella)
32 bytes Tamao lneas de cach

Optimizacin de cdigo (III)

Cul es ms rpido en un Pentium?
A
switch(val) { case A: a=val; { *95%* } break; case B : a=1; { * 4% * } break; case C : a=0; { * 0.5% * } 0 0 5% break; case D : a=val*2; { * 0.5% * } break; }
B
if (val==A) a=val; else if (val==B) a=1; ( ) switch(val) { case C : a=0; break; case D : a=val*2; break; }

Optimizacin de cdigo (III)

Cul es ms rpido en un Pentium? El cdigo B se ejecuta 5 veces ms rpido en un Pentium.
A
switch(val) { case A: a=val; { *95%* } break; case B : a=1; { * 4% * } break; case C : a=0; { * 0.5% * } break; case D : a=val*2; { * 0.5% * } break; }
B
if (val==A) a=val; else if (val==B) a=1; switch(val) { case C : a=0; break; case D : a=val*2; break; }

Evolucin Histrica de los computadores:

60
Mainframes
Grandes computadores para p aplicaciones de negocios y cientficas de gran volumen.
70
80
90
Servidores
00
Minicomputadores
Aplicaciones cientficas en laboratorios y pequeas organizaciones.
WWW
Redes PCs y Estaciones de Trabajo Computadores Embebidos
Microprocesadores
Rpido crecimiento ( p (tecnologa y herramientas de diseo): g ) electrnica digital de altas prestaciones, videojuegos, telfonos mviles, tarjetas inteligentes, conmutadores,

Interaccin Tecnologa-Mercado-Aplicaciones:

Computadores, Aplicaciones y Mercados:

Evolucin; existe en el mercado una demanda computacional creciente:

Aplicaciones cientficas: Evolucin de las galaxias Proyecto Genoma Humano Proyecto Cancer Research de United Devices Ingeniera: Electromagnetismo y simulacin de circuitos CAD, mecnica estructural Simulacin de choques t finitos Mt d d anlisis d elementos fi it Mtodos de li i de l Sistemas Gestores de Bases de Datos: g j Lenguaje natural, p paralelizacin de consultas Inteligencia Artificial: Modelado conexionista Anlisis de imgenes visualizacin y rendering imgenes, Desarrollo de pelculas (Toy Story) (117 Sun SparcStations)

Evolucin Clculo Cientfico:
TOP 500 (Jun2005)

Mejora de prestaciones:
Avances en la tecnologa (I):
Limites: conforme se disminuye el tamao de los transistores aumenta su
velocidad, pero t bi aumenta l resistencia d l l l id d tambin t la i t i de las lneas d conexin de i entre ellos, y por tanto el retardo de las comunicaciones dentro del chip.
Aumento de la velocidad de los dispositivos O(a) Reduccin de tamao de dispositivos (a) Aumento del nmero d A t d l de 2) dispositivos O(a Aumento del nmero de dispositivos O(b2) Aumento de la capacidad de procesamiento O(b2)
Aumento de la capacidad de procesamiento O(a3)
Aumento de tamao de los CI (b)
Cambio de la tecnologa (Ej. CMOS a AsGa
Aumento de la velocidad de los dispositivos
Aumento de la capacidad de procesamiento ??

Avances en la Tecnologa (II): A qu ritmo mejora la tecnologa? A it j l t l ?

Densidad de transistores: 35% anual (DRAMs: 40%-60% anual) Velocidad de transistores: 16% anual (DRAMs: latencia un 33% y ancho de banda por chip un 66% en 10 aos) Tamao del dado: 10% 20% anual 10%-20% Nmero de Transistores/Chip: 55% anual
Ley de Moore(1979): El nmero de transistores por circuito integrado se dobla El aumento de la densidad de cada 18-24 meses (asumiendo precio dispositivos, su velocidad, y el tamao constante del circuito integrado) de los CI permitirn hasta un 72%88% d mejora anual d l capacidad de j l de la id d Entre un 40% y un 57% de mejora anual de procesamiento de un CI.

Introduccin Evolucin Clasificacin Rendimiento Problemas Avances en la Tecnologa (III): Aumento de la densidad de transistores y el funcionamiento a frecuencias mayores Aumento de la potencia disipada por los circuitos integrados
El consumo es esencial en: Plataformas porttiles y mviles Ejemplo: en el Alpha, la potencia consumida casi ha llegado a 30 W/cm2: tres veces la usual de un plato caliente
Micro 21064 21164 21264 21364 W (pico) 30 50 72 100 MHz 200 300 667 1000 Mm2 234 299 302 350 V 3.3 3.3 2.0 1.5
Servidores de altas prestaciones a base de computadores interconectados (clusters)

Dato: 8000 computadores y 2300 m2 de Intel consume unos 2 Megawatios (25% del costo de mantenimiento) Las Tecnologas de la informacin, suponen en USA el 8% del consumo nacional electrico.

Mejoras en la Arquitectura: se basan en 2 principios

P Paralelismo: l li
Segmentacin de cauces: Cada elemento se divide en una serie de etapas por las que van pasando los operandos, instrucciones, al ser procesados. procesados El funcionamiento independiente de cada etapa permite que se puedan ejecutar distintas operaciones, instrucciones,.. concurrentemente. Diseo de procesadores (paralelismo entre instrucciones): procesadores segmentados (procesadores superescalares y VLIW, procesadores vectoriales). Diseo de unidades funcionales (sumadores segmentados). ( g ) Repeticin de elementos: Utilizar varias unidades funcionales, procesadores, mdulos de memoria, etc. para distribuir el trabajo. Nivel de sistema (multiprocesadores, controladores DMA, etc.) ( p , , ) Nivel de procesador (superescalares, vectoriales, etc.)
Localidad: Acercar datos e instrucciones al lugar donde se necesitan para

que el acceso a los mismos sea lo ms rpido posible (jerarqua de memoria).

Clasificacin de las arquitecturas:

Como toda clasificacin, una clasificacin (o taxonoma) de arquitecturas persigue dividir el conjunto de los computadores en una serie de clases de forma que, si se sabe la clase a la que pertenece un computador que computador, automticamente se conocen una serie de caractersticas interesantes del mismo. La clasificacin ms extendida es la llamada Taxonoma de Flynn: SISD SIMD MISD MIMD

Computadores SISD: un nico flujo de instrucciones procesa

operandos y genera resultados, d fi i d un i fl j d d t d lt d definiendo nico flujo de datos.
FI UC E/S FI UP FD UM
for i=1 to 4 do Begin C[i] = A[i]+B[i]; F[i] = D[i]-E[i]; D[i] E[i] G[i] = K[i]*H[i]; End;

Computadores SIMD: un nico flujo de instrucciones procesa

operandos y genera resultados, d fi i d varios fl j d d t d lt d definiendo i flujos de datos, d d dado que cada instruccin codifica realmente varias operaciones iguales, cada una actuando sobre operadores distintos.
for all Epi(i=1 to 4) do Begin C[i] = A[i]+B[i]; F[i] = D[i]-E[i]; G[i] = K[i]*H[i]; End End; Procesadores matriciales
FI FI UC FI UP1 UP2 FD FD UM1 UM2
. .
UPn
. .
UMm
ADDV C,A,B SUBV F,D,E MULV G K H G,K,H Procesadores vectoriales
FI
FD

Computadores MISD: se ejecutan varios flujos distintos de

instrucciones (MI) aunque t d actan sobre el mismo fl j d d t i t i todos t b l i flujo de datos. Actualmente no existen computadores que funcionen bajo este esquema. q
FI1 FI2 FD UC1 UC2 . . UCn FI1 UP1 FD FI2 UP2 . FD . UPn FD FIn UM2 . . UMm UM1
FIn

Computadores MIMD: el computador ejecuta varias secuencias o

flujos distintos de instrucciones, y cada uno d ellos procesa operandos fl j di ti t d i t i d de ll d y genera resultados definiendo un nico flujo de instrucciones, de forma que existen tambin varios flujos de datos uno por cada flujo de instrucciones.
FI2 FI1 UC1 UC2 FI1 FI2 UP1 UP2 FD FD UM1 UM2
for i=1 to 4 do Begin C[i] = A[i]+B[i]; End; Proc1 f i=1 to 4 do d for i 1 t Begin G[i] = K[i]*H[i]; End; Proc2 for i=1 to 4 do Begin F[i] = D[i]-E[i]; D[i] E[i]; End;
. .
UPn
. .
UMm
UCn
FIn
FD
FIn
Proc3

Taxonoma de Flynn
Paralelismo Funcional Proc. Segmentados P S t d Proc. Superescalares Proc. VLIW
Paralelismo de Datos
SISD
Proc. Vectoriales SIMD Proc. Matriciales Proc. Sistlicos Memoria Compartida: Acceso Uniforme (SMPs), Acceso no Uniforme o Distribuida (NUMA, COMA). Paso de Mensajes (NORMA): Multicomputadores, Clusters.
MIMD

Tipos de paralelismo:
Paralelismo de datos: La misma funcin, instruccin, etc. se ejecuta en
paralelo pero en cada una de esas ejecuciones se aplica sobre un conjunto de datos distinto.
Paralelismo funcional: Varias funciones, tareas, instrucciones, etc.

(iguales o distintas) se ejecutan en paralelo. Se distinguen los siguientes ( g p que j paralelo): ) niveles (segn el tipo de entidades funcionales q se ejecutan en p Nivel de instruccin (ILP) se ejecutan en paralelo las instrucciones de un programa. Granularidad fina. Nivel de bucle o hebra (Thread) se ejecutan en paralelo distintas iteraciones de un bucle o secuencias de instrucciones de un programa. Granularidad fina/media. Nivel de procedimiento (Proceso) los distintos procedimientos que constituyen un programa se ejecutan simultneamente. Granularidad media. Nivel de programa la plataforma ejecuta en paralelo programas diferentes que pueden corresponder, o no, a una misma aplicacin. Granularidad gruesa.

Ejemplo: paralelismo entre instrucciones ILP (I)

Procesador no segmentado
Inst. Inst 1 Inst. 2 Inst. 1 Inst. 2 Inst. 3 Inst. 4 Inst. 1 Inst. Inst 2 Inst. 3 Inst. 4
IF
ID
EX
5T
MEM
WB IF ID EX MEM
1/(5T)
WB
IF
ID IF
EX ID IF
MEM EX ID IF
WB MEM EX ID WB WB WB WB WB MEM EX WB
Procesador segmentado
1/(T)
MEM
WB
IF IF
ID ID IF IF
EX EX ID ID
MEM MEM EX EX
Procesador supersegmentado
1/(T/2)=2/T /( / ) /
MEM MEM

Ejemplo: Procesadores Vectoriales: ILP y Paralelismo de Datos. D t

El procesamiento de instrucciones est segmentado y se utilizan mltiples unidades funcionales. funcionales Paralelismo de datos: cada instruccin vectorial codifica una operacin sobre todos los componentes del vector.
b4 b3 b2 b1 a4 a3 a2 a1
Unidad Escalar
Reg. Escalares
Datos Escalares
Control Cauces Esc. Flujo Instr.
E/S
IF
ID
Unidad LOAD/STORE
OF
Cauces Vector.
Datos V D Vectoriales i l
Procesador Vectorial Memoria Principal

Registro Vectorial a5 b5 a4 b4 a3 b3
Reg. Vectoriales
Unidad Vectorial
a8 b8
a7 b7
a6 b6
a2+b2 a1+b1
Cauce Vectorial
Unidades funcionales segmentadas
Registros Vectoriales

Tiempo de ejecucin:
Tiempo necesario para completar la ejecucin de un programa (response time, elapsed time). Est formado por:
Tiempo de CPU de usuario: tiempo que la CPU invierte en ejecutar el programa programa. Tiempo de CPU de sistema: tiempo que la CPU invierte en ejecutar las tareas de SO necesarias para el programa. Tiempo asociado a: esperas debidas a E/S o a la ejecucin de otros programas.
Ejemplo: C Ej l Comando ti d time (U i ) 63 0 15 0 2 10 60% (Unix): 63.0u 15.0s 2:10 63.0u = tiempo CPU de usuario 15 0 = tiempo de CPU d sistema 15.0s ti d de i t 63.0 + 15.0 es el 60% del total (2:10 = 130seg)

Tiempo de CPU (TCPU)= Ciclos_del_Programa x TCICLO =
Ciclos_del _Programa Frecuencia _de_Reloj
Ciclos por Instruccin (CPI) =
Ciclos_del _Programa Nmero_de_ Instruccio nes (NI)
TCPU = NI x CPI x TCICLO
TCICLO=1/F F=frecuencia

Para procesadores que pueden empezar la ejecucin (emitir) varias i t i instrucciones al mismo ti i l i tiempo: TCPU = NI x (CPE / IPE) x TCICLO
CPI CPE = ciclos entre inicio de emisin de instrucciones instrucciones. IPE = instrucciones que pueden emitirse (empezar la ejecucin) cada vez que se produce sta.

Introduccin Ejemplo: Evolucin Clasificacin Rendimiento Problemas CPI = CPE/IPE
No segmentado
CPE=5 IPE=1 CPI=5
Inst. 1 Inst. 2 Inst. 1 Inst. I t 2 Inst. 3 Inst. 4 Inst. 1 Inst. 2 Inst. 3 Inst. 4
IF
ID
EX
5T
MEM
WB IF ID
EX
MEM
WB
IF
ID IF
EX ID IF
MEM EX ID IF
WB MEM EX ID WB WB MEM MEM
Segmentado
CPE=1 IPE=1 CPI=1
WB MEM EX
T
WB MEM WB Superescalar o VLIW

CPE=1 IPE=2 CPI=0.5
IF IF
ID ID IF IF
EX EX ID ID
MEM MEM EX EX
WB WB

Procesadores que pueden codificar varias operaciones en una instruccin:
TCPU = (Noper / Op_instr) x CPI x TCICLO

NI
Noper = nmero de operaciones que realiza el programa. Op_instr = nmero de operaciones que puede codificar una instruccin.

Introduccin Ejemplo:
Ejemplo paralelismo datos
Evolucin
Clasificacin
Rendimiento
Problemas
NI = N Noper/Op_instr /O i t
Noper=12 Op_instr=4 NI=3
Procesador Matricial UC
C=A+B F=DE G= K*H
EP1
C[1]=A[1]+B[1] F[1]=D[1]-E[1] G[1]=K[1]*H[1]
EP2
C[2]=A[2]+B[2] F[2]=D[2]-E[2] G[2]=K[2]*H[2]
EP3
C[3]=A[3]+B[3] F[3]=D[3]-E[3] G[3]=K[3]*H[3]
EP4
C[4]=A[4]+B[4] F[4]=D[4]-E[4] G[4]=K[4]*H[4]
Flujos de Instrucciones Fl j d I t i
Flujos de Datos
Ejemplo paralelismo instrucciones

Mejora del tiempo de CPU:

Tciclo
Tecnologa: Dispositivos ms rpidos. Integracin procesador + Onchip caches caches. Estructura y organizacin: Jerarqua de memoria, diseo de menos niveles de lgica por etapas, supersegmentacin.
CPI
Tecnologa: Mayor integracin. Estructura y o ga ac ILP (segmentacin de cauce, VLIW, st uctu a organizacin: (seg e tac , superescalares). En superescalares y VLIW CPI=CPE/IPE Repertorio de instrucciones: Instrucciones con implementacin sencilla. sencilla Compilador: Extraccin del mximo ILP.
NI
Repertorio de instrucciones: CISC RISC, repertorio VLIW, repertorio vectorial.

Medidas de prestaciones:
MIPS: millones de instrucciones por segundo.
MIPS =
NI TCPU x 10 6
F (frecuencia) CPI x 10 6
Depende del repertorio de instrucciones (difcil comparar entre mquinas diferentes). Puede variar con el programa (no caracteriza la mquina). Puede variar inversamente con las prestaciones (mayor valor de MIPS corresponde a peores prestaciones).

MFLOPS: millones de operaciones en coma flotante por segundo.
Operaciones_en_Coma_Flotante MFLOPS = TCPU x 10 6
No es adecuado para todos los programas (slo tiene en cuenta las operaciones en coma flotante). El conjunto de operaciones en coma flotante no es constante en todas las mquinas.

Lo ms adecuado: utilizar benchmarks (conjuntos de programas) seleccionados que representen la carga de trabajo usual de las mquinas a evaluar. Tipos de benchmarks: Aplicaciones reales. Compiladores, Word, MathLab, ... Kernels. Trozos de aplicaciones reales seleccionados para evaluar caractersticas especficas. especficas Simples (Toys). Pequeos programas fciles de programar y cuyo resultado es conocido (Quicksort). Sintticos. Reproducen porcentajes de instrucciones y situaciones de carga reales. Benchmarks suites (SPEC) Cjts de Benchmarks que miden las (SPEC). Cjts. prestaciones de los computadores a travs de un conjunto de aplicaciones distintas. Las limitaciones de un benchmark se suplen con la presencia de otros. Se cambian peridicamente para evitar optimizaciones realizadas con t S bi idi t it ti i i li d el nico objetivo de mejorar los resultados del conjunto de benchmark.

Conjunto de benchmarks del SPEC2000.

11 benchmarks enteros 14 benchmarks coma-flotante
CINT2000 (en C y en C++ el 252 eon) 252.eon)

164.gzip 1400 Data compression utility 175.vpr 1400 FPGA circuit placement and routing 176.gcc 1100 C compiler 181.mcf 1800 Minimum cost network flow solver 186.crafty 1000 Chess program 197.parser 1800 Natural language processing 252.eon 1300 Ray tracing 253.perlbmk 1800 Perl 254.gap 1100 Computational group theory 255.vortex 255 vortex 1900 Object Oriented Database 256.bzip2 1500 Data compression utility 300.Twolf 3000 Place and route simulator
CPF2000 (6 Fortran 77 4 Fortran 90 y 4 C) 77,4 90,
168.wupwise 1600 Quantum chromodynamics 171.swim 3100 Shallow water modeling 172.mgrid 1800 Multi-grid solver in 3D potential field 173.applu 2100 Parabolic/elliptic differential equations 177.mesa 1400 3D Graphics library 178.galgel 2900 Fluid dynamics: oscillatory instability 179.art 2600 Neural network simulation (ART) 183.equake 1300 Finite element simulation: earthquake 187.facerec 1900 Computer vision: recognizes faces 188.ammp 188 ammp 2200 Computational chemistry 189.lucas 2000 Number theory: primality testing 191.fma3d 2100 Finite element crash simulation 200.sixtrack 1100 Particle accelerator model 301.apsi 2600 Solves problems regarding pollutants http://www.specbench.org/osg/cpu2000/docs/readme1st.html

Benchmarks suites para la evaluacin de computadores de altas prestaciones: lt t i SPEC HPC :

Prediccin de tiempo atmosfrico. Aplicacin de qumica cuntica. cuntica Localizacin de yacimientos de petrleo y gas.
LINPACK:
Conjunto de subrutinas de resolucin y anlisis de ecuaciones lineales, sistemas de mnimos cuadrados, etc. La lista TOP500 que evala los 500 computadores ms potentes utiliza LINPACK como benchmark tili a benchmark.

Ejemplo: Earth Simulator (TOP 500: nmero 1 en 2002)

El ncleo de este programa es una rutina denominada daxpy que multiplica un vector por una constante y los suma a otro vector: for (i=0 ; i<N ; i++) y[i] = y[i] + a*x[i]; Basado en la arquitectura NEC SX ( q (vectorial). ) Dispone de 640 nodos, con 8 procesadores vectoriales (8 Gflop/s pico por procesador), 2 ns de tiempo de ciclo, 16GB de memoria principal compartida por nodo. Total: 5120 procesadores, 40 Tflop/s p , y 10 TB de p , p pico, memoria. Una nica red de barras cruzadas (1800 millas de cable) 83,000 cables de cobre, 16 GB/s cross section bandwidth (ancho de banda de seccin). ( ) 700 TB de disco 1.6 PB almacenamiento masivo Dimensiones: 4 pistas de tenis, 3 plantas Linpack Benchmark = 35.6 Tflop/s p p Tamao N = 1,041,216; (8.7 TB de memoria) Mitad del mximo N1/2 = 265,408 Tiempo de ejecucin del benchmark: 5.8 horas Software: MPI/Fortran
Valor de N para alcanzar la mitad de las prestaciones

Rendimiento:
Ganancia de velocidad: incremento de velocidad que se consigue gracias al aumento de recursos de una mquina respecto a la mquina base base.
GP = T1 ; TP GP P
Eficiencia: se obtiene dividiendo la ganancia entre el nmero de recursos (permite evaluar en qu medida las ) prestaciones de un programa se acercan al mximo).
EP = Gp ; P EP 1
Productividad: nmero de operaciones que se ejecutan por unidad de tiempo.

Kilobyte (KB) Megabyte (MB) Gigabyte (GB)
103 bytes
Kibibyte (KiB)
1024 bytes (210 bytes) y ) 220 bytes
106 bytes
Mebibyte (MiB)
109 bytes
Gibibyte (GiB)
230 bytes
Terabyte (TB)
1012 bytes
Tebibyte (TiB)
240 bytes

Tema 1 AIC

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Tema 1 AIC

Diunggah oleh

Hak Cipta:

Format Tersedia

Arquitectura e Ingeniera de Computadores

Tema 1 Introduccin a las arquitecturas paralelas

Departamento de Tecnologa Informtica y Computacin

AIC Tema 1 Introduccin a las arq. paralelas

Marco de la asignatura: Niveles de descripcin de un computador

AIC Tema 1 Introduccin a las arq. paralelas

Arquitectura e Ingeniera de Computadores

AIC Tema 1 Introduccin a las arq. paralelas

Je erarqua de memor d ria

AIC Tema 1 Introduccin a las arq. paralelas

Elementos: Switch (S) Procesador (P) Memoria (M)

Red: topologa, encaminamiento, ancho de banda, latencia

AIC Tema 1 Introduccin a las arq. paralelas

AIC Tema 1 Introduccin a las arq. paralelas

Niveles de descripcin de un computador:

AIC Tema 1 Introduccin a las arq. paralelas

AIC Tema 1 Introduccin a las arq. paralelas

Niveles de abstraccin para un computador:

AIC Tema 1 Introduccin a las arq. paralelas

AIC Tema 1 Introduccin a las arq. paralelas

AIC Tema 1 Introduccin a las arq. paralelas

Arquitectura Abstracta Arquitectura Concreta

AIC Tema 1 Introduccin a las arq. paralelas

AIC Tema 1 Introduccin a las arq. paralelas

Ejemplo de niveles de abstraccin:

AIC Tema 1 Introduccin a las arq. paralelas

Una definicin ms amplia de arquitectura:

AIC Tema 1 Introduccin a las arq. paralelas

El mbito de la Arquitectura de Computadores incluye:

AIC Tema 1 Introduccin a las arq. paralelas

Con el objeto de:

AIC Tema 1 Introduccin a las arq. paralelas

Aplicacin de los conocimientos de arquitectura:

AIC Tema 1 Introduccin a las arq. paralelas

Optimizacin de cdigo (I)

Necesita 2 ciclos frente a los 3 del caso anterior

AIC Tema 1 Introduccin a las arq. paralelas

Optimizacin de cdigo (II)

32 bytes Tamao lneas de cach

AIC Tema 1 Introduccin a las arq. paralelas

Optimizacin de cdigo (III)

AIC Tema 1 Introduccin a las arq. paralelas

Optimizacin de cdigo (III)

AIC Tema 1 Introduccin a las arq. paralelas

Evolucin Histrica de los computadores:

AIC Tema 1 Introduccin a las arq. paralelas

AIC Tema 1 Introduccin a las arq. paralelas

Computadores, Aplicaciones y Mercados:

AIC Tema 1 Introduccin a las arq. paralelas

Evolucin; existe en el mercado una demanda computacional creciente:

AIC Tema 1 Introduccin a las arq. paralelas

Evolucin Clculo Cientfico:

TOP 500 (Jun2005)

AIC Tema 1 Introduccin a las arq. paralelas

Aumento de la capacidad de procesamiento O(a3)

Aumento de tamao de los CI (b)

Cambio de la tecnologa (Ej. CMOS a AsGa

Aumento de la velocidad de los dispositivos

Aumento de la capacidad de procesamiento ??

AIC Tema 1 Introduccin a las arq. paralelas

Avances en la Tecnologa (II): A qu ritmo mejora la tecnologa? A it j l t l ?

AIC Tema 1 Introduccin a las arq. paralelas