Anda di halaman 1dari 46

V¿[q

¿Corno funcicna una CPU?

Introducción.

A pesar de que cada microprocesador tiene su propio diseño intemo, todos los microprocesadores
comparten un mismo concepto básico - Io que vamos a explicar en este tutorial. Vamos a echar un
üstazo dentro de una arquitectura de CPU genérica, por lo que será capaz de entender más acerca de
Intel y los productos de AMD y las diferencias entre ellos.
La CPU (Unidad de Procesamiento Central) - que también se llama microprocesador o procesador - es
el encargado de procesamiento de datos. Cómo se va a procesar los datos dependerán dei programa. El
programa puede ser una hoja de cáIculo, un procesador de textos o unjuego: para la CPU no hace
ninguna diferencia, ya que no entiende lo que el programa está haciendo realidad. Se iimita a seguir las
órdenes (llamados comandos o instrucciones) contenidas dentro del programa. Estas órdenes pueden
ser para agregar dos números o para enviar un pedazo de datos a la tarjeta de vídeo, por ejemplo.
AI hacer doble clic en un icono para ejecutar un programa, esto es lo que sucede:
1. Ei programa, que se almacena dentro de la unidad de disco duro, se tansfiere a la mernoria RAM.
Un programa es una serie de instrucciones a ia CPU.
2. La CPU, utilizando un circuito liamado controlador de memoria, c¿Lrga los datos de programa de la
rnemoria RAM.
3. Los datos, ahora dentro de la CPU, se procesa-
4. ¿Qué pasa después dependerá del programa. La CPU podría continuar para cargar y ejecutar el
programa o podría hacer algo con los datos procesados, como mosftar algo en la pantalla

e+ $*ffi+@
Hird D!¡kD¡hq ' Fe$ r,rá.ro* *"ltJH*, cFu

Click para agrandar


Figura 1: Cómo los datos almacenados se tansfiere a la CPU.

En ei pasado, [a CPU con§glq_tq ¡rq¡-rsfere4qla de dqlgs entre Ia unida{dS 4!¡gg _&uo y la memoria
_R4_¡4. Desde la unidad de disco duro es más lenta que la mernoria RAM, esto ralentiza el sistema, ya
,g-ue la CPU sería ocupado hasta que todos los datos se transfieren desde la unidad de disco duro a la
rnemoria RAM. Este método se Uqqlq PIO, procesq{ot de E / § (o E / S pqog¡q¡Edd. EI_o_y_en dia la
transferencia de dalos entre la unidad de disco duro y la rnemoria RAM en efectuen sin utilizar la CPU,
lo que hace el sistema más rápido. Este método se llarna conrol por bus o DMA (Direct Memory
Access). Con el fi4 de simplificar el dibujo, no hemos puesto el chip puente norte entre la unidad de
&iéo firo y la memoria RAM en la Figura 1, pero s51{ ahí. Los procesadores de AMD basados en
sockets 754,939 y 940 (Athlon 64, Athlon 64Xz,Athlon 64 FX, y algunos modelos Opteron Sempron)
tienen un controlador de memoria integrado. Esto significa que para estos procesadores la CPU accede
a la rnemoria RAM directamente, sin usar el chip puente norte muestra en la Figura 1.

Reloj.
Entonces, ¿qué es el reloj de todos modos? Reloj es una señai usada para sincronizar las cosas dentro
de la computadora. Echar un vistazo en la Figura 2, donde se muestra una señal de reioj típico: es una
onda cuadrada se cambia de "0" a "1" a una tasa fija. En esta figura se puede ver a tres cidos de reioj
completos { "clics"). A}'comienzo de cada ciclo es cuando la señai de reioj de "0" a 1'1"; marcamos esto

GL
ill _
de ciclos
mide en una unidd
con una flecha- La señai de reloj se ctoCos de
100 I\4Hz significa qte cl¡
de reloj Por segundo' Un reloj de
reloi.
Figura 2: Señal de relc{-
se rnidán en téITrlos decidoqE¡!
En e[ ordenador, todos los tiernpos n*i
- ^¡^ -.¡ñ
que ," r"truiáiá cinco cidm de
ili),"¿ff ,"r"r",.".á::l'l,g.,itica
-ru'.'.'a1P'::::T:'l:"1""1::ff"H:
entrega de datos. »"ri'" ¿" ii cidc &
:ffi#:#;#;i;,;u inrt*..ion dada puede retrasar siete
cru
B;'.XtlÍfi
l1n cu¿ulto \'r u ' 1o
cPU,
a Ia
d rd interesante es que
' que 'fformación'
*,S:
¡.1ueiiT::::*::
Así que si tiene dos imlrffi
ya que tiene uratabla emmera
""i '
i"t^",T".t".'1"ili;T;:;;;;;;d*;-ild.
y se sabe que el p,i-;¿-;t'á t"=t*.:l:1"-:o,::.::":::? en er cicro de reloi E-
pusqr
35:::,:TJ::i.:'ü-ffi
li,iir"r".X§"illi'J'i¡".roun de la rig,ri"n[instrucción
una explica.ion genot-;;;;;9
ffid;; *i::*i::::';'::Hl;':5;5
cpi-r con una
eiecutar"ffi
p.,vr*v q"' pod'ía
Hi""J*::'il3:::::::fr:#i;";,"" ";
instrucción,almismotiempoquelap'i*"o'unparalelo'Estoseconocecomolaarc
adelante'
%
superescalar y uur.ro, u r'iüf"t -u'
tóutt
"'to "'át reloi y el renüuielba
oue el reloj
por lo tanto, lo que el reloj tieneque ."'""i *tai*i^"""1 v pensar
npnsAr que
"*
acerca de los p:tt-::{"j:'
el misrno que es el error más común
sisecomparandoscPUcompletamenteidénticos'laquecorríaaunavelocidadderelojmásaltascÉ ciclo de reloj seá
En esre ;;,;;;a velocidJ á. ,aL¡ mks alta ul ,i"*po entre cada
rnás rápido. y el rendimi^en:"-:::'mayor' Perc
a ser realizado en menos tiempo
rnás corro, así que lr;;;;r; clerto'
cuando io hace ..*;;;;, p-."rraores diferentes, esto no es necesariamente
siseobtienendosprocesadoresconarquitecturasdiferentes-porejernplo'dosfabricantesdiferentes'
como Intel y AMD -;;t" dentro de
la-CpU son completamente diferentes'
tarda un cierto núme'ro de cidosde
reloi p¿üa ser
corno hemos mencionado, cada instrucción dada'
ejecutado. Digamos que el procesador
"e;i"*"1iete ciclos a. rlroi para rearizar una instrucción están
Si se
y que el procesador ü; ;;" cinco ciclos
i"l"f"i lara reali- z,3r esta misma instrucción'
ya que puede proces'r
ir".r"r.lu ¿" ."rá:, "8" será más rápido'
ejecutando en ta misÁ "iptotlsador
que las cPus tienen direrente
en el juego el¡endimienro, va
;:t:T$t'ffllilli,Íf-ltho
de ejecuciórr,
más
¿ir..""i"' i"'"áot de caché' difeientes formas de transferencia
de
núrnero de unidades de las unidades de
ro* ¿" p-cesar las instrucciones dentro
daios dentro de Ia CPU, difereutes preocupe; vamos a cubrir
ejecución, diterentes.ráo.i¿uao d"
*LlJJümundo exterior' etc'' no se

La ptaca base clonde está


hizo muy alra, un problema apareció-
E*:T::ff:'j","üT$n.o5orag.se Jo., ü-ñir-u'ruñar de rero¡- §i nos fiiamos en una placa base'
instarado el procesador no podía ouuu¡u. circuitos de Ia
pistas son cables que conectan los diversos
verá varias pistas o caminos. Estas cornenzaron a
velocidades de reloj más altas' estos cables
computadora. El problema es que con del alambre' simplemente
como antenas, para que la señal, en vez de llegar en el otro exüemo
[abajar
de radio'
á.rupur"."ría' que se transmite como ondas

l
Figura 3: Los cables de la placa base pueden funcionar como antenas.

Reloj externo.

Por lo que los fabricantes de CPU comenzaron a utilizar un nuevo concepto, denominado
multip-licacipq 4S¡_eloj, que comenzó-cqn eI procesado-r 4B6DX} Bajo este esquema, que se utiliza en
todas las -Pü." h ;atuüdad, la cPÚ riene'un ."io1 que se usa cuando la rransferencia de
hacia y desde la memoria RAM (utilizando
datos fiacra (utiiizandogl "r--"*o,
chi puente norte), y un reloj interno superior-
e! chip
Para da¡ un ejemplo real, en un Pentium 4 a3l4 ,q GJ44 esta "3.4 GHz" se refiere al reloj I
reloi interno de la
CPU, qqq se obtiene multiplican-do por 17 r"--Éfo¡-GAz
-"xemq?!Q.&@. Nos ilustra este ejemplo en la
G^,,-- A
figura 4.
- --' 3.4 6H¡
2ó0lilH= ?0S HHz r 17
ffiffi1 {áoomHzatrR}

J
ffiffi-§="#,§ .@4,
ffiffi'-it:.-Elks L
ffiffi
ffiffi¡
áffiffi
ffik*ffi#re § F'
ffiffi
Cftíp:tt L<¡cal Br¡x CPU
{}Jorth Brldgri

Figura 4: Interna y reiojes externos en un Pentium 4 a 3,4 GHz.

La gran diferencia entre el reioj interno y el reloj extemo en las CPU moderna es un gran obstáculo
para supelzu con el fin de aumentar eI rendimiento del equipo. Continuando con el ejemplo pentium 4
3,4 GHz, se ha de feducir su velocidad de 17x cuando se tiáne que leer datos de Ia memoria RAMI
Durante este procesq que fuaciona como si fuera una cpu 200lv[trz!
Se utilizan va¡ias técnicas para minimizar el impacto de esta diferencia de reloj. Uno de ellos es el uso
de un caché de memoria dento de Ia CPU. Otra es la transferencia de más de un fragrnento de datos
por cido de reloj. Los procesadores de AMD e Intel u ;lizan esta característica, pero mientras que las
CPUs AMD transfieren dos datos por cido de reloj, Ia transferencia de las CPU lntel cuatro datos por
ciclo de reloj.

Figura 5: Tra¡sferencia de datos de rnás de una por ciclo de reloj.

Debido a que, CPUs AMD se enumeran como ieniendo el doble rie sus relojes externos reales. Por

ü3
ei@o' ¡ma cPU AMD con un reloj extern o 2oo MHzse muestra como 400 MHz. Lo rnir-o ,,r.u!
m lc cPU InteL una cPU Intel con un reloj externo 200 MHz aparece como tener un reloj externo
&n MIIZ-
Ia téoica de transmisión, dos datos por ciclo de reloj se llama DDR (DuaI Data Rate), mientras que
el
modelo de transferencia de datos de cuatro por ciclo áe retoj se llama'eDn qquuá
outa Rate).

Diqgrama de bloques de una CpU.


En la ñgura 6 se puede ver un diagrama de blogues básico de una CpU
modema. Hay muchas
diferencias entre AMD y arquitecturas Intel (Pentium 4 leer Dentro Arquitectura
para una vista
&tallada de la arquitectura Pentium 4). La comprensión del diagrama áe bloque, b,íri.o
de una Cpu
moderna es el primer Paso Para entender cómo ias CPUs de Intel y AMD naUa¡an
y las diferencias
entre ellos-

Figura 6: di¿g¡¿¡¡¿ de bloques básico de una CpU.

La línea de puntos en la Figura 6 representa el cuerpo de la CPU, como la mernoria


RAM se encuentra
fuera de la CPU. La ruta de datos entre la memoria RAM y la CPU es porlo general
de 64 bits de
ancho (o 128 bits cuando se utiliza la configuración cle memoria de doüle can"ü,
coniendo el reloj de
memoria o eI reloj externo de la CPU, lo que es rnás baja- EI número de bis utiÍ¿ados y
Ia frecuencia
de reloj se pueden combinar en una veiocidad de transflrencia de unidad
llamada, medida en MB / s-
Para calcular Ia velocidad de transferencia, la fórmula es el número de bits
x reloj r B. para u¡ sistema
utilizando memorias DDftlQ$en la configuración de un solo canal (64 bits) Ia tasa
de transferencia de
la memoúa será de 3.2oo MB / s, mientras que ei mismo sistema utilizando
memorias de dos canales
(128 bits) tendrán una tasa de ffansferencia s 6.400 MB / memoria.
Todos los circuitos en el interior del cuadro punteado se ejecutan en el reloj
interno de la CpU-
Depenüendo de la cPU algunas de sus partes internas, iniluso puede .ooé, a
una velocidad de reloj
más alta. También, el camino de datos enre las uniclades de la Cpu puede
ser más ancha, es decir,
transferir más bits por cido de reloj de 64 o 128. Por ejemplo, el camino de datos
entre la memoria
caché L2 y la memoria caché de instrucciones L1 en lós procesadores
modernos es por lo general de
256 bits de ancho. cuanto rnayor sea el número de los biis transferidos por
ciclo de ielo¡, lá nípida
transferencia de la que hará (en otras palabras, la velocidad de transferencia será mayor). En
:e la
Figura 6 se utilizó una flecha roja entre la memoria RAM y la memoria
caché L2 y flechas verdes entre
todos los otros bloques Para expresar las diferentes velociáades de reloj y
el anchá camino de datos
utilizados.

La memoria cache.

La mernoria caché es una especie de alto rendimiento de la memoria, también


llamada memoria
estática. El tipo de memoúa que se utiliza en la memoria RAI\4
del ordenador prinJpd se llama
memoria dinámica- Memoria estática consurne más energÍa, es más
caro y es físicamente más grande
que la memoria diniímica, pero es mucho más rápido. se puede
trabajar en el mismo reloj que el cpu,
que la memoria dinámica no es capaz de hacer.
Desde ir aI "rnundo exterior" para obtener los datos hace que Ia cpu para
funcionar a una velocidad ¿e
reloj más baja, se utiliza la técnica de la memoria caché. Cuando la cbu carga
un datos de una
determinada posición de memoria, un circulto iiamario controiacior rie memolria
caché (no dibujatio en
la figura 6 en el nombrc de la simplicidad) se carga en la memoria caché
todo un bloque de datos por
lebajo de la posición acrual de que la cPU tiene ácaba de cargar . Desde por lo general programas de
flujo de una forma secuencial, la sigúente posición de memoia de ia cpÚ solicltará
será
probablemente ia posición inmediatamente debajo de la posición de memoria que sólo se ha cargado-
Dado que el controlador de memoria caché ya cargado una gran cantidad de datos por debajo de la
primera posición de memoria leído por la CPU, los próximos datos serán clentro de la memoria caché,
por lo que la CPU no üene que salir a la calle para tomar los datos: ya está cargado en ei interior de la
memoria caché integrada en la CPU, la cual puede acceder a su velocidad de reloj intemo.
El controlador de memoria caché está siempre observando la memoria posiciones que se carga y carga
de datos desde varias posiciones de memoria después de la posición de memoria que se acaba de leer.
Para darle un ejemplo real, si los datos de la CPU cargado almacenados en la dirección de 1000, el
conirolador de memoria caché se cargarán los datos de direcciones "n" después de que la dirección de
1,000. Este número "n" se llama la página; si un procesador dado está trabajando con páginas de 4 KB
(que es un valortípico), cargará los datos de 4.096 direcciones por debajo de la posición actual de la
memoria de ser carga (dirección 1000 en nuestro ejernplo). Por cierto, 1 KB es igual a 1-024 bytes, por
eso es de 4 KB 4,096 no 4.000. En la Figura 7 se ilustra este ejemplo.

íiP - r.:qu{'gt/id :11,1 !.Í't-Étf§

frc aúütyJ cür,Uoll.:.r


lrül I'1¡4 tlt .lL-.13 f'':,^'
g:;a.f a I 3t 3 -:sG*5 Ltl']i-a. I
nt:fr: Li ñ'¡¿-.rr1rl'!':acf :

Figura 7: ¿Cómo fimcima el connolador & memqia caché?-

Cuanto maYor sea el caché de rnemori4 mayores serán lr posibfllidades de qr" los datos requeridos
por la CPU ya están allí, por lo que la CPU se necesita para acceder d¡eaamente a la memoria RAM
con menos frecuencia, lo que aumenta el rendimiento del sistema (sólo reorerda qre cada vez que la
CPU necesita acceso la memoria RAM directamente que necesitapara bajarsu velocidad de reloj para
esta operación).
Que llamamos un "hit" cuando la CPU carga un conjunto de datos necesarios de I,a memoria caché, y
que llamamos un:i'miss" si los datos requeridos no está allí y la CPU üene que acceder a la memoria
RAM del sistema.
Ll y L2 significa "Nivel 1" y "Nivel 2", respectivamente, y se refiere a la distancia que hay des& la
(unidad de ejecución) núdeo de ia CPU. Una duda común es la razón por la que tiene rres memorias
caché separadas (cache de datos L1, caché de instrucciones L1 y L2 caclé)- Presta¡ atención a la figura
6 y verá que la memoria caché de instrucciones L1 funciona como un "caché de entrada-, mientras que
los datos de caché L1 funciona como un "caché de resultados". caché de insuucciones Ll - que suele
ser menor que la caché L2 - es particularmente eficaz cuando el programa empieza a repetir una
pequeña parte de ella (circular), porque las Ínstrucciones requeridas estarán más cerca de ia unidad de
obtención de información.
En la página de especificaciones de una CPU la caché Ll se puede encontrar con difercntes tipos de
representación. Algunos fabricantes lista de los dos caché L1 separado (algunas veces llaman a la caché
de instrucciones como "1" y la caché de datos como "D"), algunos añaden la cantidad de los dos y

G4
,,sepa.rados" - por lo que un "128 KB, separa" significaría caché de,instmcciones de 64 KB de
escdbe
tiene que añadir rm dos y usted riene que adivinar
datos y Ia memoria caché ¿e o¿ xg -, y argunos sóro
de cada caché' La
qr. o'ru cantidad,oá y se debe ai"iá. pá. dos para obtener la capacidad
excepción, sin embargo, va a las CPUs Pentium 4
y Celeron-basados en Duevo§ sockets 47By 775'
utilizando sockets 47By 775) no tienen una
Los procesadores peritium 4 (y los procesadores Celeron
caché de ejecución de traza, que es una memoria caché
caché de instrucciones L1, en cambio, üenen un
de ejecución' Por lo tanto' [a caché de
situada entre la unidad de decodificación y la unidad
y una ubicación diferente' Mencionamos esto
instmcciones L1 está ahí, pero .on ,rn ooábre diferente
aquí porque este es un error muy común,
pensir que los nryl9yao.es Pentium 4 no tienen caché de
Pentium 4 CPU a otras penonas p"q" pensar
que su
instrucciones Ll-. Así q.r. .rrndo ," .orrr[** datos L1' EI caché
están contando el B KB áe caché de
caché L1 es mucho más pequeño, ya que sólo cuenta' por
de 150 KB y debe ser tomado en
á" .:á.*iO, ,urt.o a" pu'ntirr" a y c"i"ron CPU es
supuesto.

Derivación. (branching)

principales problernal uara lacPU está teniendo


como hemos mencionado varias veces, uno de los
se hi podrdo debe acceder directarne,te a la
demasiados errores de caché, ya que la unidad '"i'p"t*
memoria RAM lenta,lo que ralentiza el sistema' ipica en 1a que se
por lo general, ,ro de ü merroúa caché evita esto mucho, pero hay una situación
"t
perderá el controladár de rnemoria caché: ramas'
Si en medio del programa no es una instrucción de
-i,. u"¡ que enüa el programa a una posición de memoria completamente
iiarnada JMP ( "rdtJ' o
lu *"*orii caché LZ, por lo que Ia zona de alcance
diferente, .r,u n,r"ruu posición ío ,eoi cargadt "i el
la memoria RAM' iara resolver este problerna'
unidad para ir a buscar esa posición direcámente en y vez
el bloque de memoria se carga cada
conüolador de memoria caché de CpU modernas analizar
que encuentra una ins[uccÍón JMP allí se carga
el bloque de memoria para esa posición en la memoria
caché L2 antes de la CPU alcanza esa instrucción
JMP' ¿

CPU

=,¡'1lr-.¡r]¡l ir the Lj me-r:''¡ crcl-*!

RA&l l!'lem!¡y

Figura B : situación ramificación incondicional'

cuando el programa üen5 r11a bifurcación


Esto es bastante fácil de irnplementar, el problema es
condicional, es decir, la dirección del programa debe
ir a depende de una condición aún no se conoce'
este ejemplo en la
por ejemplo, si a ='<B Ir ala dirección 1, o si a> b ir a la dirección 2' Se ilustra
de a y b son desconocidos y la memoria caché
figura 9. Esto ha¡ía un error de caché, ya que Ios valores

L- -1
conrolador estaría buscando sóio para las instrucciones JMP-corno. La soiución: el controlador de
mernoria caché de calga ambas condiciones en la memoria caché. Más tarde, cuando la CPU procesa Ia
instrucción de ramificación, simplemente descartar el que no fue elegidq Es mejor cargar el caché de
mernoria con datos innecesa¡ios que acceder directamente a la memoria RAM.

§FU
I :¿s n Éi3 i Ér1l :--¿:l+: r- üli L-' tr¿r}.lrI .l-fih:,

Ejc,Hlqcnio$:

Figura 9: situación de bifurcación condicional.

Instrrccion€s de pnocesamient&
La unidd se ha podido reoperar está a cargo & ló imruccimes & carga & la memoria. En primer
luguq se verá si la instuccioil rcqrerida por k CPU se encrr€nta en la caché de instrucciones L 1. Si no
Io es, se va a la memoia caché L2. Si la insuucrion es también no existe, entonces tiene que cargar
direoamente&sde la memoria RAM &I sistema lento.

Al encender la computadora, todos los cachés están vacías, po. ,rp,l"rto, pero a medida que el sistema
empieza a cargiü eI sistema operativo, la CPU comienza a procesar las primeras instrucciones cargados
desde el disco duro, y el connoiador de rnemoria caché empieza a ca-rgar las memorias caché; y eI
espectáculo comienza-

Después de que la unidad ha podido recuperar agarró la instrucción requeriria por la CPU a procesar, lo
envÍa a la r¡nidad de decodificación.

La unidad de decodificaciónAconünuación, averiguarlo que hace que la instrucción particular. Lo


hace mediante la consulta de una memoria ROM que existe dentro de la CPU,llamado microcóügo.
Cada instmcción que comprende una CPU dada üene su propio microcódigo. EI microcódigo se
"enseñar" a la CPU qué hacer. Es como una guía paso a paso para cada instrucción. Si la instrucción es
cargada, por ejemplo, añaür a * b, su microcódigo le indica¡á la unidad de decodificación que necesita
dos parárneüos, a y b. La unidad de decodificación solicitará entonces la unidad de captación aI agarrar
los datos presentes en }os próximos dos posiciones de memoria, que se ajustan los valores de a y b.
Después de la unidad de decoüficación "traduce" ia instrucción y agarró todos los datos necesa¡ios
para ejecutar la instrucción, que va a pasar todos los datos y el "libro de cocina paso a paso" en la
forma de ejecutar esa instrucción a la unidad de ejecución.

La unidad de ejecutar flnalmente ejecutar la instrucción. En ias CPUs modemas se encuentra más de
una unidad de ejecucióq que trabajan en paralelo. Esto se hace con el fin de aumentar el rendimiento
del procesador. Por ejemplo, una CPU con seis unidades de ejecución puede ejecutar seis instrucciones

üs
h
J
en paralelo, por lo que, en teorÍ4 se podría lograr el mismo rendimiento
de los seis procesadores con
sólo una unidad de ejecución. Este tipo de u.q.rit".t ru se llarna arquitectura
superescalar.

PorIo general, los CPU modernos no tienen va¡ias unidades de ejecución idénticas; que
tienen
unidades de ejecución especializados en un tipo de instrucciones. el me¡or
ejernplo es la FpU, Float
unidad de com4 que es el encaryado de ejecutar instrucciones matemáticur
áo-pt"¡*- pá. u;;;,
entre la unidad de decodificación y la unidad de ejecución hay una unidad (llarnada
expedición o
unidad de programación) el encargado de enüar la instrucción de la unidad
de ejecución comecta, es
deci¡ si la instrucción es una instrucción de matemáücas lo enviará a la FpU y ,o . una
unidad de
ejecución "genérico"- Por cierto, las unidades de ejecución "genéricas" se llarnan
ALU, aritrnéüca y la
unidad lógica.
Finalmente, cuando el procesarniento es más, el resultado se envía a la memoria caché
de datos Ll.
Continuando con nuestro complernento a + b ejemplo, el resultado sería enviado a
la caché de datos L1.
Este resultado puede ser enviado de regreso a la mernoria RAM o en otro lugar, ya
que la tarjeta de
vídeo, por ejemplo- Pero esto dependerá de la siguiente instrucción que va r[,ri"nt"-6u
siguilnte
instrucción podría ser "imprirnir el resultado en la pantalla") para ser procesado.
Otra característica interesante que todos los microprocesadores tienen desde hace mucho
tiempo se
llama "pipeline", que es la capacidad de tener varias instrucciones diferentes en diferentes
etapas de la
CPU al misrno tiempo-
Después de que la unidad se ha podido recuperar la instrucción enviada a la unidad
de decodificación,
que va a estar inactivo, ¿verdad? Así que,
¿qué tai vez de no hacer nada, poner la unidad de captación
aI agarrar la siguiente inst¡ucción? cuando la prirnera instrucción va a la unidad
de ejecución, la unidad
se ha podido recuperar puede enviar la segunda instrucción a la unidad
de decodificación y agarrar la
tercera instn¡cción, y así sucesivamente.
En una CPU moderna con una tubería de 11 etapas (etapa es otro nombre para
cada unidad de la CpU),
es probable que tenga 11 insnr¡cciones en su Ínterior, al mismo tíernpo,
casi todo el tiempo. De hecho,
ya que todas las CPU modernas tienen una arquitectura superesealar, el
número de inst¡ucciones de
forrna simultánea dentro de la CpU será aún mayor.
Adernás, para una hrbeúa cPU 11-etapa, u-na initrucción a ejecutar plenarnente
tendrá que pasar a
través de 11 unidades. cuanto mayor sea el número de etapas, *uyoi es
el tiempo de una instrucción
retrasará para ser cornpletamente ejecutada. Por otra parte, tener en
cuenta que debido a este concepto
de varias instrucciones se pueden ejecutar dentro ae li cpu al rnismo
tiernpo. La primera instrucción
cargada por la cPU puede demorar 11 pasos para salir de ella, pero una
vez que se apaga, Ia segunda
instrucción va a salir justodespués de que (y no otros 11 pasos más adelantei
Hay varios otros tlucos utilizafl65 por los cPU modernos para aumentar
el rendimiento. vamos a
explicar dos de ellos, fuera de Ia orden de ejecución (ooó1 y la ejecución
especulaüva.

EJECUCTON FUERA DE ORDEN (OOO)

Recuerde que nos dice que las cPU modernas tienen varias unidades
de ejecución que trabajan en
paralelo? Tarnbién dijirnos que hay diferentes tipos de unidades
de e¡ecudón, .o*o luALU, que es una
unidad de ejecución ge1é¡co, y FPU, que es uná unidad de ejecución de
rnatemáticas. AsÍ corno un
ejemplo genérico con el fin de entender el problema, varnos á decir que una
CpU dado tiene seis
motores de ejecución, cuatro "genéricas" y dos FPU. Digamos también que
el programa üene el
siguiente flujc de inst:.lccicces ell uc mcmento dado:
f . instrucciones genéricas
2. instrucciones genéricas
3. La instrucción genérica
4. instrucciones genéricas

f\--
5. instrucciones genéricas
6. instrucciones genéricas
7. instrucción de matemáticas
B. insrmcciones genéúcas
f.instrucciones genéricas
10. instrucción de matemáticas
¿Lo que sucederá? La unidad de programación / expedición enviará las primeras cuatro instucciones a
los cuatro ALU pero luego, en la quinta instrucción, la CPU tendrá que esperír a que uno de sus ALU
serlibre con el fin de continuarel proceso, ya que todos sus cuatro unidades de ejecución genéricos
están ocupados. Eso no es bueno, porque todavía tenemos dos unidades de matemáticas (FPU)
disponibles, y ellos están ociosos. Por lo tanto, una CPU con ejecución fuera de orden (todas las CPU
modernas tienen esta caracterÍstica) se verá en la siguiente instrucción para ver si se puede enviar a una
de las unidades inactivas. En nuestro ejempio, no puede, porque la sexta instrucción también necesita
una AIU para ser procesado. El motor fuera de orden continúa su búsqueda y se entera de que el
sépümo instrucción es una instmcción de matemáticas que se puede ejecutar en una de ias FPU
disponible- Desde la otra FPU seguirá estando disponible, se vaya por el programa en busca de otra
instrucción de matemáticas. En nuestro ejemplo, pasará las ocho y las instrucciones noveno y ei décimo
se carga la instrucción.
Por lo tanto, en nuestro ejemplo, las unidades de ejecución será de proceso, al mismo tiempo, la
primera, la segunda, la tercera, la cuarta, la séptima y la décima instrucciones-
El nombre fuera de orden viene del hecho de que la CPU no es necesario esperar; se puede tirar de una
instn¡cción de la parte inferior del programa y procesarla a[tes de que las instrucciones anteriores que
se procesan. Por supuesto, el motor fuera de orden uo puede ir siempre en busca de una instrucción si
no puede encontrar uno. El motor fuera de orden de todas las CPU tiene un [mite de prcfundidad en la
que se puede rasüear en busca de instrucciones (un valor típico seúa 512).

EJECUCION ESPECULAIIVA.
i
Supongamos que una de estas instrucciones genéricas es una bifurcación condicjonal. ¿Qué va a hacer
el motor para fuera de? Si la CPU irnplementa una función denominada ejecución especulativa (todas
las CPU modernas lo hacen), se ejecutará ambas r¿rmas. Considere el siguiente ejernplo:
f . instrucciones genéricas
2. instmcciones genéricas
3. si a = <b ir a la instrucción l-5
4. instrucciones genéricas
5. insnr¡cciones genéricas
6- instmcciones genéricas
7- instlr¡cción de matemáticas
B. instrucciones genéricas
f . instrucciones genéricas
10. instrucción de matemáücas

15. instrucción de matemáticas


1 6. instrucciones genéricas

ér*do el motor fuera de orden análisis de este programa, que se tire de instrucciones 15 en una de las
FPU, va que necesitará uno de matemáticas para llenar una de las FPU que de otro modo sería ocioso.
Así que en un momento dado podríamos tener dos ramas que se está procesando aI mismo tiempo. Si
cuando la CPU terrnina ile procesar la tercera instrucción a es rnayor que b, ta CPU sencilla descartar el
procesamiento de la instrucción 15. Usted puede pensar que esto es una pérdida de tiempo, pero en
realidad no lo es. No cuesta nada a la CPU para ejecutar esa instrucción particular, debido a que la FPU
seúa de om modo inactivo de todos modm. Por ot¡o lado, si a = <b la CPU tend¡á un aumento de
rendimiento, ya que cuando la instrucción 3 pide instmcción 15 será ya procesados, ir directamente a la
instrucción de 16 o induso más, si la instr¡¡cción 16 también ha sido ya procesado por el motor fuera de
orden-
Por supuesto, todo lo que se explica en este tutodal es una simpliñcación durante el fin de hacer de este
terna muy técnico más fácil de entender. (Lea el interior Pentium 4 Arquitectura con el fin de estudiar la
arquitectura de un procesador especíüco).

DENTRO DE LAARQUITECTURA DEL PEMTIUM 4.

introducción.

En este tutorial varnos a explicar cómo Pentium 4 obras en un fácil seguir el lenguaje- Usted aprenderá
exactamente cómo funciona su arquitectura por lo que será capaz de comparar de manera más precisa a
los procesadores anteriores de Intel y los competidores de AMD.
Pentium 4 y Celeron nueva arquitectura de procesadores utilizan séptima generación de Intel, también
llamado de Netburst. Su aspecto general se puede ver en ia figura 1. No se asuste- Vamos a explicar
profundamente 1o que este diagrama se trata.
ton el fin de continuar, sin ernbaryo, es necesario haber leído "Cómo funciona una CPU" -Ther
explicar los conceptos básicos acerca de cómo funciona una CPU. En el presente tutoúal asumimos que
yaha leído, así que si no Io hizo, por favor tome un rnornento para leer antes de continuar, de lo
contrario usted puede encoiltra-rse un poco perüdo.

Figura 1: Pentium 4 diagrama de bloques.

Aquí están las diferencias básicas entre el Pentium 4 arquitectura y la arquitectura de otras CPUs:
. Externamente, Pentium 4 transferencias cuatro datos por cido de reloj. Esta técnica se llarna QDR
(Quad Data Rate) y hace que el bus local para tener un rendiiniento cuatro veces su tasa de reloj real,
véase la tabla siguiente. En la figura 1 se muest¡a en este "System Interface 3-2 GB I s"; ya que esta
¡:-.- - -:.:--- -^ --^l--^- -! n;-^r f)o-ti¡rm zl &.o
:r n¡rocfa .ii lilrortrj
on Juci i3u, <o
r! mancinná pl hrrc dpl
LiiciljubiüVCi 5t ---.--¡-
PiUL¡ULC LUdliuU Cl Pl¡¡irct i qiia¡úiii iur P---LU ii:li¡Lilri:i
sistema "400 MHz".

-l
ReaI Clock Performance Tkansfer Rate

100 MHz 400MHz 3.2 GBls

133 MHz 533 MHz 4.2GBls

200 MHz 800 MHz 6.4 GB/s

266 MHz 1,066 MHz 8.5 GB/s

' El camino de datos entre la memoria caché de nivel 2 ( "caché L2 y control" en la Figura 1) y caché
de datos L1 ( "L1 D-caché y D-TLB" en la Figura 1) es de 25G bits de ancho. En los procesadlres
anteriores de Intel este camino de datos fue de sólo 64 bits- Así que esta comunicación puede
ser cuato
veces rnás rápido que los procesadores de generacions anteriores cua¡do se ejecuta
enel mismo reloj-
El camino de datos entre la memoÉa cacüé t2 ( "caché L2 y contrrol- en la Fijura 1) y la unidad de
solicitud previa ( "CEL & I-TLB' en la Figura 1), sin embargo, sigue sienfu de et bits de ancho-
' La caché de instmcciones L1 fue reubicda- En lugar & ser antes de qrre Ia midad & hisqueda, la
caché de instrucciones t,1 es ahora después de Ia unidadde decodiñcación, co¡ ¡n nuevo
nombre,
"Trace Cache"- Esta caché de rast¡eo puede contener hasta 12 K miooinst¡r¡cciones.
Dado que cada
rnicroinstrucción es 100 bits de ancho, la memoria caché de rastreo en de 1S0 KB (12
« x fóOfA¡. Uno
de los errores más comunes que se cometen al comenta¡ la arguitectura Pentium 4 está
diciendo que
Pentium 4 no tiene ninguna caché de instrucciones en absoluto. Eso no es absolutamente
cierto- Es allí,
pero con un nombre diferente y una ubicación diferente.
' En Pentium 4 hay 128 registros internos, en los procesadores de Intel 6u generación (copo el pentiu¡n
II y Pentium III) sólo había 40 registros internos. Estos registros están en la Unidad de renombrado de
registros (RAT alias, el regisno de alias de la tabla, se muestra como "Cambiar nombre
/ Alloc,, en la
Figura 1).
'Pentium 4 cuenta con cinco unidades de ejecución que trabajan en paralelo y dos unidades de cargay
almacenamiento de datos en la rnemoria RAM.

Por supuesto, esto e1-sólo- un resumen para los que ya tiene algún conocimiento sobre
la arguitectura de
otros procesadores- Si todo esto parezca griego para usted, no se preocupe. vamos
a explicar todo lo
que necesita saber acerca de la arquitectura Pentium 4 en un lenglaje
fácil de segúr l". pigioo
siguientes. "rr

Pentium 4 Pipeline
Pipeline es una lista de todas las etapas de una instmcción dada debe ir a 6avés con el
fin de dar cabal
ejecución- En los procesadores Intel 6" generación, como el Pentium III, su lÍnea tenía
11 etapas.
Pentium 4 tiene 20 etapas! A9í, en un procesador Pentium 4 una instrucción dada lleva
mucho más
tiempo para ser ejecutado p continuación, en un Pentiurn III, por ejemplo! Si usted toma los
nuevos
procesadores Pentium 4 de generación de g0 nm, con nombre en codigo "prescott",
el caso es aún peor,

6t
-^!*l
h
ya que utiliziluna tub€úa de 31 etapa! ¡Santo cielo!
Értó t" hizo con el fin de aurrenta.r la vetocidad de reloj &l procesdor- AI tener más etapas cada etapa
individual se puede construir usando rn menor númem de uansistores- Con tm menor núrnero de
tra¡lsistores es más fácil de conseguirvelocidafu de reloj más altc- De hecho, el Pentium 4 sólo es
más rápido que el Pentium IIt, ya que funciona aunavdocidad de rdoj más alta. Bajo la misrna
vetociáad dáreloj, una CPU Pentium III sería más nápi& $E un Pentium d 6ido al tamaño de la
tubería.
Debido a eso, lntel ya ha anunciado que sus procesadores de la generriónde Sgutilizarán la
arquitectura Pentium M, que se basa en la arquitectum de 6'generación de Intel (Pentium III
arquitectura) y no en la de Netburst (Pentium 4) arquitectura-
Eilu fig,rru'i se puede ver pentium 4 ducto 20 etapas. Hasta el momento no lo hizo Intel tubeúa 31
etapas divulgación de Prescott, por lo que no se puede hablar de ello.

Figura 2: Pentium 4 PiPeline.

He aquÍ una explicación básica de cada etapa,lo que explica cómo una instrucción dada es prEtsada
por lás p.o.urudor"s Pentium 4. Si usted piensa que esto es demasiado complejo pam ustd' no se
p..o.,.[.. Esto es sólo un resumen de lo que estaremos explicando en las páginas siguimtes-
. TC Nxt IP: Traza caché puntero siguiente instrucción- Esta etapa se ve en tampón objeto de
bifurcación (BTB) para la siguiente microinstrucción a ser ejecutado' Esta etapa tiene dos etqas.
. TC Fetch: Traza caché obtención de información. Cargas, desde la caché de rastreo, este
microinstrucción. Esta etapa tiene dos eiaPas-
. Drive: Envía la microinsirucción a ser procesados para el asignador de recursos y renombrado de
regisüos circuito.
. Á1o., Asignar. Los cheques que serán necesarios recurcos de la CPU por la microinstrucción - por

.-C"*biur nornbre: Si el programa utiliza uno de los ocho xB6 estándar registra será renombrado en uno
delos 128 registros internos presentes enlos procesadores Pentiu¡n 4-Esta etapa üene dos etapas-
. eue: Cola. Las microinstrucciones se ponen en colas en consecuencia a sus tipos (por ejemplo,
número entero o de coma flotante). Se llevan a cabo en la cola hasta que hay una ranura abierta del
mismo tipo en el planificador.
. Sch: Prograrnación- Microinstrucciones están programados para ser ejecutados de acuerdo a su tÍpo
(núrnero .ot.ro, punto flotante, etc). Antes de llegar a esta etapa, todas ias instrucciones están en orden,
es decir, en el mismo orden en que aparecen en e[ programa. En esta etaPa, el p]anificador reordena las
instrucciones con el fin de mantener todas las unidades de ejecución completa. Por ejemplo, si hay una
unidad de coma flotante que va a estar disponible, el programador busque una instrucción de punto
flotante para enviarlo a esta unidad, incluso si Ia siguiente instrucción en el prograrna es un número
entero uno. El planificador es el corazón del motor fuera de fin de procesadores Intel 7" generación.
Esta etapa tiene tres etapas.
. Disp: bespacho. Envía los microinstrucciones a sus motores de ejecución correspondientes. Esta
etapa üene dos etaPas.
. dF: banco de reglstros. Los registros internos, almacenados en Ia piscina instn¡cciones, se leen- Esta
etapa tiene dos etapas.
. Ejemplo: Ejecutar. Microinstrucciones se ejecutan-
. FLGS: Flags. Las banderas de microprocesadores se actualizan.
. Br Ck: Rama de verificación- Cornprueba si la rarna tornada por el programa es el mismo predicho
por el circuito de predicción de saltos.

4
' Drive: Envía los resultados de esta comprobación en el búfer de destino del salto
entrada del procesador. (BTB) presente en la

MEMORIA CACHE Y UMDAD DE RECUPERACION.


Pentium 4 de la rnemoria caché L2 puede ser
de 256 KB, 512 KB, 1 MB o 2 MB, dependiendo
modelo- caché de datos Ll es de B KB o 16 KB (sobre del
90 modelos nm).
como explicamos antes, Ia caché de instrucciones L1 se
había ido delante de la unidad de obtención
para después de la unidad de decodificación
utilizando un nuevo nombre, ,,caché traza,,. Así, en 1ugar
de almacenar instrucciones de programa para_ser
cargado por ra unidad ¿L urirqrJu,
microinstrucciones caché almacená taza ya decodifilados r*
porla unidad ae ¿eád¡r¡cación. El caché de
rastreo puede almacenar hasta 12K rnicroinsürrcciones
y aesde pentium 4 microinstrucciones son de
100 bits de ancho, el caché de seguimiento es de
150 rc"e lrz.zos x 100/8).
La idea detrás de esta arqÚtecturá es muy interesante. En
el caso de un bucle en el programa (un bucle
es una parte de un programa que necesita ser
repetido varias veces), r;
instrucciones a ser eiecutadas, ya que se almacenan ya
d.r."üii.* y" t*
decodificados en la rnernoria caché de ¡asüeo.
En otros procesadores, las instn¡.áon", que necesitan
ser cargados desde la memoria caché de
instrucciones L1 y decodificada de nuevo, incluso si
fue¡o¡ dácodificados ,nos momentos antes.
El caché de seguimiento tiene también su propia BTB (Branch
Target Buffer) de s12 enrradas. BTB es
una pequeña mernoria que enumera todas las iu-u, ide'mificadas -
a p.ogÉ-u--
En cuanto a la unidad de brÍsqueda, su BTB se armrentó "o
generación, como eI Pentium IIr, este tampón
a 4.0g6 entra¿i- il to, procesadores tntel 6"
fue de 512 mtadas y en los
generación, al igual que eI primer p.o."rrdo. Pentium,
p;;='¿r* [ntel de 5.
este tampón era de sólo 256 entradas.
En la figura 3 se ve el diagrama-ae Uoqus paralo que
estframos discutiendo- TLB medios de
traducción de direcciones de búfer-

Figura 3: Fetch y decodificar las unidades y la mernoria


caché de ras*ear.

Descif rador (decoder).

Dado que la generación anleriT (6'generación), procesadores


de Intel uülizan una arquitectura GISC
híbrido / RISC' El procesador debe J."pt* instrucciones
GISC, también conocidos como instrucciones
xB6, ya que todo el softwa¡e disponible en Ia actuaridad
está escrito utiriz¿¡(6 este tipo de
ixstmcciones' un RISC cPU de sóIo no se ha podido
software que tenemos disponibles en la actuaridad,
o*p*, el pc, ya que no se presentarÍa el
como \tándows y ofñce.
Por lo tanto' la solución utilizada por todos los procesadores
disporriul", en el mercado hoy en día tanto
de Intel y AMD es ei uso ¿e un ¿ecoaiii.uao. ilsc
¡ RISC. Inrernamenre, la cpu procesa las
instrucciones RISC-como, pero su front-end acepta
instrucciones xB6 GISC.
instrucciones xB6 GISC son referidos como "instrucciones"
que las instrucciones rI
denominan "microinstrucciones" o "pops,,. 'rJLrqLLru'E§ internas RISC se
Estos microinstrucciones RISC, sin emlargo,
no se puede acceder ürectamente, por lo que no podrían
crear software basado en estas instrucciones para
eludir el decodificador. Además, cada cpu utiliza sus
propias instrucciones RISC, que no son públiio
documentado y son incompatibles con
rnicroinstrucciones de otras cPUs. Es declr,
microinstrucciones pentium III son diferentes de pentium
4 microinstruccicnes, que son diferentes de Atl¡lon
64 microinstrucciones.
Dependiendo de la complejidad de la instrucción
xBG, qu. ti".r.*qi-,-u-rll."r"*"ido en varias
microinstrucciones RIS C..

68
I

Pentium 4 decodificador puede decodificar una instrucción xB6 por ciclo de reloj, el tiempo que la
instmcción decodifica en hasta cuatro rniaoinstrucciones. Si la instruccióu xB6 ser decodificado es
compleja y se traduce en más de cuatro rnicroinstmcciones, que se enca-mina a una memoria ROM
( "ROM de microcódigo" en la Figura 3) que tiene una lista de tdas las instmcciones cornplejas y
cómo deben ser traducido. Esta memoria ROM también se llama MIS (Instnrcción microcódigo
secuenciador).
Como üjimos anteriormente, después de haber sido microinstn¡cciones &codificados son enviados a la
memoria caché de rastreo, y de allí van a una cola de microinsor¡cciones- El caché de mstreo puede
poner hasta tres microinstrucciones en la cola por cido de retoj, sin embargo, Intel no le dice a la
profundidad (tamaño) de esta cola.
Apartir de üí, las instrucciones que van aI asignador y el Registro Renamer- La cola tarrbién puede
entregar hasta tres microinstrucciones por cido de reloj para el asignador.

Asignador y el Registro Renamer (Allocator and Register Renamer)

Lo que hace el asignador:


. Reservas de uno de los 126 tampones de reabastecimiento (ROB) a la microinstucción en cur§o, con
el fin de hacer un seguimiento del estado de finalización de microinstrucciones. Esto permite gue la
microinstrucción a ser ejecutado fuera de orden, ya que la CPU será capaz de poner en orden de nuevo
medÍante el uso de esta tabla.
. Las reseryas en una de las 128 archivos de registro (RF) con el fin de almacenar los datos no resulten
de Ia transformación de microinstrucciones.
. Si la microinstrucción es una carga o una tienda, es decir, se lee (carga) o escribir (almacenar) datos
desde / a ia RAM de rnemoria, se reserva una de las mernorias intermedias de carga 48 o una de las 24
tiendas buffers en consecuencia.
. Se reserva una entrada en la memoria o cola general, dependiendo de el üpo de rnicroinstrucción es-
Después de que la microinstrucción va a la etapa de registro de c4mbio de nombre. arquitectura xB6
GISC tiene sóio ocho registros de 32 bits (EAx, EBX, ECX, EDX, EBP, ESI, EDI y ESP). Este número
es demasiado bajo, sobre todo porque los CPU modernos pueden ejecutar código fuera de orden, Io que
sería "matar" el contenido de un registro dado, chocando el programa-
Por 1o tanto, en esta etapa, el procesador cambia el nornbre y el contenido de los registros utilizados por
eI programa en uno de Ios registros intemos 128 disponibles, lo que permite la instrucción para ejecutar
al misrno tiempo de otra instrucción que utiliza exactamente eI mismo estándar de registro, o incluso
fuera de orden, es decir, esto permite que la segunda instucción a ejecutar antes de la primera
instrucción, induso si se meten con el mismo registro-
Es interesante observar que en realidad tiene Pentium 4256 registros internos, 128 registros
encontrados para instrucciones de enteros y 128 registros de punto flotante y Ias instrucciones SSE.
Pentium 4 Renarner es capaz de procesar tres microinstrucciones por cido de reloj.
Desde el renombrador las rnicroinstrucciones ir a una cola, de acuerdo a su tipo: cola de memoria, por
microinstrucciones relacionados con Ia memoria, o entero / coma flotante de cola, para todos los dernás
üpos de instrucciones.
Figura 4: Allocator y Registro Renamer.

Las unidades de expedición y de ejecución. (Dispatch and Execuüon Units)

Como hemos üsto, el Pentium 4 tiene cuatro puertos de despacho numeradas del 0 al 3. Cada puerto
está conectado a uno, dos o tres unidades de ejecución, como se puede ver en la figura 6.
Figura 6: Despacho y ejecución de unidades'
dos instrucciones por ciclo de reloj micro' Los
Las unidades marcadas como "x2 relo¡" puád"n "¡u*t*
pueúos 0 y 1- pueden enviar dos instrucciones poi ciclo de reloj
micro a estas unidades' Por lo que el
por cido de reloj es de seis:
número máximo de microinstrucciones q,ru pr"du ser enviado
. Dos microinstrucciones en el puerto 0;
. Dos microinstrucciones en el puerto 1;
. Una microinstrucción en el puerto 2;
. Una microinstrucción en el puerto 3'
tardar varios ciclos de retoj para ser procesada-
Tenga en cuenta que las instrucciones complejas puedln
Ia unidad de coma flotante completa' Mientras
Tomemos un e¡emplo á. pu.no 1, donde t" uo.,r"otta
que requiere varios ciclos de reloj para
que esta unidad está procesando ,nainstrucción muy comp§o
detendrá: mantendrá eI envío de instrucciones
ser ejecutado, el puerto 1 unidad de despacho no se
que el FPU está ocupado'
sencillas para la ALU (unidad aritmétici y lógica), mientras
en realidad, la CPU puede tener
Así, pese a que la trru á" envío máxima es de seis microinstrucciones,
tiempo'
hastá siete microinstrucciones que se proces¿rn al mismo
una unidad de ejecución adjunta' Si se
En realidad, es por eso que los puertos 0 y 1 tienen má1 d5
rápida junto con al menos un complejo (y
presta atención, Intel puso en el mismo_ píerto una unidad
ocupadaprocesando datos' la ofa unidad
lenta) unidad- Así, mientras que la unidad compleio está
puerto de despacho correspondiente' Como
puede seguir recibiendo rnicroinstlr¡cciones a"iae su
de ejecución ocupadas todo el tiempo'
mencionamos antes, la idea es mantener todm las uniáades
por cido de reloi' Las otras
La Alu dos dobles velocidad puede procesar dos microinstrucciones
procesa¡ las rnicroinstrucciones que reciben' Por
r¡nidades necesitan po, to *urá, ,o ádo de reloj para
sirnples'
Io tanto, la arquitectura Pentium 4 está optimizado para las instrucciones
2 y 3 están dedicados a las operaciones de
como se puede ver en la Figura 6, los puertos de despacho
datos en la mernoria)'
memoria: carga (leer datos áe Ia memoria) y almacenar{escribir
h memori* interesante observar que el puerto 0
respectivamente. Encuani" ;1" operaciói áe es
la Figura 5 y la lista-de operaciones en Ia
también se utiliza durante las operacioo", d" almacén (véase
para enviar la dirección de memoria'
d;" 6). En esre dto¿e opu.áoo.r, el puerto 3 se ut¡llz.a
almacenados en esta dirección' Estos datos
rnientras que el puerto 0 se utiliza para enviar los datos a ser
dei tipo de datos a almacenar (entero o de
se puede generar ya sea por Ia ALU o la rpu, dependiendo
coma flotante / SSE)-
de cada unidad de ejecución
En Ia Figura 6 que tíene una lista completa de los tipos de instrucciones
dirección áfectiva) son dos instrucciones xB6' En realidad
la
rmra. FXCH y LEA (Carga *para
una gran
implementudón d. Intel la instrucción fkCg en los procesadores Pentium 4 causó
de Ia generación anterior (Pentium III) y
sorpresa pam todos los expeños, ya que en los procesadores que en
AMDesta instrucción pr"d" ser ejecutada aI ciclo de reloj a cero, mientas
lo, pro."s.dores de
ejecutados'
los procesadores.Pentium 4 que lleva algún ciclos de reloj para ser

Chipsets

Introduction
son sus funciones? ¿cuái es su importancia?
Después de todo, lo que es un coniunto de chips? ¿cuáles
del uquipáf En este tutorial vamos a responder a tdas estas
¿Cuiil es su influencii en el rendimiento
preguntas Y más. ,
\ que
_-_^ ^^ -.-:r:-^ en una placa base'
se utiliza
chipset es el nombre dado al conjunto de chips (de ahí su lombre)
discretos' Así que *-o1t:" de-fichas se
En los primeros PC, la placa base utitizu cir.ritos integrados Y
necesita para crear todos los circuitos necesarios p-u
hr.", funcionar el equipo' En la figura 1 se puede
ver una placa base de un PC XT'

F
I

lfr-,r-¡ a1;o* --.rrt

Después de algún riempo, los rabricant3:lf;'


.á:JJlli"XTi;nsrar varias fichas en los chips má
grandes'Así, en lugar de requerir decenas
de pequeñor Ñpr, ur" placa base podrÍa ahora
construido usando soramente una meclia docena ser
áe fichas jrrnde..
La integración continuó y alrededor de las placas
base meáados de los años 1gg0 utilizando sólo
incluso un chip grande podría ser construial. gn dos o
h rig,r.a z ," pu"a" ver una placa base 486 alrededor
con solo dos fichas grandes con todas lai funclones
necesarias pira hacer el trabajo de la
ffi#"f:S

Figura 2: A 4BG placa base, este modelo sólo


utiliza dos chips grandes.
Con el lanzamiento del bus pCI, un nuevo concepto,
que todavía se utiliza hoy en día, podría
utilizado por primera vez: el uso de puentes. Porio general, ser
las placas base tie¡en do, g.und., fichas:
puente norte y puente sur A veces, algunos
fabricantes de chips. pueden integrar los puentes
en un solo chip; en este caso la placa base norte y sur
tendrá sólo un gran circuito integrado!
con el uso de Puentes conjuntoi de chips porlúa ser
me;oinoÁrürudo, y ír.o, a expücar eI papeJ de
estoschips en las páginas,siguientes.
Conjuntos de chips pueden ser fabricados por varias compañías, como ULi (nuevo nombre de la LPA),
Intel, ViA, SiS, ATI y nVidia. En el pasado otros jugadores estaban en el mercado, como la UMC y
OPTi.
Una confusión común es mezdar eI fabricante de chips con el fabricante de la placa. Por ejemplo, sólo
por una placa base ¡ ;liza un chipset fabricado por Intel, esto no significa que Intel fabricado esta placa.
ASUS, ECS, Gigabyte, MSI, DFI, Chaintech, PCChips, raslado y también de Intel son sólo algunos de
los muchos fabricantes de placas presentes en el mercado. Por lo tanto, el fabricante de la placa compra
Ios conjuntos de chips del fabricante de chips y las construye. En realidad no es un aspecto muy
interesante de esta relación. Para constnrir una placa base, el fabricante puede seguir el proyecto de
norma fabricante del chipset, también conocido como "diseño de referencia", o puede crear su propio
proyecto, modificando algunas cosas aquí y allá con el fin de proporcionar un mejor rendimiento o más
características.

North Bridge
El chip puente norte, también [amada MCH (concenaador controlador de memoria) es conectar
directarnente a la CPU y tiene básicamente las siguientes funciones:
. Controlador de memoria (*)
'AGP controlador de bus (si está disponible)
. conrolador x16 PCI Express (si está disponible)
. lnterfaz para la transferencia de datos con eI puente sur
(*) Excepto para el socket 754, socket 939 y el zócalo 940 CPU (CPU de AMD Athlon como 64),
poique en estas CPU &l controlador & remoria se errcuetrtra en la propia CPU, no en el puente norte.
Algunos chips de conexión norte también controla caniles PCI Erpress x1. En otros conjuntos de chips
PCI Express es el puente suL que controla lc caniles PCI Express x1. En nuesüas explicaciones
asumiremos que d puente sur es el componente encargado de controlar los carriles PCI Express x1,
pero ten en cl¡erta qu€ esto pue& variar en conseürencia al modelochipset.
En la figura 3 se puede ver un diagrama que explica el papel del puente del norte en eI ordenador.

I r:{:d f:J:,;f.'i[i:

Figura 3: Puente Norte.


Como se puede ver, la CPLI no accede directamente a la memoria RAM o la tarjeta de vídeo, es el
puente norte que tiene acceso a estos dispositivos. Debido a esto, el chip puente norte tiene un papel
fundamental en el rendimiento del equipo. Si un chip puente norte tiene un controlador de rnemoria
mejor que otro puente norte, el rendimiento de todo el equipo será mejor- Esa es una explicación de por
qué se pueden tener dos'placas base dirigidas a la rnisma clase de procesadores han alcanzado
diferentes actuaciones

70
Como hemos mencionado, en las CPU Athlon 64 el contolador de memoria está integrada
en la CpU y
por€so cai no hay diferencia de rendimiento enre las placas base pam esta plataforma.
Dado que el controlador de memoria se encuenüa en efuuente norte, este chi-p es gue limita
los tipos y
la canüdad máxima de rnemoria que puede terer en Duesüo sistema (eI Athlon 64 es el
CpU que
es*{ece estos límites).
La cmexión entre el puente norte y al sur del puente se realiza a Eavés & un bus. AI principio se
qrró el bus PCI, pero más tarde fue sustituido porun bus dedficado. vamos a explicar más sobre esto
más adelante, Ya que el tipo de bus que se utiliza en esta conexión puede afectar aI rendimiento
del
egipo-

Souú Bridge
El chip puente sur, también llamado ICH ( puerto controlador de E/S ) se conecta al puente norte y se
encarya básicamente de controlar los dispositivos de E / S y los dispositivos de a bordo, como:
' Los puertos de la unidad de disco duro (puertos ArA serie y paralelo)
. puertos USB
. EI audio de a bordo (*)
. Red local (**)
. bus PCI
. carriles PCI Express (si está disponible)
. reloj de üempo real (RTC)
. La memoria CMOS
' Los dispositivos heredados como controlador de intemrpciones y controlador de DMA
(*) Si el puente sur tiene un built-in controlador de audio, necesitará un chip externo llamado códec
(abreviatura de codificador / decodificador) para operar.
(**)Si el puente sur tiene un controlador de red incorporada, necesitará un chip externo llamado pHy
(abreviatura de física) para operar- ..
El puente sur también está conectado a otros dos chips disponibles en la placa base: el chip RoM, rnás
conocido como BIOS, y el chip de E / S de Super I, que es eI encargado áe controlar los dispositivos
heredados como los puertos serie, puerto pararero y unidad de disquete .
En la Figura 4 se puede ver un diagrama que explica el papel del puente sur en el ordenador.

Tq '{¡ft fr Jrrr
*,;=|*
*.i-r-!-' F-¡-: d.Ju- t¡-:

[-i1r,+._na.iiriffiir [q$ii{#i
l+-r:;i;ri ,'!--J
|;.:,.!qr,

IJ
;''
-, i
ffi"effi
-5Lr,' i+r,,'
I f--------t'
l;n'.:¡¡l
l:I f:i l:i
@ ffiW*+[Éis*
ti¡ts.r!' Bl¡:,J. 9utsH Jit

Figura 4: Puente Sur.


Como se puede ver, mientras que al sur del puente puede tener alguna influencia en el rendimiento
del
disco duro, este cornponente no es tan crÍüco para el rendimiento como el puente norte. En realidad, el
Puente sur üene más que ver con las caracterísücas de la placa base tend¡á que con el rendi¡niento. Es

i
puertos USB y e[ núrnero y tipo (ATAATA o
el puente sur, que establece el número (y velocidad) de los
Ia placa base' por ejemplo'
Seri¿ regular) de los fuertos de unldad"de disco duro que contiene

Inter-Bridge Architecture
entre"el puente norte y el
cuando el concepto de puente comenzó a ser utilizado, Ia comunicación
en la Figura 5' El problema de este
puente sur se llevó a.uüo u través de este bus, como se muestra
enfoque es que el ancho de banda disponible iara "l bus PCI
- 132 MB / s - será compartido entre todos
al puente sur - especialmente unidades
Ios üspositivos pcl en eI sistema y lás dirpoiiti.rosconectados
de disco duro. En ese momento, esto ,ro un problem* ya que los discos du¡os tasas de transferencia
"ri
máximas fueron de B MB / s Y 16 MB / s'

ffi
:Heifi Bidge

ffi -=;$.-i).tr.^

+:F4,iEbÉr'
{-r_

ffiÉoutli EiidgE:

el bus PCI"
Figura 5: La comunicación entre el norte y el sur puentes utilizando
de gama alta (en ese momento' Ias
Sin embargo, cuando se pusieron en ma¡cha las tarjetas de vídeo
rendimiento, surgió una situación de
tarjetas de vÍdeo eran eil¡ y ias unidades de disco duro de alto
modernas, que tienen la misrna
cuello de botella. Aasta pénsar en / 133 unidades de disco duro ATA
tasa de Eansferencia máxima teórica como el bus PCII Por
lo tanto, en teoría, un disco duro ATA/ 133
comunicación de todos los
sería,'mata¡,' y todo ei ancho de banda, lo que frena la velocidad de
dispositivos conectados al bus PCI.
de un nuevo bus conectado
Pala las tarjetas de üdeo de gama alta, la solución fue la creación
Graphics Port)'
directamente al ptrente del nárte, llamado AGP (Accelerated
a utilizar un Duevo enfoque:
La solución final se proár¡o .r*ao los fabricantes de chipset empezaron
puentes y conectar los dispositivos de
e[ uso de un bus de alta velocidad dedicada enfte el oort. y el sur
bus PCI al puente sur-
r

fgrkt.4r 2¡ i

Figura 6: La comunicación entre el norte y el


surpuentes uüizando un bus dedicado.
Cuando Intel comenzó.a uülizar esta arqúte.tu.u
,á .o*"*,ó a [amar a los puentes como ,,centros,,,
puente norte se conr¡irtió- en McH (concentrador el
controlador de memorir) y sur se conürtió
en Ia ICH (hub controlador I i o)- És sólo "i;;re
una cuesüón de nomenclanra con eI fin de acla¡a¡
la
arquitectura que se está utiiizando.
El uso de esta nueva arqtri¡gqtu¡., que es la arquitectura
que las placas base utilizan hoy en día, cuando
la cPU lee datos de un disco duro, los datos se
rransfieren desde el disco duro aI puente sur, luego
puente norte (utilizando el bus dedicado) y al
iuego a la cpu (o directamente a la memoria,
Mastering - a]<a DMA - se utiliza el métááo). clmo si el Bus
t" pu"i" ver, el bus pcl no se utiliza en absoluro
lo que no sucedió en la arquitecrura anierior, ya que
el bus pct estaba en el medio de
,"J.""H,:::lado,
La velocidad de este- bus dedicado depende,del
modelo de chipset. for ejernplo, el conjunto
Intel 925X este autobús üene una velocidad rnáxima de chips
a" ,.*rJl..ncia de 2 GB ts. Además, Ios
fabricarites llaman a este autobús con diferentes
nombres:
" Intel: DMI (Direct Media Interface) o arquitectura Intel
. ULi /AIi: HyperTransport Hub (*)
. VIA: V-Link
'SiS: MuTIOL 1**;
.ATI: A-Link o pCI Express
' nVidia: HyperTransport (**)
interfaz (*) DMI es más rlciente que se
en los chipsets i915 y ig2s en y utiliza
datos separadas' una para la transmisión iü:, dos rutas de
de datos y *"ffii, r".upción (coáunicación full-duplex)-
Arquitectura Intel Hub, utilizado por los clips
antáriorr', ,-a¡liru la mirma'rut, á" ¿u,o, para
transmisión y recepción la
lcornuniációo ¡¿¡_auptex).
(**) A-lgunos Nvidia y sis chipseb urilizan sólá
un'chip, es deci4 es deci4 las funcionalidades
dos puentes norte y surestán integrados de los
en un solo chip.
Asimismo' el Radeon Xpress 200 deATr, la
comunicalón entre el norte y el sur puentes
vías PCI Express' Esto no afecta el rendimiento utiliza dos
del sistem", párqu. al contra¡io áe pcl, pcr
no se comparte entre todos los dispositivos PCI Express
Express. Esuna solución de punto a punto,
significa que el bus sólo conectar áos dispositivos, lo que
el ."."p,o. y er transmisoE ningún otro
se puede conectar a esta conexión. uno dispositivo
¿L tos ca¡riles r" Jril para ia transmisióf
para la recepción de datos (comunicación de datos y el orro
full_duptex).
bus HyperTransport también utiliza las rutas_
de d'atos-separadas, u1a para la transmisión
para la recepción (comunlcación full_duplex) de datos y otro
..

t,
\
F /
Si desea conocer ios detalles de un conjunto de chips dado, sólo tiene que ir ala página rveb del
flabricante del chipset ..
Como ultimo comentario, usted puede preguntarse lo que es "disposiüvos PCI de a bordo" que
aParecen en las figuras 5 y 6. Los üspositivos de a bordo tales como LAN y audio puede ser controlado
por el chipset (puente sur) o por un chip controlador adicional- Cuando se utiliza este segundo enfoque,
este chip controlador está conectado al bus PCI-

Placas madre de PC:

Si alguna vez has tomado el caso fuera de una computadora, usted ha visto la una sola pieza de equipo
que une todo - la placa base- Una placa base permite que todas las partes de su computadora para
recibir el poder, se comunican entre sí.
Placas base han recorrido un largo camino en los úItimos veinte años. Las primeras placas llevan a cabo
rnuy pocos cornponentes reales. La primera placa base del PC IBM tenía sólo un procesador y ranuras
para tarjetas. Usuarios conectados componentes como controladores de r¡nidad de disco y de mernoria
en las ranuras. Hoy en día, las placas base típicamente cuentan con una amplia variedad de funciones
integradas, y que afectan directamente a las capacidades y el potencial de una computadora para
actualizaciones.

En este artículo, vamos a ver los componentes generales de una placa base. A con'inuación, vamos a
examinar de cerca de cinco puntos que afectan dramáücamente Io que un ordenador puede hacer.

Factor de forma

Una placa base por sí mismo no sirve para nada, pero un eqúpo tiene que tener uno para operar" El
kabajo principal de la placa base es mantener chip microprocesador. del ordenador y dejar todo Io
demás conectarse a ella. Todo lo que permite que la computadora o mejora su rendimiento es ya sea
parte de la placa base o se conecta a ella a través de una ranura o puerto.

North Bridg+ Pr'oceEsor Sscket

w
r
r

Una placa base moderna..


La forma y el diseño de una placa base se llama el factor de forma. El factor de forma afecta al lugar
donde van los componentes individuales y la forrna de la carcasa del ordenador. Hay varios factores de
forma específica que la rnayona de las placas base de PC utiliza¡ para que puedan caber todo en los
casos norunales. Para una comparación de factores de forma, pasadas y presentes, echa un vistazo a
Motherboards.ory.
El factor de forma es sólo uno de los muchos estárdares que se aplican a las placas base. Algunas de las
otras normas son:
El zócalo para el microprocesador determina qué tipo de unidad central de procesamiento (CPU)
utiliza la placa base.
El chipset es parte del sistema de la lógica de la placa base y por lo general se cornpone de dos partes -
el puente norte y puente sur del. Estos dos "puentes" conectan la CPU para otras partes de la
cornputadora-
El (BIOS) de chips del sisterna básico de entrada / salida controla }as funciones más básicas de la
computadora y lleva a cabo una auto-prueba cada vez que lo encienda. Algunos sisternas disponen de
doble BIOS, que proporciona una copia de seguridad en caso de que una falle o en caso de error
durante la actualización-
El chip de reloj de üempo real es un chip funciona con batería que mantiene la configuración básica y
la hora del sistema.
Las ranuras y los puertos que se encuentran en una placa madre induyen:
Interconexión de componentes periféricos (PCI) - Conexiones para tarjetas de video, de sonido y de
capt¿ra de vídeo, así como tarjetas de ¡ed
Puertc de gráficos acelerado (AGP) - puerto dedicado para tarjetas de vídeo.
Integrated Drive Electronics (IDE) - interfaces para las unidades de disco duro
Universai Serial Bus o FireWire - periféricos externos

Algunas placas base también incorporan nuevos avances tecnológicos:


Matriz redundante de Discos Independientes (RAID) controladores permiten que el ordenador
reconozca varias unidades como una u¡idad
PCI Express es un nuevo protocolo que actua más como una red que un autobús. Se puede eliminar la
necesidad de otros puertos, incluyendo el puerto AGP-
En lugar de confiar en las tarjetas enchufables, algunas placas base tienen sonido integrado, redes,
video u otro soporte periférico.
Sscket 754 ZIF

Una placa base Socket 754

Mucha gente piensa en la CPU como una de las partes más importantes de Bna computadora- Vamos a
ver cómo afecta al resto del equipo en la siguiente sección.

Los enchufes y los CPUs r

La CPU es Ia primera cosa que viene a la mente cuando muchas personas piensan acerca de la
velocidad y eI rendimiento de un ordenador. Cuanto rnás rápido sea el procesador, más rápido que la
computadora puede pensar. En los primeros días de las computadoras PC, todos los procesadores tenían
el mismo conjunto de pasadores que conectaría la CPU a la placa base, Ilamado el Pin GridArray
(PGA). Estos pines encajan en un diseño llamado zócalo Socket 7. Esto significaba que cualquier
procesador encajaría en cualquier placa base.
Socket 939 ZÉF

Una placa base Socket 93g

Ho¡ sin embargo, los fabricantes de CPU Intel y AMD uülizan una variedad de pGA,
ninguno de-los
cuales encajan en Socket 7. A medida que avance rnicroprocesadores, que necesitan
más y más pines,
tanto para manejar nuevas funciones y para ofrecer más y más energía al chip.
dispositivos de enchufe hemb¡a ach¡ales a rnenudo se denominrn u-ri por el nú.n"ro
de pines en el pGA.
enchufes utilizados son: t -
Socket 478 - para procesadores pentium y Celeron de más edad
socket 754 - paraAMD sempron y algunos procesadores AMD Athlon
socket 939 - para procesadores más rnodernos y veloces AMDAthlon l

Socket AM2 - para los nuevos procesadores AMD Athlon


Socket A - para procesadores más viejos de AMD Athlon
Secket LCA755

Una placa base Socket LGA755

también conocido como Socket T' LGA


EI último CPU Intel no tiene un PGA' Tiene unaAGL, parte
de un PGA en que los pasadores son en realidad
significa Land Gúd Á*uy, Un LGA es diferente
dá la toma de corriente' y no Ia cPU' madre basada
eD mente cletie seleccionar una tarjeta
Cualquier persona que ya üene una CPU específica núcleos fabricados por
ios nuevos chips de varios
en esa CpU- por eiempio, si desea utiiizaru'no de chips' CPU
cou el zócalo correcto para esos
Intel o AMD, tendrá que seleccionar una placa base
simplementu .ro en los zócalos que no coinciden con su PGA'
".t.u¡ucon otros elementos de Ia placa base a través de un conjunto de chips' Varnos a
La CpU se comunica
,r"r conjunto de chips con más detalle a continuación'
"l
Chipsets
.,pegamento" que conecta ei microprocesador con eI resto de Ia placa base y' por tantG'
El chipset es el sur del'
de áos partes básicas - el puente norte y puente
para el resto -*,,
del eqtúpo. En un PC-, gue
cámunicarse con la CPU a través del chipset'
Todos los diverso, .-á*pon"otes de ia computadora
Ssuth Bridge North Bridge

El northbridge y southbridge

EI puente noÚe conecta directamente al procesador a través


del bus frontal (FSB). un controlador de
memoria se encuentra en el puente norte, que da a la
cPU rápido acceso a li memo¿a. El puente norte
también se conecta al bus AGp o pcl Express bus y
la memoria en sí.
El puente su¡ es más lento que el puente nr.t", y lainformación
de lg cpu üene que pasarpor el puente
norte antes de llegar al puente sur. otros buses conectan
el puente sur con el bus Écl, to, puertos usB
y el IDE o conexiones de disco duro SATA.
la selección y la selección chipset cPU van de la mano, ya
que los fabricantes opúmizar conjuntos de
chips para trabajar con diferentes cPUs- EI chipset
uru pá*" inr"g.ada de la placa base, por lo que
no se puede quitar o actualiza¡- Esto signiñca que no"r
sólo áebe zócalo de la placa base adaptarse a la
cPU, eI chipset de la praca base debe furr.ioo* de forrna óptima
con la cpu.
A conünuación, vamos a veren los autobuses, los cuales, i
igua que el conjunto de chips, llevan ia
información de un lugar a oüo.

Velocidad del bus

un bus.es simplemente un circuito que conecta una parte


de la placa base a otra. cuantos más datos de
un autobús puede rnanejar a la vez, má nípido_ r" p.^.-i,"
qu.iu inforrnación viaje. La velocidad del
bus, medida en megahertz (lr{Hz), se refiere a la
cinüdad dL datos se puede mover a través del bus de
forma simultánea-
A€P E$s FrEnEIct+ E¡¡s

Pet Et¡s

ATAEUS

e 2O§5f*jiirstrÉiw¿rE

Los autobuses conectan las diferentes partes de laplacabase

velocidad del bus por lo general se refiere a la velocidad del bus frontal (FSB),
que conecta Ia Cpu con
el puente norte. velocidades de FSB pueden variar desde 66 MHz a rnás de gOO
üFIr. ó"d-;;'r;i"b;
alcanza el controlador de memoria aunque el puente norte, velocidad
de FSB puede afectar
d¡ásticamente el renümiento de una computadora-
Éstos son algunos de los otros buses que se encuentran en una placa base:
El bus trasero conecta la
CPU con Ia memoria caché de nivel 2(Lz),también conocido corno caché
secundario o externo. El
procesador determina la velocidad del bus Easero. El bus de
memoria conecta el puente norte a la
rnemoria' El IDE o bus ATA conecta el puente sur a las unidades de üsco.
El bus AGp se conecta la
tarieta de vídeo a la memoria y la CPU. La velocidad del bus AGp es generalmente
de 66 MHz. EI bus
rsrlYraq PCI para el puente sur. En la mayoría de los sisremas, la velocidad
ISI :-t-"tga del bus pcl es
33 MHz' Thmbién es cornpatible con PCI PCI B<press, que es mucho
más rápido que el pcl pero sigue
siendo compatible con software y sistemas operativos acnrales. pcl
Expres.ls p.Áaule que cambiar
Ios dos buses PCI yAGp.
La velocidad del bus de un equipo más rápido, más rápido se operará - a un punio.
Una velocidad de
bus rápido no puede compensar por *n prócesador lento o conjunto de
chips.

EI puente del norte

El chip puente notte, también llamada MCH (concentrador controlador de rnernoria), es conectar
directarnente a Ia cPU y tiene básicamente las siguientes funciones:
. Controlador de memorii está disponible)
1si
. conrolador PCI Express (si está disponible)
i
i
i
I
I

t
I
. AGP controlador de
bus (si está disponible)
. Interfaz para la transferencia
de datos .oo ál chip puente sur
cPU Intel achlales tienen un controlador de_ *.rnoáu integrado
y un controlador integrado pcl
Express, lo que significa que estos procesadores
tienen ñ*t inregrado puente del norte; por lo tanto,
no requieren este chip en la placa base- ver Figura 3.
cPUs ¿áa¡,rr» flene un controlador de memoria
integrado, pero no tienen un controlador integiado
PCI Express. Debido a que, cpus de AMD todavía
reqüeren un chip de puente norte externo con este componente.
AMD dice'que sus procesadores tienen
un "puente norte integrado," pero Io que la empresa..alment"
quiere decir es que Ias cpu tienen un
conüolador de memoria integrado- Eito crea mucha confusión.
varios usuarios no enüenden por qué
las placas base para procesadores AMD tienen un chip puente
norte si el fabricante de la Cpu dice que
la CPU tiene un chip integrado puente norte.

Processor {CPUi

PCI Express
Video Card x16 ivlemory Bus RAM rnemory

South Bridge

Figura 3: configuración del conjunto de chips Intel


con las cpu a*ua]es
Prccessor (CPU)
ft4emory Bus RAM memory

HyperTransport bus

triorth Brldge

AGP or
PGI Express
Video Card
x16

To South Bridge

Figura 4: Configuración del Chipset AMD con las CPU actuales


Con CPUs de más edad que no tienen un controlador de memoria integrado, el sistema seguirá el
diagrama presentado en ia figura 5. Con CPUs de más edad, ya que el controlador de memoria se
encuentra en el interior del chlp puente norte externo, este chip tiene un papel importante en el equipo
de actuación. Un conjunto de chips puede tener una mejor controlador de memoria y presentar un
rnayor rendirniento. Hoy en día, sin embargo, ya que el conüolador de memoria está incrustado en la
CPU, no hay casi ninguna diferencia de rendimiento entre los diferentes conjuntos de chips.
Local Bus (FSB)

AGP or
Video card PCI Express Memory Bus RA&4 memory
x16

To Sor-rth Bridge

Figura 5: Puente Norte con las CPU sin un controlador de memoria integrado
El controlador PCI Express integrado en eI chip puente norte o en la CPU puede proporcionar va¡ios
carriles. La configuración más común es que empiecen a brindar 16 carriles, lo que permite que la
tarjeta madre tiene una ranura PCI Lxpress x16 o dos ranuras PCI Express x16, cada uno trabajando en
xB. Adicionales carriles PCI Express necesarios para conectar las otras ranuras y dispositivos
disponibles en la piaca base son proporcionados por el chip puente sur. Los controladores de alta gama
PCI Express suelen proporcionar más de 16 carriles, permitiendo que el fabricante de la placa o bien
proporcionar más ranuras PCI Express x16 para tarjetas de vídeo o perrniür la conexión de otros
dispositivos y ranuras directamente al chip puente norte o CpU.
La conexión entre el puente norte y el puente sur se logra a üavés de un bus. Iniciahnente, se utilizó eI
bus PCI, pero más tarde fue sustituido por un bus dedicado. Vamos a explicar más sobre esto rnás
adelante

EI puente del Sur

El chip puente sur, también llamado ICH (O Eje I i Controller) o PCH (Hub Plataforma Controller) se
conecta aI puente norte (o Ia CP{,I, en el caso de la actual CPU Intel) y está a caryo iiei controi de L / b
aparatos y dispositivos de a bordo, tales corno:
. Los puertos de alrnacenamiento (puertos Af}\ serie y paralelo)
. puertos USB
El audio de a bordo (*)
Red local (**)
. bus PCI (si está disponible)
. carriles PCI Express (si está disponible)
. reloj de tiempo real (RIC)
. La memoria CMOS
. Los dispositivos heredados, como el controlador de intemrpciones y controlador de DI\[A
. ranuras IsAenvieias Placas base
(*) Si el puente sur tiená un controlador integrado de audio, necesitará un chip externo denomina códec
iaio"irt*a de codificador / decodificador) para operar- Lea nuesüo tutorial "Cómo Sonido integrado
trVorks" para obtener más información. Algunas placas base de gama alta utilizan un controlador de
audio externa, que está conectado con el chip puente sur a través de un camil PCI Express xL-
(**) Si eI puente sur tiene incorporado un controlador de red, necesitará un chip externo llamado un
ipÉy" (abreviatura de "fisica"fpara operar. La mayorÍa de las placas base utilizan un controlador de
red extema conectada al chip puente sur a üavés de un carril PCi Express xl.
Otros dispositivos integrados de Ia placa base puede tener, tales como USB adicional, SATAy
controladores de red, estarán conectados al chip puente sur a través de carriles individuales PCI
E:rpress x1. (En algunas placas base estos dispositivos pueden estar conectados al chip puente nofte en
.u,,bio, si el contróladoipCt Express integrado en el chip puente norte tiene un montón de carriles PCI
Express).
61 p,r"oÍ" sur también está conectado a otros dos chips disponible en la placa: ei chip de ROM, también
.ooo.ido como el chip de la BIOS (BIOS es uno de los programas escritos dentro de este chip), y el
chip de E / S Super I, que está a caryo de controlar los disposiüvos heredados como los puertos serie,
pltertos paralelos, unidades de disquete y puertos PS / 2 para tedado y ratón.
En la Figura 6, se puede ver un diagrama que explica el papel del puente sur en el ordenador'

+
@ffi@ffi
T+
{+9
ffiffiffi
ffi ffiffiffi
Battery BIOS Super l/O

Figura 6: El chip puente sur


E[ Inter-Puente de Arquitectura

Cuando se comenzó a utiliza¡ el concepto de puente, el puente de comunicación enüe el norte y eI sur
del puente se realiza a través del bus PCI, como se muesfta en la Figura 7- EI problema con este
enfoque es que el ancho de banda disponible para e[ bus PCI (132 MB / s ) será compartido entre todos
Ios dispositivos PCI dei sistema y todos los dispositivos conectados aI puente sur, especialmente de
unidades de disco duro.
Norü Bridge

.! jr.:.r-:j:::11*iii\',:!
,r'.. ::-::::.:1i..¡:.:t

. .:
:'r{}n¿Efr
'. :-,1'-.-.¡.-l' ffi

South Bridge

Figura 7: La comunicación entre el norte y el sur puentes utilizando eI bus PCI


Cuando las tarjetas de vídeo de gama aita (en ese momento, eran las tarjetas de vídeo PCI) y se
pusieron en marcha las unidades de disco duro de alto rendimiento, surgió una situación de cuello de
brotella. Para las tarjetas de vídeo de gama alta, la solución fue la creación de un nuevc bus conectado
directamente al puente del norte, ilamado AGP (Accelerated Graphics Port). De esta manera la tarjeta
de vídeo no estaba conectado al bus PCI y el rendimiento no se vea comprometida-
La solución final se produjo cuando los fabricantes de chipset comenzado a utilizar un nuevo enfoque:

r-
I
:

el uso de una conexión dedicada de alta velocidad entre el none y el sur puentes
y conectar los
dispositivos PCI en el puente sur. Esta es la arquitectura que se uüliza hoy en
día. tas ranuras pCI
estándar, si está disponible, se conectan al puente sur. carriles PCI Express pueden
estar disponibles
tanto en el chip puente norte y el chip puente sur. Por lo general, tos carrilei pcl
Express diiponibles
en el chip puente norte se utilizan para las tarjetas de vídáo, mientras que
los carriles disponitles en el
chip puente sur se utilizan para conectar las ranuras más lentas ya boráo de los
dispositivos, tales corno
USB adicional, SATA y controladores de red.
North Bridge

Dedicated Bus

South Bridge

Figura B: La comunicación entre el norte y el sur puentes utilizando una conexión


dedicada
La configuración de esta conexión dedicada depende dei modelo de chipset. Los primeros
conjuntos de
chips de Intel para urili¿¿¡'esta arquitectura tenía un dedicado / s canal de 266
MB. Este canal era half-
duplex, Io que significa que el Puente norte y el puente sur no podían "hablar" aI
mismo tiempo.
Cualqúera de los dos chip o la otra estaba transmiüendo.
Acrualrnente, Intel utíli7a una conexión dedicada llamada DMI (Direct Media Interface),
eue utili2¿ ¡¡
conceDto similar aI PCI Express' con carriles utilizando comunicaciones serie, y
canales séparados para
la transmisión y recepción de datos (es deciq la comunicación full-duplex). La primera
versión de DMI
u ili¿¿ cuatro carriles y es capaz de alcanzaruna velocidad de transferencia de áatos
de 1 GB / s por
dirección (2,5 Gbps por carril), mientras que Ia segunda versión de DMI duplica esre núrnero de
2 GB i
s. Algunos conjuntos de'chips móviles utilizan dos carri]es en lugar de cuatro,
reduciendo a la mitad del
ancho de banda disponible.
AMD utiliza una ruta de datos dedicado llamado "A-Link", que es una conexión pCI Express con un
nombre diferente- "A-Link" y "A-Link [I" utiliza¡ cuatro carriles PCI Express 1.1 y, po, io
tanto, lograr
un ancho de banda de 1 GB / s. La conexión "A-tink III" utiliza cuaüo carriles pCI Express
2-O,
logrando un ancho de banda de 2 GB 1s-
Si desea conocer los detalles de un conjunto de chips dado, sólo tiene que ir a la página web del
fabricante del chipset.

Ahora vamos a ver la memuia y cómo afecta a Ia velocidad de la placa base.

La memoria y oü¡¡s fucirnes

Hemosesablecido qelavelocidad del propio procesador controla la rapidez con la que piensa un
orden&- Lavelocidad del chipset y autobuses controla la rapidez .o, qu. se puede comunicar con
ofas partes de la computadora- La velocidad de la conexión de RAM controla directamente la rapidez
cm latompffira puede acceder a las instrucciones y los datos, y por Io tanto tiene un gran efecto en
el rcndimiento del sistema. Un procesador rápido con memoriu nÁU lenta va a ninguna parte.
ta rar¡ti¿ad de memoria disponible también controla la cantidad de datos que el ord--enadór puede
ürylorer- RAM constituye la mayor parte de la memoria de un ordenador. ia regla general es la rnás
memoria RAM del ordenador tiene, mejor.
Gmn palte de la memoria disponible en la acrualidad es de doble velocidad de datos de la memoria
(DDR)- Esto significa que la memoria puede transmitir datos dos veces por ciclo en lugar de una vez,
lo
gue hace que la memoria más rápida. Además, la mayoría de placas base tienen espaciá para
mríltiples
chips de memoria, y en placas nuevas, que a menudo se conectan al puente norte a través de un bus
doble en lugar de un único bus. Esto reduce aún más la ca¡tidad de úempo que toma para que el
procesador para obtener información de la mernoria.

200-pin DDR RAM SODIMM

raruras de memoria de una placa base afectan directamente qué tipo y cuánta memoria es compatible-
Al igual que otros componentes, la memoria se conecta a ia rinura a través de una serie de pernos.
El
rnódulo de memoria debe tener el número correcto de los pernos para encajar en la ranura en la placa
ba-se-

\q
En los primeros días de Ias
tarjeta que enchufado en el
placas brr* pT[:ü'"m1ÍatiTTre no sea el procesador
bordo tares corno ut upoyo
Lut"to' ÁoL de vino en una
Jr.* l.l].r*on con una ..*i.¿"d de accesorios
r".
rint"*"r'"ia"o, ,op* ¿ul*r¿, y controladores RAID. de a

p:'"'¿i:1.,1T;¿i"in::*Tl#"* v silbaios ,on .oo,uoi"rt", y r¿.1"i á" *srarar. Ha-y pracas


;iü,!'.:H1*n*X"*ii.x"U:U*T."áH1#L:1,::;:m-,X.*tJxT
Para muchos usua¡ios ptl*"do,
para video sonido' Pira "'ii'.u.u.,erísücas incorporadas proporciona¡
v los¡ri"á.."r aJa*;Hil:r:, un amprio soporte
qu" ,uliian un tÁa¡o de
arta intensidad

fabricante de la placa madre


y modelo
Introduccién r:

Tarde o remprano rendrá que


conoce. y,:r
a actualizar su equipo' mo.dero exacro de su praca
",j:?i:Tr..
y' qu" tut r.rr.ion"s de act,'ariz"Já,
base, sobre rodo si va
de placa base oue
r*;;il;, ¿"-rrl-Jüi;r{li"ruuou,
por er modelo
"::",*u"'t'"
descargar e.l ma¡ual ¿" r' información ri.u."¿i^
una acrualiiu.ion ¿u la
BIos o
que su ordenador reconozca
o'ior¿uo*"r. s" r"."ota una actualización
una nueva tlu,
y .r *"*J"r-"n_*ru¡u der BIos para hacer
si desea comprobar Ia cantidad
É:ffiffiTffi"fl ::, ::Ti;;il,g" .á",9e;;é lru ou soporre, por ej empro.
imprimen;;;;ff :ff"Hri.l::iT:txTlT:"1fl
comprobar si la placa base ¿,.;:*;r5;,".lnJñr,[H,.ju1o"*
instalad' ;;; pc- es reám"r,"
q.u: haya pedido. por
lióffiiH:ffi:H:,x1T;: ff*xx';;il;;;"1",ái:'ol.l""i*r¿"r: lo generar.
descubrir ru **".u ae aprender
esra
¿cómo es posible conocer el fabricant"
ordenador hav un número
á"lu placa a Eavés de software?
at t"n"' q'iil.ruy" Dentro de ra BIos
", d;;;il
der
de identificación de ha¡dw*" ei fabricante. por io ,*,o,
"Descifrando el núnrero
l"t-&H;; áe serie a"íáíos una ut,idad
y lo descifr-a para ti. Lea nuesrro
Le enseñaremos cóma
de serie ¿"¡ erói" po, ,1r, ;.;r¡,-jt más detanada sobre
rurorial
averiguar el fabrican
gTr*.r;;;;;;ramas de
esre rema.
identific*ion ¿" rr"r¿r* rrípopulares
para
Despiésa"",á.#:I;rrx11;*:i1x[1H:frT-i;tr,:1iX1if, y,il%[ir*i;*:,,"
web del fabricante *
I gtg" ;ñG;"r.u.ga, ta ,ittimu átos,
de placa base' una rapiaa
búrqd; conrroladores y manual
de su modelo
";dl'ogr" a"u".rrr.. *iáenre para averiguarro.
C.PA-Z
CpU-Zes una utilidad de identificación de CPU muy popular, que también puede ser utilizada para
identificar el fabricante de su placa base y el modelo-
Después de instalar la CPIJ-2, ejecutarlo, y haga clic en la pestaña de "placa §ase"- En la pantalla que
apaiecerá, CPU-Zle dará el fabricante y el modelo de su placa base, como se muestra en la Figura 1.
Como se puede ver, tuvimos una placa base ASUS PSK-E en nuestro ordenador-

Figura 1: Identificación de su fabricante de la placa y el modelo con CPU-Z

Ver más en
modeV2/#l L dru3GrkG3qHw3p. 99

Sandra Lite
'li

Sandra está disponible en va¡ias versiones; usted debe descargar e instalar la versión gratuita, llamada
"Lite".
Después de instalar Sandra, ejecutarlo, y haga dic en la pestaña "Hardlr¡a-re", En la pantalla que
aparecerá, haga doble dic en el icono de "placa base"-
Sandra tend¡iun minuto para recoger toda la información sobre su ordenador. En la siguiente pantalla
se mostrará, se puede encontrar fácilmente su fabricante de la placa en "Fabricante" y su modelo en
"modelo". Tome un üstazo ala figura 2, en la que identificamos nuestro modelo de placa base como
una placa base ASUS PSK-E.

8o

h-
ry

arilm¿ter Value

f fonrputer
,.§i:rurou.i P5K_8,

'#Yer¡icn 5)r:itEm YE.'iün

...f.' Serial Nun tet 51stam §erial Number

.9m 11orJ1 C0ü-5C0100 D8 -18005 f8l -lSD4{7 FC

!Chassis
.,$ryp. De:lcep
@ Can be locked No
':$juer:ic. f-hassx Yersion
--::'_
'.'!¡ Pc$ií Lordi.tl 1

,T Serial Number (ha:;i: Serial Numbtr


.t:.
'.{?-A:ret leq Ásset-12i{5ó1890
";?; Boct-up State Safe
.i$jFc,¡¡er State 5afe
.:$;Thernral §tate 5aíe

'§i:5eiurit¡ 5tate Extem¡l interf ace Lotked-out

§ i,,larnbcard
'#: l,'lanufacturÉr Asus 4*w*
@ I'',luiti-Procer.,cr í|..{P.r Support No
''+llolulti'P, g {tulP5¡ Ver---inn 1.40
"."tsin
.,..sjl"lod.l p56-s
@"*
'!¡ ! ÍpE tl¡inbo¿rd q

§l'iets¡on P,Er,1.rq

..Éi S.ri.t l{umber ft,I51f768ji500c71


..{}islcs 65-1l¡.t5-{tl0tl'11-QC1fl 1111 -06Lo.J9-Be¿ rlake

§ hlzinbcard Properties
@ Renrorable fVc

t¡" F.rplaceable l€!

@ Hot Srrup f.l*

I On-board De,.ice:
V'Cnbo¡rd Ethernet Ethemet Adapter {Enabled)

il i B i t3-'€- :vri- i {\ r=F i #'i u/ &


Figura 2: ldentificación de su fabricante de la placa y el modelo con Sandra

Mientras se desplaza a través de estas ventaras, se encuentra otra Ínformación útil sobre la placa base,
tales corno el número de tomas de mernoria que tiene, y estarán destinados queridos, así como el
modelo de chipset en que se basa la placa base. También puede encontrar ei número de serie del BIOS
que estábanlos hablando en "BIOS".

Ver más en http:1iw¡¡'w.hardwaresecets-com/horv-to-find-out-your-motherboards-rnanufacturer-and-


modeli 3/#s v o 7rv SduAkU4ITS 1.99
AIDA64

Hay dos versiones de AIDA64; usted debe descargar e instalar la versión Extreme Ediüon.
Después de instalarAIDA64, ejecutarlo, haga dic en la "placa base" disponible en Ia pantalla principal
y, a continuación, haga clic en el icono de "placa base" que se mosüará- En [a pantalla que se mosftará,
el fabrica¡te y el modeio de la placa base del ordenador se mostarán en la segunda linea, "Nombre de
la placa." Véase la figura 3- Como se puede ver, tuvimos una placa base ASUS PSK-E en nuestro
ordenador.

|=k+9

rn¡]1,ter ü5-1Jü5,e$1,ú{1+ü1!ii11,-8619tr9-Ee¿rtake-(á?É1lC0r 8165 OÉie ...


,theÉc¡¡rd
CFIJ .

C¡UiE i *Éro,nt Sid,e Eu,r Propertres


táottteiÉq¡¿¿,
I # É*r i-vpe htel ,¿STL.*
§{sic{f
.i # Eus 1+itirh 6,1-bit
sPE :] ¡& BeaJ Cte<* {0ü hiHÉ (QE"Ri
Ch'p+S
E¡O§ i
: *¡tfiectil'¿ {tcck L6í-¡X tslH1
.i !É Baadrvidth ü&St"lB+
*cpt ,]
éfiti.g5yst6rt
'JéT
'i W n;{emoq, 8uE }rcperti*á
rtry 'i ffiBu+ l-',"pe ülJilrÉEPi] §EFáhr
dtiñ1edr¿ i @ B'-:s r{idt¡ ]:8-b¡t
r*ge i ffioRa¡r"rsB e.t* 1:1
is¡arft 1 SRerf Cl+k 4S0 idlft (CiDRj
É<tf j ü&Effe<tiu* (ierk §@ F"{lt:
¡ices j *S Ear*ds'idt¡r I TEtrrL'fEE§IOIJ ] ].{Ér- s
tr.¡ire
:urity .,!
S H,ip-iet g.ur Fiepertiec
nfQ i
:i:
i¡E Eus rYpE .IñIEI Dieit fiedia l¡¡e¡ia¡-e
:abase
l
r¿hmak
i * M",hobourd Phyricalinfc
i ffi CfU iÚrkrti.,rSlot¡ 1LGArts
i rÉLxpanti+n Sl*t: I TRI;<L Y{RSüN ]
i t*Féh{ Slai: 4 DDFI DIi¡{M

i ,#Integrat d Detir¡¡ Audic, 6ígabk Lér{ EEE-1194


*r Forn¡ Fa,:to¡ áTX

Figura 3: La identificación de su fabricante de la placa y el modelo con AIDA64


Si se desplaza hacia abajo, usted encontra¡á un enlace a la página de descarya de BIOS en el sitio web
del fabricante de Ia placa en "Descaryar BIOS." Esto es muy útii si usted está planeando hacer una
actualizacién del BIOS.

HwiNFO

HW1NFO está disponiblg en dos versiones, H\A¡iNFO32, que debe ser descargado si está utilizando un
sistema operativo de 32 bits, y HWiNFO64, que deben ser descargados si está utilizando un sistema

8t
L
operativo de 64 bits. En nuestro caso, hemos descaryado HWiNFO64-
Después de instalar la versión adecuada de HMNFO, ejecutarlo (tardará un rninuto para recoger toda
la información sobre el hardware de su computadora)- El prograrna mostrará automáticamente una
pantalla lla¡nada "Resumen del sistema", donde se mostrarán el fabricante y modelo de su placa base en
la columna de la derecha, baio "placa mad¡e". Véase la Fisura 4.

Figura 4: Identificación de su fabricante de la placa y el rnodelo con HWiNFo64

Inhoducción a la nueva arquitectura de los microprocesadores de rNTEL

Sandy Bridge es el nornbre de la nueva microarquitectura Intel CPU está utilizando a partir de 2011. Es
una evolución de la microarquitectura Nehalem, que se introdujo por primera vez en el Core i7
-v
también se utiliza en el Core i3 y Core i5.
Si usted no sigue el mercado de CPU que de cerca, vamos a hacer un resumen rápido. Después de que
el Pentiurn 4, que estaba basado en la microarquitechrra generación 7" de Intel, llamada de Netburst,
Intel decidió volver a su rnicroarquitectura 6'generación (el mismo utilizado por el Pentium Pro, l

l
i

t
L
Pentium II y Pentium III, denominado P6), que resultó ser más eficiente. A pafiir de la CPU Pentium M
(que es una 6u generación Intet CPU), Intel ha desarrollado la arquitectura Core, que fue utilizado en la
serie de procesadores Core 2 (Core 2 Duo, Core 2 Quad, etc). Entonces, Intel consiguió esta
arquitectura, ajustado un poco más (la principal innovación fue la adición de un controlador de
rnernoria integrado), y se libera la microarquitectura Nehalem, que se utilizó en el Core i3, Core i5, y la
serie de procesadores Core i7. Y, de esta microarquitectura, Intel desarrolló la microarquitectura Sandy
Bridge, que fue utilizado por la nueva generación de procesadores,Core i3, Core i5, y Core i7 en 2011 y
2012.
Para entender mejor ei presente tutorial, le recomendamos que lea las siguientes tutoriales, en este
orden en particular:
. En el interior Pentium M Arquitectura
. Dentro de la microarquitectura Intel Core
. En el interior de [ntel Nehalem rnicroarquitectura
Las principales especificaciones para Ia microarquitectura Sandy Bridge se resumen a continuación.
!'amos a explicar con más detalle en las páginas siguientes.
. El puente noñe (controlador de memori4 conrolador de gráficos y el controiador PCI Express) está
integrado en eI mismo chip que el resto de la CPU. En las CPUs basados en Nehalern, el puente norte
se encuentra en un chip de silicio que se entrega junto con et chip de Ia CPU de silicio. De hect¡o, con
las CPUs basados en Nehalem de 32 nm el puente none se fabrica bajo proceso de 45 nm.
. En primer lugar los modelos utilizan un Proceso de fabricación de 32 nm
. Topología en anillo
. Nueva decodificado microinstrucciones caché (caché LQ capaz de almacenar 1-536
rnicroinstrucciones, lo que se traduce en más o Elenos a 6 kB)
. insrrucción de 32 kB L1 y caché de datos L1.32 KB por núdeo de CPU (no hay cambio de Nehalem)
. la rnernoria caché L2 fue renombrada como "caché de nivel medio' (tvtl-c) con 256 kB por núdeo de
CPU !.

la memoria caché L3 . Ahora se llama LLC (Última caché de nivel), no se unifica más, Y es compartida
por los núcleos de CPU y el motor gráfico
. La tecnologíaTurbo Boost de nueva generación
" El nuevo conjunto de instrucciones AVX (Advanced Vector Extensiones)
. Mejora del controlador de gráficos
conrrolador de memoria de doble canal DDR3. Rediseño de apoyo recuerdos hasta DDR3-1333
. El controlador integrado PCI Express x16 apoyar un carril o dos carriles xB (sin cambio desde
Nehalem)
. En primer lugar Ios modelos utilizan un nuevo socket 1155 con pasadores
Snndy §ri<lge: §s**rie¡*¡

i"F,r"1,ü,IJi

0t
Figura 1: Sandy Bridge Resumen rnicroarquitectura

Mejorre a la'Pipeline" de la CPU


Vamos a empezar nuestro viaje hablando de lo que es nuevo el camino instrucciones se procesan en la
miooarquitectura S andy Bridge.
Hay cuatro decodificadores de instrucciones, lo que significa que la CPU puede descodificar hasta
cuatfil instrucciones por ciclo de reloj. Estos decodificadores están a caryo de Ia decodificación IA32
(xB6 alias) instrucciones en microinstrucciones RISC-como (pops) que se utilizan internamente por las
rrnidades de ejecución de la CPU. Al igual que las CPU Intel anterior, la microarquitectura Sandy
Bridge es compatible tanto con macro y micro-fusión. Macro-fusión permite a la CPU para unir dos
instrucciones xB6 relacionados en una sola, mientras que las micro-fusión se une a dos
rnicroinstrucciones se refiere en uno solo- Por supuesto, el objetivo es rnejorar el rendimiento.
Lo que es completamente nuevo es la adición de un caché de microinstmcción decodificada, capaz de
almacenar 1.536 rnicroinstrucciones (que traducido más o rnenos a 6 kB). Intel se está refiriendo este
cache como ur "caché L0." La idea es obvia. Cuando el programa que se está ejecutando entra en un
bucle (es decir, hay que repetir las misrnas instrucciones varias veces), Ia CPU no tendrá que
decodificar de nuevo las instrucciones xB6: serán decodificadas ya en la memoria caché, ahorrando
tiernpo y mejorando así el rendimiento - Según Intel esta caché tiene una tasa de éxito del B0%o, es
decir, se utiliza B0% del tiempo.
Ahora usted puede preguntarse si esto no es la misma idea utilizada en la microarquitectura de Netburst
(es decir, los procesadores Pentium 4), que terúa una memoria caché de rastreo que también almacena
decodificado microinstrucciones- Una caché traza funciona de forma diferente a partir de un caché de
microinstrucción: afrnacena las instrucciones que apa-recen en el mismo orden en que se ejecutó
originalmente. De esta manera, cuando un prcgrama alcanza un bude que se corrió, digamos, 10 veces,
la rnemoria caché traza ahnacenará las mismas insftucciones 10 veces. Por lo tanto, hay una gran
cantidad de instrucciones repetidas en la memoria caché de rastreo. Lo mismo no ocurre con la
memoria caché microinstrucción, que alrnacena único individuo decodfica instrucciones.
Cuando se utiliza la caché de microinstrucción, la CPU pone a Ia caché de instrucciones L1 y los
decodificadores a "dorrnir", haciendo que la CPU para ahorrar eneryía y para funcionar a menor.
temperatura.
La unidad de predicción de saltos fue rediseñado y el (BTB) tamaño Branch Target Buffer se duplicó
en cornParación con Nehalem, además de que ahora utiliza una técnica de compresión para permitir aún
más datos para ser almacenados. predicción de saltos es un circuito que trata de adivinar los próximos
pasos de un programa de antemano, Ia carya de la CPU en el interior las instrucciones que considere la
CPU se carya la próxima. Si se le pega a Ia derecha, la CPU no se pierde el tiempo la carga de estas
instrucciones de la memoria, ya que estarán ya dentro de la CPU. El aumento del tamaño de Ia BTB
permite este circuito para carg¿lr aún rnás instrucciones por adelantado, la mejora del rendirniento de Ia
CPU.
EI planificador utiliza en la microarquitecn¡ra Sandy Bridge es similar a la utilizada en la
microarquitectura Nehalem, con seis puertos de despacho, tres puertos p¡ilizados por las unidades de
ejecución y tres puefios utilizados por las operaciones de memoria.
Aunque esta configuración es Ia mism4 la microarquitectura Sandy Bridge tiene más unidades de
ejecución: rnientms que la rnicroarquitectura Nehalem tiene 12 de ellos, el puente de arena tiene 15,
véase Ia Figura 2. De acue¡do a Intel, que fueron rediseñados con el fin de mejorar de punto flotante
( es decir, operaciones rrratemáücas) ei r-enrünriento.
Executien Ciuster -:A Laok trrrsirie
!€h*dri¿lér gÉgs
eaiair:
r -J'grftt'l. l
;lrElr'nl-
+-.:iri::rn ¡r ::¿
, r.4¡ Fi.r rtntx.+.
ii.r§:r
- 1:Fn¡ lii*.ri::

- ::FD fi::l+;
FrPi
. l¡e Jslhrgt s
;¡:.!:,e:: ll¡:,
+itl: rf:i1 c:
:f,i!a f,ii:{t ::1
-: , H'i,er ,:Ei ¡!
:ri'aba t¡.:a4
ii.! q!:

#ffi
Figura 2: Las unidades de ejecución (conflguración estándar)
Cada unidad de ejecución está conectado al planificador de instrucciones con un carnino de datos de
128 bits. Con el fin de ejecutar las nuevas instrucciones AVX, que llevan datos de 256 bits, en lugar de
añadir datapaths 256 bits y las umdades de 256 bits a la CPU, dos unidades de ejecución son
"fusionado" (es decir, que se utiliza al mism_o tiem-po), corno se puede ver en la iigura 3.
Exerr.¡ti*n ülusteF
1¡lution:
' l.ep,-rir¿**

::t t[¡nl]¡5 trr


: -.¿'-ar.x
r :;\fi in..*üÉi
+ :d l.ri:rr:
5i§l] FP riw
ál-r-- t st¡{k
] tnr,;l¿ ¡,.i.{
.-lli.rÉ É'1ii:

&*¡!.--.-i'a-; 4-..- 1 ri+_].--..:


¡*F-trt0

Figura 3: unidades de ejecución (cuando se ejecutan las instrucciones AVX)


Después de que se ha ejecutado una instrucción, no se copia de nuevo a la memoria tampón de
reordenación como ocurrió en anteriores arquitecturas Intel, sino que más bien se indica en una lista
que se hace. De esta manera Ia cPU guarda ios bits y mejora la eficiencia.
Otra diferencia está en los puertos de memoria. La rnicroarquitectura Nehalem üene una carga, una
dirección de la tienda y unidades de un alrnacén de datos, .ádu.r.ru conectada a un puerto de despacho
indiwidual- Esto significa que los procesadores basados en Nehalem pueden cargar desde la memoria
caché de datos L1 de 128 bits de datos por ciclo-
En la microarquitectura Sandy Bridge, la carga y las unidades de ürección de la tienda se pueden
utilizar ya sea como.una unidad de carga o una unidad de dirección del almacén. Este camLio permite
que dos veces más datos que se cargan desde la mernoria caché de datos L1 al mismo tiernpo (mediante
dos unidades de 128 bits al mismc tiempo en lugar de sóio uno), rnejorando así el rendimiento. De esta
ntanera, los procesadores basados en Sandy Bridge puede cargar 256 bits de datos de la memoria caché
de datos L1 por ciclo.

8Z
§a ndy Bridge l',licroarchitecture

Figura 4: La microarguitectura Sandy Bridge

EI conjunto de instruccionesAVX
Hace un tiempo, AMD hapropuesto un conjunto de instrucciones SSES. Sin embaryo, Intel decidió
crear su propia implernentación de lo que serían las instrucciones SSES, llamado Atr/X (Advanced
Vector Extensions).
Estas instrucciones se utiliza el mismo SIMD (Single Instruction, Multiple Data) concepto introducido
con el conjunto de instrucciones MMX y usados por Ias instrucciones SSE (Strcaming SIMD
Extensions). Este concepto consiste en utilizar una única gran registro para aknacenar va¡ios datos de
tamaño pequeño y luego proces¿[ todos los datos con una sola instrucción, la aceleración de
procesamiento.
El conjunto de instrucciones AVX añade 12 nuevas instrucciones y aumenta el tamaño de los registros
XMM de 128 bits a 256 bits- ,.

Toda la información sobre el nuevo conjunto de instrucciones AVX se puede encontrar aquí (buscar la
programación de referencia Intel Advanced Vector Extensions).

La arquitectura de anillo
procesadores basados en Sandy Bridge tendrán una arquitectura de anillo de los componentes internos
de ia CPU para hablar unos con oüos. Cuando un componente quiere "hablar" con otro componente,
que pone la información en el anillo y el anillo se moverá esta información hasta que llegue a su
desüno. Componentes no hablar el uno aI otro directamente, tienen que usar el anillo. Los componentes
qrre utilizan el anillo induyen los núdeos de CPU, cada caché L3 de memoria (que ahora se llama
Úitirno nivel de caché, o LLC, y no está uniñcada, véase la Figura 5), el agente áel sistema
(controlador de uiémoria integrado, controlador PCI Express, contol de potencia unida{ y la pantalla),
y el controlador de gráficos.
En la figura 5 se puede ver el anillo (línea de color negro) con sus "paradas" (cajas rojas). Es
importante entender que el anillo se encuentra físicamente en los cachés de rnemoria (ejemplo de un
telesilla, donde cada cuadro rojo es una parada) - ya que la ilustración es bidirnensional, es posible que
tenga la impresión de que los cables de anillo se ejecutan dentro del caché , Que no es el caso.
Además, cada ultima memoria caché de nivel no está ligado a un núdeo de la CPU en particular.
Cualquier núdeo puede utilizar cualquiera de los cachés. Por ejempio, en la Figura 5, tenemos una
CPU de cuatro núcleos con cuatro memorias caché de último nivel. Core 1 no está vinculada a la
memo¡ia caché 1; se puede ufilizar cualquiera de los caches- Esto también significa que cualqüer
núcleo de la CPU puede acceder a los datos que se alrnacena en cualquiera de los caches.

L-_"
Sandy BÉdge
I¡lit¡o¿¡c

Figura 5: La arquitectura de aniüo (lÍnea


de color negro con rojo ,,se detiene,,)
En realidad' hay cuatro ani[ós: anillo de
datos, ioilto ¿u ,ori.i*a, .".onorá"
snoop' Ellos corren a la misma velocidad y el aniro de
d" ."1;ñ". .Jüj in,"*o de la cpu. "i*iuo
se basa en el
:iffi:'":.oPI
(QuickPath Interconnect), el misÁ;,ráü"r
"l ras cpu so.kei ráoopara habla¡
con
cuándo usar el anin6, si está vacío, y
:#:;:[::ffi:rr"rÍ::rde et aniilo siempre etige el camino rnás

Sigrriente Generación Tirrbo Boost rj

Turbo Boost es una tecnología que automáticamente


overclock la cpu cuando la cpu ,,, se pregunta,,
para obtener más potencia cle procesamieT?:Eo
la mi.rourqü,u.,*u ,g¿, Bridge
ha revisado con el fin de p"t*itit qo"iu esta tecnorogía se
rnáximo de 25 segundot - decir,'para
clu supgra;1, TDi (p"rencia de diseño
térmico¡ du¡ante un
disipar más calor de ü permitido oficialmente.
"' y Ios co-nllonenres-son
porque el disipador de calor Esto es posible
todavía frío. vea la Figura 6.
Fiext sen€rétion fntels Turho
§$Gst,SÉñÉñt
tu.§,
E*:ihrü¡ú.ihir'lh

Fu*o,
-r=r.".1,';*:l.l ":-5,":g.+-.Íiññ".Xffi,';lfiI
__EE!r,!";*§i*..:,",ffiy$:'r:;
.x r**i..__-_.1:_¡_ _*
,' \ ,- ¡ri=l4r=tñ.¿nih:n.r-,
,.-rrrl/ñr.ffitra.niEr.
\ | ^t/'

tEFAül0

Además, er núcreos.d".pu11s#r:*:flT1ffi"?"ffiT:lhi"#g:J,J".:i",.
n{cleo de gráficos no está aiiifanoo una gran porejempio, si er
cantidad de calor, esto da TDp extra para los núcleos de
cPU a utilizar' lo que les pennite funcionar a una
frecuencia más alta y en un iDp más alta que la

81
r-
clasificación oficial (con la etiqueta
rigl* 7)' si las
"de los conductores indicados poder
"en la

;;;;;..sesrán"*iJü-a;Ei':fu 1".*li:t#n':;Bii-;*.*to'vearaFiguraT
- :3;ff"t",f;.1[[iT¿xltr*".1,fr#;ffi:iñril*'"t -
fol'Étrá¡-it¡g
. f ult páct(¡g€ plwer *pecificatio¡iÉ evartabl€
can shift bttu¿ssn csr€É ánd ciaphica
'
r Púlsel' budgj

r-* r¡t 1. Tjt¿l g..-iót:


il
:.! n f-lI
.-.-'tG; r:u,: roñiis=nt
'.¡::
r¡rr Ex:'

FiguraT:TDPpuedeequilibrarseentrenúCleosdeCPUygráficosdeprocesador

un motor de
basados en sandv Bridge.'":d'á
ro:lr:..,dores
H il::H"Hru:ffi,Tfi:ltT"
como explica página c1e este tutorial' que estará
disponible en el mismo
DirectX 10.1. se
".,11g1*"ra
cpu, estar disponibr" rn chip separado pero "pegada"'
como eI resto de la "rr
chip de silicio "nlrá"i¿u
'm;UJl::HJT§"ii1'Tü[:'-:i!:i§:.J.,#::'=f:r's$?.:*dvBridge
Architecture - 3S GraPntcs

':: Figura B: procesador gráfico tTo'


Bridge--
(por ejemplo cPus core
( '.pr;;;;;;;;r:'¡ d"peod"rá ¿" t, cpu
EI número de unidades de ejecucióo tener
i5 tendrán más unidades de ejecución_ gue
p*, core i3)- Los procesadores Sandy Bridge pueden
husi, fZ unidades de ejecución degráficos' g, ." ,ura que "visuarización" y "Gráficos" están
en partes
mucha en ra dgura
si se presta ",*;ió, puede leer como "2D'i y "3D", y ayuria a Ia cPu para ahorrar energra
separadas de la cpu. Esto se
cuanlo no está jugando a juegos'
apagando el procesador gráfi'áo (LLC'
import*t" u, que el *ttát gÉi;"" p'ede utiizar la caché de ütimo nivel
Oüa innovación text.oas' Esto
.ono.iáu.o*o f, tu?U" L3) para ¿*ut"'* datos' especialmente
anteriorment" -ur,,o'iu i, a ta RAM se ña podido recuperar los
rnejora er renümiento3D, como e,motor ;r,,nñ;".errtu caché (si ya está allí' por supuesto)'
datos, se puede cargar datos directamente áesde la memoria

fL /

Anda mungkin juga menyukai