Introducción.
A pesar de que cada microprocesador tiene su propio diseño intemo, todos los microprocesadores
comparten un mismo concepto básico - Io que vamos a explicar en este tutorial. Vamos a echar un
üstazo dentro de una arquitectura de CPU genérica, por lo que será capaz de entender más acerca de
Intel y los productos de AMD y las diferencias entre ellos.
La CPU (Unidad de Procesamiento Central) - que también se llama microprocesador o procesador - es
el encargado de procesamiento de datos. Cómo se va a procesar los datos dependerán dei programa. El
programa puede ser una hoja de cáIculo, un procesador de textos o unjuego: para la CPU no hace
ninguna diferencia, ya que no entiende lo que el programa está haciendo realidad. Se iimita a seguir las
órdenes (llamados comandos o instrucciones) contenidas dentro del programa. Estas órdenes pueden
ser para agregar dos números o para enviar un pedazo de datos a la tarjeta de vídeo, por ejemplo.
AI hacer doble clic en un icono para ejecutar un programa, esto es lo que sucede:
1. Ei programa, que se almacena dentro de la unidad de disco duro, se tansfiere a la mernoria RAM.
Un programa es una serie de instrucciones a ia CPU.
2. La CPU, utilizando un circuito liamado controlador de memoria, c¿Lrga los datos de programa de la
rnemoria RAM.
3. Los datos, ahora dentro de la CPU, se procesa-
4. ¿Qué pasa después dependerá del programa. La CPU podría continuar para cargar y ejecutar el
programa o podría hacer algo con los datos procesados, como mosftar algo en la pantalla
e+ $*ffi+@
Hird D!¡kD¡hq ' Fe$ r,rá.ro* *"ltJH*, cFu
En ei pasado, [a CPU con§glq_tq ¡rq¡-rsfere4qla de dqlgs entre Ia unida{dS 4!¡gg _&uo y la memoria
_R4_¡4. Desde la unidad de disco duro es más lenta que la mernoria RAM, esto ralentiza el sistema, ya
,g-ue la CPU sería ocupado hasta que todos los datos se transfieren desde la unidad de disco duro a la
rnemoria RAM. Este método se Uqqlq PIO, procesq{ot de E / § (o E / S pqog¡q¡Edd. EI_o_y_en dia la
transferencia de dalos entre la unidad de disco duro y la rnemoria RAM en efectuen sin utilizar la CPU,
lo que hace el sistema más rápido. Este método se llarna conrol por bus o DMA (Direct Memory
Access). Con el fi4 de simplificar el dibujo, no hemos puesto el chip puente norte entre la unidad de
&iéo firo y la memoria RAM en la Figura 1, pero s51{ ahí. Los procesadores de AMD basados en
sockets 754,939 y 940 (Athlon 64, Athlon 64Xz,Athlon 64 FX, y algunos modelos Opteron Sempron)
tienen un controlador de memoria integrado. Esto significa que para estos procesadores la CPU accede
a la rnemoria RAM directamente, sin usar el chip puente norte muestra en la Figura 1.
Reloj.
Entonces, ¿qué es el reloj de todos modos? Reloj es una señai usada para sincronizar las cosas dentro
de la computadora. Echar un vistazo en la Figura 2, donde se muestra una señal de reioj típico: es una
onda cuadrada se cambia de "0" a "1" a una tasa fija. En esta figura se puede ver a tres cidos de reioj
completos { "clics"). A}'comienzo de cada ciclo es cuando la señai de reioj de "0" a 1'1"; marcamos esto
GL
ill _
de ciclos
mide en una unidd
con una flecha- La señai de reloj se ctoCos de
100 I\4Hz significa qte cl¡
de reloj Por segundo' Un reloj de
reloi.
Figura 2: Señal de relc{-
se rnidán en téITrlos decidoqE¡!
En e[ ordenador, todos los tiernpos n*i
- ^¡^ -.¡ñ
que ," r"truiáiá cinco cidm de
ili),"¿ff ,"r"r",.".á::l'l,g.,itica
-ru'.'.'a1P'::::T:'l:"1""1::ff"H:
entrega de datos. »"ri'" ¿" ii cidc &
:ffi#:#;#;i;,;u inrt*..ion dada puede retrasar siete
cru
B;'.XtlÍfi
l1n cu¿ulto \'r u ' 1o
cPU,
a Ia
d rd interesante es que
' que 'fformación'
*,S:
¡.1ueiiT::::*::
Así que si tiene dos imlrffi
ya que tiene uratabla emmera
""i '
i"t^",T".t".'1"ili;T;:;;;;;;d*;-ild.
y se sabe que el p,i-;¿-;t'á t"=t*.:l:1"-:o,::.::":::? en er cicro de reloi E-
pusqr
35:::,:TJ::i.:'ü-ffi
li,iir"r".X§"illi'J'i¡".roun de la rig,ri"n[instrucción
una explica.ion genot-;;;;;9
ffid;; *i::*i::::';'::Hl;':5;5
cpi-r con una
eiecutar"ffi
p.,vr*v q"' pod'ía
Hi""J*::'il3:::::::fr:#i;";,"" ";
instrucción,almismotiempoquelap'i*"o'unparalelo'Estoseconocecomolaarc
adelante'
%
superescalar y uur.ro, u r'iüf"t -u'
tóutt
"'to "'át reloi y el renüuielba
oue el reloj
por lo tanto, lo que el reloj tieneque ."'""i *tai*i^"""1 v pensar
npnsAr que
"*
acerca de los p:tt-::{"j:'
el misrno que es el error más común
sisecomparandoscPUcompletamenteidénticos'laquecorríaaunavelocidadderelojmásaltascÉ ciclo de reloj seá
En esre ;;,;;;a velocidJ á. ,aL¡ mks alta ul ,i"*po entre cada
rnás rápido. y el rendimi^en:"-:::'mayor' Perc
a ser realizado en menos tiempo
rnás corro, así que lr;;;;r; clerto'
cuando io hace ..*;;;;, p-."rraores diferentes, esto no es necesariamente
siseobtienendosprocesadoresconarquitecturasdiferentes-porejernplo'dosfabricantesdiferentes'
como Intel y AMD -;;t" dentro de
la-CpU son completamente diferentes'
tarda un cierto núme'ro de cidosde
reloi p¿üa ser
corno hemos mencionado, cada instrucción dada'
ejecutado. Digamos que el procesador
"e;i"*"1iete ciclos a. rlroi para rearizar una instrucción están
Si se
y que el procesador ü; ;;" cinco ciclos
i"l"f"i lara reali- z,3r esta misma instrucción'
ya que puede proces'r
ir".r"r.lu ¿" ."rá:, "8" será más rápido'
ejecutando en ta misÁ "iptotlsador
que las cPus tienen direrente
en el juego el¡endimienro, va
;:t:T$t'ffllilli,Íf-ltho
de ejecuciórr,
más
¿ir..""i"' i"'"áot de caché' difeientes formas de transferencia
de
núrnero de unidades de las unidades de
ro* ¿" p-cesar las instrucciones dentro
daios dentro de Ia CPU, difereutes preocupe; vamos a cubrir
ejecución, diterentes.ráo.i¿uao d"
*LlJJümundo exterior' etc'' no se
l
Figura 3: Los cables de la placa base pueden funcionar como antenas.
Reloj externo.
Por lo que los fabricantes de CPU comenzaron a utilizar un nuevo concepto, denominado
multip-licacipq 4S¡_eloj, que comenzó-cqn eI procesado-r 4B6DX} Bajo este esquema, que se utiliza en
todas las -Pü." h ;atuüdad, la cPÚ riene'un ."io1 que se usa cuando la rransferencia de
hacia y desde la memoria RAM (utilizando
datos fiacra (utiiizandogl "r--"*o,
chi puente norte), y un reloj interno superior-
e! chip
Para da¡ un ejemplo real, en un Pentium 4 a3l4 ,q GJ44 esta "3.4 GHz" se refiere al reloj I
reloi interno de la
CPU, qqq se obtiene multiplican-do por 17 r"--Éfo¡-GAz
-"xemq?!Q.&@. Nos ilustra este ejemplo en la
G^,,-- A
figura 4.
- --' 3.4 6H¡
2ó0lilH= ?0S HHz r 17
ffiffi1 {áoomHzatrR}
J
ffiffi-§="#,§ .@4,
ffiffi'-it:.-Elks L
ffiffi
ffiffi¡
áffiffi
ffik*ffi#re § F'
ffiffi
Cftíp:tt L<¡cal Br¡x CPU
{}Jorth Brldgri
La gran diferencia entre el reioj interno y el reloj extemo en las CPU moderna es un gran obstáculo
para supelzu con el fin de aumentar eI rendimiento del equipo. Continuando con el ejemplo pentium 4
3,4 GHz, se ha de feducir su velocidad de 17x cuando se tiáne que leer datos de Ia memoria RAMI
Durante este procesq que fuaciona como si fuera una cpu 200lv[trz!
Se utilizan va¡ias técnicas para minimizar el impacto de esta diferencia de reloj. Uno de ellos es el uso
de un caché de memoria dento de Ia CPU. Otra es la transferencia de más de un fragrnento de datos
por cido de reloj. Los procesadores de AMD e Intel u ;lizan esta característica, pero mientras que las
CPUs AMD transfieren dos datos por cido de reloj, Ia transferencia de las CPU lntel cuatro datos por
ciclo de reloj.
Debido a que, CPUs AMD se enumeran como ieniendo el doble rie sus relojes externos reales. Por
ü3
ei@o' ¡ma cPU AMD con un reloj extern o 2oo MHzse muestra como 400 MHz. Lo rnir-o ,,r.u!
m lc cPU InteL una cPU Intel con un reloj externo 200 MHz aparece como tener un reloj externo
&n MIIZ-
Ia téoica de transmisión, dos datos por ciclo de reloj se llama DDR (DuaI Data Rate), mientras que
el
modelo de transferencia de datos de cuatro por ciclo áe retoj se llama'eDn qquuá
outa Rate).
La memoria cache.
Cuanto maYor sea el caché de rnemori4 mayores serán lr posibfllidades de qr" los datos requeridos
por la CPU ya están allí, por lo que la CPU se necesita para acceder d¡eaamente a la memoria RAM
con menos frecuencia, lo que aumenta el rendimiento del sistema (sólo reorerda qre cada vez que la
CPU necesita acceso la memoria RAM directamente que necesitapara bajarsu velocidad de reloj para
esta operación).
Que llamamos un "hit" cuando la CPU carga un conjunto de datos necesarios de I,a memoria caché, y
que llamamos un:i'miss" si los datos requeridos no está allí y la CPU üene que acceder a la memoria
RAM del sistema.
Ll y L2 significa "Nivel 1" y "Nivel 2", respectivamente, y se refiere a la distancia que hay des& la
(unidad de ejecución) núdeo de ia CPU. Una duda común es la razón por la que tiene rres memorias
caché separadas (cache de datos L1, caché de instrucciones L1 y L2 caclé)- Presta¡ atención a la figura
6 y verá que la memoria caché de instrucciones L1 funciona como un "caché de entrada-, mientras que
los datos de caché L1 funciona como un "caché de resultados". caché de insuucciones Ll - que suele
ser menor que la caché L2 - es particularmente eficaz cuando el programa empieza a repetir una
pequeña parte de ella (circular), porque las Ínstrucciones requeridas estarán más cerca de ia unidad de
obtención de información.
En la página de especificaciones de una CPU la caché Ll se puede encontrar con difercntes tipos de
representación. Algunos fabricantes lista de los dos caché L1 separado (algunas veces llaman a la caché
de instrucciones como "1" y la caché de datos como "D"), algunos añaden la cantidad de los dos y
G4
,,sepa.rados" - por lo que un "128 KB, separa" significaría caché de,instmcciones de 64 KB de
escdbe
tiene que añadir rm dos y usted riene que adivinar
datos y Ia memoria caché ¿e o¿ xg -, y argunos sóro
de cada caché' La
qr. o'ru cantidad,oá y se debe ai"iá. pá. dos para obtener la capacidad
excepción, sin embargo, va a las CPUs Pentium 4
y Celeron-basados en Duevo§ sockets 47By 775'
utilizando sockets 47By 775) no tienen una
Los procesadores peritium 4 (y los procesadores Celeron
caché de ejecución de traza, que es una memoria caché
caché de instrucciones L1, en cambio, üenen un
de ejecución' Por lo tanto' [a caché de
situada entre la unidad de decodificación y la unidad
y una ubicación diferente' Mencionamos esto
instmcciones L1 está ahí, pero .on ,rn ooábre diferente
aquí porque este es un error muy común,
pensir que los nryl9yao.es Pentium 4 no tienen caché de
Pentium 4 CPU a otras penonas p"q" pensar
que su
instrucciones Ll-. Así q.r. .rrndo ," .orrr[** datos L1' EI caché
están contando el B KB áe caché de
caché L1 es mucho más pequeño, ya que sólo cuenta' por
de 150 KB y debe ser tomado en
á" .:á.*iO, ,urt.o a" pu'ntirr" a y c"i"ron CPU es
supuesto.
Derivación. (branching)
CPU
RA&l l!'lem!¡y
L- -1
conrolador estaría buscando sóio para las instrucciones JMP-corno. La soiución: el controlador de
mernoria caché de calga ambas condiciones en la memoria caché. Más tarde, cuando la CPU procesa Ia
instrucción de ramificación, simplemente descartar el que no fue elegidq Es mejor cargar el caché de
mernoria con datos innecesa¡ios que acceder directamente a la memoria RAM.
§FU
I :¿s n Éi3 i Ér1l :--¿:l+: r- üli L-' tr¿r}.lrI .l-fih:,
Ejc,Hlqcnio$:
Instrrccion€s de pnocesamient&
La unidd se ha podido reoperar está a cargo & ló imruccimes & carga & la memoria. En primer
luguq se verá si la instuccioil rcqrerida por k CPU se encrr€nta en la caché de instrucciones L 1. Si no
Io es, se va a la memoia caché L2. Si la insuucrion es también no existe, entonces tiene que cargar
direoamente&sde la memoria RAM &I sistema lento.
Al encender la computadora, todos los cachés están vacías, po. ,rp,l"rto, pero a medida que el sistema
empieza a cargiü eI sistema operativo, la CPU comienza a procesar las primeras instrucciones cargados
desde el disco duro, y el connoiador de rnemoria caché empieza a ca-rgar las memorias caché; y eI
espectáculo comienza-
Después de que la unidad ha podido recuperar agarró la instrucción requeriria por la CPU a procesar, lo
envÍa a la r¡nidad de decodificación.
La unidad de ejecutar flnalmente ejecutar la instrucción. En ias CPUs modemas se encuentra más de
una unidad de ejecucióq que trabajan en paralelo. Esto se hace con el fin de aumentar el rendimiento
del procesador. Por ejemplo, una CPU con seis unidades de ejecución puede ejecutar seis instrucciones
üs
h
J
en paralelo, por lo que, en teorÍ4 se podría lograr el mismo rendimiento
de los seis procesadores con
sólo una unidad de ejecución. Este tipo de u.q.rit".t ru se llarna arquitectura
superescalar.
PorIo general, los CPU modernos no tienen va¡ias unidades de ejecución idénticas; que
tienen
unidades de ejecución especializados en un tipo de instrucciones. el me¡or
ejernplo es la FpU, Float
unidad de com4 que es el encaryado de ejecutar instrucciones matemáticur
áo-pt"¡*- pá. u;;;,
entre la unidad de decodificación y la unidad de ejecución hay una unidad (llarnada
expedición o
unidad de programación) el encargado de enüar la instrucción de la unidad
de ejecución comecta, es
deci¡ si la instrucción es una instrucción de matemáücas lo enviará a la FpU y ,o . una
unidad de
ejecución "genérico"- Por cierto, las unidades de ejecución "genéricas" se llarnan
ALU, aritrnéüca y la
unidad lógica.
Finalmente, cuando el procesarniento es más, el resultado se envía a la memoria caché
de datos Ll.
Continuando con nuestro complernento a + b ejemplo, el resultado sería enviado a
la caché de datos L1.
Este resultado puede ser enviado de regreso a la mernoria RAM o en otro lugar, ya
que la tarjeta de
vídeo, por ejemplo- Pero esto dependerá de la siguiente instrucción que va r[,ri"nt"-6u
siguilnte
instrucción podría ser "imprirnir el resultado en la pantalla") para ser procesado.
Otra característica interesante que todos los microprocesadores tienen desde hace mucho
tiempo se
llama "pipeline", que es la capacidad de tener varias instrucciones diferentes en diferentes
etapas de la
CPU al misrno tiempo-
Después de que la unidad se ha podido recuperar la instrucción enviada a la unidad
de decodificación,
que va a estar inactivo, ¿verdad? Así que,
¿qué tai vez de no hacer nada, poner la unidad de captación
aI agarrar la siguiente inst¡ucción? cuando la prirnera instrucción va a la unidad
de ejecución, la unidad
se ha podido recuperar puede enviar la segunda instrucción a la unidad
de decodificación y agarrar la
tercera instn¡cción, y así sucesivamente.
En una CPU moderna con una tubería de 11 etapas (etapa es otro nombre para
cada unidad de la CpU),
es probable que tenga 11 insnr¡cciones en su Ínterior, al mismo tíernpo,
casi todo el tiempo. De hecho,
ya que todas las CPU modernas tienen una arquitectura superesealar, el
número de inst¡ucciones de
forrna simultánea dentro de la CpU será aún mayor.
Adernás, para una hrbeúa cPU 11-etapa, u-na initrucción a ejecutar plenarnente
tendrá que pasar a
través de 11 unidades. cuanto mayor sea el número de etapas, *uyoi es
el tiempo de una instrucción
retrasará para ser cornpletamente ejecutada. Por otra parte, tener en
cuenta que debido a este concepto
de varias instrucciones se pueden ejecutar dentro ae li cpu al rnismo
tiernpo. La primera instrucción
cargada por la cPU puede demorar 11 pasos para salir de ella, pero una
vez que se apaga, Ia segunda
instrucción va a salir justodespués de que (y no otros 11 pasos más adelantei
Hay varios otros tlucos utilizafl65 por los cPU modernos para aumentar
el rendimiento. vamos a
explicar dos de ellos, fuera de Ia orden de ejecución (ooó1 y la ejecución
especulaüva.
Recuerde que nos dice que las cPU modernas tienen varias unidades
de ejecución que trabajan en
paralelo? Tarnbién dijirnos que hay diferentes tipos de unidades
de e¡ecudón, .o*o luALU, que es una
unidad de ejecución ge1é¡co, y FPU, que es uná unidad de ejecución de
rnatemáticas. AsÍ corno un
ejemplo genérico con el fin de entender el problema, varnos á decir que una
CpU dado tiene seis
motores de ejecución, cuatro "genéricas" y dos FPU. Digamos también que
el programa üene el
siguiente flujc de inst:.lccicces ell uc mcmento dado:
f . instrucciones genéricas
2. instrucciones genéricas
3. La instrucción genérica
4. instrucciones genéricas
f\--
5. instrucciones genéricas
6. instrucciones genéricas
7. instrucción de matemáticas
B. insrmcciones genéúcas
f.instrucciones genéricas
10. instrucción de matemáticas
¿Lo que sucederá? La unidad de programación / expedición enviará las primeras cuatro instucciones a
los cuatro ALU pero luego, en la quinta instrucción, la CPU tendrá que esperír a que uno de sus ALU
serlibre con el fin de continuarel proceso, ya que todos sus cuatro unidades de ejecución genéricos
están ocupados. Eso no es bueno, porque todavía tenemos dos unidades de matemáticas (FPU)
disponibles, y ellos están ociosos. Por lo tanto, una CPU con ejecución fuera de orden (todas las CPU
modernas tienen esta caracterÍstica) se verá en la siguiente instrucción para ver si se puede enviar a una
de las unidades inactivas. En nuestro ejempio, no puede, porque la sexta instrucción también necesita
una AIU para ser procesado. El motor fuera de orden continúa su búsqueda y se entera de que el
sépümo instrucción es una instmcción de matemáticas que se puede ejecutar en una de ias FPU
disponible- Desde la otra FPU seguirá estando disponible, se vaya por el programa en busca de otra
instrucción de matemáticas. En nuestro ejemplo, pasará las ocho y las instrucciones noveno y ei décimo
se carga la instrucción.
Por lo tanto, en nuestro ejemplo, las unidades de ejecución será de proceso, al mismo tiempo, la
primera, la segunda, la tercera, la cuarta, la séptima y la décima instrucciones-
El nombre fuera de orden viene del hecho de que la CPU no es necesario esperar; se puede tirar de una
instn¡cción de la parte inferior del programa y procesarla a[tes de que las instrucciones anteriores que
se procesan. Por supuesto, el motor fuera de orden uo puede ir siempre en busca de una instrucción si
no puede encontrar uno. El motor fuera de orden de todas las CPU tiene un [mite de prcfundidad en la
que se puede rasüear en busca de instrucciones (un valor típico seúa 512).
EJECUCION ESPECULAIIVA.
i
Supongamos que una de estas instrucciones genéricas es una bifurcación condicjonal. ¿Qué va a hacer
el motor para fuera de? Si la CPU irnplementa una función denominada ejecución especulativa (todas
las CPU modernas lo hacen), se ejecutará ambas r¿rmas. Considere el siguiente ejernplo:
f . instrucciones genéricas
2. instmcciones genéricas
3. si a = <b ir a la instrucción l-5
4. instrucciones genéricas
5. insnr¡cciones genéricas
6- instmcciones genéricas
7- instlr¡cción de matemáticas
B. instrucciones genéricas
f . instrucciones genéricas
10. instrucción de matemáücas
ér*do el motor fuera de orden análisis de este programa, que se tire de instrucciones 15 en una de las
FPU, va que necesitará uno de matemáticas para llenar una de las FPU que de otro modo sería ocioso.
Así que en un momento dado podríamos tener dos ramas que se está procesando aI mismo tiempo. Si
cuando la CPU terrnina ile procesar la tercera instrucción a es rnayor que b, ta CPU sencilla descartar el
procesamiento de la instrucción 15. Usted puede pensar que esto es una pérdida de tiempo, pero en
realidad no lo es. No cuesta nada a la CPU para ejecutar esa instrucción particular, debido a que la FPU
seúa de om modo inactivo de todos modm. Por ot¡o lado, si a = <b la CPU tend¡á un aumento de
rendimiento, ya que cuando la instrucción 3 pide instmcción 15 será ya procesados, ir directamente a la
instrucción de 16 o induso más, si la instr¡¡cción 16 también ha sido ya procesado por el motor fuera de
orden-
Por supuesto, todo lo que se explica en este tutodal es una simpliñcación durante el fin de hacer de este
terna muy técnico más fácil de entender. (Lea el interior Pentium 4 Arquitectura con el fin de estudiar la
arquitectura de un procesador especíüco).
introducción.
En este tutorial varnos a explicar cómo Pentium 4 obras en un fácil seguir el lenguaje- Usted aprenderá
exactamente cómo funciona su arquitectura por lo que será capaz de comparar de manera más precisa a
los procesadores anteriores de Intel y los competidores de AMD.
Pentium 4 y Celeron nueva arquitectura de procesadores utilizan séptima generación de Intel, también
llamado de Netburst. Su aspecto general se puede ver en ia figura 1. No se asuste- Vamos a explicar
profundamente 1o que este diagrama se trata.
ton el fin de continuar, sin ernbaryo, es necesario haber leído "Cómo funciona una CPU" -Ther
explicar los conceptos básicos acerca de cómo funciona una CPU. En el presente tutoúal asumimos que
yaha leído, así que si no Io hizo, por favor tome un rnornento para leer antes de continuar, de lo
contrario usted puede encoiltra-rse un poco perüdo.
Aquí están las diferencias básicas entre el Pentium 4 arquitectura y la arquitectura de otras CPUs:
. Externamente, Pentium 4 transferencias cuatro datos por cido de reloj. Esta técnica se llarna QDR
(Quad Data Rate) y hace que el bus local para tener un rendiiniento cuatro veces su tasa de reloj real,
véase la tabla siguiente. En la figura 1 se muest¡a en este "System Interface 3-2 GB I s"; ya que esta
¡:-.- - -:.:--- -^ --^l--^- -! n;-^r f)o-ti¡rm zl &.o
:r n¡rocfa .ii lilrortrj
on Juci i3u, <o
r! mancinná pl hrrc dpl
LiiciljubiüVCi 5t ---.--¡-
PiUL¡ULC LUdliuU Cl Pl¡¡irct i qiia¡úiii iur P---LU ii:li¡Lilri:i
sistema "400 MHz".
-l
ReaI Clock Performance Tkansfer Rate
' El camino de datos entre la memoria caché de nivel 2 ( "caché L2 y control" en la Figura 1) y caché
de datos L1 ( "L1 D-caché y D-TLB" en la Figura 1) es de 25G bits de ancho. En los procesadlres
anteriores de Intel este camino de datos fue de sólo 64 bits- Así que esta comunicación puede
ser cuato
veces rnás rápido que los procesadores de generacions anteriores cua¡do se ejecuta
enel mismo reloj-
El camino de datos entre la memoÉa cacüé t2 ( "caché L2 y contrrol- en la Fijura 1) y la unidad de
solicitud previa ( "CEL & I-TLB' en la Figura 1), sin embargo, sigue sienfu de et bits de ancho-
' La caché de instmcciones L1 fue reubicda- En lugar & ser antes de qrre Ia midad & hisqueda, la
caché de instrucciones t,1 es ahora después de Ia unidadde decodiñcación, co¡ ¡n nuevo
nombre,
"Trace Cache"- Esta caché de rast¡eo puede contener hasta 12 K miooinst¡r¡cciones.
Dado que cada
rnicroinstrucción es 100 bits de ancho, la memoria caché de rastreo en de 1S0 KB (12
« x fóOfA¡. Uno
de los errores más comunes que se cometen al comenta¡ la arguitectura Pentium 4 está
diciendo que
Pentium 4 no tiene ninguna caché de instrucciones en absoluto. Eso no es absolutamente
cierto- Es allí,
pero con un nombre diferente y una ubicación diferente.
' En Pentium 4 hay 128 registros internos, en los procesadores de Intel 6u generación (copo el pentiu¡n
II y Pentium III) sólo había 40 registros internos. Estos registros están en la Unidad de renombrado de
registros (RAT alias, el regisno de alias de la tabla, se muestra como "Cambiar nombre
/ Alloc,, en la
Figura 1).
'Pentium 4 cuenta con cinco unidades de ejecución que trabajan en paralelo y dos unidades de cargay
almacenamiento de datos en la rnemoria RAM.
Por supuesto, esto e1-sólo- un resumen para los que ya tiene algún conocimiento sobre
la arguitectura de
otros procesadores- Si todo esto parezca griego para usted, no se preocupe. vamos
a explicar todo lo
que necesita saber acerca de la arquitectura Pentium 4 en un lenglaje
fácil de segúr l". pigioo
siguientes. "rr
Pentium 4 Pipeline
Pipeline es una lista de todas las etapas de una instmcción dada debe ir a 6avés con el
fin de dar cabal
ejecución- En los procesadores Intel 6" generación, como el Pentium III, su lÍnea tenía
11 etapas.
Pentium 4 tiene 20 etapas! A9í, en un procesador Pentium 4 una instrucción dada lleva
mucho más
tiempo para ser ejecutado p continuación, en un Pentiurn III, por ejemplo! Si usted toma los
nuevos
procesadores Pentium 4 de generación de g0 nm, con nombre en codigo "prescott",
el caso es aún peor,
6t
-^!*l
h
ya que utiliziluna tub€úa de 31 etapa! ¡Santo cielo!
Értó t" hizo con el fin de aurrenta.r la vetocidad de reloj &l procesdor- AI tener más etapas cada etapa
individual se puede construir usando rn menor númem de uansistores- Con tm menor núrnero de
tra¡lsistores es más fácil de conseguirvelocidafu de reloj más altc- De hecho, el Pentium 4 sólo es
más rápido que el Pentium IIt, ya que funciona aunavdocidad de rdoj más alta. Bajo la misrna
vetociáad dáreloj, una CPU Pentium III sería más nápi& $E un Pentium d 6ido al tamaño de la
tubería.
Debido a eso, lntel ya ha anunciado que sus procesadores de la generriónde Sgutilizarán la
arquitectura Pentium M, que se basa en la arquitectum de 6'generación de Intel (Pentium III
arquitectura) y no en la de Netburst (Pentium 4) arquitectura-
Eilu fig,rru'i se puede ver pentium 4 ducto 20 etapas. Hasta el momento no lo hizo Intel tubeúa 31
etapas divulgación de Prescott, por lo que no se puede hablar de ello.
He aquÍ una explicación básica de cada etapa,lo que explica cómo una instrucción dada es prEtsada
por lás p.o.urudor"s Pentium 4. Si usted piensa que esto es demasiado complejo pam ustd' no se
p..o.,.[.. Esto es sólo un resumen de lo que estaremos explicando en las páginas siguimtes-
. TC Nxt IP: Traza caché puntero siguiente instrucción- Esta etapa se ve en tampón objeto de
bifurcación (BTB) para la siguiente microinstrucción a ser ejecutado' Esta etapa tiene dos etqas.
. TC Fetch: Traza caché obtención de información. Cargas, desde la caché de rastreo, este
microinstrucción. Esta etapa tiene dos eiaPas-
. Drive: Envía la microinsirucción a ser procesados para el asignador de recursos y renombrado de
regisüos circuito.
. Á1o., Asignar. Los cheques que serán necesarios recurcos de la CPU por la microinstrucción - por
.-C"*biur nornbre: Si el programa utiliza uno de los ocho xB6 estándar registra será renombrado en uno
delos 128 registros internos presentes enlos procesadores Pentiu¡n 4-Esta etapa üene dos etapas-
. eue: Cola. Las microinstrucciones se ponen en colas en consecuencia a sus tipos (por ejemplo,
número entero o de coma flotante). Se llevan a cabo en la cola hasta que hay una ranura abierta del
mismo tipo en el planificador.
. Sch: Prograrnación- Microinstrucciones están programados para ser ejecutados de acuerdo a su tÍpo
(núrnero .ot.ro, punto flotante, etc). Antes de llegar a esta etapa, todas ias instrucciones están en orden,
es decir, en el mismo orden en que aparecen en e[ programa. En esta etaPa, el p]anificador reordena las
instrucciones con el fin de mantener todas las unidades de ejecución completa. Por ejemplo, si hay una
unidad de coma flotante que va a estar disponible, el programador busque una instrucción de punto
flotante para enviarlo a esta unidad, incluso si Ia siguiente instrucción en el prograrna es un número
entero uno. El planificador es el corazón del motor fuera de fin de procesadores Intel 7" generación.
Esta etapa tiene tres etapas.
. Disp: bespacho. Envía los microinstrucciones a sus motores de ejecución correspondientes. Esta
etapa üene dos etaPas.
. dF: banco de reglstros. Los registros internos, almacenados en Ia piscina instn¡cciones, se leen- Esta
etapa tiene dos etapas.
. Ejemplo: Ejecutar. Microinstrucciones se ejecutan-
. FLGS: Flags. Las banderas de microprocesadores se actualizan.
. Br Ck: Rama de verificación- Cornprueba si la rarna tornada por el programa es el mismo predicho
por el circuito de predicción de saltos.
4
' Drive: Envía los resultados de esta comprobación en el búfer de destino del salto
entrada del procesador. (BTB) presente en la
68
I
Pentium 4 decodificador puede decodificar una instrucción xB6 por ciclo de reloj, el tiempo que la
instmcción decodifica en hasta cuatro rniaoinstrucciones. Si la instruccióu xB6 ser decodificado es
compleja y se traduce en más de cuatro rnicroinstmcciones, que se enca-mina a una memoria ROM
( "ROM de microcódigo" en la Figura 3) que tiene una lista de tdas las instmcciones cornplejas y
cómo deben ser traducido. Esta memoria ROM también se llama MIS (Instnrcción microcódigo
secuenciador).
Como üjimos anteriormente, después de haber sido microinstn¡cciones &codificados son enviados a la
memoria caché de rastreo, y de allí van a una cola de microinsor¡cciones- El caché de mstreo puede
poner hasta tres microinstrucciones en la cola por cido de retoj, sin embargo, Intel no le dice a la
profundidad (tamaño) de esta cola.
Apartir de üí, las instrucciones que van aI asignador y el Registro Renamer- La cola tarrbién puede
entregar hasta tres microinstrucciones por cido de reloj para el asignador.
Como hemos üsto, el Pentium 4 tiene cuatro puertos de despacho numeradas del 0 al 3. Cada puerto
está conectado a uno, dos o tres unidades de ejecución, como se puede ver en la figura 6.
Figura 6: Despacho y ejecución de unidades'
dos instrucciones por ciclo de reloj micro' Los
Las unidades marcadas como "x2 relo¡" puád"n "¡u*t*
pueúos 0 y 1- pueden enviar dos instrucciones poi ciclo de reloj
micro a estas unidades' Por lo que el
por cido de reloj es de seis:
número máximo de microinstrucciones q,ru pr"du ser enviado
. Dos microinstrucciones en el puerto 0;
. Dos microinstrucciones en el puerto 1;
. Una microinstrucción en el puerto 2;
. Una microinstrucción en el puerto 3'
tardar varios ciclos de retoj para ser procesada-
Tenga en cuenta que las instrucciones complejas puedln
Ia unidad de coma flotante completa' Mientras
Tomemos un e¡emplo á. pu.no 1, donde t" uo.,r"otta
que requiere varios ciclos de reloj para
que esta unidad está procesando ,nainstrucción muy comp§o
detendrá: mantendrá eI envío de instrucciones
ser ejecutado, el puerto 1 unidad de despacho no se
que el FPU está ocupado'
sencillas para la ALU (unidad aritmétici y lógica), mientras
en realidad, la CPU puede tener
Así, pese a que la trru á" envío máxima es de seis microinstrucciones,
tiempo'
hastá siete microinstrucciones que se proces¿rn al mismo
una unidad de ejecución adjunta' Si se
En realidad, es por eso que los puertos 0 y 1 tienen má1 d5
rápida junto con al menos un complejo (y
presta atención, Intel puso en el mismo_ píerto una unidad
ocupadaprocesando datos' la ofa unidad
lenta) unidad- Así, mientras que la unidad compleio está
puerto de despacho correspondiente' Como
puede seguir recibiendo rnicroinstlr¡cciones a"iae su
de ejecución ocupadas todo el tiempo'
mencionamos antes, la idea es mantener todm las uniáades
por cido de reloi' Las otras
La Alu dos dobles velocidad puede procesar dos microinstrucciones
procesa¡ las rnicroinstrucciones que reciben' Por
r¡nidades necesitan po, to *urá, ,o ádo de reloj para
sirnples'
Io tanto, la arquitectura Pentium 4 está optimizado para las instrucciones
2 y 3 están dedicados a las operaciones de
como se puede ver en la Figura 6, los puertos de despacho
datos en la mernoria)'
memoria: carga (leer datos áe Ia memoria) y almacenar{escribir
h memori* interesante observar que el puerto 0
respectivamente. Encuani" ;1" operaciói áe es
la Figura 5 y la lista-de operaciones en Ia
también se utiliza durante las operacioo", d" almacén (véase
para enviar la dirección de memoria'
d;" 6). En esre dto¿e opu.áoo.r, el puerto 3 se ut¡llz.a
almacenados en esta dirección' Estos datos
rnientras que el puerto 0 se utiliza para enviar los datos a ser
dei tipo de datos a almacenar (entero o de
se puede generar ya sea por Ia ALU o la rpu, dependiendo
coma flotante / SSE)-
de cada unidad de ejecución
En Ia Figura 6 que tíene una lista completa de los tipos de instrucciones
dirección áfectiva) son dos instrucciones xB6' En realidad
la
rmra. FXCH y LEA (Carga *para
una gran
implementudón d. Intel la instrucción fkCg en los procesadores Pentium 4 causó
de Ia generación anterior (Pentium III) y
sorpresa pam todos los expeños, ya que en los procesadores que en
AMDesta instrucción pr"d" ser ejecutada aI ciclo de reloj a cero, mientas
lo, pro."s.dores de
ejecutados'
los procesadores.Pentium 4 que lleva algún ciclos de reloj para ser
Chipsets
Introduction
son sus funciones? ¿cuái es su importancia?
Después de todo, lo que es un coniunto de chips? ¿cuáles
del uquipáf En este tutorial vamos a responder a tdas estas
¿Cuiil es su influencii en el rendimiento
preguntas Y más. ,
\ que
_-_^ ^^ -.-:r:-^ en una placa base'
se utiliza
chipset es el nombre dado al conjunto de chips (de ahí su lombre)
discretos' Así que *-o1t:" de-fichas se
En los primeros PC, la placa base utitizu cir.ritos integrados Y
necesita para crear todos los circuitos necesarios p-u
hr.", funcionar el equipo' En la figura 1 se puede
ver una placa base de un PC XT'
F
I
North Bridge
El chip puente norte, también [amada MCH (concenaador controlador de memoria) es conectar
directarnente a la CPU y tiene básicamente las siguientes funciones:
. Controlador de memoria (*)
'AGP controlador de bus (si está disponible)
. conrolador x16 PCI Express (si está disponible)
. lnterfaz para la transferencia de datos con eI puente sur
(*) Excepto para el socket 754, socket 939 y el zócalo 940 CPU (CPU de AMD Athlon como 64),
poique en estas CPU &l controlador & remoria se errcuetrtra en la propia CPU, no en el puente norte.
Algunos chips de conexión norte también controla caniles PCI Erpress x1. En otros conjuntos de chips
PCI Express es el puente suL que controla lc caniles PCI Express x1. En nuesüas explicaciones
asumiremos que d puente sur es el componente encargado de controlar los carriles PCI Express x1,
pero ten en cl¡erta qu€ esto pue& variar en conseürencia al modelochipset.
En la figura 3 se puede ver un diagrama que explica el papel del puente del norte en eI ordenador.
I r:{:d f:J:,;f.'i[i:
70
Como hemos mencionado, en las CPU Athlon 64 el contolador de memoria está integrada
en la CpU y
por€so cai no hay diferencia de rendimiento enre las placas base pam esta plataforma.
Dado que el controlador de memoria se encuenüa en efuuente norte, este chi-p es gue limita
los tipos y
la canüdad máxima de rnemoria que puede terer en Duesüo sistema (eI Athlon 64 es el
CpU que
es*{ece estos límites).
La cmexión entre el puente norte y al sur del puente se realiza a Eavés & un bus. AI principio se
qrró el bus PCI, pero más tarde fue sustituido porun bus dedficado. vamos a explicar más sobre esto
más adelante, Ya que el tipo de bus que se utiliza en esta conexión puede afectar aI rendimiento
del
egipo-
Souú Bridge
El chip puente sur, también llamado ICH ( puerto controlador de E/S ) se conecta al puente norte y se
encarya básicamente de controlar los dispositivos de E / S y los dispositivos de a bordo, como:
' Los puertos de la unidad de disco duro (puertos ArA serie y paralelo)
. puertos USB
. EI audio de a bordo (*)
. Red local (**)
. bus PCI
. carriles PCI Express (si está disponible)
. reloj de üempo real (RTC)
. La memoria CMOS
' Los dispositivos heredados como controlador de intemrpciones y controlador de DMA
(*) Si el puente sur tiene un built-in controlador de audio, necesitará un chip externo llamado códec
(abreviatura de codificador / decodificador) para operar.
(**)Si el puente sur tiene un controlador de red incorporada, necesitará un chip externo llamado pHy
(abreviatura de física) para operar- ..
El puente sur también está conectado a otros dos chips disponibles en la placa base: el chip RoM, rnás
conocido como BIOS, y el chip de E / S de Super I, que es eI encargado áe controlar los dispositivos
heredados como los puertos serie, puerto pararero y unidad de disquete .
En la Figura 4 se puede ver un diagrama que explica el papel del puente sur en el ordenador.
Tq '{¡ft fr Jrrr
*,;=|*
*.i-r-!-' F-¡-: d.Ju- t¡-:
[-i1r,+._na.iiriffiir [q$ii{#i
l+-r:;i;ri ,'!--J
|;.:,.!qr,
IJ
;''
-, i
ffi"effi
-5Lr,' i+r,,'
I f--------t'
l;n'.:¡¡l
l:I f:i l:i
@ ffiW*+[Éis*
ti¡ts.r!' Bl¡:,J. 9utsH Jit
i
puertos USB y e[ núrnero y tipo (ATAATA o
el puente sur, que establece el número (y velocidad) de los
Ia placa base' por ejemplo'
Seri¿ regular) de los fuertos de unldad"de disco duro que contiene
Inter-Bridge Architecture
entre"el puente norte y el
cuando el concepto de puente comenzó a ser utilizado, Ia comunicación
en la Figura 5' El problema de este
puente sur se llevó a.uüo u través de este bus, como se muestra
enfoque es que el ancho de banda disponible iara "l bus PCI
- 132 MB / s - será compartido entre todos
al puente sur - especialmente unidades
Ios üspositivos pcl en eI sistema y lás dirpoiiti.rosconectados
de disco duro. En ese momento, esto ,ro un problem* ya que los discos du¡os tasas de transferencia
"ri
máximas fueron de B MB / s Y 16 MB / s'
ffi
:Heifi Bidge
ffi -=;$.-i).tr.^
+:F4,iEbÉr'
{-r_
ffiÉoutli EiidgE:
el bus PCI"
Figura 5: La comunicación entre el norte y el sur puentes utilizando
de gama alta (en ese momento' Ias
Sin embargo, cuando se pusieron en ma¡cha las tarjetas de vídeo
rendimiento, surgió una situación de
tarjetas de vÍdeo eran eil¡ y ias unidades de disco duro de alto
modernas, que tienen la misrna
cuello de botella. Aasta pénsar en / 133 unidades de disco duro ATA
tasa de Eansferencia máxima teórica como el bus PCII Por
lo tanto, en teoría, un disco duro ATA/ 133
comunicación de todos los
sería,'mata¡,' y todo ei ancho de banda, lo que frena la velocidad de
dispositivos conectados al bus PCI.
de un nuevo bus conectado
Pala las tarjetas de üdeo de gama alta, la solución fue la creación
Graphics Port)'
directamente al ptrente del nárte, llamado AGP (Accelerated
a utilizar un Duevo enfoque:
La solución final se proár¡o .r*ao los fabricantes de chipset empezaron
puentes y conectar los dispositivos de
e[ uso de un bus de alta velocidad dedicada enfte el oort. y el sur
bus PCI al puente sur-
r
fgrkt.4r 2¡ i
t,
\
F /
Si desea conocer ios detalles de un conjunto de chips dado, sólo tiene que ir ala página rveb del
flabricante del chipset ..
Como ultimo comentario, usted puede preguntarse lo que es "disposiüvos PCI de a bordo" que
aParecen en las figuras 5 y 6. Los üspositivos de a bordo tales como LAN y audio puede ser controlado
por el chipset (puente sur) o por un chip controlador adicional- Cuando se utiliza este segundo enfoque,
este chip controlador está conectado al bus PCI-
Si alguna vez has tomado el caso fuera de una computadora, usted ha visto la una sola pieza de equipo
que une todo - la placa base- Una placa base permite que todas las partes de su computadora para
recibir el poder, se comunican entre sí.
Placas base han recorrido un largo camino en los úItimos veinte años. Las primeras placas llevan a cabo
rnuy pocos cornponentes reales. La primera placa base del PC IBM tenía sólo un procesador y ranuras
para tarjetas. Usuarios conectados componentes como controladores de r¡nidad de disco y de mernoria
en las ranuras. Hoy en día, las placas base típicamente cuentan con una amplia variedad de funciones
integradas, y que afectan directamente a las capacidades y el potencial de una computadora para
actualizaciones.
En este artículo, vamos a ver los componentes generales de una placa base. A con'inuación, vamos a
examinar de cerca de cinco puntos que afectan dramáücamente Io que un ordenador puede hacer.
Factor de forma
Una placa base por sí mismo no sirve para nada, pero un eqúpo tiene que tener uno para operar" El
kabajo principal de la placa base es mantener chip microprocesador. del ordenador y dejar todo Io
demás conectarse a ella. Todo lo que permite que la computadora o mejora su rendimiento es ya sea
parte de la placa base o se conecta a ella a través de una ranura o puerto.
w
r
r
Mucha gente piensa en la CPU como una de las partes más importantes de Bna computadora- Vamos a
ver cómo afecta al resto del equipo en la siguiente sección.
La CPU es Ia primera cosa que viene a la mente cuando muchas personas piensan acerca de la
velocidad y eI rendimiento de un ordenador. Cuanto rnás rápido sea el procesador, más rápido que la
computadora puede pensar. En los primeros días de las computadoras PC, todos los procesadores tenían
el mismo conjunto de pasadores que conectaría la CPU a la placa base, Ilamado el Pin GridArray
(PGA). Estos pines encajan en un diseño llamado zócalo Socket 7. Esto significaba que cualquier
procesador encajaría en cualquier placa base.
Socket 939 ZÉF
Ho¡ sin embargo, los fabricantes de CPU Intel y AMD uülizan una variedad de pGA,
ninguno de-los
cuales encajan en Socket 7. A medida que avance rnicroprocesadores, que necesitan
más y más pines,
tanto para manejar nuevas funciones y para ofrecer más y más energía al chip.
dispositivos de enchufe hemb¡a ach¡ales a rnenudo se denominrn u-ri por el nú.n"ro
de pines en el pGA.
enchufes utilizados son: t -
Socket 478 - para procesadores pentium y Celeron de más edad
socket 754 - paraAMD sempron y algunos procesadores AMD Athlon
socket 939 - para procesadores más rnodernos y veloces AMDAthlon l
El northbridge y southbridge
Pet Et¡s
ATAEUS
e 2O§5f*jiirstrÉiw¿rE
velocidad del bus por lo general se refiere a la velocidad del bus frontal (FSB),
que conecta Ia Cpu con
el puente norte. velocidades de FSB pueden variar desde 66 MHz a rnás de gOO
üFIr. ó"d-;;'r;i"b;
alcanza el controlador de memoria aunque el puente norte, velocidad
de FSB puede afectar
d¡ásticamente el renümiento de una computadora-
Éstos son algunos de los otros buses que se encuentran en una placa base:
El bus trasero conecta la
CPU con Ia memoria caché de nivel 2(Lz),también conocido corno caché
secundario o externo. El
procesador determina la velocidad del bus Easero. El bus de
memoria conecta el puente norte a la
rnemoria' El IDE o bus ATA conecta el puente sur a las unidades de üsco.
El bus AGp se conecta la
tarieta de vídeo a la memoria y la CPU. La velocidad del bus AGp es generalmente
de 66 MHz. EI bus
rsrlYraq PCI para el puente sur. En la mayoría de los sisremas, la velocidad
ISI :-t-"tga del bus pcl es
33 MHz' Thmbién es cornpatible con PCI PCI B<press, que es mucho
más rápido que el pcl pero sigue
siendo compatible con software y sistemas operativos acnrales. pcl
Expres.ls p.Áaule que cambiar
Ios dos buses PCI yAGp.
La velocidad del bus de un equipo más rápido, más rápido se operará - a un punio.
Una velocidad de
bus rápido no puede compensar por *n prócesador lento o conjunto de
chips.
El chip puente notte, también llamada MCH (concentrador controlador de rnernoria), es conectar
directarnente a Ia cPU y tiene básicamente las siguientes funciones:
. Controlador de memorii está disponible)
1si
. conrolador PCI Express (si está disponible)
i
i
i
I
I
t
I
. AGP controlador de
bus (si está disponible)
. Interfaz para la transferencia
de datos .oo ál chip puente sur
cPU Intel achlales tienen un controlador de_ *.rnoáu integrado
y un controlador integrado pcl
Express, lo que significa que estos procesadores
tienen ñ*t inregrado puente del norte; por lo tanto,
no requieren este chip en la placa base- ver Figura 3.
cPUs ¿áa¡,rr» flene un controlador de memoria
integrado, pero no tienen un controlador integiado
PCI Express. Debido a que, cpus de AMD todavía
reqüeren un chip de puente norte externo con este componente.
AMD dice'que sus procesadores tienen
un "puente norte integrado," pero Io que la empresa..alment"
quiere decir es que Ias cpu tienen un
conüolador de memoria integrado- Eito crea mucha confusión.
varios usuarios no enüenden por qué
las placas base para procesadores AMD tienen un chip puente
norte si el fabricante de la Cpu dice que
la CPU tiene un chip integrado puente norte.
Processor {CPUi
PCI Express
Video Card x16 ivlemory Bus RAM rnemory
South Bridge
HyperTransport bus
triorth Brldge
AGP or
PGI Express
Video Card
x16
To South Bridge
AGP or
Video card PCI Express Memory Bus RA&4 memory
x16
To Sor-rth Bridge
Figura 5: Puente Norte con las CPU sin un controlador de memoria integrado
El controlador PCI Express integrado en eI chip puente norte o en la CPU puede proporcionar va¡ios
carriles. La configuración más común es que empiecen a brindar 16 carriles, lo que permite que la
tarjeta madre tiene una ranura PCI Lxpress x16 o dos ranuras PCI Express x16, cada uno trabajando en
xB. Adicionales carriles PCI Express necesarios para conectar las otras ranuras y dispositivos
disponibles en la piaca base son proporcionados por el chip puente sur. Los controladores de alta gama
PCI Express suelen proporcionar más de 16 carriles, permitiendo que el fabricante de la placa o bien
proporcionar más ranuras PCI Express x16 para tarjetas de vídeo o perrniür la conexión de otros
dispositivos y ranuras directamente al chip puente norte o CpU.
La conexión entre el puente norte y el puente sur se logra a üavés de un bus. Iniciahnente, se utilizó eI
bus PCI, pero más tarde fue sustituido por un bus dedicado. Vamos a explicar más sobre esto rnás
adelante
El chip puente sur, también llamado ICH (O Eje I i Controller) o PCH (Hub Plataforma Controller) se
conecta aI puente norte (o Ia CP{,I, en el caso de la actual CPU Intel) y está a caryo iiei controi de L / b
aparatos y dispositivos de a bordo, tales corno:
. Los puertos de alrnacenamiento (puertos Af}\ serie y paralelo)
. puertos USB
El audio de a bordo (*)
Red local (**)
. bus PCI (si está disponible)
. carriles PCI Express (si está disponible)
. reloj de tiempo real (RIC)
. La memoria CMOS
. Los dispositivos heredados, como el controlador de intemrpciones y controlador de DI\[A
. ranuras IsAenvieias Placas base
(*) Si el puente sur tiená un controlador integrado de audio, necesitará un chip externo denomina códec
iaio"irt*a de codificador / decodificador) para operar- Lea nuesüo tutorial "Cómo Sonido integrado
trVorks" para obtener más información. Algunas placas base de gama alta utilizan un controlador de
audio externa, que está conectado con el chip puente sur a través de un camil PCI Express xL-
(**) Si eI puente sur tiene incorporado un controlador de red, necesitará un chip externo llamado un
ipÉy" (abreviatura de "fisica"fpara operar. La mayorÍa de las placas base utilizan un controlador de
red extema conectada al chip puente sur a üavés de un carril PCi Express xl.
Otros dispositivos integrados de Ia placa base puede tener, tales como USB adicional, SATAy
controladores de red, estarán conectados al chip puente sur a través de carriles individuales PCI
E:rpress x1. (En algunas placas base estos dispositivos pueden estar conectados al chip puente nofte en
.u,,bio, si el contróladoipCt Express integrado en el chip puente norte tiene un montón de carriles PCI
Express).
61 p,r"oÍ" sur también está conectado a otros dos chips disponible en la placa: ei chip de ROM, también
.ooo.ido como el chip de la BIOS (BIOS es uno de los programas escritos dentro de este chip), y el
chip de E / S Super I, que está a caryo de controlar los disposiüvos heredados como los puertos serie,
pltertos paralelos, unidades de disquete y puertos PS / 2 para tedado y ratón.
En la Figura 6, se puede ver un diagrama que explica el papel del puente sur en el ordenador'
+
@ffi@ffi
T+
{+9
ffiffiffi
ffi ffiffiffi
Battery BIOS Super l/O
Cuando se comenzó a utiliza¡ el concepto de puente, el puente de comunicación enüe el norte y eI sur
del puente se realiza a través del bus PCI, como se muesfta en la Figura 7- EI problema con este
enfoque es que el ancho de banda disponible para e[ bus PCI (132 MB / s ) será compartido entre todos
Ios dispositivos PCI dei sistema y todos los dispositivos conectados aI puente sur, especialmente de
unidades de disco duro.
Norü Bridge
.! jr.:.r-:j:::11*iii\',:!
,r'.. ::-::::.:1i..¡:.:t
. .:
:'r{}n¿Efr
'. :-,1'-.-.¡.-l' ffi
South Bridge
r-
I
:
el uso de una conexión dedicada de alta velocidad entre el none y el sur puentes
y conectar los
dispositivos PCI en el puente sur. Esta es la arquitectura que se uüliza hoy en
día. tas ranuras pCI
estándar, si está disponible, se conectan al puente sur. carriles PCI Express pueden
estar disponibles
tanto en el chip puente norte y el chip puente sur. Por lo general, tos carrilei pcl
Express diiponibles
en el chip puente norte se utilizan para las tarjetas de vídáo, mientras que
los carriles disponitles en el
chip puente sur se utilizan para conectar las ranuras más lentas ya boráo de los
dispositivos, tales corno
USB adicional, SATA y controladores de red.
North Bridge
Dedicated Bus
South Bridge
Hemosesablecido qelavelocidad del propio procesador controla la rapidez con la que piensa un
orden&- Lavelocidad del chipset y autobuses controla la rapidez .o, qu. se puede comunicar con
ofas partes de la computadora- La velocidad de la conexión de RAM controla directamente la rapidez
cm latompffira puede acceder a las instrucciones y los datos, y por Io tanto tiene un gran efecto en
el rcndimiento del sistema. Un procesador rápido con memoriu nÁU lenta va a ninguna parte.
ta rar¡ti¿ad de memoria disponible también controla la cantidad de datos que el ord--enadór puede
ürylorer- RAM constituye la mayor parte de la memoria de un ordenador. ia regla general es la rnás
memoria RAM del ordenador tiene, mejor.
Gmn palte de la memoria disponible en la acrualidad es de doble velocidad de datos de la memoria
(DDR)- Esto significa que la memoria puede transmitir datos dos veces por ciclo en lugar de una vez,
lo
gue hace que la memoria más rápida. Además, la mayoría de placas base tienen espaciá para
mríltiples
chips de memoria, y en placas nuevas, que a menudo se conectan al puente norte a través de un bus
doble en lugar de un único bus. Esto reduce aún más la ca¡tidad de úempo que toma para que el
procesador para obtener información de la mernoria.
raruras de memoria de una placa base afectan directamente qué tipo y cuánta memoria es compatible-
Al igual que otros componentes, la memoria se conecta a ia rinura a través de una serie de pernos.
El
rnódulo de memoria debe tener el número correcto de los pernos para encajar en la ranura en la placa
ba-se-
\q
En los primeros días de Ias
tarjeta que enchufado en el
placas brr* pT[:ü'"m1ÍatiTTre no sea el procesador
bordo tares corno ut upoyo
Lut"to' ÁoL de vino en una
Jr.* l.l].r*on con una ..*i.¿"d de accesorios
r".
rint"*"r'"ia"o, ,op* ¿ul*r¿, y controladores RAID. de a
Ver más en
modeV2/#l L dru3GrkG3qHw3p. 99
Sandra Lite
'li
Sandra está disponible en va¡ias versiones; usted debe descargar e instalar la versión gratuita, llamada
"Lite".
Después de instalar Sandra, ejecutarlo, y haga dic en la pestaña "Hardlr¡a-re", En la pantalla que
aparecerá, haga doble dic en el icono de "placa base"-
Sandra tend¡iun minuto para recoger toda la información sobre su ordenador. En la siguiente pantalla
se mostrará, se puede encontrar fácilmente su fabricante de la placa en "Fabricante" y su modelo en
"modelo". Tome un üstazo ala figura 2, en la que identificamos nuestro modelo de placa base como
una placa base ASUS PSK-E.
8o
h-
ry
arilm¿ter Value
f fonrputer
,.§i:rurou.i P5K_8,
!Chassis
.,$ryp. De:lcep
@ Can be locked No
':$juer:ic. f-hassx Yersion
--::'_
'.'!¡ Pc$ií Lordi.tl 1
§ i,,larnbcard
'#: l,'lanufacturÉr Asus 4*w*
@ I'',luiti-Procer.,cr í|..{P.r Support No
''+llolulti'P, g {tulP5¡ Ver---inn 1.40
"."tsin
.,..sjl"lod.l p56-s
@"*
'!¡ ! ÍpE tl¡inbo¿rd q
§l'iets¡on P,Er,1.rq
§ hlzinbcard Properties
@ Renrorable fVc
I On-board De,.ice:
V'Cnbo¡rd Ethernet Ethemet Adapter {Enabled)
Mientras se desplaza a través de estas ventaras, se encuentra otra Ínformación útil sobre la placa base,
tales corno el número de tomas de mernoria que tiene, y estarán destinados queridos, así como el
modelo de chipset en que se basa la placa base. También puede encontrar ei número de serie del BIOS
que estábanlos hablando en "BIOS".
Hay dos versiones de AIDA64; usted debe descargar e instalar la versión Extreme Ediüon.
Después de instalarAIDA64, ejecutarlo, haga dic en la "placa base" disponible en Ia pantalla principal
y, a continuación, haga clic en el icono de "placa base" que se mosüará- En [a pantalla que se mosftará,
el fabrica¡te y el modeio de la placa base del ordenador se mostarán en la segunda linea, "Nombre de
la placa." Véase la figura 3- Como se puede ver, tuvimos una placa base ASUS PSK-E en nuestro
ordenador.
|=k+9
HwiNFO
HW1NFO está disponiblg en dos versiones, H\A¡iNFO32, que debe ser descargado si está utilizando un
sistema operativo de 32 bits, y HWiNFO64, que deben ser descargados si está utilizando un sistema
8t
L
operativo de 64 bits. En nuestro caso, hemos descaryado HWiNFO64-
Después de instalar la versión adecuada de HMNFO, ejecutarlo (tardará un rninuto para recoger toda
la información sobre el hardware de su computadora)- El prograrna mostrará automáticamente una
pantalla lla¡nada "Resumen del sistema", donde se mostrarán el fabricante y modelo de su placa base en
la columna de la derecha, baio "placa mad¡e". Véase la Fisura 4.
Sandy Bridge es el nornbre de la nueva microarquitectura Intel CPU está utilizando a partir de 2011. Es
una evolución de la microarquitectura Nehalem, que se introdujo por primera vez en el Core i7
-v
también se utiliza en el Core i3 y Core i5.
Si usted no sigue el mercado de CPU que de cerca, vamos a hacer un resumen rápido. Después de que
el Pentiurn 4, que estaba basado en la microarquitechrra generación 7" de Intel, llamada de Netburst,
Intel decidió volver a su rnicroarquitectura 6'generación (el mismo utilizado por el Pentium Pro, l
l
i
t
L
Pentium II y Pentium III, denominado P6), que resultó ser más eficiente. A pafiir de la CPU Pentium M
(que es una 6u generación Intet CPU), Intel ha desarrollado la arquitectura Core, que fue utilizado en la
serie de procesadores Core 2 (Core 2 Duo, Core 2 Quad, etc). Entonces, Intel consiguió esta
arquitectura, ajustado un poco más (la principal innovación fue la adición de un controlador de
rnernoria integrado), y se libera la microarquitectura Nehalem, que se utilizó en el Core i3, Core i5, y la
serie de procesadores Core i7. Y, de esta microarquitectura, Intel desarrolló la microarquitectura Sandy
Bridge, que fue utilizado por la nueva generación de procesadores,Core i3, Core i5, y Core i7 en 2011 y
2012.
Para entender mejor ei presente tutorial, le recomendamos que lea las siguientes tutoriales, en este
orden en particular:
. En el interior Pentium M Arquitectura
. Dentro de la microarquitectura Intel Core
. En el interior de [ntel Nehalem rnicroarquitectura
Las principales especificaciones para Ia microarquitectura Sandy Bridge se resumen a continuación.
!'amos a explicar con más detalle en las páginas siguientes.
. El puente noñe (controlador de memori4 conrolador de gráficos y el controiador PCI Express) está
integrado en eI mismo chip que el resto de la CPU. En las CPUs basados en Nehalern, el puente norte
se encuentra en un chip de silicio que se entrega junto con et chip de Ia CPU de silicio. De hect¡o, con
las CPUs basados en Nehalem de 32 nm el puente none se fabrica bajo proceso de 45 nm.
. En primer lugar los modelos utilizan un Proceso de fabricación de 32 nm
. Topología en anillo
. Nueva decodificado microinstrucciones caché (caché LQ capaz de almacenar 1-536
rnicroinstrucciones, lo que se traduce en más o Elenos a 6 kB)
. insrrucción de 32 kB L1 y caché de datos L1.32 KB por núdeo de CPU (no hay cambio de Nehalem)
. la rnernoria caché L2 fue renombrada como "caché de nivel medio' (tvtl-c) con 256 kB por núdeo de
CPU !.
la memoria caché L3 . Ahora se llama LLC (Última caché de nivel), no se unifica más, Y es compartida
por los núcleos de CPU y el motor gráfico
. La tecnologíaTurbo Boost de nueva generación
" El nuevo conjunto de instrucciones AVX (Advanced Vector Extensiones)
. Mejora del controlador de gráficos
conrrolador de memoria de doble canal DDR3. Rediseño de apoyo recuerdos hasta DDR3-1333
. El controlador integrado PCI Express x16 apoyar un carril o dos carriles xB (sin cambio desde
Nehalem)
. En primer lugar Ios modelos utilizan un nuevo socket 1155 con pasadores
Snndy §ri<lge: §s**rie¡*¡
i"F,r"1,ü,IJi
0t
Figura 1: Sandy Bridge Resumen rnicroarquitectura
- ::FD fi::l+;
FrPi
. l¡e Jslhrgt s
;¡:.!:,e:: ll¡:,
+itl: rf:i1 c:
:f,i!a f,ii:{t ::1
-: , H'i,er ,:Ei ¡!
:ri'aba t¡.:a4
ii.! q!:
#ffi
Figura 2: Las unidades de ejecución (conflguración estándar)
Cada unidad de ejecución está conectado al planificador de instrucciones con un carnino de datos de
128 bits. Con el fin de ejecutar las nuevas instrucciones AVX, que llevan datos de 256 bits, en lugar de
añadir datapaths 256 bits y las umdades de 256 bits a la CPU, dos unidades de ejecución son
"fusionado" (es decir, que se utiliza al mism_o tiem-po), corno se puede ver en la iigura 3.
Exerr.¡ti*n ülusteF
1¡lution:
' l.ep,-rir¿**
8Z
§a ndy Bridge l',licroarchitecture
EI conjunto de instruccionesAVX
Hace un tiempo, AMD hapropuesto un conjunto de instrucciones SSES. Sin embaryo, Intel decidió
crear su propia implernentación de lo que serían las instrucciones SSES, llamado Atr/X (Advanced
Vector Extensions).
Estas instrucciones se utiliza el mismo SIMD (Single Instruction, Multiple Data) concepto introducido
con el conjunto de instrucciones MMX y usados por Ias instrucciones SSE (Strcaming SIMD
Extensions). Este concepto consiste en utilizar una única gran registro para aknacenar va¡ios datos de
tamaño pequeño y luego proces¿[ todos los datos con una sola instrucción, la aceleración de
procesamiento.
El conjunto de instrucciones AVX añade 12 nuevas instrucciones y aumenta el tamaño de los registros
XMM de 128 bits a 256 bits- ,.
Toda la información sobre el nuevo conjunto de instrucciones AVX se puede encontrar aquí (buscar la
programación de referencia Intel Advanced Vector Extensions).
La arquitectura de anillo
procesadores basados en Sandy Bridge tendrán una arquitectura de anillo de los componentes internos
de ia CPU para hablar unos con oüos. Cuando un componente quiere "hablar" con otro componente,
que pone la información en el anillo y el anillo se moverá esta información hasta que llegue a su
desüno. Componentes no hablar el uno aI otro directamente, tienen que usar el anillo. Los componentes
qrre utilizan el anillo induyen los núdeos de CPU, cada caché L3 de memoria (que ahora se llama
Úitirno nivel de caché, o LLC, y no está uniñcada, véase la Figura 5), el agente áel sistema
(controlador de uiémoria integrado, controlador PCI Express, contol de potencia unida{ y la pantalla),
y el controlador de gráficos.
En la figura 5 se puede ver el anillo (línea de color negro) con sus "paradas" (cajas rojas). Es
importante entender que el anillo se encuentra físicamente en los cachés de rnemoria (ejemplo de un
telesilla, donde cada cuadro rojo es una parada) - ya que la ilustración es bidirnensional, es posible que
tenga la impresión de que los cables de anillo se ejecutan dentro del caché , Que no es el caso.
Además, cada ultima memoria caché de nivel no está ligado a un núdeo de la CPU en particular.
Cualquier núdeo puede utilizar cualquiera de los cachés. Por ejempio, en la Figura 5, tenemos una
CPU de cuatro núcleos con cuatro memorias caché de último nivel. Core 1 no está vinculada a la
memo¡ia caché 1; se puede ufilizar cualquiera de los caches- Esto también significa que cualqüer
núcleo de la CPU puede acceder a los datos que se alrnacena en cualquiera de los caches.
L-_"
Sandy BÉdge
I¡lit¡o¿¡c
Fu*o,
-r=r.".1,';*:l.l ":-5,":g.+-.Íiññ".Xffi,';lfiI
__EE!r,!";*§i*..:,",ffiy$:'r:;
.x r**i..__-_.1:_¡_ _*
,' \ ,- ¡ri=l4r=tñ.¿nih:n.r-,
,.-rrrl/ñr.ffitra.niEr.
\ | ^t/'
tEFAül0
Además, er núcreos.d".pu11s#r:*:flT1ffi"?"ffiT:lhi"#g:J,J".:i",.
n{cleo de gráficos no está aiiifanoo una gran porejempio, si er
cantidad de calor, esto da TDp extra para los núcleos de
cPU a utilizar' lo que les pennite funcionar a una
frecuencia más alta y en un iDp más alta que la
81
r-
clasificación oficial (con la etiqueta
rigl* 7)' si las
"de los conductores indicados poder
"en la
;;;;;..sesrán"*iJü-a;Ei':fu 1".*li:t#n':;Bii-;*.*to'vearaFiguraT
- :3;ff"t",f;.1[[iT¿xltr*".1,fr#;ffi:iñril*'"t -
fol'Étrá¡-it¡g
. f ult páct(¡g€ plwer *pecificatio¡iÉ evartabl€
can shift bttu¿ssn csr€É ánd ciaphica
'
r Púlsel' budgj
FiguraT:TDPpuedeequilibrarseentrenúCleosdeCPUygráficosdeprocesador
un motor de
basados en sandv Bridge.'":d'á
ro:lr:..,dores
H il::H"Hru:ffi,Tfi:ltT"
como explica página c1e este tutorial' que estará
disponible en el mismo
DirectX 10.1. se
".,11g1*"ra
cpu, estar disponibr" rn chip separado pero "pegada"'
como eI resto de la "rr
chip de silicio "nlrá"i¿u
'm;UJl::HJT§"ii1'Tü[:'-:i!:i§:.J.,#::'=f:r's$?.:*dvBridge
Architecture - 3S GraPntcs
fL /