Anda di halaman 1dari 37

Storage

O DISCO

Desempenho de um disco IO
Acessos Concorrenciais

Velocidade de actuao das cabeas


Numero cabeas
Motores

Preciso do posicionamento

Lgica de Controlo
Tamanho da cabea
Distncia ao prato
Largura das pistas
Qualidade de construo

Velocidade de Rotao
5,4k, 7,2k, 10k, 15k

Lgica de reordenamento de
comandos
Tempo Transferncia
PATA, SCSI, SATA, SAS, FC

Cache

Desempenho de um disco Throughput


Interface
SATA, SAS, PATA, SCSI, FC

Velocidade de Rotao
15k, 10k, 7.2k, 5.4k

Densidade do prato
Quase no h diferenas
A interface tem pouca influencia
A perca de velocidade de rotao compensada
pelo aumento de densidade do prato.

Caractersticas
Tam.
2,5'
2,5'
3,5'
3,5'
3,5'
3,5'
2,5'
2,5'

T
e
e
e
e
e
d
p
p

Capacidade
72-146GB
72-300GB
146-450GB
300-600GB
250-1000GB
160-1500GB
160-500GB
120-500GB

V.R. Euros
HP dolars ms
r/w ms MB/s min MTBF AFR % BER nonrecoverable after TB power operating
15k
231
579
2
122
0,55
1/10^16 1136,87
"6-7"
10k
183
319
3
129
0,55
1/10^16 1136,9
6,15-6,3
15k
183
359
2
110 1,6M 0,55
1/10^16 1136,87
15-17
10k
173
3
150 1,6M 0,55
1/10^16 1136,9
10,07-9,3
7,2k
73
549 4,16 8,5/9,5
116 1,2M 0,73
1/10^15 113,69
12,5
7,2k
40
4,16 8,5/10
0,75M 0,34
1/10^14 11,369
7,2k
67
4,17
0,5M 0,48
1/10^14 11,369
1,5
5,2k
62
109 5,6
0,5M 0,48
1/10^14 11,369
2,85

io teorico io read ms io teorico med


500
5,4
185,1851852
333,3333
7,3
136,9863014
500
5,5
181,8181818
333,3333
7,1
140,8450704
240,3846
12,2
81,96721311
240,3846
12,9
77,51937984
239,8082
14,2
70,42253521
178,5714
15,9
62,89308176

min MB/s io med 1qd diff %


io med 128qd diff %
IO/
80
180
-64
411
-17,8 1,779221
83
131
-60,7
296
-11,2 1,617486
42
166
-66,8
416
-16,8 2,273224
63
129
-61,3
262
-21,4 1,514451
53
79
-67,136
158
-34,272 2,164384
40
80
-66,72
158
-34,272
3,95
33
69
-71,227
113
-52,879 1,686567
24
62
-65,28
93
-47,92
1,5

http://www.storagereview.com/
Papers da CMU e Google mostram que o AFR ronda os 3-4% e que o MTBF
muito mais baixo e similar entre os vrios tipos de drives.

Caractersticas
Capacidade
SATA Sem qualquer discusso

Throughput
SATA Porque mais barato

Acessos Concorrenciais IO
SAS - 1/3 dos discos necessrios
Menor consumo
Mais fivel (menos discos, melhor AFR, melhor BER, melhor
MTBF)
Menos espao ocupado
Menos enclosures/servidores

As interfaces
SATA Serial ATA
Sucessora do PATA
Recebeu algumas funcionalidades do SCSI.
Reordenamento de comandos.

Point-to-point Single Path


Baixo custo

SAS Serial Attached SCSI


Sucessora do SCSI
Recebeu funcionalidades de FC
Dual Path

Point-to-point Dual Path


Custo intermdio

FC Fibrechannel

Loop Dual Path


Custo elevado
Utilizado equipamentos de storage centralizado
Robusto e com desempenho elevado.

Utilizaes
Discos SAS Quando o IO importa
Acessos concorrenciais
Bases de dados OLTP
Caching

Discos SATA Grandes volumes de dados


Acessos sequenciais no concorrenciais
Edio e processamentos de video
Aplicaes cientficas

Arquivo

RAID REDUNDANT ARRAY OF


INEXPENSIVE DISKS

RAID 0
Exemplo N=2
Escritas 1 IO < stripe
unit
0 IO leitura
1IO escrita (1-2 discos)
N/2 a N escritas em
simultneo

Leituras 1 IO < stripe


1 IO (1-2 discos)
N/2 a N IO em
simultneo
AFR_T=N x AFR

RAID 1
Duplicao dados
Escritas 1 IO < stripe
0 IO leitura
1 IO escrita (2 discos)

Leituras 1 IO < stripe


1 IO (1 disco)
2 IO em simultneo
AFR_T=AFR*AFR

RAID 0+1
Duplicao dados
Escritas 1 IO < stripe unit
0 IO leitura
1 IO escrita (1-2 discos)
N/4 a N/2 IOs simultneos
Leituras 1 IO < stripe unit
1 IO (1-2 discos)
N/2 a N IO simultneos
Pode falhar no mximo 1 disco.
Ou N/2 se forem no mesmo
grupo.

Probabilidade elevada de o
segundo disco avariado ser do
outro grupo.

Reconstruo de N/2 discos

RAID 1+0
Duplicao dados
Escritas 1 IO < stripe
0 IO leitura
1 IO escrita (1-2 discos)
N/4 a N/2 IOs simultneos

Leituras 1 IO < stripe


1 IO/disco (1-2 discos)
Pode falhar 1 disco. N/2 se
forem sempre pares
diferentes.
Probabilidade de segundo
disco avariado ser do
mesmo grupo pequena.

Reconstruo de 1 disco

RAID 4
N-1 discos teis
Escritas 1 IO < stripe
1 IO leitura (2-3 discos)
1 IO escrita (2-3 discos)
1 escrita em simultneo

Leituras 1 IO < stripe


1 IO leitura (1-2 discos)
(N/2-1) a N-1 IOs
simultneos
Clculo Paridade
Cache de escrita
Pode falhar no mximo 1
disco

RAID 5
N-1 discos teis
Escritas 1 IO < stripe unit

1 IO leitura (2-3 discos)


1 IO escrita (2-3 discos)
N/4 a N/2 escritas em
simultneo

Leituras 1 IO < stripe unit


1 IO (1-2 discos)
N/2 a N IOs simultneos
Clculo Paridade
Cache de escrita com bateria
Pode falhar no mximo 1
disco

RAID 6
N-2 discos teis
Escritas 1 IO < stripe

1 IO leitura (3-4 discos)


1 IO escrita (3-4 discos)

Leituras 1 IO < stripe


1-2 IO (1-2 discos)
N/2-2 a N-2 IO
simultneos (no caso do
RAID 6 implementado na
figura)
Clculo Paridade
Cache de escrita com bateria
Pode falhar no mximo 2
discos

A controladora RAID
Interfaces com os discos
SATA, SAS, FC

Processador
Para calculo paridade, algoritmos de cache e virtualizao do storage.

Memria
128MB-512MB (placas PCI)
512MB-1024MB (Array de discos)
1024MB-128GB (Storage Centralizado)

Bateria para a memria


Acelera o tempo de resposta das escritas
Permite escrever full stripes em RAID4-6
Garantia de consistencia do filesystem.

Raid por Software


Nunca em RAID4/5/6 sem NVRAM. RAID0/1 ok.

TOPOLOGIAS

DAS Direct Attached Storage


Servidor com um array
ligado directamente
Baixo custo
Baixa complexidade
Sem layers intermdios
Performance dedicada
Renascimento com o SAS

Aplicao

Filesystem
Driver SCSI/HBA
Controladora RAID

Disco

SAN Storage Area Network


Aplicao
Filesystem

Driver SCSI/HBA
Switch Fibrechannel
Controladora RAID especial
Disco

Protocolo SCSI sobre Fibrechannel


Storage Centralizado -> Recursos
partilhados.
Controladora avanada com grande
capacidade de processamento e caching.
Flexibilidade de atribuio e gesto de
Storage.
Block Device.
Storage Partilhado com software de
Clustering
Implementao e gesto complexa
Desempenho varivel
Oneroso
HBAs, Switchs Fibrechannel, fibra optica,
software de clustering

Tambm inclui o iSCSI. Mais barato,


Permite routing. Tem o overhead do TCP/IP.

NAS Network Attached Storage


Aplicao

Cliente NAS (NFS, CIFS, etc)

Stack TCP/IP

Placa de rede

Switch Rede

Servidor NFS

Filesystem

Controladora RAID

Disco

NFS, CIFS, etc


Storage Centralizado ->
Recursos partilhados
Storage Partilhado
Flexibilidade de atribuio de
Storage
Utiliza recursos de rede
existentes e mais baratos
Menor performance
NetApp, EMC, Servidor
Linux/Solaris

CAS Content Adressed Storage


Aplicao
Cliente/API
Stack TCP/IP
Placa de rede

Switch Rede
Servio
Filesystem Distribuido
RAID (hardware/software) e/ou Replicao
Disco

Acesso via API


Grande escalabilidade
No limitado pelas limitaes
dos filesystems
Soluo de software
Custo mais baixo
Requer a adaptao das
aplicaes
Gesto da informao
Oportunidade para ser
criativo no subsistema de
discos.
EMC Centera, MogilleFS, etc

FILESYSTEMS

Tradicionais
Ext3
Fivel
Journaling
Configurvel

Problemas de performance
Ficheiros grandes
Muitos ficheiros

XFS
Rpido
Tanto com ficheiros grandes como com muitos ficheiros

Journaling
Menos robusto que Ext3

Muitas histrias de corrupo de filesystems em determinadas situaes

Acesso Local
Omnipresentes
Excepto RedHat que s suporta EXT3

ZFS, WAFL
Combina RAID com Filesystem
No um simples volume manager + FS

Escalvel
Fivel
CRC checking

Problemas de performance
Situaes de utilizao intensiva da metada
Requisitos de Cache no SO muito elevadas
necessrio um especial cuidado quando utilizado com bases de
dados

Solaris
Acesso Local

Cluster Filesystems
RedHat GFS, PolyServe, etc
Filesystem Partilhado
Permite partilhar o mesmo filesystem por vrios servidores

Block device.
Baseado em SAN.
Servidores de Lock e Metadata.
Botleneck de performance para muitos acessos random com
IO de pequenas dimenses

Storage Central
Infra-estrutura onerosa

Requer Drivers

Paralell Filesystems
Lustre
Escalvel
Grande performance para acessos sequenciais
Servidor de Lock e Metadata
Bottleneck
M performance para acessos aleatrios de IO com tamanho
reduzido.
Requer capacidade armazenamento para metadata de grande
performance e alta disponibilidade.

Storage nodes podem ser servidores normais


Sem alta disponibilidade
No efectua replicao ou clculo de paridade dos dados.
Requer alta disponibilidade no storage.

Requer drivers.

Distributed Filesystems

EMC Mahui, GoogleFS, Isilon, HadoopFS, etc


Servidores de Metadata e Locking
Bottleneck para muitos acessos aleatrios de pequenas dimenses
Algumas implementaes distribuem a metadata.

Latncia de rede Ethernet


Infiniband demasiado caro

Replicao de Dados
Sncrona

Lento

Assncrona

Possvel perca de dados

3 X ou mais

Localizao dos dados aleatria. Os dados de um discos podem estar replicados em qualquer disco.
Perder um disco implica riscos muito grandes se no houver uma replicao de 3X.
Desnecessrio com RAID -> Menos performance.
Desnecessrio se houver uma relao directa entre discos.

ReedSolomon
Soluo para evitar replicao.
Pesado computacionalmente.

SOLTAS

Storage Tiers Acessos Concorrenciais

Storage Tiers - Caching

Tier 1 - Memria

Memcache, Squid

Tier 2 - Disco Local rpido sem RAID

Dados Quentes.
IO praticamente ilimitado.
Capacidade armazenamento limitada aos dados quentes.
Custo muito elevado
Voltil

Dados Mornos.
IO elevado.
Capacidade armazenamento suficiente para os dados mornos.
Custo mdio.
Escalvel mediantes necessidades de IO.
Voltil

CacheFS, Squid

Tier 3 - Disco Arquivo

Totalidade dos dados.


IO limitado.
Capacidade de armazenamento total.
Custo limitado.
Escalvel em capacidade de armazenamento.
Alta disponibilidade. Seguro.

NFS,
Distributed/Paralell
FS, MogileFS

Squid
S funciona para pedidos HTTP
E quando possvel cachear os objectos.

Dois Tiers de Cache


Memria
Disco local

Servidores individuais ou configurados em conjunto como uma nica


cache
Utilizao eficiente do disco local
Pool de discos sem RAID
Balanceamento de IO
Filesystem sem preocupaes de fiabilidade

Tunning na utilizao da memria


Tempo de vida
Tamanho dos ficheiros
Oportunidade para melhorar e piorar o desempenho

Capacidade de IO facilmente escalvel

Google FS e afins

Triplicar
100TB so aproximadamente 120 discos. X3 so 360.
AFR ~3% (CMU), em 120 discos temos em mdia 3-4 discos avariados por ano.
Informao espalhada por todos os discos

Duplicar no chega porque se avariarem 2 discos ao mesmo tempo (ou algum trocar o disco errado)
perdem-se dados.

Custos
Servidores e discos (mais barato)

Motherboard, 2 discos e 1 fonte: 500 euros

Espao Datacenter (mais caro)

4 discos em 1U

Energia (mais caro)

Triplicado
1 CPU por cada 2 discos
Datacenters tradicionais pouco eficientes

Infra-estrutura de rede (mais caro)


O google esfora-se ao mximo para manter datacenters com o mnimo de custos possvel.

Gesto
Troubleshooting mais complexo
Mo-de-obra
Datacenter especializado

O SAPO
NAS
120TB (2 clusters)
Discos FC
Discos SATA

SAN
Discos FC
Clusters de Bases de dados

DAS
Discos locais
SCSI, SAS, SATA (backups)
10k, 15k
3,5 e 2,5

SEMPRE COM BATERIA NAS CONTROLADORAS RAID


3-5% do valor do servidor.

Memria

O futuro
Storage sempre foi o patinho feio no que toca ao
crescimento da performance
Solid State Disk
Muito caro. Ainda
Desempenho brutal em IO de leitura
Desempenho banal em escrita random

Escreve sempre em blocos > 512k


MLC, SLC
Em desenvolvimento activo
Novos algoritmos
Wear leveling

CONCLUSES

Errrr
Massive brute force aproach, a la google
Custom made software e hardware
Datacenters muito eficientes

Ou:
Storage Tiers
Caching
Mobilidade dos dados
Ferramenta certa para o trabalho em vista.

Estatsticas de utilizao dos dados


Envelhecimentos dos dados
Dados quentes e frios

Anda mungkin juga menyukai