O DISCO
Desempenho de um disco IO
Acessos Concorrenciais
Preciso do posicionamento
Lgica de Controlo
Tamanho da cabea
Distncia ao prato
Largura das pistas
Qualidade de construo
Velocidade de Rotao
5,4k, 7,2k, 10k, 15k
Lgica de reordenamento de
comandos
Tempo Transferncia
PATA, SCSI, SATA, SAS, FC
Cache
Velocidade de Rotao
15k, 10k, 7.2k, 5.4k
Densidade do prato
Quase no h diferenas
A interface tem pouca influencia
A perca de velocidade de rotao compensada
pelo aumento de densidade do prato.
Caractersticas
Tam.
2,5'
2,5'
3,5'
3,5'
3,5'
3,5'
2,5'
2,5'
T
e
e
e
e
e
d
p
p
Capacidade
72-146GB
72-300GB
146-450GB
300-600GB
250-1000GB
160-1500GB
160-500GB
120-500GB
V.R. Euros
HP dolars ms
r/w ms MB/s min MTBF AFR % BER nonrecoverable after TB power operating
15k
231
579
2
122
0,55
1/10^16 1136,87
"6-7"
10k
183
319
3
129
0,55
1/10^16 1136,9
6,15-6,3
15k
183
359
2
110 1,6M 0,55
1/10^16 1136,87
15-17
10k
173
3
150 1,6M 0,55
1/10^16 1136,9
10,07-9,3
7,2k
73
549 4,16 8,5/9,5
116 1,2M 0,73
1/10^15 113,69
12,5
7,2k
40
4,16 8,5/10
0,75M 0,34
1/10^14 11,369
7,2k
67
4,17
0,5M 0,48
1/10^14 11,369
1,5
5,2k
62
109 5,6
0,5M 0,48
1/10^14 11,369
2,85
http://www.storagereview.com/
Papers da CMU e Google mostram que o AFR ronda os 3-4% e que o MTBF
muito mais baixo e similar entre os vrios tipos de drives.
Caractersticas
Capacidade
SATA Sem qualquer discusso
Throughput
SATA Porque mais barato
Acessos Concorrenciais IO
SAS - 1/3 dos discos necessrios
Menor consumo
Mais fivel (menos discos, melhor AFR, melhor BER, melhor
MTBF)
Menos espao ocupado
Menos enclosures/servidores
As interfaces
SATA Serial ATA
Sucessora do PATA
Recebeu algumas funcionalidades do SCSI.
Reordenamento de comandos.
FC Fibrechannel
Utilizaes
Discos SAS Quando o IO importa
Acessos concorrenciais
Bases de dados OLTP
Caching
Arquivo
RAID 0
Exemplo N=2
Escritas 1 IO < stripe
unit
0 IO leitura
1IO escrita (1-2 discos)
N/2 a N escritas em
simultneo
RAID 1
Duplicao dados
Escritas 1 IO < stripe
0 IO leitura
1 IO escrita (2 discos)
RAID 0+1
Duplicao dados
Escritas 1 IO < stripe unit
0 IO leitura
1 IO escrita (1-2 discos)
N/4 a N/2 IOs simultneos
Leituras 1 IO < stripe unit
1 IO (1-2 discos)
N/2 a N IO simultneos
Pode falhar no mximo 1 disco.
Ou N/2 se forem no mesmo
grupo.
Probabilidade elevada de o
segundo disco avariado ser do
outro grupo.
RAID 1+0
Duplicao dados
Escritas 1 IO < stripe
0 IO leitura
1 IO escrita (1-2 discos)
N/4 a N/2 IOs simultneos
Reconstruo de 1 disco
RAID 4
N-1 discos teis
Escritas 1 IO < stripe
1 IO leitura (2-3 discos)
1 IO escrita (2-3 discos)
1 escrita em simultneo
RAID 5
N-1 discos teis
Escritas 1 IO < stripe unit
RAID 6
N-2 discos teis
Escritas 1 IO < stripe
A controladora RAID
Interfaces com os discos
SATA, SAS, FC
Processador
Para calculo paridade, algoritmos de cache e virtualizao do storage.
Memria
128MB-512MB (placas PCI)
512MB-1024MB (Array de discos)
1024MB-128GB (Storage Centralizado)
TOPOLOGIAS
Aplicao
Filesystem
Driver SCSI/HBA
Controladora RAID
Disco
Driver SCSI/HBA
Switch Fibrechannel
Controladora RAID especial
Disco
Stack TCP/IP
Placa de rede
Switch Rede
Servidor NFS
Filesystem
Controladora RAID
Disco
Switch Rede
Servio
Filesystem Distribuido
RAID (hardware/software) e/ou Replicao
Disco
FILESYSTEMS
Tradicionais
Ext3
Fivel
Journaling
Configurvel
Problemas de performance
Ficheiros grandes
Muitos ficheiros
XFS
Rpido
Tanto com ficheiros grandes como com muitos ficheiros
Journaling
Menos robusto que Ext3
Acesso Local
Omnipresentes
Excepto RedHat que s suporta EXT3
ZFS, WAFL
Combina RAID com Filesystem
No um simples volume manager + FS
Escalvel
Fivel
CRC checking
Problemas de performance
Situaes de utilizao intensiva da metada
Requisitos de Cache no SO muito elevadas
necessrio um especial cuidado quando utilizado com bases de
dados
Solaris
Acesso Local
Cluster Filesystems
RedHat GFS, PolyServe, etc
Filesystem Partilhado
Permite partilhar o mesmo filesystem por vrios servidores
Block device.
Baseado em SAN.
Servidores de Lock e Metadata.
Botleneck de performance para muitos acessos random com
IO de pequenas dimenses
Storage Central
Infra-estrutura onerosa
Requer Drivers
Paralell Filesystems
Lustre
Escalvel
Grande performance para acessos sequenciais
Servidor de Lock e Metadata
Bottleneck
M performance para acessos aleatrios de IO com tamanho
reduzido.
Requer capacidade armazenamento para metadata de grande
performance e alta disponibilidade.
Requer drivers.
Distributed Filesystems
Replicao de Dados
Sncrona
Lento
Assncrona
3 X ou mais
Localizao dos dados aleatria. Os dados de um discos podem estar replicados em qualquer disco.
Perder um disco implica riscos muito grandes se no houver uma replicao de 3X.
Desnecessrio com RAID -> Menos performance.
Desnecessrio se houver uma relao directa entre discos.
ReedSolomon
Soluo para evitar replicao.
Pesado computacionalmente.
SOLTAS
Tier 1 - Memria
Memcache, Squid
Dados Quentes.
IO praticamente ilimitado.
Capacidade armazenamento limitada aos dados quentes.
Custo muito elevado
Voltil
Dados Mornos.
IO elevado.
Capacidade armazenamento suficiente para os dados mornos.
Custo mdio.
Escalvel mediantes necessidades de IO.
Voltil
CacheFS, Squid
NFS,
Distributed/Paralell
FS, MogileFS
Squid
S funciona para pedidos HTTP
E quando possvel cachear os objectos.
Google FS e afins
Triplicar
100TB so aproximadamente 120 discos. X3 so 360.
AFR ~3% (CMU), em 120 discos temos em mdia 3-4 discos avariados por ano.
Informao espalhada por todos os discos
Duplicar no chega porque se avariarem 2 discos ao mesmo tempo (ou algum trocar o disco errado)
perdem-se dados.
Custos
Servidores e discos (mais barato)
4 discos em 1U
Triplicado
1 CPU por cada 2 discos
Datacenters tradicionais pouco eficientes
Gesto
Troubleshooting mais complexo
Mo-de-obra
Datacenter especializado
O SAPO
NAS
120TB (2 clusters)
Discos FC
Discos SATA
SAN
Discos FC
Clusters de Bases de dados
DAS
Discos locais
SCSI, SAS, SATA (backups)
10k, 15k
3,5 e 2,5
Memria
O futuro
Storage sempre foi o patinho feio no que toca ao
crescimento da performance
Solid State Disk
Muito caro. Ainda
Desempenho brutal em IO de leitura
Desempenho banal em escrita random
CONCLUSES
Errrr
Massive brute force aproach, a la google
Custom made software e hardware
Datacenters muito eficientes
Ou:
Storage Tiers
Caching
Mobilidade dos dados
Ferramenta certa para o trabalho em vista.