Anda di halaman 1dari 9

Irham Fadlika; Keandalan Data Center Berdasarkan Sistem Tier Classifications

KEANDALAN DATA CENTER BERDASARKAN SISTEM


TIER CLASSIFICATIONS

Irham Fadlika

Abstrak—Ketika konsep keandalan (reliability) mulai resmi menjadi pendekatan terpadu


di tahun 50-an, keandalan dikaitkan dengan laju kegagalan. Hari ini istilah "keandalan"
digunakan sebagai definisi yang mencakup berbagai aspek termasuk ketersediaan
(availability), daya tahan (durability), kualitas (quality), dan terkadang didefinisikan sebagi
fungsi dari sebuah produk. Teknik keandalan dikembangkan untuk mengukur "seberapa
handal" sebuah komponen, produk, atau sistem ketika digunakan dalam aplikasi tertentu
untuk jangka waktu tertentu. Pada bidang industri telekomunikasi misalnya, keandalan
sebuah pusat data (data center), telah bergantung pada sistem ―Tier Classifications‖. Dalam
sistem tersebut, keandalan sebuah sistem data center dikelompokkan menjadi 4 bagian,
mulai dari tier 1 hingga tier 4. Dalam tulisan ini akan dibahas mengenai prinsip-prinsip dan
teknik pemodelan dari 4 tingkatan tersebut. Sebuah tinjauan dan metrik dari teknik
keandalan yang digunakan juga akan disertakan.

Kata kunci—Reliability, Availability, Data Center, Tier Classifications.

Dalam suatu bisnis telekomunikasi, hasil dari masing-masing klasifikasi


kinerja perangkat yang bebas gangguan kelas keandalan. Dengan begitu, kita bisa
dan bekerja secara kontinu merupakan memberikan konsiderasi desain data
prioritas utama untuk menghasilkan center sesuai keandalan yang diharapkan.
keuntungan dan kepuasan konsumen, Di bagian ini, terminologi keandalan dan
utamanya perangkat dalam data center. metrik diperkenalkan. Availibility (A)
Seringkali, gangguan yang terjadi berupa adalah perbandingan rata-rata jangka
kegagalan secara elektrik menyebabkan waktu komponen diperbaiki atau sistem
perangkat harus diperbaiki dalam waktu dalam pelayanan dan mampu melakukan
yang lama dan berujung pada kerugian fungsi yang ditujukan. Sebagai contoh,
finansial pada perusahaan jika listrik dimatikan selama 1 jam dalam
telekomunikasi. satu tahun , tapi pada sisa tahun tersebut
Dalam tulisan ini, akan dibahas listrik menyala, availibility tenaga listrik
tentang keandalan perangkat di dalam untuk tahun tersebut adalah 8759 jam
suatu data center dan pembagiannya dibagi dengan 8760 jam, yaitu 0,999886.
dalam kelas-kelas tertentu sebagai Sebuah availibility 0,99999 bisa berarti
sebuah konsiderasi untuk menentukan bahwa sistem ini down untuk 5,3 menit
titik aman dalam kinerja perangkat dalam (atau 315 detik) per tahun. Ini sama
data center dalam sebuah sistem halnya dengan sekali outage dengan
telekomunikasi. Keandalan didefinisikan waktu 5,3 menit atau 315 detik. Ini juga
sebagai suatu fungsi dalam kinerja bisa menjadi salah satu outage selaama
perangkat baik dalam hal availability, 1,77 jam dalam 20 tahun . Dalam semua
ketahanan (durability), dan kualitas tiga kasus, availability-nya adalah
perangkat tersebut. 0,99999.
Berbagai prinsip dan teknik Ada dua ukuran umum dari availibility,
pemodelan dalam sebuah konsep yaitu inherent availibility dan
keandalan digunakan untuk menentukan operational availibility. Perbedaan antara

Irham Fadlika adalah Dosen Jurusan Teknik Elektro Universitas Negeri Malang

44
Irham Fadlika; Keandalan Data Center Berdasarkan Sistem Tier Classifications 45

keduanya didasarkan pada apa semua diskusi akan dikhususkan mengenai


termasuk sebagai "repair time" atau inherent availibility.
waktu perbaikan. Untuk inherent Laju kegagalan (λ) didefinisikan
availibility, hanya waktu yang sebagai kegagalan per unit waktu yang
dibutuhkan untuk memperbaiki peralatan terjadi dalam sebuah interval, mengingat
disertakan. Inherent availibility bahwa tidak ada kegagalan telah terjadi
mengasumsikan bahwa teknisi selalu siap pada awal interval. Jadi waktu antara
untuk bekerja pada saat peralatan itu kegagalan (Mean Time Between Failure),
gagal. Untuk operational availibility, atau biasa disebut MTBF adalah waktu
semua penundaan untuk penjadwalan, rata-rata peralatan melakukan fungsi
waktu perjalanan, suku cadang, dll yang diinginkan antara kegagalan. Untuk
disertakan. Jika dibutuhkan 24 jam untuk kasus tingkat kegagalan konstan ,
mengirimkan suku cadang untuk
MTBF  1 / 
memperbaiki peralatan, hal tersebut
menanmbah repair time. Peralatan elektronik , bersama dengan
Inherent dan operational availibility banyak jenis peralatan lainnya , memiliki
menunjukkan ketersediaan yang berbeda tingkat kegagalan yang relatif konstan
aspek dari sistem yang sedang dianalisis. selama umur kerjanya dan mengikuti
Operational availibility merupakan distribusi statistik eksponensial. Asumsi
kondisi nyata, bagaimana sistem benar- umum untuk analisis keandalan adalah
benar beroperasi. Biasanya ada semua kegagalan adalah acak dan tingkat
penundaan antara waktu sebuah kegagalan adalah konstan. Semua
peralatan gagal dan ketika perbaikan perhitungan yang ditunjukkan di bawah
dimulai. Persediaan suku cadang juga mengasumsikan tingkat kegagalan
sangat signifikan dan berdampak konstan untuk peralatan. Berarti waktu
langsung terhadap operational untuk memperbaiki (Mean Time to
availibility. Oleh karena itu, ketika Repair) atau biasa disebut MTTR adalah
menentukan persediaan suku cadang, rata-rata waktu yang dibutuhkan untuk
analisis operational availability memperbaiki kegagalan dan
digunakan. mendapatkan peralatan kembali
Inherent availibility adalah alat yang beroperasi. Availibility Inherent secara
lebih berguna dalam menganalisis desain matematis didefinisikan sebagai MTBF
suatu sistem. Karena ada variasi yang yang dibagi dengan MTBF ditambah
luas dalam praktek pemeliharaan dari MTTR.
fasilitas ke fasilitas, operational availibility bisa MTBF
bervariasi secara signifikan antara dua A 
fasilitas dengan infrastruktur yang  MTBF  MTTR 
identik. Dengan menghilangkan semua Realibiatas (R) adalah peluang bahwa
aspek logistik yang terlibat dalam peralatan akan beroperasi dengan baik
mendapatkan suku cadang dan individu pada jangka waktu tertentu di bawah
yang terlatih dengan peralatan dan hanya kondisi operasi desain tanpa kegagalan.
menghitung waktu perbaikan yang Keandalan tergantung waktu. Semakin
sebenarnya memberikan evaluasi yang lama waktu, semakin rendah keandalan,
lebih akurat dari desain infrastruktur. Ini terlepas seprti apa desain sistem.
menunjukkan availibility yang "inherent" Semakin baik desain sistem , semakin
untuk sebuah desain, jika suku cadang tinggi kemungkinan keberhasilan operasi
persediaan dan perbaikan yang untuk periode waktu yang lebih lama.
sempurna. Dalam tulisan ini, semua
46 TEKNO, Vol 25 Maret 2016, ISSN : 1693-8739

Untuk tingkat kegagalan yang R  t   e  t


konstan, λ, keandalan sebagai fungsi
waktu R(t) adalah

Tabel I MTBF pada contoh outage


Jumlah λ
Availibilit MTBF MTBF Reliability
outage (kegagalan/ja
y (jam) (tahun) (1 tahun)
per tahun m)

0.99999 315 3,6 x 10-2 27,81 0,0032 0%

0.99999 1 1,14 x 10-4 8760 1 36,78 %

0.99999 0.05 5,71 x 10-6 175200 20 95,12 %

Dari persamaan di atas, kita dapat 36,8 % lebih sedikit, sehari setelah
melihat bahwa ada lima faktor penting dioperasikan, dimana saat sistem yang
untuk mendefinisikan "keandalan" dari gagal satu kali membutuhkan waktu satu
suatu sistem, yaitu MTBF, MTTR, tahun untuk mencapai tingkat keandalan
availability, realibility , dan waktu. Dapat yang sama. Yang terakhir membutuhkan
dilihat juga bagaimana lima faktor waktu 20 tahun keandalan untuk turun
tersebut saling berkaitan. Secara implisit, menjadi 36,8 %. Diskusi di atas
availibility tidak tergantung waktu, menunjukkan pentingnya menggunakan
karena merupakan kombinasi dua istilah keandalan dan availibility sebagai
yang keduanya merupakan rata-rata definisi untuk menentukan seberapa
selama jangka waktu (MTBF dan besar ketergantugan peralatan atau
MTTR). Keandalan, seperti yang kita sebuah sistem.
bisa lihat dari persamaan di atas, sangat
tergantung waktu.
Diagram Blok Realibility
Keandalan adalah peluang Ada beberapa metodologi umum
keberhasilan untuk suatu periode waktu untuk melakukan perhitungan reliability.
tertentu. Keandalan adalah definisi yang Pada tulisan ini digunakan Realibility
terkait langsung dengan seberapa sering Block Diagram (RBD), yang merupakan
(atau seberapa cepat) sistem mengalami representasi grafis dari komponen dari
kegagalan. Seperti terlihat pada Tabel I,
sistem dan bagaimana mereka terhubung.
sistem yang gagal sekali dalam setahun Pada sistem kelistrikan, diagram satu
selama 5,3 menit akan memiliki garis (Single Line Diagram) digunakan,
keandalan jauh lebih baik dibandingkan dan masing-masing komponen utama,
dengan sistem yang gagal 315 kali setiap seperti switchboard, generator, modul
1 detik, tapi tidak dapat dikatakan baik UPS (Uninterruptible Power Supply),
sebagai sistem yang gagal sekali dalam transformator, digambarkan sebagai blok
20 tahun untuk 1,77 jam, meskipun pada diagram. Laju kegagalan dan
semua memiliki availibility yang sama. perbaikan untuk masing-masing
Keandalan menurun menjadi 36,8 % komponen dimasukkan dalam blok yang
pada saat MTBF dari sistem tercapai mewakili dalam RBD. Blok-blok yang
(lihat MTBF dari 1 tahun pada Tabel I). terhubung dalam cara yang sama seperti
Oleh karena itu, sistem yang gagal 315
aliran daya listrik, termasuk jalur paralel.
kali dalam setahun memiliki keandalan
Irham Fadlika; Keandalan Data Center Berdasarkan Sistem Tier Classifications 47

Perhitungan tersebut kemudian dilakukan 4). Skala prioritas menyediakan beberapa


untuk menentukan keandalan, pedoman yang sangat berguna untuk
availibility, dan MTBF untuk sistem menentukan kebutuhan yang spesifik.
yang dimodelkan dalam RBD. Namun, seperti yang akan kita lihat
Untuk dua blok secara seri dengan dalam beberapa contoh sistem sederhana
tingkat kegagalan of λ1 dan λ2, fungsi dan kecil, Tier 4 belum tentu terbaik bagi
keandalannya diberikan sebagai berikut kebutuhan klien secara keseluruhan.
 1   2  t
Dengan "N" yang menunjukkan jumlah
R  t   R 1 x R  2   e generator, modul UPS, dan komponen
lainnya, yang diperlukan untuk
Untuk dua blok yang tersusun secara
menyuplai beban. Jika beban 500 kW,
paralel dengan redundansi, fungsi
satu 500 kW UPS akan menjadi "N". "N
keandalannya adalah
+1" menunjukkan terdapat satu
R  t   R 1  R  2    R 1 xR  2  komponen cadangan. Dalam kasus di
atas beban 500 kW, "N +1" menunjukkan
  1   2  t 
 e 1t  e  2t – e 
dua modul 500 kW UPS, satu untuk
  menyuplai beban dan satu modul UPS
cadangan.
Kebanyakan fasilitas utama terdiri
"2N" menunujukkan sistem dengan
atas banyak blok dengan gabungan baik
dua subsistem lengkap yang salah satu
seri maupun paralel. Jika komponen dari
dari keduanya dapat menyuplai beban.
sistem dapat diperbaiki, hal ini semakin
Tidak hanya terdapat modul UPS kedua,
menambah masalah. Untuk sistem yang
tetapi ada sistem UPS kedua yang
kompleks dengan beberapa interkoneksi,
lengkap termasuk input dan output
dimana beberapa komponen baik
switchboards UPS, Automatic Transfer
tersusun secara seri maupun paralel tetapi
Switch (ATS), dan komponen lainnya.
dalam kondisi standby (seperti genset
Gambar 1 menunjukkan desain yang
yang hanya aktif selama kegagalan
diklasifikasikan pada Tier 1. Terdapat
peralatan), perhitungan analitis langsung
modul UPS tunggal yang memasok
tidak dapat dilakukan. Keandalan sistem
listrik ke beban penting IT.
tersebut dapat dihitung menggunakan
Dalam beberapa contoh ini,
program komputer yang melakukan
diasumsikan bahwa baban IT utama
simulasi distribusi acak, disebut simulasi
memiliki dual cords, yaitu terdapat dua
Monte Carlo.
buah power supply yang terpasang pada
Ketika melakukan simulasi Monte
beban IT, dimana salah satu dari
Carlo, serangkaian simulasi acak dilakukan
keduanya yang berfungsi menyuplai
pada RBD. Simulasi ini dilakukan pada
daya. Dalam analisis yang akan
sistem mulai dari node awal sampai node
dilakukan selanjutnya, diasumsikan
akhir yang bertujuan untuk menentukan
bahwa 99% setiap waktu beban IT
bekerja sesuai desain atau gagal.
dengan dual cord akan tetap berfungsi
Realibility sebagai Alat Pembanding ketika terdapat gangguan pada salah satu
dalam Tier Classifications dari power supply– nya.
Industri data center saat ini Gambar 2 menunjukkan desain yang
mengandalkan skala prioritas atau biasa dikategorikan dalam Tier 1. Terdapat
disebut Tier Classifications sebagai skala sebuah modul UPS yang menyuplai daya
gradien pada konfigurasi data center dan pada beban IT. Pada contoh ini,
persyaratan dari minimal (Tier 1) ke generator dan ATS termasuk dalam
skala yang paling dapat diandalkan (Tier
48 TEKNO, Vol 25 Maret 2016, ISSN : 1693-8739

kategori opsional, dijelaskan pada Tabel


II.
Pada sistem Tier 1 ini, kegagalan pada
panel daya tidak akan menyebabkan
kegagalan pada beban IT. (Modul UPS
bisa gagal dan saklar static bypass bisa
menyuplai beban IT, jika utilitas daya
tersedia). Jika ATS atau input UPS
switchboard mengalami kegagalan,
beban IT akan disuplai oleh baterai
hingga baterai kosong dan menyebabkan
kegagalan pada beban perangkat IT
apabila tidak ada perbaikan pada ATS
atau input UPS switchboards.

Gambar 1. Konfigurasi Tier 1 (N)

Tabel II gambaran umum Skala Prioritas pada Sistem Data Center


Sistem
Generator Mekanikal Perbaikan
UPS

Tier 1 Opsional N N Outage for maintenance

Tier 2 N N+1 N+1 Outage for maintenance

Tier 3 N+1 N+1 N+1 Concurrently maintenance

Tier 4 2N 2N 2N Fault tolerant

Gambar 2 menunjukkan penambahan menggunakan sumber pasif. Lebih lanjut


modul UPS dan generator cadangan. dalam tulisan ini, keandalan sistem ini
Generator dan UPS tersebut berfungsi tidak naik secara signifikan, karena pada
pada saat suplai daya mengalami gagal. sisi sumber pasif membutuhkan
Gambar 3 menunjukkan penambahan penyakalaran secara manual.
jalur kedua. Dalam desain ini, terdapat Gambar 4 menunjukkan dua jalur
dua ATS dan dua set COD (Critical aktif yang menyuplai daya pada beban
Output Distribution) dan PDU (Power IT utama. Pada desain ini, semua titik
Distribution Unit). Bagian pertama kegagalan telah dieliminasi dari sistem
adalah jalur dengan modul UPS yang distribusi listriknya. Terlihat bahwa
disebut sumber ―aktif‖. Bagian kedua dengan perbandingan yang disajikan
adalah ATS menyediakan sumber pada Tabel III, keandalan tidak akan
"pasif‖. Sistem pada Gambar 3 adalah optimum hingga Tier 4 tercapai. Hal ini
concurrent maintainable atau dapat menyebabkan pemahaman yang
dipertahankan bersama dengan salah bahwa untuk memperoleh sistem
Irham Fadlika; Keandalan Data Center Berdasarkan Sistem Tier Classifications 49

dengan keandalan yang tinggi harus


menggunakan sistem dengan kategori
Tier 4.
Pada Gambar 5, dapat dilihat contoh
lain desain untuk sistem Tier 3. Desain
ini memiliki STS (Static Transfer
Switch) untuk mengalihkan daya dari
jalur aktif ke jalur pasif ketika terdapat
kegagalan pada sumber aktifnya.
Dengan STS ini, proses manuver
transfer daya dari jalur aktif ke jalur
pasif dapat dilakukan dengan sangat
cepat tanpa harus mengganggu beban IT
utama. Untuk contoh pada Gambar 5,
ketika sumber aktif mengalami
kegagalan, STS memindahkan beban IT
pada sumber pasif. Dengan begitu
keandalan pada konfigurasi ini
meningkat dibandingkan dengan sistem
UPS dengan jalur tunggal N + 1.

Gambar 3. Konfigurasi Tier 3 (N + 1, aktif


dan pasif)
Permasalahan yang muncul dari
sistem Tier 3 pada Gambar. 5 yaitu pada
angka availability-nya. Seperti terlihat
pada Tabel IV, availability cukup tinggi,
lebih baik daripada sistem 2N pada Tier
4. Jika diselidiki lebih lanjut, akan
ditemukan jawabannya dalam nilai
MTTR-nya. Dengan menggunakan
persaamaan dari Bagian Pendahuluan,
kita menemukan MTTR untuk contoh
Tier 3-STS menjadi 0,47 jam dan untuk
contoh Tier 4 menjadi 3,2 jam. Untuk
desain Tier 3-STS, beban IT langsung
Gambar 2. Konfigurasi Tier 2 (N + 1) disuplai jika sistem UPS gagal. Oleh
50 TEKNO, Vol 25 Maret 2016, ISSN : 1693-8739

karena itu, setiap voltage sag dapat Peluang


dirasakan secara langsung oleh beban MTBF kegagal-
RBD Availibility
IT. Dari nilai MTTR, diketahui bahwa (jam) an dalam
5 tahun
kegagalan disebabkan oleh voltage sag
ketika beban IT disuplai oleh sumber Contoh
83576 0.9999470 36,68%
cadangan memiliki persentase kegagalan Tier 1

Contoh
114379 0.9999512 31,42%
Tier 2
yang cukup tinggi. Jika diinginkan
keandalan yang lebih tinggi Contoh
dibandingkan data pada Tabel IV, 106261 0.9999791 31,06%
Tier 3
penambahan STS pada desain Tier 4 2N
harus dilakukan. Contoh 133610
0.9999976 3,01%
Tier 4 4

Gambar 4. Konfigurasi Tier 4 (2N, 2 jalur


aktif)
Gambar 5 Konfigurasi Lain dari Tier 3
Tabel III Perhitungan reliability untuk (1 aktif dan 1 pasif dengan STS)
masing-masing konfigurasi Tier 1, 2, 3, dan 4
Irham Fadlika; Keandalan Data Center Berdasarkan Sistem Tier Classifications 51

digunakan biasanya pada tingkat Tier 1


atau 2. Pertimbangan ini diambil
bergantung pada cost untuk membangun
jaringan tersebut dan distribusi listrik
pada daerah dimana data center tersebut
akan dibangun.
Konsep reliability yang sangat
bergantung pada cost dibahas di sini.
Resiko yang akan dihadapi pada aplikasi
praktis tersebut berupa resiko finansial
pada sisi pemilik bisnis telekomunikasi.
Resiko ini juga merupakan probabilitas
kegagalan perangkat yang terjadi selama
Gambar 6. Kurva Availability terhadap Cost ($) periode tertentu.
Dalam Gambar 6 ditunjukkan kurva
availability terhadap biaya. Meskipun
R  $ / year   Failure rate  failure / year 
kurva ini hanya merupakan suatu kurva
yang diperoleh berdasarkan hipotesis, x Severity  $ / failure 
kurva ini memberikan konsep yang R  S
cukup

Tabel IV Perhitungan Reliability pada Tier 3 KESIMPULAN


dengan STS
Dari paparan yang telah disampaikan,
Peluang
MTBF Availibili- Kegagalan Tier Classifications memberikan
RBD gambaran yang jelas dan pedoman yang
(jam) ty dalam 5
Tahun membantu dalam mendesain sebuah
Contoh data center dengan tingkat keandalan
791445 0.9999994 0,77 % yang diinginkan.
Tier 3 –
STS Dalam peninjauan tingkat keandalan
sebuah data center, terdapat beberapa
Contoh parameter penting yang digunakan, yaitu
1336104 0.9999976 3,01 %
Tier 4 MTBF dan MTTR. Parameter tersebut
yang berguna dalam suatu ukuran dan
penting. Ketika availibity mencapai tingkat kegagalan yang terdapat dalam
99,999%, penambahan komponen tidak sistem yang akan dimodelkan.
menambah keandalannya.
Hal yang bisa terjadi adalah bahwa DAFTAR RUJUKAN
kompleksitas sistem mulai bekerja
terhadap peningkatan redundansi, dan W. P. Turner, IV and K. G. Brill,
apa yang diperoleh di satu sisi yang Industry standard tier classifications
hilang di sisi lain. Pemodelan keandalan define
ini dapat menjadi suatu komponen site infrastructure performance, The
penting dalam menentukan titik dimana Uptime Inst., New York, NY, 2001.
sistem paling andal dan tidak terlalu
memakan biaya yang terlalu tinggi. R. Arno, P. Gross, and R. Schuerger,
―What five 9’s really mean and
Dalam aplikasi pada data center
managing expectations,‖ in Conf.
dalam skala kecil, konfigurasi yang
52 TEKNO, Vol 25 Maret 2016, ISSN : 1693-8739

Rec. IEEE IAS Annu. Meeting, 2006,


pp. 270–275.
IEEE Recommended Practice for the
Design of Reliable Industrial and
Commercial Power Systems,
Standard 493-2007.
F. Bodi. ―DC-grade‖ reliability for UPS
in telecommunications data centers.
29th International
Telecommunications Energy
Conference. INTELEC 2007.
S. Roy. Twenty-Third International
Telecommunications Energy
Conference. INTELEC 2001.

Anda mungkin juga menyukai