Oleh :
Nur Nilamyani
(H13114514)
JURUSAN MATEMATIKA
UNIVERSITAS HASANUDDIN
MAKASSAR
2017
Q1. Draw a sliding window plot of GC content in the DEN-1 Dengue virus genome,
using a window size of 200 nucleotides. Do you see any regions of unusual DNA
content in the genome (eg. a high peak or low trough)? Make a sketch of each plot
that you draw. At what position (in base-pairs) in the genome is there the largest change
in local GC content (approximate position is fine here)? Compare the sliding window
plots of GC content created using window sizes of 200 and 2000 nucleotides. How does
window size affect your ability to detect differences within the Dengue virus genome?
Jawab:
Untuk menyelesaikan soal tersebut, terlebih dahulu download rangkaian genom dari
DEN-1 virus dengue dalam bentuk file fasta di website NCBI
http://www.ncbi.nlm.nih.gov.
> library("seqinr")
> dengue <- read.fasta(file = "den1.fasta")
> dengueseq <- dengue[[1]]
Kemudian tuliskan fungsi dari sliding window plot
> slidingwindowplot <- function (windowsize,inputseq){
+ starts <- seq(1, length(inputseq)-windowsize, by = windowsize)
+ n <- length(starts)
+ chunkGCs <- numeric(n)
+ for (i in 1:n) {
+ chunk <- inputseq[starts[i]:(starts[i]+windowsize-1)]
+ chunkGC <- GC(chunk)
+ chunkGCs[i] <- chunkGC
+}
+ plot(starts,chunkGCs,type="b",xlab="Nucleotide start position",ylab="GC content")
+}
Selanjutnya buat sliding window plot untuk menampilkan 200 nukleotida
> slidingwindowplot(200,dengueseq)
Maka akan diperoleh gambar berikut
Dari gambar di atas dapat dilihat bahwa perubahan GC conten antara 45%-50% dari
rangkaian DEN-1 Dengue virus, dengan beberapa nukleotida yang terletak antara
2500-4000 dimana GC content mengalami penurunan sampai 40%. Rangkaian genom
tersebut tidak memiliki data dengan perbedaan yang jauh dari awal hingga akhir,
meskipun GC content diantara 4000-7000 cukup tinggi sekitar 50% dan GC content
relative rendah dikisaran antara 2500-3500 dan 7000-9000 yaitu sekitar 43%-47%.
Setelah itu buat sliding window plot menampilkan 2000 nukleotida
> slidingwindowplot(2000,dengueseq)
Maka akan diperoleh tampilan berikut
Dari gambar di atas diketahui bahwa GC content relative tinggi diantara 4000-7000 dan
relative rendah diantara 2500-3500 dan 7000-9000
Q2. Draw a sliding window plot of GC content in the genome sequence for the
bacterium Mycobacterium leprae strain TN (accession NC_002677) using a
window size of 20000 nucleotides. Do you see any regions of unusual DNA
content in the genome (eg. a high peak or low trough)? Make a sketch of each plot
that you draw. Write down the approximate nucleotide position of the highest peak or
lowest trough that you see. Why do you think a window size of 20000 nucleotides was
chosen? What do you see if you use a much smaller windowsize (eg. 200 nucleotides)
or a much larger windowsize (eg. 200,000 nucleotides)?
Jawab:
Untuk menyelesaikan soal tersebut, terlebih dahulu download rangkaian genom dari
Mycobacterium leprae dalam bentuk file fasta di website NCBI
http://www.ncbi.nlm.nih.gov.
Dari gambar tersebut dapat diketahui bahwa untuk ukuran window 200 nukleotida
sangat kacau sehingga sulit untuk melihat posisi dari nilai tertinggi GC content ..
Selanjutnya sliding window plot untuk 200.000 nukleotida
Dari gambar tersebut dapat diketahui bahwa untuk ukuran window 200.000 nukleotida
sangat halus atau rata sehingga sulit untuk melihat posisi dari nilai tertinggi GC
content.
Setelah melihat perbedaan ketiga plot di atas dapat disimpulkan bahwa ukuran window
yang paling sesuai adalah 20.000 kerena kita dapat dengan mudah melihat letak dari
nilai GC content tertinggi dari rangkaian genom tersebut.
Q3. Write a function to calculate the AT content of a DNA sequence (ie. the
fraction of the nucleotides in the sequence that are As or Ts). What is the AT
content of the Mycobacterium leprae TN genome? Hint: use the function count() to
make a table containing the number of As, Gs, Ts and Cs in the sequence. Remember
that function count() produces a table object, and you can access the elements of a
table object using double square brackets. Do you notice a relationship between the AT
content of the Mycobacterium leprae TN genome, and its GC content?
Jawab :
Jawab :
Fungsi untuk membuat tampilan plot dari AT contente dari rangkaian genom tersebut
adalah
Untuk memperoleh jumlah dari 3 pasang nukleotida (GAC) dapat menggunakan fungsi
berikut
Terdapat 61,174 GAC dalam rangkaian tersebut . jumlah dari 3 nukleotida dapat
dihutung dengan
> sum(count(lepraeseq,3))
[1] 3268201
Untuk mengkalkulasi ekspektasi frekwensi dari GAC, terlebih dahulu harus diketahui
jumlah dari 1 nukleotida
> count(lepraeseq, 1)
a c g t
Panjang dari rangkaian tersebut 3268203 bp. Frekwensi dari G adalah 950202/3268203
= 0.2907414. frekwensi dari A adalah 687041/3268203 = 0.2102198. frekwensi dari C
adalah 938713/3268203 = 0.2872260. frekwensi dari GAC adalah 938713/3268203 =
0.2872260.
Nilai Rho digunakan untuk mengobservasi frekwensi/ekspektasi frekwensi =
0.01871794/0.01755514 = 1.066237.
Nilai Rho dari GAC adalah 1.0662370, nilai tersebut sama dengan nilai yang telah
dihitung sebelumnya