摘要 目的 探究将基于短串频 度的 CVT ree方法用 于反映菌群 结构的 16S rRNA 基因的 454高 通量测 序
数据分析的可 行性, 为快速分析高通量菌群结构数据提供新的方法 。方法 对一个四世 同堂的中国 家庭 7名成 员
肠道 菌群和不同基因型及饮食类型的小鼠肠道菌群用 454高通量方法获得 16S rRNA 基因的 V 3区的测序 数据, 用
CVT ree的方 法进行菌群结构的比较分析。结果 通过选 取合适的 短串长 度, CVT ree的方 法能准 确检测 到各样 本
间的 聚类关系, 其结果与之前文献报道的基于 U n ifrac算法的 结果相一致。结 论 CVT ree能 快速、有效地处 理 16S
rRNA 基因的 454高通量测序数据, 实现对不同菌群结构相似性的比较分析。
关键词 CV T ree; 454高通量测序; 菌群结构
中图分类号 Q 31 文献标识码 A
The app lication of CVTree in structural analysis ofm icrob ial commun ities by 454 py
rosequencing
1 2 1 1 1 1
HUA W ei y ing , XU Zhao , ZHANG M eng hu i, L I M in , ZHANG Chen hong , ZHAO L i ping
( 1. Lab of M olecular M icrob ial E cology and Ecogenom ics, School of L ife S cience and T echnology, Shanghai J iaotong Univer
sity, Shanghai 200240, China; 2. T he T L if e R esearch C enter, Fudan Un iver sity, Shangha i 200433, Ch ina)
Ab strac t O b ject ive T o explore the feasibility o f CVT ree applica tion in structura l analysis o fm icrobia l comm un i
ties by 454 py rosequencing. M e thod T he CVT ree w as applied to tw o datasets to pe rfo rm structura l com parison of m icrob ia l
comm un ities: ( 1) 454 py rosequencing data of gut m icrob iom es of a four generation, seven m em ber Ch inese fam ily; ( 2)
454 pyrosequenc ing data o f gut m icrob iom es of m ice w ith different geno types and diets. Resu lt W hen su itab le K tuple
leng th w as se lected, the CVT ree reflected the relationsh ip am ong the samp les w hich w ere in good agreem ent w ith those re
ported in the prev ious studies based on U n ifrac analysis. Conc lu sion O ur study shows the ab ility o f CVT ree in structura l
ana lysis o f m icrob ia l comm un ities based on 454 py rosequencing w ith high e fficiency and effectiveness.
K ey w ords CVT ree; 454 py rosequencing; Structura l ana lys is of m icrob ia l comm un ities
的 2种基因型小鼠基本分开, 除了 W F1、
W F2插入到 提示了环境因素对肠道菌群也会产生一定的影响。
KF 组中, 但 N 组的 2种基因型小鼠混在 一起; K 为 将 CVT ree的结果和传统方法的结果 ( 图 2d) 相
18时, K组和 N 组内基本根据基因型聚成 2个子簇, 比较, 发现前者从生物学角度考虑更优于后者。基于
除了样本 WF 1、
W F2插入到 KF 组内。这个结果和文 比对的方法表明, N 组和 F组的肠道菌群结构有较大
献报道的结果相吻合, 即说明饮食对肠道菌群起的作 差异, 分成两簇, 但 KN1 和 KN2 却显示与 F 组的部
用可能大于基因所起的 作用。另外, CVT ree的 结果 分个体相近。
也显示被分在同一笼的小鼠的肠道菌群比较相近, 这
( a) 表示 K = 6时, CVT ree获得的个体样本聚类图; ( b) 表示 K 取值为 9、12、15 时, CVT ree获得的个体样本聚类图; ( c) 表示 K = 18时, CVT ree获得
的个体样本聚类图; ( d )表示基于比对的方法获得的个体样本聚类图。
1 序列上传 6 s 比对 ( g reengenes在线比对 ) 35 m in
选择 K 值进行
2 8 s /K 值 距离矩阵的计算 3 m in
CVT ree分析
3 OTU 的计算 4 m in
系统发育树的构建
4 30 m in
(插入参考系统发育树的算法 )
5 U niF rac分析 2 m in
& 46 s
总计时间 74 m in
( 5种不同的 K 值: 5* 8+ 6)
316 Ch in ese Journal of M icroeco logy, Apr 2010, Vo l 22 No 4
3 讨论 s is of polym erase ch ain reaction amp lif ied genes cod ing for 16S R rna
A pp l E nviron M icrob, 1993, 59 ( 3) : 695.
微生物群落是一个复杂的系统, 由于大部分微生
[ 4 ] SANG ER F, COU LSON A. A rap id m ethod for determ in ing sequ ences
物在目前的实验环境和未知的营养条件下无法被培 in DNA by p rim ed syn th es is w ith DNA po lym erase[ C ] . Selected pa
养, 因此依靠传统的培养法已无法提供全面而深入的 pers of Frederick Sanger: w ith comm en taries, 1996, 94: 382.
信息来探究群落组成以及其与功能的相关性。新一 [ 5 ] MA ZM AN IA N S, L IU C, TZIANA BO S A, et a.l A n im munomodu latory
代的测序技术因其高通量、 低成本、 高精度和易操作 m olecu le of sym b iot ic bacteria directs m aturat ion of the host im mune
system [ J]. Cel,l 2005, 122( 1 ) : 107 118.
的优点, 已被广泛应用于菌群的结构分析中, 同时也
[ 6 ] B INLAD EN J, G ILBERT M, BOLLBA CK J, et a.l The use of coded
有越来越多的测序方法被改进或发展以分析它所生 PCR p rim ers enab les high throughput sequen cing of m u ltip le hom olog
产的海量数据。本文采用 CVT ree的方法, 无需常规 am p lification products by 454 parallel sequencing [ J] . PLoS O ne,
方法所依赖的序列比对, 直接统计样本中的短串出现 2007, 2 ( 2) : e197.
[ 7] AN DER SSON A F, LIN DBER G M, JA KOBSSON H, et a.l Com parative
频率来计算样本间的距离, 实现比较分析不同样本菌
an alysis of hum an gut m icrob iota by b arcoded pyrosequencing [ J ] .
群结构的目的。
PLoS O ne, 2008, 3( 7 ): e2836.
本研究对两个已经被报道的数据集进行分析, 发 [ 8 ] TU RNBAUGH P, HAM AD Y M, YA TSU NENKO T, et a.l A core gu t
现无论是人肠道菌群的重复样本还是小鼠肠道菌群 m icrob iom e in obese and lean tw in s[ J] . N ature, 2008, 457 ( 7228 ) :
的重复样本, CVT ree的结果显示它们都基本聚 集在 480 484.
[ 9 ] ZHANG C, ZHANG M, W ANG S, et a.l Interact ion s b etw een gu tm icro
一起。在第 1个数据集内, 由于 MO 的第 2个时间点
b iota, hos t genetics and d iet relevant to developm en t of m etabolic syn
有轻微腹泻, 肠道菌群可能因此发生变化, 结果显示
drom es in m ice[ J] . ISM E J, 2009, 4( 2) : 232 241.
MO2没有和该个体的 其他样本聚集在一起, 这 既验 [ 10] M cK EN NA P, HOFFMAN N C, M INKAH N, et a.l , The m acaque gu t
证了 454 技 术 的 可 重 复 性 和 灵 敏 度, 又 体 现 了 m icrob iom e in h ealth, lent iviral in fection, and chronic enterocolitis
CVT ree的准确性和可靠性。其次, 在小鼠的数 据集 [ J] . PLoS Pathog, 2008, 4 ( 2) : e20.
[ 11] SOG IN M L, M ORR ISON H G, HU BER J A, et a.l , M icrob ial d iver
中, CVT ree的聚类结果也和生物学上的分组相一致,
s ity in the d eep sea and the underexp lored ∋ rare b iosphere( [ J] . PNA S
并验证了之前文献报道的结果, 即不同饮食组的肠道 U SA, 2006, 103 ( 32) : 12115 12120.
菌群结构差异大于不同基因组的肠道菌群结构差异。 [ 12] WH EELER W. O pt im ization alignm en t: the end of m u lt ip le sequ ence
短串长度的选择会对结果产生影响。通过比较 al ignm ent in phy logenet ics? [ J] . C lad is tics, 1996, 12( 1 ) : 1 9.
分析, 发现对 454测序的 V3序列, K 取值越大, 样本 [ 13] G E IGER D. S tretch cod ing and b lock coding: Tw o new strategies to
represen t qu est ionably aligned DNA sequences [ J ]. J M ol E volu t,
的聚类结果越稳定和可靠。第 1个数据 集中, K % 9
2002, 54 ( 2) : 191 199.
时基本能获得稳定且准确的群落结构信息。第 2 个 [ 14] Q I J, LUO H, HAO B. CV Tree: a phylogenetic tree reconstruction tool
数据集内, K = 18获得的结果最符合生物学分组。因 based on whole genom es [ J ] . N ucl A cids R es, 2004, 32 ( W eb Server
此, 我们建议对 454 测序的 V3区菌群数据, 采 用长 Issu e) : W 45.
度为 18的短串进行群落结构的分析。 [ 15] XU Z, HAO B. CVT ree update: a new ly des ign ed phy logenetic study
p latform us ing compos it ion vectors and w hole genom es[ J]. N u cl A cids
此外, CVT ree 由于其无需比对, 操作简单, 在计
R es, 2009, 37( W eb S erver issu e) : W 174.
算速度上与基于比对的方法相比, 有着明显的优势。 [ 16] W ANG H, XU Z, GA O L, et a.l A fungal phy logeny based on 82 com
对小鼠肠道的 454 测序数据进行分析时, CVT ree 所 p lete genom es us ing the com position vector m ethod [ J] . BM C E volu t
花费的时间约是传统方法的 1% 。 B io,l 2009, 9( 1) : 195.
[ 17 ] LV DOK L, BEN TELE K, VLAD IM IR OV N, et a.l R ole of t rans lational
综上, 本研究建立了 CVT ree在 454 高通量测序
coup ling in robustness of bacterial chem otaxis pathw ay[ J] . Plos B io,l
分析菌群结构信息的方法。该方法无需比对, 能快速
2009, 7 ( 8) : e1000171.
地进行群落结构的分析比较, 并且和基于比对的方法 [ 18] GAO L, Q I J. W hole genome m olecu lar phylogeny of large dsDNA vi
在结果上呈现较好的一致性, 为大规模数据的群落分 ru ses u sing com position vector m ethod [ J] . BM C Evolut B io,l 2007, 7
析提供了新思路和方法。 ( 1) : 41.
致谢: 本文工作得到 郝柏林 院士的 悉心指 导, 在 此谨 表诚 挚谢 [ 19] BA ILIN H, LE IG. Prokaryotic branch of th e tree of life: A composi
意。同时, 感 谢 863 专 题 项 目 ( 2008AA 02Z315 ) 和 自 然 基 金 项 目 tion vector approach [ J] . J Sys tem E volu t, 2008, 46( 3 ) : 258 262.
( 30730005、20875061) 、上海市科委国际合作项目 ( 075407001) 对本项 [ 20] LI M, W ANG B, ZHANG M, et a.l Sym b iotic gut m icrobes m odu late
目的资助。 hum an m etabolic phenotypes[ J] . PNA S U SA, 2008, 105 ( 6) : 2117.
[ 21] BCKH ED F, DWG H, W ANG T, et a.l The gu t m icrob iota as an envi
参考文献 ronm ental factor that regu lates fat s torage[ J ]. PNA S U SA, 2004, 101
[ 1 ] BA CKHED F, LEY R E, SONNEN BURG J L, et a.l H ost bacteria lm u ( 44 ) : 15718.
tu alism in th e hum an in test ine [ J ] . Science, 2005, 307 ( 5717 ) : [ 22 ] LOZU PON E C, HAM ADY M, KN IGHT R. U n iF rac: A n on l ine tool for
1915 1920. comp aring m icrob ial commun ity d iversity in a phylogenetic context[ J] .
[ 2 ] RA PPE M S, G IOVAN NON I S J. Th e un cu ltured m icrob ial m ajority BM C B io inform at ics, 2006, 7( 1 ) : 371.
[ J] . A nn R ev M icrob, 2003, 57( 1) : 369 394. [ 23] LO ZUPON E C, KN IGHT R. U n iFrac: a new phylogenetic m ethod for
[ 3 ] MU YZER G E, D e W AA L, U ITTERL INDEN A. Prof iling of com p lex comp aring m icrob ial comm un ities[ J] . A pp l Environ M icrob, 2005, 71
m icrob ial popu lations by denatu ring gradient gel electrophoresis analy ( 12 ) : 8228.