基因组与比较基因组学

基因组与比较基因组学

ID:39459615

大小:1.03 MB

页数:38页

时间:2019-07-03

上传者:U-145848
基因组与比较基因组学_第1页
基因组与比较基因组学_第2页
基因组与比较基因组学_第3页
基因组与比较基因组学_第4页
基因组与比较基因组学_第5页
资源描述:

《基因组与比较基因组学》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

11基因组与比较基因组学11.1高通量DNA序列分析技术11.2人类基因组计划11.3其他基因组11.4比较基因组学及相关研究 20世纪人类科技发展史上的三大创举:1940年代第一颗原子弹爆炸;1960年代人类首次登上月球;1990年代提出并已基本完成的人类基因组计划(HGP)。 基因组学是美国人T·H·Rodehck在1986年7月提出来的。基因组是生物体内遗传信息的集合,是某个特定物种细胞内全部DNA分子的总和。原核生物基因组:原核生物DNA分布在整个细胞之中,有时相对集中在类核体上。类核体上的DNA是一条共价、闭合双链分子,类核体通常也称为染色体。这条染色体的DNA就是原核细胞的基因组。真核生物基因组:一个物种的单倍体的各条染色体中的全部DNA为该物种的基因组(genome)。例如,人有23对染色体,配子——单倍体是23条染色体,这23条染色体中的全部DNA就是人体基因组。 11.1高通量DNA序列分析技术1.DNA序列测定的基本原理DNA自动测序仪可快速测定DNA序列,计算机处理能力的快速提高则使得大量DNA小片段很容易拼接成较大的片段甚至整个染色体。高效快捷的DNA测序方法是20世纪70年代中期发展起来的,主要有两种:Sanger的双脱氧链终止法和Maxam-Gilbert的化学修饰法。 Sanger的双脱氧链终止法基本原理:核酸模板在核酸聚合酶、引物、四种单脱氧碱基存在条件下复制或转录时,如果在四管反应系统中分别按比例引入四种双脱氧碱基,只要双脱氧碱基掺入链端,该链就停止延长,链端掺入单脱氧碱基的片段可继续延长。如此每管反应体系中便合成以共同引物为5’端,以双脱氧碱基为3’端的一系列长度不等的核酸片段。反应终止后,分四个泳道进行电泳,以分离长短不一的核酸片段(长度相邻者仅差一个碱基),根据片段3’端的双脱氧碱基,便可依次阅读合成片段的碱基排列顺序。 Maxam-Gilbert化学修饰法:1)基本原理:用化学试剂处理具有末端放射性标记的DNA片段,造成碱基的特异性切割并产生一组具有不同长度的DNA链降解产物,经凝胶电泳分离和放射自显影后,可直接读出待测DNA片段的核苷酸序列。2)基本步骤:(1)同位素标记DNA片段的5’端;(2)在特殊位置上通过化学反应随机打断DNA链G,A(someG),T(someC),C;(3)形成大小不一的DNA链;(4)电泳分离DNA链;(5)根据同位素标记自显影后读出序列。3)优点:不存在因DNA序列或结构引起DNA合成问题,能测定用酶学方法不能正常测序的DNA序列。4)缺点:需使用剧毒化学试剂。 DNA测序自动化:1)使用荧光标记的dNTP;2)毛细管电泳;3)激光检测读序。PCR用于制备测序反应:1)测序反应实质就是DNA扩增,因而可以用PCR进行测序反应。2)与典型PCR反应的不同:(1)只用一个引物;(2)需用测序级的DNA聚合酶;(3)DNA模板量高,一般0.5-1.0mg;(3)循环次数多,一般35-40个循环;(4)产物需纯化干燥。 实际工作中如要进行DNA测序,需要准备什么?1)克隆你的目的基因或其片段;2)鉴定你所得到的含目的基因或片段的重组质粒;3)将含重组质粒的细菌或质粒送测序公司;4)等结果。 2.基因组DNA大片段文库的构建构建基因文库是测序前必须的预备工作。酵母人工染色体技术(YAC)为创制基因组物理图提供了极大的方便。ARS序列(Ori),CEN序列,TEL序列。 YAC的主要缺点:1)存在高比例的嵌合体,即一个YAC克隆含有两个本来不相连的独立片段;2)部分克隆子不稳定,在转代培养中可能会发生缺失或重排;3)难与酵母染色体区分开,因为YAC与酵母染色体具有相似的结构。4)操作时容易发生染色体机械切割。 用细菌的F质粒及其调控基因构建了细菌染色体克隆载体BAC,其克隆能力在125-150kb左右。质粒主要包括oriS,repE(控制F质粒复制)和parA、parB(控制拷贝数)等成分。以BAC为基础的克隆载体转化效率高,而且以环状结构存在于细菌体内,易于分辨和分离纯化。 3.鸟枪法基因组序列分析技术DNA序列分析技术一次测序反应的长度不能超过1kb,不能直接用BAC等大片段作为序列分析的模板,采用全基因组鸟枪法测序技术——随机挑选插入基因组DNA的质粒做测序反应,然后用计算机程序进行序列拼接。 采用全基因组鸟枪法测序的基本原理:对某基因组文库全部克隆片段进行末端序列测定中未测到的碱基数,即缺口(gap),与已测定的总碱基数相关。随着已测定碱基数的增加,缺口的总碱基数目会按照泊松公式的一个推论(P=e-m)迅速减小。其中P为基因组中某个碱基未被测定的概率,m为所测定的碱基数与基因组大小相比的倍数。m越大P值越小。当m=5(即随机测定的碱基数达到基因组5倍),基因组中未测定的碱基数为总碱基数的0.67%(e-5=0.0067)。对流感嗜血杆菌基因组(1.83Mb)来说,可能留有128个平均长为100bp的缺口。 鸟枪法测序的缺点:随着所测基因组总量增大,所需测序的片段大量增加,各个片段重叠成一个连续体的概率是2n2-2n。高等真核生物(如人类)基因组中有大量重复序列,导致判断失误。 对鸟枪法的改进:Clonecontig法。首先用稀有内切酶把待测基因组降解为数百kb以上的片段,再分别测序。靶标鸟枪法(diretedshotgun)。首先根据染色体上已知基因和标记的位置来确定部分DNA片段的相对位置,再逐步缩小各片段之间的缺口。 改进后的鸟枪测序法原理图 11.2人类基因组计划2003年4月14日,国际人类基因组计划宣布:人类基因组序列草图提前绘制成功。人类基因组包括24条染色体,约30亿对核苷酸,编码约3万个基因,人类基因组中携带了有关人类个体生长发育、生老病死的全部遗传信息。从整体上看,不同人类个体的基因是相同的,因此,我们说“人类只有一个基因组”,人生来是平等的。当然,不同的人可能拥有不同的等位基因,这一点决定了人与人之间个体上的差异。 1.人类基因组计划的科学意义确定人类基因组中约3万个编码基因的序列及其在基因组中的物理位置,研究基因的产物及其功能。了解转录和剪接调控元件的结构与位置,从整个基因组结构的宏观水平上理解基因转录与转录后调节。从整体上了解染色体结构,了解各种不同序列在形成染色体结构、DNA复制、基因转录及表达调控中的影响与作用。研究空间结构对基因调节的作用。发现与DNA复制、重组等有关的序列。研究DNA突变、重排和染色体断裂等,了解疾病的分子机制,为疾病诊断、预防和治疗提供理论依据。确定人类基因组中转座子、逆转座子和病毒残余序列,研究其周围序列的性质。研究人类个体之间的多态性(SNP)情况,用于基因诊断、个体识别、亲子鉴定、组织配型、发育进化等许多医疗、司法和人类学的研究。 2.遗传图遗传图又称连锁图(LinkageMap),是指基因或DNA标志在染色体上的相对位置与遗传距离,通常以基因或DNA片段在染色体交换过程中的分离频率厘摩(cM)来表示。cM值越大,两者之间距离越远。产生配子的减数分裂过程中,亲代同“号”的父源或母源染色体既能相互配对也可能发生片段互换,而父母源染色体等位基因互换导致子代出现DNA“重组”的频率与这两个位点之间的距离呈正相关,所以,用两个位点之间的交换或重组频率来表示其“遗传学距离”。连锁分析是通过分析同一遗传位点在不同个体中等位基因的不同(多态性)来研究同一染色体上两位点之间的相互关系。 遗传距离图的基本数据来自基因的重组。 由于不能对人类进行“选择性”婚配,而且人类子代个体数量有限、世代寿命较长,呈共显多态性的蛋白质数量不多,等位基因的数量不多。DNA技术的建立为人类提供了大量新的遗传标记。遗传标记有三代:第一代DNA遗传标记是RFLP(限制性片段长度多态性)。DNA序列上的微小变化,甚至1个核苷酸的变化,也能引起限制性内切酶切点的丢失或产生,导致酶切片段长度的变化。 第二代DNA遗传标记利用了存在于人类基因组中的大量重复序列:重复单位长度在15-65个核苷酸左右的小卫星DNA;重复单位长度在2-6个核苷酸之间的微卫星DNA,又称为简短串联重复(STR、STRP或SSLP)。卫星DNA分类特征卫星DNA串联重复的基本单位首尾相接,在基因组中呈不均匀分布,但主要集中于着丝粒、端粒等特定部位,高度或中等重复,分属三个大家族。α卫星DNA中等重复,基本单位长171bp。小卫星DNA中等重复,基本单位长15-65bp。微卫星DNA中等重复,基本单位长2-8bp 占人类基因组约45%的重复序列来源于转座子复制机制。序列分析表明,四类转座子产生了这些重复序列,其中前三类转座子以RNA为中间产物进行转座,最后一类则直接以DNA的形式转座。 STRP的优点是“多态性”与“高频率”。由于(A)n,(CA)n,(CGG)n等短重复序列在进化上不受选择,在同一位点上可重复单位数量变化很大,配对时又容易产生“错配”,使这样的位点遍布于整个基因组。已有5264个STRP为主体的遗传标记“连锁图”,平均分辨率已达600kb,其中第17号染色体上平均每495kb有一个标记,第9号染色体上平均每767kb有一个标记,整个基因组中只有三处标记间距大于4Mb。 第三代DNA遗传标记,可能也是最好的遗传标记,是分散于基因组中的单个碱基的差异,即单核苷酸的多态性(SNP),包括单个碱基的缺失、插入和替换。SNP中大多数为转换,即由一种嘧啶碱基替换另一种嘧啶碱基,或由一种嘌呤碱基替换另一种嘌呤碱基,颠换与转换之比为1:2。SNP有可能在密度上达到人类基因组“多态”位点数目的极限。估计人类基因组中可能有300万个SNP位点!SNP与RFLP和STRP标记的主要不同之处在于,它不再以DNA片段的长度变化作为检测手段,而直接以序列变异作为标记。 “遗传图”的建立为人类疾病相关基因的分离克隆奠定了基础。拥有5000多个遗传学位点,相当于把整个人类基因组划分为5000多个小区,并分别设置了“标牌”。如果在家系中证实该基因与某个标记不连锁(重组率为50%),表明该基因不在这一标记附近。如果发现该基因与某个标记有一定程度的“连锁”(重组率小于50%但大于0),表明它可能位于这个标记附近。如果该基因与某标记间不发生重组(重组率等于0),我们就推测该标记与所研究的疾病基因可能非常接近。 3.物理图物理图是指以已知核苷酸序列的DNA片段(序列标签位点,STS)为“路标”,以碱基对(bp,kb,Mb)作为基本测量单位(图距)的基因组图。STS是基因组中任何单拷贝的长度在100~500bp之间的DNA序列,与核酸内切酶识别序列相关联。物理图主要内容是建立相互重叠连接的“相连DNA片段群”。 得到5套以上包含相关染色体或整个基因组的DNA片段是建立STS物理图的先决条件。然后,可以通过拼接而得STS物理图。两个STS标签在基因组上靠得近,它们就会一直同时出现在DNA大片段上几率就会小得多。 酵母第三号染色体遗传图(右)和物理图(左)的比较 4.转录图人类的基因转录图(cDNA图),或者基因的cDNA片段图,即表达序列标签图(EST,expressedsequencetag)是人类基因组图的雏型。在成年个体的每一特定组织中,一般只有10%-20%的结构基因(约1-2万个不同类型的mRNA)表达。整个人类基因组中,有1%-5%的序列编码了蛋白质,最多可能有(5-7)万个蛋白质编码基因。得到了一段cDNA或一个EST,就能被用于筛选全长的转录本,并将该基因准确地定位于基因组上。cDNA序列具有转录本的特异性,代表了不同基因的信息。可以将DNA序列和cDNA序列进行比对,找出对应于cDNA的基因。 收集各种细胞或组织的基因表达谱进行两两或多重比较,能较全面地了解哪些基因是特异性表达的。在某一细胞或组织中特异性表达的基因可能与该组织或细胞类型的生理功能有关。获得各类组织或细胞的基因表达谱,从而给出人体200余种基本组织或不同细胞组成的人体基因图(bodymap)。转录图(基因表达谱)所提供的信息,使人们有可能系统地全面地从mRNA水平了解特定细胞、组织或器官的基因表达模式并解释其生理属性,深入认识细胞生长、发育、分化、衰老和疾病发生的机制。 5.全序列图人类基因组的核苷酸序列图是分子水平上最高层次、最详尽的物理图。测定总长约1米、由30亿个核苷酸组成的全序列是人类基因组计划的最终目标。人类所拥有的基因位点都是相同的,不同种族、不同个体的基因差异(人类基因组的多样性)以及“正常”与“疾病”基因的差异,只是同一位点上的等位基因的差异。 11.3其它基因组随着测序技术的逐步成熟和测序成本的逐渐降低,近年来基因组序列数据每年呈指数形式增长。据2007年1月数据,全球已启动2296个基因组项目,其中607个已完成,481个已公开发表基因序列。 11.4比较基因组学及相关研究与数据库中已知序列比较,基因组的序列可分为3类:确知其生理功能的有相匹配的蛋白质序列,但并不知道其功能的在现有数据库中找不到任何相匹配的蛋白质序列的新基因比较基因组学的威力——根据对一种生物相关基因的认识来理解、诠释和克隆分离另一种生物的基因。 1.基因组数据的挖掘与分析到2001年为止已经基本完成DNA序列分析的各种真核生物基因组数据的比较发现,低等真核生物如酵母、线虫以及高等植物拟南芥,基因组比较小,基因密度比较高,百万碱基对中含有200个或更多的基因。大肠杆菌基因组中,尚有38%以上的未知蛋白质。与物质运转和能量代谢相关的蛋白质含量分别占蛋白质总量的9%左右。各种功能性酶、细胞结构蛋白、调控蛋白、细胞周期相关因子及参与蛋白质合成、参与重要中间物合成与代谢等过程的蛋白质分别占总蛋白的4%以上。参与氨基酸合成及代谢,参与DNA合成及代谢的蛋白质也都达到总蛋白的3%左右。 人类基因组研究发现,人类基因的平均长度为27kb左右,含有8.8个长约145bp的外显子,内含子的长度大大超过外显子,达到3365bp左右。人类基因的3'非翻译区(URT)的平均长度为770bp,其5'非翻译区的平均长度为300bp,开放读码框的平均长度只有1340bp,编码447个氨基酸。 2.基因组数据的比较研究尿殖道支原体是最小的基因组(0.58Mb),可依此确定能自我复制的细胞必需的一套最少的核心基因。流感嗜血杆菌的基因组为1.83Mb。二者相差3倍多,那么,基因组大小影响了基因数目还是基因尺度?基因大小:流感嗜血杆菌平均为900bp,尿殖道支原体平均为1040bp。基因距离:流感嗜血杆菌中平均1042bp有1个基因,尿殖道支原体中平均1235bp有1个基因。基因数量:流感嗜血杆菌有1743个ORF,尿殖道支原体有470个ORF。 复习题名词解释:基因组,基因组学,鸟枪法,遗传图,物理图

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭