用于单分子全基因组分析的方法和相关装置制造方法

专利名称

用于单分子全基因组分析的方法和相关装置制造方法
发明者
公开日
申请日期
优先权日
申请人
文档编号
关键字

基因组分子用于分析
技术领域

[0003]本发明涉及纳米
专利摘要

本发明提供了沿着至少一个大分子例如线性生物聚合物对特征进行标记和分析的方法，包括沿着单个解折叠的核酸分子对特定序列基序的分布和频率或这些序列基序的化学或蛋白质组修饰状态进行作图的方法。本发明还提供了沿着这些被标记的大分子来鉴定序列的特征模式或表观遗传变异以用于直接大规模并行单分子水平分析的方法。本发明还提供了适用于这样被标记的大分子的高通量分析的系统。
专利说明

用于单分子全基因组分析的方法和相关装置

专利详情
全文pdf
权力要求
说明书
法律状态

用于单分子全基因组分析的方法和相关装置制造方法[0001]与相关申请的交叉参考[0002]本申请要求2009年10月21日提交的序号61/253，639的美国申请“用于单分子全基因组分析的方法和相关装置(Methods and Devices for Single Molecule WholeGenome Analysis)”的优先权,所述申请的全部内容在此引为参考。【技术领域】和单分子基因组分析领域。[0004]大分子例如DNA或RNA是由核苷酸组成的长聚合物链，其线性序列与源生物体的基因组和后基因组基因表达信息直接相关。[0005]序列区、基序和功能单元例如开放阅读框(0RF)、非翻译区(UTR)、外显子、内含子、蛋白因子结合位点、表观基因组位点例如CpG簇、microRNA位点、转座子、逆转座子以及其他结构和功能单元的直接测序和作图，在个体的基因组组成和“健康概况”的评估中是重要的。[0006]在某些情况下，核苷酸序列的复杂重排，包括片段复制、插入、缺失、倒置和易位，在个体的生命期内引起疾病状态，包括遗传畸变或细胞恶变。在其他情况下，序列差异、拷贝数变异(CNV)和不同个体的遗传构成之间的其他差异，反映出群体遗传构成的多样性和对环境刺激物和其他外部影响例如药物治疗的差异响应。[0007]其他进行过程例如DNA甲基化、组蛋白修饰、染色质折叠和改变DNA-DNA、DNA-RNA或DNA-蛋白质相互作用的其他变化，影响基因调控、表达以及最终细胞功能，引起疾病和癌症。
[0008]基因组结构变异(SV)甚至在健康个体中也广泛分布。理解基因组序列信息对人类健康的重要性，已变得越来越明显。
[0009]常规细胞遗传学方法例如核型分析、FISH (荧光原位杂交)，提供了对少至单个细胞中基因组组成的全面观察。这些方法揭示了基因组的总体变化，例如非整倍性、数千和数百万碱基对的大片段的获得、丢失或重排。然而，这些方法患于在检测中到小序列基序或病变中灵敏度和分辨率相对低，以及繁琐、速度有限和精确性不一致。
[0010]更近的用于检测序列区、目标序列基序和SV的方法例如aCGH(阵列比较基因组杂交)、fiberFISH或大规模末端配对测序，具有提高的分辨率和通量。这些更近的方法仍然是间接、繁琐和不一致、昂贵的，并往往具有有限的固定分辨率，依赖于回到参比基因组进行作图以重新装配来提供推断的位置信息，或提供不能揭示平衡病变事件例如倒置或易位的比较性强度比率信息。
[0011]据认为，功能单元和常见结构变异涵盖从数十碱基至数兆碱基以上的范围。因此，沿着大的天然基因组分子，跨越从不到千碱基(即长度小于约I千碱基)至数兆碱基的分辨率尺度揭示序列信息和SV的方法，在更多个体的测序和精细尺度作图计划中是非常合乎需要的，以便一览以前未表征的基因组特征。
[0012]此外，生物系统、特别是多倍体生物例如人类的表型多态性或疾病状态，是从母系和父系遗传的两个单倍体基因组之间相互作用的结果。癌症常常是二倍体染色体病变中杂合性丢失的结果。
[0013]当前的测序分析方法多半基于源自于具有有限单倍型信息的平均化多倍体基因组材料的样品。这大多是由于目前使用的现有前端样品制备方法从非均质细胞群体提取混合二倍体基因组材料、然后将它们破碎成随机的较小碎片所造成的。然而，这种方法破坏了二倍体基因组的天然结构信息。
[0014]最近开发的第二代测序方法，尽管通量提高，但由于从短得多的测序读出结果进行装配更加困难，因此使勾勒复杂基因组信息进一步复杂化。
[0015]一般来说，短读出结果更难在复杂基因组内进行唯一比对，需要其他序列信息来破译短的靶区的线性次序。需要25倍量级的测序覆盖度才能达到在常规BAC和鸟枪法Sanger测序中需要8-10倍覆盖率所达到的近似的装配可信度(Wendl MC, Wilson RK，医学DNA 测序中的覆盖度情况(Aspects of coverage in medical DNA sequencing), BMC Bioinformatics 2008 May 16;9:239)。这对测序成本降低提出了进一步挑战,并使将测序成本显著降低至1000美元目标标杆以下的初始主要目标受挫。
[0016]大的完整基因组分子的单分子水平分析，通过不使用克隆过程或扩增对序列基序进行原位精细作图，提供了保留准确的天然基因组结构的可能性。基因组片段越大，基因组分析物中样品群体的复杂性越低。在理想情形下，只需要对46个染色体片段进行单分子水平分析，就能覆盖整个二倍体人类基因组；从这样的方法得到的序列在其本质上具有完整的单倍型信息。
[0017]在实践水平上，可以从细胞提取并保存兆碱基基因组片段用于直接分析。这将降低复杂算法和装配的负担，并且也将处于原始背景中的基因组和/或表观基因组信息共同与个体的细胞表型更直接地相关联`。
[0018]大分子例如基因组DNA常为半柔性蠕虫状聚合链的形式。通常假定这些大分子在自由溶液中具有随机卷曲构型。对于生物溶液中未修饰的dsDNA来说，持续长度(定义其刚性的参数)典型约为50nm。
[0019]为了实现对沿着大的完整大分子的标记特征进行一致分离以便定量测量，一种方法是将这样的聚合分子在平表面、化学或拓扑学预定的表面模式、优选为长的纳米轨道上或受限的微米/纳米通道上拉伸成一致的线性形式。
[0020]延长和拉伸长基因组分子的方法，已通过使用外力例如光学镊子、液体-空气边界对流(梳理)或流体力学层流得以演示。
[0021]分子的拉伸形式将或者在保持外力维持时暂时稳定，或者通过附着到经静电或化学处理修饰被增强的表面上而更持久地稳定。所演示的聚合大分子在微米/纳米通道内的拉伸，已通过物理熵限制被证实(参见Cao等，Applied Phys.Lett.2002a ；Cao等，AppliedPhys.Lett.2002b ;美国专利申请10/484，293号；在此以其全文引为参考)。
[0022]已显示，直径在IOOnm左右的纳米通道将长达数十万碱基至兆数碱基的dsDNA基因组片段线性化(Tegenfeldt等，Proc.Natl.Acad.Sc1.2004)。使用纳米流体学拉伸的半柔性靶分子可以悬浮在生物离子浓度和PH值范围内的缓冲条件下，因此更适于对这样的分子执行生物功能分析。这种拉伸形式也相对容易操作，例如在电场或压力梯度下，以精确受控方式的从高速度到完全静止状态的大范围速度移动带电荷核酸分子。
[0023]此外，流体在纳米尺度环境中流动的性质，排除了否则可能打断长DNA分子的湍流和许多剪切力。这对于大分子线性分析、特别是在可以使用ss-DNA的测序应用中，特别有价值。最终，有效读取长度可以只取决于能够维持的最大完整片段。
[0024]除了基因组学之外，由于在人类疾病例如癌症中的作用，表观基因组学领域也已被认为是非常重要的。随着基因组学和表观基因组学两者知识的积累，主要的挑战在于理解如何将基因组和表观基因组因素直接或间接地与多态性或人类疾病和恶性肿瘤中的病理生理状况相关联。
[0025]全基因组分析的概念已经从基因组测序、表观遗传学甲基化分析和功能基因组学领域主要分开进行研究的划区方法，演化到更多面的整体方法。已经以更系统的方式考虑了 DNA测序、结构变异作图、CpG岛甲基化模式、组蛋白修饰、核小体重塑、microRNA功能和转录表达谱。然而，检查细胞分子状态的上述每个方面的技术通常是孤立、繁琐和不相容的，使需要相干实验数据结果的系统生物学分析严重复杂化。
[0026]大的完整天然生物样品的单分子水平分析能够提供以真实有意义的整体分析方式研究靶样品的基因组和表观基因组信息的潜力，例如将序列结构变异与异常甲基化模式、microRNA沉默位点和其他功能性分子信息相叠加。(参见例如PCT专利申请US2009/049244，在此以其全文引为参考)。它将在理解细胞的分子功能和个性化医学中的疾病发生机理中，提供非常强有力的工具。
[0027]发明概述
[0028]一方面，本发明涉及沿着至少一个大分子例如线性生物聚合物进行标记并分析标记特征的方法。在某些实施方案中，所述方法涉及沿着单个解折叠的核酸分子，根据特定序列基序的长度和序列，对这些序列基序的分布和频率(即模式、主题)或这些序列基序的化学或蛋白质组修饰状态进行作图的方法。
[0029]还公开了适用于对标记的大分子进行分拣和线性解折叠的流体芯片和系统。这些芯片和系统能够以并行方式操作，用于光学和非光学信号分析。
[0030]本发明的另一方面是通过沿着DNA骨架对短序列基序的分布进行作图，以鉴定双链DNA分子。这在序列基序之间提供了高空间分辨率。根据该高分辨率图谱,在每个序列特异性基序位点处开始测序反应并循环一段时间以获得已知空间位置处的多碱基信息，其可以被称为STS或时空测序。本发明还涉及这样的标记方法和特征的使用。
[0031]在一个实施方案中，双链DNA上标记的特定序列基序通过在DNA单链上产生切口并形成间隙(这可以通过酶来实现)来产生。然后使用者可以使用聚合酶进行链延伸，同时产生被称为“瓣片(flaps)”的“被剥离的”短序列片段。这些被剥离的单链瓣片产生了可用于与标记的探针进行序列特异性杂交的区域。在某些实施方案中，碱基(包括标记的碱基或标记的探针)与被剥离的瓣片结合。在其他实施方案中，碱基(或探针)结合以填充形成瓣片的链中留下的“间隙”的至少一部分。在这些实施方案中，填充间隙的碱基或探针的存在起到在间隙中进行填充的作用，使得瓣片保持“游离”并且不返回到其原始位置。标记的碱基或探针可以结合于瓣片和由瓣片的形成所留下的间隙。
[0032]适合的标记物包括荧光染料分子例如荧光素等。荧光团的非穷举的列举可以在WWW.abeam. com处获得,并且适合的突光团对于本【技术领域】的专业人员也是公知的。标记物还可以包括磁性体、放射活性体、量子点等。
[0033]当标记的基因组DNA在承载表面上或纳米通道阵列内线性伸展时，来自于与序列特异性瓣片杂交的装饰探针的信号之间的空间距离可以被定量测量(以一致的方式)。然后可以将该信息用于产生反映出该区域中特定基因组序列信息的独特的“条形码”特征模式。靶分子上切开的间隙适合由特定酶产生，所述酶包括但不限于Nb.BbvC1、Nb.BsmI,Nb.BsrD1、Nb.Bts1、Nt.Alw1、Nt.BbvC1、Nt.BspQ1、Nt.BstNB1、Nt.CviPII 及其组合。根据该图谱可以执行测序。
[0034]作为一个非限制性实例，可以如下形成条形码。一种已知的疾病状态的特征为独特的核苷酸序列TTT- (10个碱基)-CCC- (5个碱基)-AAA。形成三种探针:AAA_红色染料，GGG-蓝色染料和TTT-绿色染料。然后将探针与带有瓣片的dsDNA样品在促进探针结合的条件下相接触，其中所述瓣片是在dsDNA的已知含有上述独特核苷酸序列的区域中形成的。然后将DNA样品拉伸，并由使用者测定样品中探针的存在。如果使用者检测到三种染料存在于样品中，并且彼此具有适合的次序并适合地隔开(即染料次序为红-蓝-绿，并且红色与蓝色染料隔开的距离对应于10个碱基，蓝色与绿色染料隔开的距离对应于约5个碱基)，使用者将获得提示所研究的dsDNA样品可能具有所述已知疾病的信息。
[0035]上面列出的探针仅仅是说明性的。探针可以具有1-10个碱基、1-100个碱基、
1-1000个碱基或甚至更大的长度。探针可以带有单个标签或标记物或者多个标签或标记物。作为一个实例，探针可以被构建成带有两个(或以上)荧光团、或荧光团与放射活性体。探针可以包括通过柔性或刚性间隔区相连的两个或以上结合区(例如AAA和CGG)。
[0036]本本发明也可用于检测特定序列或基因的拷贝。在这些实施方案中，使用者可以如本文中别处所述处理DNA以形成瓣片并将探针与该DNA相接触。然后可以利用特定DNA序列所独有的两个或以上“条形码”的存在，来表明个体可能具有特定基因或特定序列的多个拷贝。这可用于诊断或预测本身以多个基因拷贝为特征的病症、例如各种多基因病的存在。使用者也可以利用两个或以上条形码之间的距离(所述距离可以通过拉伸样品来确定)来协助dsDNA样品的表征。例如，使用者可以在已知(或怀疑)含有对特定疾病的表达关键的区域的dsDNA样品上，在区域的开始和结束处利用探针产生条形码。
[0037]如果疾病不存在，条形码之间的距离可能是第一距离D0。另一方面，如果疾病存在，两个条形码之间的距离可能被发现是更长的距离D1。在这种情况下，使用者将获得提示目标序列(例如基因)在提供dsDNA样品的对象中存在的信息。在其他实施方案中，“正常”个体可能具有使得针对DNA特定区域的开始和结束处的条形码之间的“正常”距离为Dl的基因。然而，如果个体缺少该基因，两个条形码之间的距离可能是更短的距离D0，在这种情况下，使用者将获得提示dsDNA供体缺少目标碱基序列(或基因)的信息。
[0038]这种信息进而可以用于为对象或患者设计保护性(或治疗性)方案。作为一个实例，如果使用者确定对象具有与苯丙酮酸尿症一致的遗传概况，使用者可以建议对象避免摄食含苯丙氨酸的物质。
[0039]本发明还用于检测dsDNA样品中多个不同碱基序列的存在。这可以通过使用探针以便为不同序列产生不同条形码来实现。例如，使用者可能已知疾病I的特征为以距离Dl彼此相隔的碱基序列Sla和Sib。疾病2的特征为以距离D2彼此相隔的碱基序列S2a和S2b。然后使用者可以产生用于疾病I的条形码(使用Sla和Slb特异性或指示性探针)和用于疾病2的条形码(使用S2a和S2b特异性或指示性探针)。通过将适合的探针施加到经瓣片处理过的dsDNA样品并通过检查样品中两种条形码的存在，使用者能够确定dsDNA样品的供体是否被定性为患有疾病1、疾病2或两者。通过这种方式，使用者可以测定单一样品的多种病症。
[0040]用于特定分析的探针在标记物、结合特异性或两方面可以彼此相同或不同。例如，使用者可以使用带有红色荧光染料并与序列AAA结合的探针和与GTTC序列结合并带有绿色荧光染料的探针来执行分析。使用者可以同时使用带有磁性或放射活性体的探针和带有荧光团的探针。通过这种方式，使用者可以同时测定多种探针。
[0041]使用者也可以同时测定多个样品以检测单一病症。例如，使用者可以通过测定来自于多个个体的多个dsDNA样品中特定条形码的存在(或缺少)，并行地测定那些样品以检测特定病症。因此使用者也可以同时测定多个dsDNA样品以检测多种病症，允许对多个个体进行高通量筛查。在一个这样的实施方案中，使用者使用纳米通道组或阵列，其中每个纳米通道被用于拉伸来自于不同对象的处理过的(例如带有瓣片的)dsDNA。然后对各个样品进行探查(例如通过施加辐射以激发样品中可能存在的荧光探针)，以检测表明特定序列的存在或条形码存在的各个探针的存在。
[0042]本发明也可用于产生遗传概况。在这样的实施方案中，使用者可以从以特定病症(例如疾病或失调)为特征的对象获取dsDNA样品。然后使用者可以在dsDNA中一个或多个位置处形成瓣片，然后将标记的探针结合于样品中生成的瓣片或间隙。然后使用者可以探查对象的dsDNA以检测这些探针的存在和位置，这进而产生了关于对象的dsDNA内容的信息(例如具有ACACAC序列的探针与对象dsDNA的结合，表明dsDNA在该位置处具有TGTGTG序列)。
[0043]然后使用者可以构建对象DNA的图谱，所述图谱由关于特定序列段的信息(由与那些序列互补的探针的结合来显示)和那些序列的位置(由那些结合的探针的位置来显示)构成。因此，在非限制性实例中，使用者能够确定被鉴定为患有遗传病X的个体所拥有的dsDNA具有在该dsDNA样品的碱基位置10，321处开始的序列SI和在该dsDNA样品的碱基位置11，555处开始的序列S2。
[0044]通过处理该信息作为存在遗传病X的指示，使用者然后可以将来自于另一个对象的dsDNA与来自于第一个对象的信息进行比较。如果第二个对象分别在碱基位置10，321和11，555处显示出序列SI和S2，那么第二个对象可能也具有遗传病X。通过这种方式，使用者能够根据各种序列特异性探针在从被鉴定为具有各种遗传病症的个体获得的dsDNA上的结合位置，产生他们自己的信息“文库”。然后可以按照本发明对来自于新对象的dsDNA进行处理(例如形成瓣片然后与标记的探针结合)，以确定新对象是否可能具有(即携带)已经在使用者的结合信息文库中分类的一种或多种疾病。
[0045]在另一个实施方案中，通过制造带切口的单链间隙然后在其中掺入标记的核苷酸，来产生双链DNA的标记的(例如带有共价标签的)特异性序列基序。对这种特异性标记的序列基序沿着单个解折叠核酸分子的物理分布和频率进行作图。在某些实施方案中，在这以后可以进行单喊基测序以获得关于样品的逐喊基序列"[目息。
[0046]在另一个实施方案中，单个的标记解折叠核酸分子被线性伸展。这通过在纳米尺度通道、拓扑纳米尺度沟槽或表面性质限定的纳米尺度轨道内对这种拉伸的单分子进行物理限制来实现。作为一个实例，美国专利申请10/484，293中的装置和方法被认为适合于执行线性伸展。光学镊子和剪切-应力施加方法(例如美国专利6，696，022，在此引为参考)也被认为适合于执行这种拉伸。
[0047]在另一个实施方案中，在基材上制造极小的纳米流体结构例如纳米通道、柱、沟等，并将其用作大规模并行阵列，用于以单分子分辨率操作和分析生物分子例如DNA和蛋白质。适合地，通道横截面积大小与被拉伸的生物分子的横截面积相似，即在约I至约IO6平方纳米左右，以提供可以被单个分离并可以同时分析数十、数百、数千或甚至数百万个的拉伸的(例如以至少部分线性或部分解折叠为特征的)生物分子。
[0048]理想地(但不是必需的)，通道的长度长得足以容纳大分子长度的相当部分或甚至相当数量的大分子，其范围从具有光学放大倍数的典型CCDA相机的单一视野的长度(约100微米)直到长至整个染色体，其可以大致10厘米长。最适长度取决于使用者的需要。
[0049]本发明还涉及这些标记方法和特征的应用。瓣片和单链DNA间隙可用于许多领域中，包括但不限于基因组学、遗传学、临床诊断学。
[0050]在一个实施方案中，将带标签的探针(例如具有荧光团)杂交到沿着长的双链基因组DNA分子的瓣片或单链DNA间隙上，然后可以将标记的DNA分子在荧光显微镜下成像，以观察标记的瓣片或单链DNA间隙的空间条形码(即与核苷酸间隔、测序或两者相关的特征)。条形码进而可用于全基因组作图，因为可以将来自于各个条形码的特征拼合在一起，提供关于样品大分子特定区域的附加信息。作为一个非限制性实例，使用者可以将DNA样品打碎成子区段，然后测定每个子区段中特定碱基序列的存在(或缺少)以及这些序列以特定次序的存在。在对子区段进行测定后，使用者可以将从各个子区段收集的信息汇集成整个原始样品的总体信息“图谱”。
[0051]作为一个非限制性实例，使用者可以获取5kb样品并将样品切断成5个Ikb子区段。然后使用者可以在这些子区段的每个中形成瓣片，并测定每个子区段以检测已知(或怀疑)以该子区段中存在的碱基序列为特征的一种或多种遗传病症。例如，可以测定子区段I以检测心脏病，其中特征性序列或序列组已知出现在0-1000碱基位置处，并且可以测定子区段2以检测糖尿病，其中特征性序列或序列组已知出现在1001-1999位置处。然后使用者可以将该信息汇集，以获得对个体疾病状态的综合评估。
[0052]在另一个实施方案中，将不同基因组区域的瓣片或单链DNA用产不同颜色(或发出不同信号)的探针标记，以鉴定两个区域的关系。在BCR-ABL融合的一个这样的实例中，两种或以上颜色存在于相同位置，表明了结构变异，例如易位。这显示在图5中，所述图显示了 BCR和ABL染色体区段的部分的易位。
[0053]在另一个实施方案中，可以将标记的瓣片或单链DNA间隙的一个或多个空间条形码模式(其可以包括含有单一颜色或多种颜色的模式)用于探查多个区域，以用于多路疾病诊断。作为一个非限制性实例，使用者可以探查多个区域以检查多个易位。
[0054]这由例如但不限于图6来显示。该图描绘了多个探针与DNA样品上多个位置的结合，能够让使用者测定样品中多种疾病的存在，所述测定可以同时进行。正如在该非限制性的图中所示，BCR-ABL区域中显露的特定疾病(疾病1)，当在该区域中形成特定瓣片然后通过适合标记物进行标记时，呈现出独特的条形码或特征。同样地，疾病2当在该区域中形成特定瓣片并标记时也呈现出独特的条形码或特征。因此使用者能够同时测定两种或以上疾病，能够在给定对象中快速检测多种疾病或其他状态。通过形成瓣片，使用者获得了进入DNA样品结构的进入点，所述进入点随后可用于探针的序列特异性结合。
[0055]本发明还可用于执行DNA样品的测序。在这样的实施方案中，使用者可以在DNA中形成瓣片(提供进入DNA结构的进入点)。然后使用者可以一次一个地导入单碱基标记的探针，以探测DNA样品的逐碱基序列。例如，使用者可以在DNA中导入切口，然后导入用于A的红色探针。如果随后观察到红色标记物，使用者将获得A存在于切口位点处的信息。如果没有观察到红色标记物，使用者可以导入特异性用于不同核苷酸的第二种标记的探针。
[0056]在另一个实施方案中，使用者也可以将DNA样品断裂成片段，沿着片段的长度形成切口 /瓣片，然后在片段上的切口 /瓣片处导入碱基-或序列-特异性的探针。然后可以将从每个片段收集到的获得的信息反向汇集在一起，产生原始的全长DNA样品的序列图谱。切口 /瓣片可以在DNA样品上的特定位置或随机位置处形成。例如，使用者可以在20个碱基的片段的第I碱基位置和第11碱基位置处形成10个碱基的瓣片/间隙。然后使用者可以向片段导入各种独一标记的和独一特异性的探针(包括长度最多10个碱基的探针)。然后使用者可以通过确定何种探针结合于片段(基于从结合的探针检测到的特定信号)，来获得关于片段的序列信息。
[0057]可以将探针设计成与特定染色体上的瓣片或单链DNA间隙结合。存在的染色体拷贝过多或过少可用于诊断非整倍性。例如，探针可以被设计成表明特定基因或甚至染色体存在的标记序列。然后对象中多个探针(或与探针的存在相关的多个条形码)的存在，可用于显示对象具有所研究的基因或染色体的多个拷贝。
[0058]在另一个实施方案中，本发明鉴定病原体基因组。适合在瓣片产生过程中病原体基因组断成预测的片段，然后使用探针(例如所谓的通用探针)探查瓣片的保守序列。然后将由此获得的条形码模式与预测的参比图谱进行比较，使得使用者能够确定所分析的基因组的结构。这被称为双层DNA条形码编码，其考虑到了 DNA片段尺寸和具有不同尺寸的每种片段上的条形码两者。`
[0059]在另一个实施方案中，该程序被用于鉴定病原体基因组。在瓣片产生期间病原体基因组断成预测的片段，然后使用探针来探测瓣片保守序列。
[0060]然后将获得的条形码与预测的参比图谱进行比较，以产生病原体基因组的从头作图。这是双层DNA条形码编码流程，其将DNA片段尺寸和用于不同尺寸片段的条形码相结
八
口 o
[0061]在另一个实施方案中，该程序鉴定病原体基因组。基于已知的病原体基因组序列，使用者可以设计病原体特异性的瓣片或单链DNA间隙探针，其对不同病原体产生不同条形码，使得使用者能够构建指示各种病原体或其他目标序列的各种条形码的“文库”。这显示在非限制性的图7中，该图演示了向源自于乳腺癌基因组的样品施加各种序列特异性探针，以测定该基因组内各种区段的存在。
[0062]在另一个实施方案中，瓣片或单链DNA间隙可用于富集特定基因组区域。例如，可以执行生物素标记的探针与含有特定瓣片序列的特定区域的杂交，以便固定所分析的区域。通过与含有亲和素分子的珠子或基质结合，对杂交的DNA分子进行选择。结合的分子被保留用于进一步基因组分析，未结合的DNA分子被洗掉。通过这种方式，使用者可以将DNA固定化以便于分析和处理。瓣片可以是样品DNA与珠子或基质之间的附着点。在其他实施方案中，结合点可以位于主dsDNA的碱基与珠子或基质之间，而不是在瓣片与珠子或基质之间。
[0063]在另一个实施方案中，获得瓣片序列或单链DNA间隙序列上的单碱基突变，以用于SNP或单倍型信息收集，正如由非限制性的图11所显示的。在该图中，(分别)显示了 SNPl和2的A和G等位基因。
[0064]附图简述
[0065]当结合附图阅读时，可以进一步理解发明概述以及下面的详细描述。出于说明本发明的目的，在图中显示了本发明的示例性实施方案；然而，本发明不限于所公开的具体方法、组合物和装置。此外，图不是必定按比例绘制的。在所述图中:
[0066]图1显示了在长的基因组区域上产生特征“条形码”模式的示意图，所述基因组区域具有在形成切口后产生的单链瓣片。序列特异性的切口内切核酸酶或切口酶在双链DNA上产生单链切割间隙，聚合酶将结合在其中并开始链延伸，同时产生被置换的链或所谓的“被剥离的瓣片”。这些被剥离的单链瓣片产生了可用于与标记的探针进行序列特异性杂交以产生可鉴定信号的区域。形成切口也可以通过将样品与辐射(例如UV辐射)、自由基或其任何组合相接触来执行。
[0067]图1还显示了在纳米通道阵列中被线性解折叠的标记的基因组DNA，其中来自于在序列特异性瓣片上杂交的装饰探针的信号之间的空间距离是可测量的，因此产生了独特的“条形码”特征模式，其反映出该区域中存在的特定基因组序列。作为实例，显示了在入ds-DNA (总长度48.5kbp)上通过特异性酶产生的多个形成切口位点，所述酶包括但不限于 Nb.BbvC1、Nb.Bsm1、Nb.BsrD1、Nb.Bts1、Nt.Alw1、Nt.BbvC1、Nt.BspQ1、Nt.BstNB1、Nt.CviPII以及它们的任何组合。也显示了线性化的单个入DNA的图像，其显示了与预期的切口酶产生的位置杂交的荧光标记的寡核苷酸探针。这种沿着长生物聚合物记录到的实际条形码在本文中被命名为所谓的观察到的条形码；
[0068]图2显示了使用ADNA分子作为模型系统，在其上执行了不同的标记方案。图2a显示了切口标记；图2b显示了在两个瓣片结构上杂交的具有特定序列的荧光探针；图2c显示了从标记的形成切口位点和标记的瓣片结构产生的信号；
[0069]图3显示了基于Nb.BbVCI，跨22号染色体的50个碱基对的瓣片序列的6碱基滑动分析。正如所示，在瓣片序列上观察到了显著的保守序列。该保守序列进而可用于设计一种或多种探针以靶向多个瓣片结构:
[0070]图4显示了示例性通用探针TGAGGCAGGAGAAT的用途，所述探针被设计成与BAC克隆3f5上的(总共52个形成切口位点中的)21个瓣片结构杂交。其中产生的条形码编码模式与预测模式匹配良好，证明了人们可以将这样的通用探针用于全基因组作图；
[0071]图5显示了 BCR和ABLl基因翻译的易位的临床诊断，所述易位形成了所谓的费城染色体，是白血病的主要病因。在该方案中，将BCR基因在多个瓣片处用绿色探针标记，将ABLl基因在多个瓣片处用红色探针标记。如果观察到红色和绿色模式，则证实了两个基因的易位。
[0072]图6是示意图，显示了所公开的多路诊断方法。每种疾病或基因区域形成其自身的特征条形码，所述条形码可以包括两种(或以上)颜色。将多个条形码置于多个瓣片上，为使用者提供了基本上无限的条形码编码能力:
[0073]图7描绘了结构变异的验证，其中通过瓣片作图证实了 BAC克隆3f5具有多个结构重排；
[0074]图8是使用通用探针，利用双层条形码、即片段尺寸和瓣片条形码编码进行病原体鉴定的不意图；
[0075]图9显示了使用病原体特异性探针进行病原体鉴定；所述探针被设计成靶向病原体基因组的特定区域，其中标记的结构形成独特的条形码。在这种情况下，沙门氏菌(Salmonell)的350000-400000和1090000-1130000区域被用作实例；也显示了大肠杆菌(E coli)的区域；
[0076]图10是样品富集和诊断的不意图；和
[0077]图11显示了基于瓣片结构的分子单倍型分析。
[0078]说明性实施方案的详细描述
[0079]通过参考下面的详细描述并结合形成本公开的一部分的附图和实施例，可以更容易地理解本发明。应该理解，本发明不限于本文中描述和/或显示的具体装置、方法、应用、条件或参数，并且出于描述具体实施方案的目的在本文中使用的术语仅仅是示例性的，不打算对本发明构成限制。此外，当在本说明书包括随附的权利要求书中使用时，不带具体数量的指称物包括其复数形式，并且对具体数值的指称至少包括该具体值，除非上下文明确指明不是如此。当在本文中使用时，术语“多个”是指超过一个。当表述值的范围时，另一个实施方案包括从一个具体值和/或到另一个具体值。同样地，当通过使用先行词“约”将值表示为近似值时，应该理解该具体值形成了另一个实施方案。所有范围都是包含性和可组合的。
[0080]应该认识到，本发明的某些特点为了清楚起见在本文中描述在分开的实施方案的背景中，但它们也可以组合提供在单一实施方案中。相反，为了简单起见描述在单个实施方案的背景中的本发明的各种特点，也可以单独或以任何子组合形式提供。此外，涉及以范围形式陈述的值，包括该范围内的每个和所有值。
[0081]在第一个实施方案中，本发明提供了从DNA或其他核酸样品获得结构信息的方法。这些方法适合包括对双链DNA样品进行处理以产生从所述双链DNA样品上被置换下来的双链DNA样品第一链的瓣片。瓣片适合的长度在约I至约1000个碱基、或5至750个碱基、或10至200个碱基、或50至100个碱基的范围内。瓣片的最适长度取决于使用者的需要。正如在本文别处解释的，瓣片的形成导致在dsDNA中形成与瓣片相对的“间隙”。
[0082]瓣片的产生在dsDNA样品中相配地产生与瓣片位置相对应的间隙，如例如图1所示。因此，该瓣片(和间隙)可用于暴露dsDNA的单链部分，以备扩增、探测或进一步标记。因此，使用者可以执行DNA或其他核酸生物聚合物样品的遗传分析，而不必将生物聚合物断裂成单个核酸进行分析。此外，本发明使得使用者能够基本上不依赖生物聚合物中的核酸序列而执行核酸生物聚合物的分析。
[0083]这是因为可以仅仅从侧翼带有两个或以上探针的DNA区域的尺寸/长度收集遗传信息。例如，如果将探针结合于样品使其位于目标区域侧翼，并且观察到目标区域比在对象中正常观察到的更长(或比应该观察到的更长)，那么使用者将了解到对象可能有以目标区域加长为特征的生理状况或疾病的倾向，例如以特定基因的拷贝数过高为特征的病症。[0084]将一个或多个替代碱基适当地插入到双链DNA的第一链中以消除间隙，并将由此产生的双链样品的至少一部分用一种或多种标签适合地标记。标签适合是荧光标记物、放射活性标记物等。标记物可以沿着大分子的长度布置(参见例如图2)在切口或瓣片处，或这些位置的任何组合处。标记物(例如由探针所携带)也可以导入到dsDNA的间隙中。
[0085]在一个或多个序列特异性位置处适当实现形成切口。这可以通过例如切口酶或切口内切核酸酶、或通过任何引起单链断裂的酶、通过电磁波(例如紫外线)、通过自由基等来实现。也可以在非序列特异性位置处实现形成切口。用于产生这样的瓣片的酶是可商购的，例如从 New England Biolabs, www.neb, com。
[0086]上面提到的替代碱基的掺入，可以通过将双链DNA的第一链与聚合酶、一种或多种核苷酸、连接酶或其任何组合相接触来实现。在某些实施方案中，这在一种或多种替代碱基存在下执行，所述碱基可以包括可检测的标签或标记物。通过这种方式，使用者可以在靶中掺入标记物或标签，这进而允许使用者获得关于靶大分子的结构信息。
[0087]瓣片结构的产生由聚合酶延伸和一种或多种核苷酸的掺入来适当控制，正如本【技术领域】中已知的。所述聚合酶适合具有5’-3’置换活性，并且在某些实施方案中，缺少5’-3’外切核酸酶活性。适合的聚合酶包括但不限于vent外切聚合酶(New EnglandBiolabs, www.neb, com)。
[0088]可以对聚合酶和核苷酸进行选择以控制瓣片的长度。也可以调节反应温度和时间以便控制产生的瓣片的长度。瓣片长度也可以通过存在的不同核苷酸的相对比例、即dATP、dCTP、dTTP和dGTP的比率来控制。核苷酸与聚合物终止物的比率也能影响瓣片长度；终止物可以包括(但不限于)ddNTP和acylo-dNTP。
[0089]适合如下实现标记:通过(a)将至少一个互补探针结合于瓣片的至少一部分上，所述探针适合包含一个或多个标签(例如荧光团)，通过(b)将两个或以上互补探针彼此相邻地杂交，并可以将其连接在一起，或`甚至通过(c)将两个或以上互补探针彼此相邻地杂交，在其间具有一个或多个碱基的间隙。然后可以用标记或未标记的核苷酸填充间隙，所述核苷酸可以通过连接酶连接。标记物可以存在于瓣片上、生成的“间隙”中或多个位置中。
[0090]还提供了从DNA样品获得结构信息的方法。这些方法包括对双链DNA样品进行处理以在双链DNA样品的第二链中产生单链DNA间隙。这可以通过例如在dsDNA DNA样品的形成切口位点处对第一链DNA进行消化来实现。间隙的长度适合在约I至约1000个碱基、或5至750个碱基、或甚至100至500个碱基的范围内。使用者适合对单链DNA间隙的至少一部分进行标记。
[0091]形成切口通过如本文中别处所述的使双链DNA分子的第一链形成切口来实现。切口内切核酸酶Nb.BbvCI被认为是适合的。其他适合的切口内切核酸酶可以从商业来源获得，包括 New England Biolabs (www.neb.com)和 Fermentas (www.fermentas.com)。
[0092]在某些实施方案中，通过5’ 一 3’ exo+聚合酶，使用例如dUTP dA(C，G)TP对切口下游的链进行延伸。Vent聚合酶是适用于此的一种酶。
[0093]然后将DNA用例如尿嘧啶DNA糖基化酶进行消化。dUTP的移除产生了单链DNA间隙。
[0094]在某些实施方案中，瓣片可以被部分或完全移除。然后将生成的间隙用瓣片内切核酸酶填充，所述酶产生单链DNA间隙结构。将延伸的序列再一次用相同的切口内切核酸酶产生切口，并将所述序列通过变性移除。
[0095]实现标记适合通过(a)将至少一个互补探针结合于瓣片的至少一部分上，所述探针包含一个或多个标签，通过(b)将两个或以上互补探针彼此相邻地杂交，并可以连接在一起，和/或通过(C)将两个或以上互补探针彼此相邻地杂交，在其间具有一个或多个碱基的间隙。然后可以用标记或未标记的核苷酸填充间隙，并用连接酶将其连接在一起。
[0096]然后可以按照本文中别处所述对标记的样品进行拉伸。拉伸可以通过熵限制、通过施加流动或剪切力、通过光学镊子、通过施加磁力(例如其中样品包括磁性材料例如珠子)等来实现。
[0097]还提供了从DNA获得结构信息的方法。这些方法包括在第一个双链DNA样品上，标记第一个样品上的一个或多个序列特异性位置；在第二个双链DNA样品上，标记第二个双链DNA样品上相应的一个或多个序列特异性位置；拉伸第一个双链DNA样品的至少一部分；拉伸第一个双链DNA样品的至少一部分；以及将第一个拉伸的双链DNA样品的至少一种标记物的信号强度、位置或两者，与第二个拉伸的双链DNA样品的至少一种标记物的信号强度进行比较。
[0098]在本发明的这一方面中，使用者对两种(或以上)样品的条形码或探针结合谱进行比较。这使得使用者能够在来自于已知具有(或没有)特定病症的个体的样品与来自于第二个个体的样品之间进行遗传概况比较，使得能够确定第二个个体的疾病状况。例如，使用者可以将已知对可以通过基因组分析检测的疾病(例如糖尿病)阳性的个体的探针谱图，与尚未进行所述疾病测试的测试个体的谱图进行比较。如果两种谱图一致(例如如果测试个体显示出与阳性对照个体相同的“条形码”)，使用者将获得提示测试个体对所述疾病“阳性”的信息。
[0099]正如在本文别处描述的，这适合通过将一种或多种探针与至少一个DNA样品进行杂交来实现。这可以通过本文中别处描述的基于瓣片的方法来实现。
[0100]正如本文中别处描述的，实现标记是通过在双链DNA样品的第一链形成切口以便产生(a)与双链DNA样品分开的第一链瓣片和(b)在双链DNA样品的第一链中对应于所述瓣片的间隙，所述间隙由形成切口的位点和瓣片与双链DNA样品的第一链相接的位点来确定。
[0101]所述方法适合使用被设计用于全基因组作图的探针，其探测全基因组范围内的保守瓣片序列。通过这种方式，利用在这些瓣片中保守的序列，可以将一个或仅仅几个探针与成千上万的瓣片序列杂交。杂交的探针相配地形成条形码以鉴定每个单独的DNA片段，其中条形码对于特定片段是独特的。探针可以是序列特异性的。
[0102]可以使用各种用于基因组作图的方案。在一个实施方案中，可以使用切口标记加上瓣片标记(两种或以上颜色)。在另一个实施方案中，可以使用一种切口酶，并用具有两种或以上不同颜色的两种或以上探针进行瓣片标记。在另一个实施方案中，可以使用两种不同的切口酶以及瓣片和切口标记的各种组合。
[0103]还提供了用于从DNA获得结构信息的其他方法。这些方法包括用带有不同颜色的探针标记瓣片的不同(例如两个或以上)区域，以鉴定两个区域之间的空间关系。或者，使用者可以用不同颜色的探针和不同数量的探针标记不同区域的瓣片，以鉴定两个区域的关系。使用者还可以用不同数量的差异(或相同)着色的探针标记不同区域的瓣片，并使用生成的颜色模式来鉴定两个或以上区域之间的关系。可以在不同区域的瓣片上使用不同探针执行标记。也可以将探针靶向到特定染色体，用于鉴定特异性染色体。
[0104]可以部署探针以筛查单一疾病或异常的存在。也可以多路方式使用探针，以同时鉴定多个区域或甚至多种疾病。在这样的实施方案中，使用者可以
[0105]可以通过探测瓣片或ssDNA间隙来鉴定病原性基因组物质。这种鉴定适合包括使用与在多个区域之间保守的序列结合的通用探针，并且该通用探针可用于病原体从头鉴定。在一个实施方案中，这通过在瓣片产生期间病原体基因组断成预测的片段、并使用通用探针探查瓣片保守序列来实现。然后将获得的条形码与病原体基因组的预测的参比图谱进行比较。这被称为“双层” DNA条形码编码，其将DNA片段尺寸和条形码信息相组合。
[0106]图8显示了这种双层条形码编码的一个实例。如该图中所示，通用(或其他)探针在瓣片、切口或两个位置处结合于样品大分子。可以将大分子细分成某些尺寸的片段，并且可以使用片段的尺寸来收集关于样品的进一步结构信息。作为一个非限制性实例，使用者在知道原始样品上限定给定片段的终点的位置后，可以将特定片段的尺寸与该片段在原始样品内的位置相关联。
[0107]还提供了使用病原体特异性探针进行多路病原体鉴定。这通过使用已知病原体基因组序列来设计病原体特异性瓣片探针来实现，其中不同病原体具有不同条形码。正如在非限制性的图9中所示，绿色-红色-绿色-红色探针以该次序的出现，表明存在沙门氏菌。在相同细菌的其他区域中可以测定到相同的条形码。本发明的这一方面使得使用者能够使用序列特异性探针，其进而被用于产生病原体(例如细菌)特异性条形码。
[0108]然后可以使用这样的条形码来测定特定样品中病原体(或甚至病原体基因组的一部分)的存在。正如本文中所述，使用者可以根据一种或多种探针所处区域独有的信号来确定一种或多种探针的位置；并且将结合于DNA样品的一种或多种探针的位置、颜色或两者，与来自于已知对应于一种或多种病原性状态的DNA区域的相应信号进行比较。通过这种方式，使用者可以确定对象是否患有(或倾向于患有)病原性状态。
[0109]另一方面，本发明提供了富集某些基因组区域的方法。这些方法包括将带有锚定物的探针与含有特定瓣片序列的一个或多个区域进行杂交。(一种适合的这样的探针是生物素标记的探针)。杂交的DNA分子可以结合于例如带有接头分子例如亲和素的珠子或玻璃表面。将未结合的DNA分子洗掉，结合的分子随后可用于进一步分析、成像等。在另一个实施方案中，磁性珠子可以结合或附着于DNA样品，然后将样品磁性吸引到基质，以固定化样品。
[0110]图10是本发明技术的示例性、非限制性实施方案。正如该图中所示，探针可以结合于DNA样品上形成的瓣片，以及插入到由于形成瓣片而留下的间隙中。生物素标记的探针将瓣片固定于基质。在该图中所显示的实例中，红色和绿色两种探针的出现表明BCR-ABL融合体的存在。如果只显示绿色探针，那么只有ABL可见。如果只显示红色探针，那么只存在BCR。通过探查瓣片序列和单链DNA间隙序列上的单碱基突变，也可以实现分子单倍型分型。
[0111]还提供了适用于以大规模并行方式对如此标记的大分子进行分拣和线性解折叠以用于光学和非光学信号分析的系统。在示例性实施方案中，这些系统包括一个或多个反应区，DNA、RNA或其他样品材料在其中经历形成切口、瓣片形成、标记和本文中描述的其他步骤。这样的位点可以是反应容器，例如试管、摇瓶或其他通常可获得的实验室物品。或者，这些步骤中的一个或多个可以在与纳米通道或纳米通道阵列流体连通的反应区中执行，正如本文中别处所述，所述纳米通道或纳米通道阵列随后被用于拉伸大分子，以允许使用者收集与大分子相关的结构信息。拉伸可以通过物理/熵限制、通过剪切流体流、通过物理力(光学镊子)等来实现。适合的纳米通道芯片和阵列描述在美国专利申请10/484，293中，其全部内容在此引为参考。
[0112]所述系统还可以包括装置例如成像仪，以收集关于标记样品的可视信息。在一个实施方案中，成像仪包含一个或多个辐射(例如光、激光等)源，用于激发可能存在于按照本发明处理过的大分子上的标记物。成像仪相配地包括CXD装置或其他图像收集硬件。图像可以由使用者检查或由系统处理和进一步分析。这样的进一步处理可以包括对从标记的大分子获得的原始图像进行精修，以及将从标记的大分子获得的图像与通过分析其他样品材料或与所分析的样品可比的材料而产生的模型或预测图像进行比较。可以在从所分析的核酸生物聚合物获取的图像与代表疾病状态、健康状态或其他遗传变异的对照图像之间执行比较。比较可以通过计算机来实现(或协助)。
[0113]其他公开内容
[0114]本申请基于纳米通道(在适合的实施方案中直径<500nm)内单个DNA分子的直接成像和多个序列基序或多态性位点在单一 DNA分子上的定位，提出了与DNA作图和测序相关的方法，包括用于制造长基因组DNA的方法、序列特异性标签的方法和DNA条形码编码策略。这些方法在DNA图谱的背景中获得了连续的逐碱基测序信息。
[0115]与现有方法相比，所公开的DNA作图方法提供了更高的标记效率、更稳定的标记、高灵敏度和更好的分辨率；所公开的DNA测序方法提供了长模板背景中的碱基读出，易于装配，并提供了不能从其他测序技术获得的信息，例如单倍型和结构变异。
[0116]在DNA作图应用中，将单个基因组DNA分子或长片段PCR的片段用荧光染料在特定序列基序处标记。然后将标记的`DNA分子在纳米通道内拉伸成线性形式，并使用荧光显微术成像。通过确定荧光标记物相对于DNA骨架的位置和颜色，可以采用与读取条形码类似的方式精确地建立序列基序的分布。该DNA条形码编码方法被应用于例如噬菌体DNA分子和人类bac克隆的鉴定中。
[0117]在序列特异性形成切口位点处带有瓣片序列的一个示例性实施方案包含下列步骤:
[0118]a)使用切口内切核酸酶使长的(例如>2Kb)双链基因组DNA分子的一条链产生切口，在特定序列基序处引入切口；
[0119]b)使用DNA聚合酶在切口处掺入荧光染料标记的核苷酸或非荧光染料标记的核苷酸，置换下游链以产生瓣片序列；
[0120]c)通过标记核苷酸的聚合酶掺入、或通过荧光探针的直接杂交或通过用连接酶连接荧光探针，对瓣片序列进行标记；
[0121]d)在纳米通道内，通过将样品流过所述通道或通过将DNA的一端固定在通道内，将标记的DNA分子拉伸成线性形式；以及
[0122]e)使用荧光显微术确定荧光标记物相对于DNA骨架的位置，以获得DNA的图谱或特征条形码。[0123]在序列特异性形成切口位点处具有ssDNA间隙的另一个实施方案包括下列步骤:
[0124]a)使用切口内切核酸酶使长的(例如>2Kb)双链基因组DNA分子的一条链产生切口，以在特定序列基序处引入切口；
[0125]b)通过DNA聚合酶在切口处掺入荧光染料标记的核苷酸或非荧光染料标记的核苷酸，置换下游链以产生瓣片序列；
[0126]c)使用相同的切口内切核酸酶在新延伸的链上形成切口，并用瓣片内切核酸酶切开新形成的瓣片序列(可以通过提高温度移除脱离的ssDNA)；
[0127]d)通过标记核苷酸的聚合酶掺入、或荧光探针的直接杂交或用连接酶连接荧光探针，对ssDNA间隙进行标记；
[0128]e)在纳米通道内，将标记的DNA分子通过流过通道或将所述DNA的一端固定在通道内而拉伸成线性形式；以及
[0129]f )使用荧光显微术确定荧光标记物相对于DNA骨架的位置，以获得DNA的图谱或条形码。
[0130]瓣片和单链DNA间隙的另一种应用是全基因组作图。对通过切口内切核酸酶(包括但不限于Nb.BbVCI)制造的全基因组DNA的瓣片和/或ssDNA间隙序列进行分析，并根据跨样品的多个区域或跨多个样品保守(即出现)的序列来设计杂交探针。可以使用单个或几个(少于4个)探针，例如cy3-TGAGGCAGGAGAAT-cy3。将标记的DNA分子在纳米通道内线性化(如本文别处所述)，并产生DNA条形码。
[0131]图3是示例性实施方案，显示了使用所谓的通用探针来结合并定位保守区。如该图中所示，可以使用探针(在这种情况下是碰巧具有比较高GC含量的探针)沿着给定样品大分子的长度来靶向并定位保守序列。通用探针的使用进一步显示在图4中，该图显示了与沿着样品大分子长度的多个位点结合的单一通用探针的使用。
[0132]使用瓣片和/或ssDNA间隙的另一个实施方案是检测由结构变异引起的疾病。这样的疾病的一个实例是BCR-ABL基因融合，该情况是白血病的主要病因。在这种情况下(如图5和6所示)，带有绿色荧光团标签的探针杂交在BCR基因的瓣片上或单链DNA间隙中，而带有红色荧光团标签的探针将杂交在ABL基因的瓣片上或单链DNA间隙中。如果在相同DNA分子上观察到绿色-红色两种颜色，则证实了存在BCR-ABL融合基因。
[0133]上述疾病诊断的另一个实施方案包括两个以上区域的重排，例如锌指乳腺癌诊断标志物，其包含来自于基因组4个不同区域的4区段重排。
[0134]在另一个实施方案中，可以使用更多颜色的组合、或使用更复杂的瓣片或ssDNA间隙空间条形码、或颜色与着色瓣片和ssDNA间隙的空间分布两者的多重检测格式，来测试两种或以上疾病。
[0135]在另一个实施方案中，所述程序被用于鉴定病原体基因组。基因组适当地用切口内切核酸酶(包括但不限于Nb.BbVC1、Nb.BsmI等)在双链DNA分子的第一链上形成切口。两个形成切口位点适合位于相反链上IOObp之内，所述链由于产生瓣片而相应断裂。断裂模式对于特定病原体基因组来说是特异性的，所述模式可用作第一层条形码信息。
[0136]然后可以使用通用探针，将瓣片或ssDNA间隙上的每个片段亚组用荧光探针进行标记。然后用片段尺寸和内部颜色条形码的组合鉴定病原体基因组。例如，以这种方式可以鉴定耶尔森氏菌属(Yersinia)细菌。[0137]在另一个实施方案中，基于已知的病原体基因组序列，人们可以选择病原体基因组的特定区域以证实病原体的存在。在这种情况下，可以设计病原体特异性的瓣片或单链DNA间隙探针，其对不同病原体产生特定模式。例如，沙门氏菌属(Salmonella)细菌基因组在350000-400000bp位置处(50kb的区域)可以用Nb.BbVCI和相关探针进行切口-瓣片标记，以对基因组产生条形码。为了增加特异性，可以使用其他这样的区域，例如从I, 000, 000-1, 500, OOObp的50kb区域。以类似方式可以鉴定病原体基因组的混合物。
[0138]在另一个实施方案中，瓣片或单链DNA间隙可用于富集特定基因组区域。在这些实施方案中，使用者执行生物素标记探针与含有特定瓣片序列的特定区域的杂交。然后通过将杂交的DNA分子结合于含有亲和素分子的珠子或玻璃表面，来筛选它们。结合的分子被留存用于进一步基因组分析。将未结合的DNA分子洗掉，并对固定化样品进行进一步分析。
实施例
[0139]下面的实施例仅仅是说明性的，而不一定限制本发明的范围。
[0140]实施例:在双链DNA分子上产生单链DNA瓣片
[0141]将基因组DNA样品稀释至50ng，供用于形成切口反应。向0.2mL PCR离心管加入IOuL入0嫩(50叩/^)，然后加入2^ IOX NE缓冲液#2和3 ii L切口内切核酸酶，包括但不限于 Nb.BbvC1、Nb.Bsm1、Nb.BsrD1、Nb.Bts1、Nt.Alw1、Nt.BbvC1、Nt.BspQ1、Nt.BstNB1、Nt.CviPII。将混合物在37°C温育I小时。
[0142]在形成切口反应完成后，实验前进到在形成切口位点处进行有限聚合酶延伸，以置换3’下游链并形成单链瓣片。瓣片生成反应混合物由15 u I形成切口产物和5 掺入混合物构成，所述掺入混合物含有2 ill IOX缓冲液、0.5 u I聚合酶和I ill从I ii M至ImM各种不同浓度的核苷酸，所述聚合酶包括(但不限于)vent (exon-)、Bst和Phi29聚合酶。将瓣片生成反应混合物在55°C下温育。瓣片的长度由温育时间、所使用的聚合酶以及所使用的核苷酸的量来控制。
[0143]实施例:双链DNA分子上的序列特异性切口的荧光标记
[0144]将基因组DNA样品稀释至50ng，供用于形成切口反应。向0.2mL PCR离心管加入IOuL入0嫩(50叩/^)，然后加入2^ IOX NE缓冲液#2和3 ii L切口内切核酸酶，包括但不限于 Nb.BbvC1、Nb.Bsm1、Nb.BsrD1、Nb.Bts1、Nt.Alw1、Nt.BbvC1、Nt.BspQ1、Nt.BstNB1、Nt.CviPII。将混合物在37°C温育I小时。
[0145]在形成切口反应完成后，实验前进到在形成切口位点处进行聚合酶延伸，以掺入染料核苷酸。在一个实施方案中，掺入单一荧光核苷酸终止物。在另一个实施方案中，掺入多种荧光核苷酸。掺入混合物由15 Ul形成切口产物和5iU掺入混合物构成，所述掺入混合物含有2 u IlOX缓冲液、0.5 u I聚合酶包括(但不限于)vent (exon-)、以及I yl荧光染料核苷酸或核苷酸终止物，包括(但不限于)cy3、alexa标记的核苷酸。将掺入混合物在55°C下温育30分钟。
[0146]实施例:双链DNA分子上形成切口位点和单链DNA瓣片的双色标记
[0147]将形成切口位点用一种颜色的突光团标记。反应用250nM未标记的核苷酸dNTP进行，以产生瓣片。在瓣片序列产生后，将瓣片用不同颜色的荧光染料分子标记。这通过例如探针杂交、用聚合酶掺入荧光核苷酸和连接荧光探针来实现。
[0148]实施例:使用单一探针TGAGGCAGGAGAAT进行全基因组作图
[0149]将基因组DNA样品稀释至50ng，供用于形成切口反应。向0.2mL PCR离心管加入IOuL入0嫩(50叩/^)，然后加入2^ IOX NE缓冲液#2和3 ii L切口内切核酸酶，包括但不限于 Nb.BbvC1、Nb.Bsm1、Nb.BsrD1、Nb.Bts1、Nt.Alw1、Nt.BbvC1、Nt.BspQ1、Nt.BstNB1、Nt.CviPII。将混合物在37°C温育I小时。
[0150]在形成切口反应完成后，实验前进到在形成切口位点处进行有限聚合酶延伸，以置换3’下游链并形成单链瓣片。瓣片生成反应混合物由15iU形成切口产物和5iU掺入混合物构成，所述掺入混合物含有2 IOX缓冲液、0.5 u I聚合酶包括(但不限于)vent(exon-)和I ill从I ii M至ImM各种不同浓度的核苷酸。将瓣片生成反应混合物在55°C下温育。瓣片的长度由温育时间、所使用的聚合酶以及所使用的核苷酸的量来控制。然后将产生的瓣片用通用探针例如用于Nb.BbVCI的TGAGGCAGGAGAAT进行杂交和标记。
[0151]实施例:来自乳腺癌基因组的MCF-7 3F5 BAC克隆的重排结构的结构变异验证
[0152]该区域由4个区段构成:3pl4.1，反向的14.1Kb区块;20ql2，反向的22.3Kb区块，其含有PTPRT基因的外显子6 ；20pl3.31，45.5Kb的区块，其含有截短的BMP7基因的外显子I及其完整启动子；20pl3.2，23.4Kb的区块，其含有完整的ZNF217基因。使用与瓣片杂交的区域特异性探针来证实4个区域的存在:用于20ql2的TGCCACCTACCCCT ;用于20pl3.31的 AGAAGCCTGTCAGATGCAT ;用于 20pl3.2 的 ACTGTAGTCTTGAATTCCTGA，以及用于 3pl4.1 的TCCTTGGTTGACCTAACAACACA。
[0153]实施例:检测方案
[0154]在检测方案的一个实例中，通过时间延迟积分(TDI)相机捕获以流动方式移动的DNA的视频图像。在这样的实施方`案中，将DNA的移动与TDI同步。
[0155]在检测方案的另一个实例中，通过CXD或CMOS相机捕获以流动方式移动的DNA的视频图像，并通过软件或硬件将帧集成，以鉴定和重构DNA图像。
[0156]在检测方案的另一个实施例中，通过在分开的一组传感器上同时捕获不同波长来收集DNA的视频图像。这可以使用一个相机或双或多视图分割器，或使用滤光片和多个相机来进行。相机可以是TD1、C⑶或CMOS检测系统。
[0157]在另一个实例中，使用同时多波长视频检测，将骨架染料用于鉴定独特DNA片段，并将标记物用作标志物以追踪DNA移动。这可用于DNA长度大于相机视野的情况，并且标志物可用于协助作图DNA的重构图像。

1.一种对双链DNA样品进行分析的方法，所述方法包含: 对双链DNA样品进行处理以产生从双链DNA样品置换下来的双链DNA样品的第一链的瓣片，所述瓣片的长度在约I至约1000个碱基的范围内，并且所述瓣片在双链DNA样品的第一链中产生对应于所述瓣片的间隙；将一个或多个碱基掺入到双链DNA中，以消除间隙的至少一部分；用一个或多个标签标记处理过的双链DNA的至少一部分；以及将一个或多个标记物的位置与所述DNA样品的结构特征相关联。
2.权利要求1的方法，其中处理包含使双链DNA的第一链形成切口。
3.权利要求2的方法，其中形成切口在双链DNA上的一个或多个序列特异性位置处实现。
4.权利要求2的方法，其中形成切口在双链DNA上的一个或多个非特异性位置处实现。
5.权利要求2的方法，其中形成切口通过将双链DNA样品暴露于形成切口的内切核酸酶、引起单链断裂的酶、电磁辐射、自由基或其任意组合来实现。
6.权利要求1的方法，其中将一个或多个替代碱基掺入双链DNA的第一链包含将双链DNA的第一链与聚合酶、一种或多种核苷酸、连接酶或其任意组合相接触。
7.权利要求1的方法，其中瓣片的产生通过聚合酶延伸、一种或多种核苷酸的掺入、反应时间、反应终止物的存在或其任意组合来调节。
8.权利要求6的方法，其中聚合酶具有5’至3’置换活性。
9.权利要求8的方法，其中聚合酶包含vent外切聚合酶。
10.权利要求7的方法，其中一种或多种核苷酸包含dATP、dCTP、dTTP、dGTP或其任意组合。
11.权利要求7的方法，其中反应终止物包含ddNTP、acylo-dNTP或其任意组合。
12.权利要求1的方法，其中标记通过将至少一种互补的标记探针与瓣片的一部分、DNA第一链的一部分、DNA第二链的一部分或其任意组合相结合来实现。
13.权利要求1的方法，其还包含将两种以上互补探针与DNA样品杂交并将所述探针连接在一起。
14.权利要求1的方法，其还包含将两种以上互补探针与DNA样品杂交，在所述探针之间有一个或多个碱基的间隙。
15.权利要求14的方法,其还包含用一个或多个核苷酸填充间隙的至少一部分。
16.权利要求14的方法,其还包含用一个或多个标记的核苷酸填充间隙的至少一部分。
17.权利要求15的方法，其中一个或多个核苷酸连接在一起。
18.权利要求16的方法,其中一个或多个标记的核苷酸连接在一起。
19.权利要求1的方法，其还包含用切口内切核酸酶移除瓣片。
20.权利要求1的方法，其还包含拉伸双链DNA样品的至少一部分。
21.权利要求1的方法，其还包含将一个或多个瓣片附着到基质上。
22.—种从DNA获得结构信息的方法，所述方法包含: 在第一个双链DNA样品上，标记所述第一个样品上的一个或多个序列特异性位置；在第二个双链DNA样品上，标记所述第二个双链DNA样品上相应的一个或多个序列特异性位置；拉伸第一个双链DNA样品的至少一部分；拉伸第二个双链DNA样品的至少一部分；以及将第一个拉伸的双链DNA样品的所述至少一种标记物的信号的强度、位置或两者，与第二个拉伸的双链DNA样品的所述至少一种标记物的信号的强度、位置或两者进行比较。
23.权利要求22的方法，其中经如下实现标记:使双链DNA样品的第一链形成切口，以便产生(a)与双链DNA样品分离开的第一链的瓣片、和(b)在双链DNA样品的第一链中与瓣片对应的间隙，所述间隙由形成切口的位点和瓣片与双链DNA样品的第一链相接的位点来确定。
24.权利要求22的方法，其还包含将一种或多种探针与双链DNA样品的至少一种杂交。
25.权利要求22的方法，其中一种或多种探针与一个或多个保守的瓣片序列结合，使得所述一种或多种探针能够与样品的至少两个区域杂交。
26.—种从DNA获得结构信息的方法,所述方法包含: 用两种以上探针标记双链DNA样品的单链DNA成员的瓣片上的两个以上区域，并将探针的位置与所述两个以上区域之间的空间关系、与一个或多个所述区域的结构、序列

查看更多专利详情

下载专利文献

下载专利