CN109593757B

CN109593757B - 一种探针及其适用于高通量测序的对目标区域进行富集的方法

Info

Publication number: CN109593757B
Application number: CN201710918635.3A
Authority: CN
Inventors: 张林华; 李旭超; 葛会娟; 金保雷; 陈宁; 阮力; 郑立谋
Original assignee: Xiamen Aide Biomedical Technology Co ltd
Current assignee: Xiamen Aide Biomedical Technology Co ltd
Priority date: 2017-09-30
Filing date: 2017-09-30
Publication date: 2021-08-03
Anticipated expiration: 2037-09-30
Also published as: JP7641118B2; US11761037B1; WO2019062289A1; EP3674419A4; JP2020536525A; EP3674419A1; CN109593757A

Abstract

本发明公开了一种适用于高通量测序的探针及利用该探针富集目标区域的方法。探针从5’端依次为，连接臂，屏蔽序列1，UID序列1，Illumina Tag1序列，dU区，Illumina Tag2序列，UID序列2，屏蔽序列2，延伸臂；其中屏蔽序列1，屏蔽序列2，dU区，UID序列1，UID序列2可以是0bp。采用本发明的探针构建的文库测序时无需额外添加测序引物，采用本发明的方法可直接以RNA为模板进行目标区域捕获，简化实验流程。

Description

一种探针及其适用于高通量测序的对目标区域进行富集的方法

技术领域

本发明涉及生物技术测序领域，尤其涉及一种探针及其适用于高通量测序的对目标区域进行富集的方法。

背景技术

随着高通量测序技术的快速发展，测序效率明显提升，时间明显缩短，费用明显降低，基因检测手段有了革命性的变化，其技术正向着大规模、工业化的方向发展。虽然高通量测序总体成本大幅下降，然而高深度的全基因组测序成本和解读海量测序数据的复杂程度还是让科研人员倍感困难。目标序列靶向测序技术的出现，在一定程度上缓解了上述困难。目标序列靶向测序是一种对感兴趣的基因区域进行富集测序的研究策略。目标区域测序的主要优势在于可针对特定区域进行测序，有效降低了测序成本，提高了测序深度，能够更为经济有效地研究特定区域的遗传变异信息。

目前实现目标区域富集主要有三种方法：杂交捕获技术、多重PCR技术和分子倒置探针技术(Molecular Inversion Probe，MIP)。杂交捕获技术：首先用物理方法或酶切法把基因组DNA片段化，并在两端连接上接头，进行PCR扩增。然后与标记有生物素的探针杂交，没有杂交上的DNA不能被磁珠捕获而被清洗掉。最后富集到的DNA样本进行PCR扩增、测序。杂交捕获的特点是可扩展性好，且能够对外显子组甚至更大的目标区域进行捕获，但缺点是操作流程复杂、周期较长、成本较高、需要依赖较多特殊的仪器设备。

多重PCR扩增技术根据靶序列设计特异性引物，通过多重扩增，对靶序列进行富集。多重PCR技术操作简便、应用灵活、价格低廉、分析简单、对仪器要求最小化，能在数小时内完成目标序列富集和文库构建。利用超高的测序深度，扩增子测序可以检测复杂样品中的超低频突变，特别适用于癌症等疾病的临床科研。其缺点是只适用于相对较小的目标序列捕获，需要解决扩增抑制、引物交叉扩增、严重的引物二聚体等问题。

分子倒置探针技术是一种新型多重靶向测序方法，这种方法具有操作流程简单、样品需求量小、成本低、精确度高等优点。然而，分子倒置探针在高通量测序领域的应用并不成熟，具有杂交时间久、错误率高、操作步骤复杂等缺点。

发明内容

本发明的目的在于提供一种利用改进的分子倒置探针技术设计一种简单、快速、高效、准确的富集目标区域的方法。

为实现上述目的，本发明提供一种探针，其特征在于，其从5’端依次为，连接臂，屏蔽序列1，UID序列1，Illumina Tag1序列，Illumina Tag2序列，屏蔽序列2，延伸臂；所述UID序列1为3-12个随机碱基组成；所述屏蔽序列1为0-3个不与连接臂对应的模板上游的序列互补的随机碱基；所述屏蔽序列2为0-3个不与连接臂对应的模板下游的序列互补的随机碱基。

本发明的另外一个方面，也提供一种探针，其特征在于，其从5’端依次为，连接臂，屏蔽序列1，Illumina Tag1序列，Illumina Tag2序列，UID序列2，屏蔽序列2，延伸臂，所述UID序列2为3-12个随机碱基组成；所述屏蔽序列1为0-3个不与连接臂对应的模板上游的序列互补的随机碱基；所述屏蔽序列2为0-3个不与连接臂对应的模板下游的序列互补的随机碱基。

本发明的另外一个方面，也提供一种探针，其特征在于，其从5’端依次为，连接臂，屏蔽序列1，UID序列1，Illumina Tag1序列，Illumina Tag2序列，UID序列2，屏蔽序列2，延伸臂；所述UID序列1和UID序列2均为3-12个随机碱基组成；所述屏蔽序列1为0-3个不与连接臂对应的模板上游的序列互补的随机碱基；所述屏蔽序列2为0-3个不与连接臂对应的模板下游的序列互补的随机碱基。

本发明的另外一个方面，还提供一种探针，在上述探针的基础上，Illumina Tag1序列和Illumina Tag2序列中间，还有dU区，其为1-3个脱氧尿嘧啶碱基。

进一步，所述连接臂为15-45bp与核酸模板互补结合的碱基序列；

所述Illumina Tag1序列和Illumina Tag2序列为Illumina平台任意建库试剂盒中的转座子Adapters、接头上的序列或其互补或反向互补序列的任意组合；

延伸臂为15-45bp与核酸模板互补结合的碱基序列。

进一步，所述延伸臂进行了修饰；优选的，进行了硫代修饰；更优选的，连接臂Tm值高于延伸臂Tm值2℃以上；

任选的，所述连接臂5’端进行了磷酸化修饰；

任选的，所述Illumina Tag1序列和Illumina Tag2序列选自Illumina平台建库试剂盒中转座子Adapters、接头上的序列或其互补序列的任意组合。

本发明的另外一个方面，还提供一种适用于高通量测序的对目标区域进行富集的方法，其特征在于，使用了所述的探针。

进一步，步骤为，

杂交、延伸、连接反应：模板DNA与所述探针杂交，延伸、连接，得到第一产物；

第二产物的获得：酶切消化掉剩余的探针和模板DNA，通过标签引物进行PCR扩增，得到第二产物；

纯化：对第二产物进行纯化得到文库；

将文库上机测序即可。

进一步，所述杂交、延伸、连接反应步骤为：模板DNA与所述探针先杂交，然后加入聚合酶、连接酶进行延伸、连接，得到第一产物；

优选的，反应体系和反应程序为：

程序为95℃变性5min，60℃孵育2h；然后在上述体系中再加入以下试剂进行延伸、连接反应，反应程序为60℃孵育1h；

或模板为RNA时，

70℃变性2min，65℃孵育2h；然后再加入以下试剂，42℃反应1h，进行延伸、连接反应；

或同时加入模板DNA、所述探针和聚合酶、连接酶，同时进行杂交，延伸、连接，得到第一产物；

优选的，反应体系和反应程序为：

反应程序为95℃5min，60℃3h。

进一步，所述第二产物的获得步骤为：先用外切酶消化掉剩余的探针和模板DNA，然后利用USER酶将第一产物线性化，再通过标签引物进行PCR扩增，得到第二产物；

优选的，反应体系和程序为：

第一产物

Exonuclease I 0.5μL；

Exonuclease III 0.5μL。

37℃孵育40min，95℃孵育5min；

再加入以下试剂：

37℃孵育15min，98℃预变性30s；98℃变性10s，58℃退火30s，72℃延伸30s，26cycles；72℃延伸2min，4℃保温；

或同时加入核酸外切酶和标签上游引物，标签下游引物，同时进行酶切消化、线性化和PCR扩增得到第二产物；

所述标签上游引物和标签下游引物的3’端有硫代修饰，5’端有硫代、氨基或间臂修饰，防止被外切酶酶切；

优选的，模板为DNA时的反应体系和程序为：

反应程序为37℃孵育40min，95℃孵育5min，98℃预变性30s；98℃变性10s，58℃退火30s，72℃延伸30s，26cycles。72℃延伸2min，4℃保温；

或模板为RNA时的反应体系和程序为：

37℃孵育60min，95℃孵育5min，98℃预变性30s；98℃变性10s，60℃退火30s，72℃延伸30s，27cycles。72℃延伸2min，4℃保温。

进一步，所述标签引物中的上游引物结构从5’端开始为Illumina测序时用于簇生成的序列区，index序列区；与Illumina Tag1序列反向互补配对的全长序列区；

标签引物中的下游引物结构从5’端开始为Illumina测序时用于簇生成的序列区，index序列区；Illumina Tag2全长序列区。

其实施过程具体包括以下部分：

1.探针与核酸样本杂交

探针与核酸样本杂交是指探针的延伸臂和连接臂与单链的核酸样本的靶区域具有互补配对的序列，在合适的杂交体系和温度下进行杂交。核酸样本可以是DNA、RNA或者由RNA反转录得到的cDNA，也可以是DNA和cDNA或DNA和RNA的混合物。在图1中描绘了改进的其中一种MIP探针结构。探针的来源可以是多种合成方式，也可以合成后通过分子生物学手段进行改造。探针由8部分结构组成：1)与核酸模板互补结合的长度可变的连接臂(15～45nt)；2)0-3个不与连接臂对应的模板上游的序列互补的随机碱基，起屏蔽作用；3)1-2个UID(Unique Identifier)序列，所述UID序列由3-12个随机碱基组成，用于区分原始模板的标签序列；4)用于Illumina测序平台测序的标签序列1(Tag1，IlluminaNextera LibraryPrep Kits中NexteraTransposaseAdapters Read 2的一段序列的反向互补序列5’-CTGTCTCTTATACACATCTCCGAGCCCACGAGAC-3’)，该序列3’端可减少0-16个碱基；5)0-3个脱氧尿嘧啶(dU)碱基；6)用于Illumina测序平台测序的标签序列2(Tag2，Illumina TruSeq试剂盒5端接头上的一段序列5’-ACACTCTTTCCCTACACGACGCTCTTCCGATCT-3’)，该序列5’端可减少0-19个碱基；其中标签序列1和2这两个用于测序的标签序列可以是Illumina平台任意建库试剂盒中转座子Adapters、接头上的序列或其互补序列的任意组合。7)1-3个不与延伸臂对应的模板的下游序列互补的随机碱基，起屏蔽作用；8)与核酸模板互补结合的长度可变的延伸臂(15～45nt)。延伸臂可进行硫代修饰或其它修饰；在合成探针时，连接臂5’端进行磷酸化修饰，也可以选择在合成时不做磷酸化修饰，通过磷酸化反应对探针5’端进行磷酸化修饰)。

2.延伸、连接酶连接反应

当探针的延伸臂和连接臂都锚定到靶区域后，利用DNA聚合酶的聚合功能，从延伸臂3’端延伸到连接臂的5’端。优选保真性高的DNA聚合酶。当模板为RNA时，采用反转录酶进行延伸。然后利用连接酶将切口连接，得到环状产物。当然，杂交、延伸、连接反应也可以在一步里面同时进行。

3.外切酶消化线性探针和核酸

为了消除核酸样本和剩余探针对后续PCR扩增的影响，利用单链核酸外切酶、双链核酸外切酶将探针和单链、双链核酸样本消化，只保留环状的产物。外切酶可以是单酶或多种酶的混合物。

4.将环状产物线性化、PCR扩增

为了提高PCR扩增效率，利用USER酶将环状产物切成线性，再用含有与探针结构中测序标签序列相同或互补结构的上下游引物(CAAGCAGAAGACGGCATACGAGATTTCTGCCTGTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG(未经过硫代修饰的SEQ ID NO:9)和

AATGATACGGCGACCACCGAGATCTACACTATAGCCTACACTCTTTCCCTACACGACGCTCTTCCGATCT(未经过硫代修饰的SEQ ID NO:10)进行文库扩增。下划线部分为index序列，用于混合文库测序时区分不同文库的标签，该序列可更改。

当然，也可以将外切酶和PCR试剂(不含USER酶)混合，先进行酶切反应，再利用硫代修饰的上下游引物进行文库扩增。

5.文库纯化

为了去除文库中的酶、脱氧核糖核苷三磷酸(dNTPs)、离子、引物、引物二聚体等杂质，采用Beckman公司的AgencourtAMPure XP磁珠对文库进行纯化，也可采用电泳后切胶回收或者柱纯化等其他方式进行纯化。

6.高通量测序

制备好的文库经浓度、片段质控合格后在高通量测序仪上测序。本发明的文库测序方法包括但不限于可逆末端终止测序法，也可以是其它测序平台。测序类型可以为单端测序或双端测序。在本发明的实施方案中，所述的测序平台为Illumina，测序类型为双端测序。

与目前常规的MIP方法相比，本发明的有益效果主要有：

1.本发明采用IlluminaNextera和IlluminaTruSeq接头上的序列做为探针的骨架序列，测序时无需额外添加测序引物，简化了实验流程。

2.本发明对PCR标签引物进行修饰，可将酶切试剂、PCR试剂同时加入反应管，减少操作步骤。

3.本发明可直接以RNA为模板进行目标区域捕获，不需要先进行反转录，简化实验流程。

4.本发明通过引入UID结构，可去除由PCR扩增得到的重复序列，明显降低错误率，还原样本真实的突变频率。在探针结构中引入dU碱基，利用USER酶将环状模板线性化来提高PCR扩增效率，降低PCR扩增错误。

附图说明

图1是本发明的其中一种探针结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。实施例中未注明具体技术或条件者，按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者，均为可以通过市购获得的常规产品。

以下引物和探针均由生工生物工程(上海)股份有限公司合成。

本实施例所使用HCT15细胞，可自普诺赛生物，上海研域生物工程有限公司等生物公司购买，然后按照常规DNA提取方法提取其DNA即可。

NCI-H3122细胞系可以购自上海泽叶生物科技有限公司、上海继和生物科技有限公司等公司，然后按照常规RNA提取方法提取其RNA即可。

以下结合图1中的探针结构来理解和说明实施例中的探针结构。

实施例1：用改进的MIP探针库进行目标区域富集

在该实施例中，使用4条靶向人类乳腺癌易感基因(BRCA)的探针。实验分两组，组1为探针不含dU结构，组2为探针含有dU结构，其余结构及序列均相同。

备注：B表示可以是G、T或C；D表示可以是G、A或T；H表示可以是A、T或C；V表示可以是G、A或C；N表示可以是A、T、C或G；5Phos表示磷酸化修饰；-s-表示两个碱基之间进行硫代修饰。

组1探针序列如下：

P01:

SEQ ID NO:1

其中从5’端开始，下划线为连接臂，NNNNNNNNNNNN为UID序列1，双下划线为Illumina Tag1，下划线为点线的是Illumina Tag2，波浪下划线为延伸臂。

P02:

SEQ ID NO:2

其中从5’端开始，下划线为连接臂，VV为屏蔽序列1，双下划线为Illumina Tag1，下划线为点线的是IlluminaTag2，NNNNNNNNNNNN为UID序列2，波浪下划线为延伸臂。

P03:

SEQ ID NO:3

其中从5’端开始，下划线为连接臂，VBD为屏蔽序列1，NNN为UID序列1，双下划线为Illumina Tag1，下划线为点线的是IlluminaTag2，NNN为UID序列2，BDB为屏蔽序列2，波浪下划线为延伸臂。

P04:

SEQ ID NO:4

其中从5’端开始，下划线为连接臂，B为屏蔽序列1，NNNNN为UID序列1，双下划线为Illumina Tag1，下划线为点线的是Illumina Tag2，NNNNN为UID序列2，H为屏蔽序列2，波浪下划线为延伸臂。

组2探针序列如下：

P05:

SEQ ID NO:5

其中从5’端开始，下划线为连接臂，NNNNNNNNNNNN为UID序列1，双下划线为Illumina Tag1，dU为脱氧尿嘧啶，下划线为点线的是IlluminaTag2，波浪下划线为延伸臂。

P06:

SEQ ID NO:6

其中从5’端开始，下划线为连接臂，VV为屏蔽序列1，双下划线为Illumina Tag1，dU为脱氧尿嘧啶，下划线为点线的是Illumina Tag2，NNNNNNNNNNNN为UID序列2，波浪下划线为延伸臂。

P07:

SEQ ID NO:7

其中从5’端开始，下划线为连接臂，VBD为屏蔽序列1，NNN为UID序列1，双下划线为Illumina Tag1，dU为脱氧尿嘧啶，下划线为点线的是Illumina Tag2，NNN为UID序列2，BDB为屏蔽序列2，波浪下划线为延伸臂。

P08:

SEQ ID NO:8

其中从5’端开始，下划线为连接臂，B为屏蔽序列1，NNNNN为UID序列1，双下划线为Illumina Tag1，dU为脱氧尿嘧啶，下划线为点线的是Illumina Tag2，NNNNN为UID序列2，DBH为屏蔽序列2，波浪下划线为延伸臂。

杂交反应体系如下：

程序为95℃变性5min，60℃孵育2h。然后在上述杂交产物中再加入以下试剂进行延伸、连接反应，反应程序为60℃孵育1h。

使用核酸外切酶将剩余的探针和DNA消化。在上述产物中再加入以下试剂：

Exonuclease I(NEB) 0.5μL；

Exonuclease III(NEB) 0.5μL。

37℃孵育40min，95℃孵育5min。

为了将含dU结构组的环状产物切成线性单链，在PCR反应中加入了USER酶。即在上述产物中再加入以下试剂：

标签1引物序列：

SEQ ID NO:9

标签2引物序列：

SEQ ID NO:10

其中下划波浪线的序列为IlluminaTruSeq试剂盒5端接头上的一段序列，本发明探针结构中的Illumina Tag2就是这段序列的5’端减少0-19个碱基。双下划线为Illumina测序时用于簇生成的序列，不可更改。下划线部分均为index序列，序列可变。下划点线为Illumina Nextera TransposaseAdapters Read 2的一段序列，与本发明探针结构中的Illumina Tag1反向互补配对。

标签引物序列用于环状产物的PCR放大，当Tag1、2序列更换为Illumina建库试剂盒其他转座子Adapters、接头上的序列或其他组合时，下划线和波浪点线位置的序列要对应更改。)

37℃孵育15min，98℃预变性30s；98℃变性10s，58℃退火30s，72℃延伸30s，26cycles；72℃延伸2min，4℃保温。

扩增结束后使用AgencourtAMPure XP磁珠对文库进行纯化。然后对文库进行质控，Illumina测序仪上机测序。

表1采用含dU结构和不含dU结构探针建库的文库产量、模板回收率结果表

实验组	文库产量(ng)	模板回收率
			组1(不含dU结构组)	62.3	22.6％
组2(含dU结构组)	224.6	23.1％

从表1可以看出，虽然含dU结构探针与比不含dU结构探针相比模板回收率差异不大，但是可以明显提高文库产量。

实施例2：用优化连接臂、延伸臂熔解温度(Tm)值的MIP探针库进行目标区域富集

探针序列如下：

P09:

在P5的基础上，其3’端最后三个碱基之间进行硫代修饰。

P10:

在P6的基础上，其3’端最后三个碱基之间进行硫代修饰。

P11:

在P7的基础上，其3’端最后三个碱基之间进行硫代修饰。

P12:

在P8的基础上，其3’端最后三个碱基之间进行硫代修饰。

PCR引物序列同实施例1，即标签1引物序列同实施例1中的标签1引物序列；此处的标签2引物序列同实施例1中的标签2引物序列。

在本实施例中，探针设计时连接臂的Tm值高于延伸臂2℃以上，延伸臂进行硫代修饰。实验分两组，对照组采用P05-P08探针、优化组采用优化后的P09-P12探针，具体步骤如下：

1.杂交、延伸、连接反应，见表3：

表3反应体系表

反应程序为95℃5min，60℃3h。

2.在上述体系中再加入以下试剂，进行酶切反应，反应程序为37℃孵育40min，95℃孵育5min。

ExonucleaseⅠ(NEB) 0.5μL；

ExonucleaseⅢ(NEB) 0.5μL；

Exonuclease Lambda(NEB) 0.5μL；

3.上述体系中加入以下试剂进行产物线性化和PCR扩增。

此处的标签1引物序列同实施例1中的标签1引物序列；此处的标签2引物序列同实施例1中的标签2引物序列。

反应程序为:37℃孵育15min，98℃预变性30s；98℃变性10s，58℃退火30s，72℃延伸30s，26cycles；72℃延伸2min，4℃保温。

4.扩增结束后使用AgencourtAMPure XP磁珠对文库进行纯化。然后对文库进行质控，Illumina测序仪上机测序。分析结果见表4。

表4实验结果表

实验组	文库产量(ng)	模板回收率
			对照组(不含硫代修饰)	22.5	3.4％
优化组(含硫代修饰)	158.2	18.7％

从表4可以看出，采用本实施例的方法，优化组的文库产量和模板回收率都明显高于对照组。

实施例3：用改进流程的MIP方案进行目标区域富集

在该实施例中，优化流程为将酶切试剂、PCR试剂同时加入反应管。杂交反应体系如下：

使用核酸外切酶将剩余的探针和DNA消化，再进行PCR扩增。在上述产物中加入以下试剂。反应程序为37℃孵育40min，95℃孵育5min，98℃预变性30s。98℃变性10s，58℃退火30s，72℃延伸30s，26cycles。72℃延伸2min，4℃保温。

标签3引物序列：

SEQ ID NO:11

标签4引物序列：

SEQ ID NO:12

标签3引物序列在标签1引物的基础上5’端进行硫代修饰，标签4引物序列在标签2引物的基础上5’端进行硫代修饰。

扩增结束后使用Agencourt AMPure XP磁珠对文库进行纯化。然后对文库进行质控，Illumina测序仪上机测序。文库产量为58.5ng，模板回收率为22.4％，可以看出，将酶切试剂、PCR试剂混合方案可行，简化了操作流程。

实施例4：用改进流程的MIP方案对RNA模板进行目标区域富集

本实施例的探针序列为：P13：

SEQ ID NO:13

其中从5’端开始，下划线为连接臂，HVD为屏蔽序列1，NNNNN为UID序列1，双下划线为Illumina Tag1，dU为脱氧尿嘧啶，下划线为点线的是Illumina Tag2，NNNNN为UID序列2，HHH为屏蔽序列2，波浪下划线为延伸臂。

P14：

SEQ ID NO:14

其中从5’端开始，下划线为连接臂，HVD为屏蔽序列1，NNNNN为UID序列1，双下划线为Illumina Tag1，dU为脱氧尿嘧啶，下划线为点线的是Illumina Tag2，NNNNN为UID序列2，BBB为屏蔽序列2，波浪下划线为延伸臂。

在该实施例中，使用两条靶向人类EML4-ALK(-棘皮动物微管结合蛋白样4-间变性淋巴瘤激酶)融合基因的探针。杂交反应条件如下：

程序为70℃变性2min，65℃孵育2h。然后在上述杂交产物中加入以下试剂，反应程序为：42℃1h，进行延伸、连接反应。

使用核酸外切酶、核糖核酸内切酶将剩余的探针、RNA及DNA-RNA杂交链上的RNA消化，再进行PCR扩增。

在上述产物中加入以下试剂。反应程序为37℃孵育60min，95℃孵育5min，98℃预变性30s。98℃变性10s，60℃退火30s，72℃延伸30s，27cycles。72℃延伸2min，4℃保温。

扩增结束后使用AgencourtAMPure XP磁珠对文库进行纯化。然后对文库进行质控，Illumina测序仪上机测序。结果见表5。

表5实施例4的实验结果表

实验组	比对率	覆盖度
			1	96.24％	100％
2	95.87％	100％
			3	96.16％	100％

实验组1-3为3个重复。从表5可以看出，文库测序结果比对率95％以上，覆盖度100％，说明用改进流程的MIP方案可以直接以RNA为模板进行目标区域富集。

以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

SEQUENCE LISTING

<110> 厦门艾德生物医药科技股份有限公司

<120> 一种探针及其适用于高通量测序的对目标区域进行富集的方法

<130> ADSW-17002-CNI

<160> 14

<170> PatentIn version 3.5

<210> 1

<211> 120

<212> DNA

<213> 人工合成

<220>

<221> 磷酸化

<222> (1)..(1)

<223> 5'端的G磷酸化

<220>

<221> misc_feature

<222> (27)..(38)

<223> n is a, c, g, or t

<400> 1

gggccgcttc attttgtaag acttatnnnn nnnnnnnnct gtctcttata cacatctccg 60

agcccacgag acacactctt tccctacacg acgctcttcc gatcttgtct gctccacttc 120

<210> 2

<211> 129

<212> DNA

<213> 人工合成

<220>

<221> 磷酸化

<222> (1)..(1)

<223> 5'端的C磷酸化

<220>

<221> 兼并碱基

<222> (46)..(47)

<223> V表示G、A或C

<220>

<221> misc_feature

<222> (89)..(100)

<223> n is a, c, g, or t

<400> 2

ctctttatac tcttaaaaat tactgaggac ctaaaagagc atttgvvctg tctcttatac 60

acatctccga acgacgctct tccgatctnn nnnnnnnnnn aaatgaattt gacaggataa 120

tagaaaatc 129

<210> 3

<211> 77

<212> DNA

<213> 人工合成

<220>

<221> 磷酸化

<222> (1)..(1)

<223> 5'端磷酸化

<220>

<221> 碱基兼并

<222> (16)..(59)

<223> V表示G、A或C；B表示G、T或C；D表示G、A或T

<220>

<221> misc_feature

<222> (19)..(21)

<223> n is a, c, g, or t

<220>

<221> misc_feature

<222> (54)..(56)

<223> n is a, c, g, or t

<400> 3

tgcattcttc aaagcvbdnn nctgtctctt atacacatcc gctcttccga tctnnnbdbg 60

aggtacctga atcagca 77

<210> 4

<211> 90

<212> DNA

<213> 人工合成

<220>

<221> 磷酸化

<222> (1)..(1)

<223> 5’端磷酸化

<220>

<221> 碱基兼并

<222> (24)..(72)

<223> B表示G、T或C；H表示A、T或C

<220>

<221> misc_feature

<222> (25)..(29)

<223> n is a, c, g, or t

<220>

<221> misc_feature

<222> (67)..(71)

<223> n is a, c, g, or t

<400> 4

cagtgtttag aatcaggtca ctcbnnnnnc tgtctcttat acacatctcc gacgctcttc 60

cgatctnnnn nhcccagttt gaagcaaatg 90

<210> 5

<211> 123

<212> DNA

<213> 人工合成

<220>

<221> 磷酸化

<222> (1)..(1)

<223> 5’端磷酸化

<220>

<221> misc_feature

<222> (27)..(38)

<223> n is a, c, g, or t

<220>

<221> 特殊碱基

<222> (73)..(75)

<223> Z为脱氧尿嘧啶

<400> 5

gggccgcttc attttgtaag acttatnnnn nnnnnnnnct gtctcttata cacatctccg 60

agcccacgag acwwwacact ctttccctac acgacgctct tccgatcttg tctgctccac 120

ttc 123

<210> 6

<211> 130

<212> DNA

<213> 人工合成

<220>

<221> 磷酸化

<222> (1)..(1)

<223> 5’端磷酸化

<220>

<221> 兼并碱基

<222> (46)..(47)

<223> V表示G、A或C

<220>

<221> 特殊碱基

<222> (71)..(71)

<223> W为脱氧尿嘧啶

<220>

<221> misc_feature

<222> (90)..(101)

<223> n is a, c, g, or t

<400> 6

ctctttatac tcttaaaaat tactgaggac ctaaaagagc atttgvvctg tctcttatac 60

acatctccga wacgacgctc ttccgatctn nnnnnnnnnn naaatgaatt tgacaggata 120

atagaaaatc 130

<210> 7

<211> 80

<212> DNA

<213> 人工合成

<220>

<221> 磷酸化

<222> (1)..(1)

<223> 5’端磷酸化

<220>

<221> 兼并碱基

<222> (16)..(62)

<223> W为脱氧尿嘧啶，V表示G、A或C；B表示G、T或C；D表示G、A或T

<220>

<221> misc_feature

<222> (19)..(21)

<223> n is a, c, g, or t

<220>

<221> misc_feature

<222> (57)..(59)

<223> n is a, c, g, or t

<400> 7

tgcattcttc aaagcvbdnn nctgtctctt atacacatcw gacgctcttc cgatctnnnb 60

dbgaggtacc tgaatcagca 80

<210> 8

<211> 93

<212> DNA

<213> 人工合成

<220>

<221> 磷酸化

<222> (1)..(1)

<223> 5’端磷酸化

<220>

<221> 兼并碱基

<222> (24)..(75)

<223> B表示G、T或C；D表示G、A或T；H表示A、T或C；

<220>

<221> misc_feature

<222> (25)..(29)

<223> n is a, c, g, or t

<220>

<221> 特殊碱基

<222> (51)..(51)

<223> W为脱氧尿嘧啶

<220>

<221> misc_feature

<222> (68)..(72)

<223> n is a, c, g, or t

<400> 8

cagtgtttag aatcaggtca ctcbnnnnnc tgtctcttat acacatctcc wgacgctctt 60

ccgatctnnn nndbhcccag tttgaagcaa atg 93

<210> 9

<211> 66

<212> DNA

<213> 人工合成

<220>

<221> 硫代修饰

<222> (65)..(66)

<223> 硫代修饰

<400> 9

caagcagaag acggcatacg agatttctgc ctgtctcgtg ggctcggaga tgtgtataag 60

agacag 66

<210> 10

<211> 70

<212> DNA

<213> 人工合成

<220>

<221> 硫代修饰

<222> (69)..(70)

<223> 硫代修饰

<400> 10

aatgatacgg cgaccaccga gatctacact atagcctaca ctctttccct acacgacgct 60

cttccgatct 70

<210> 11

<211> 66

<212> DNA

<213> 人工合成

<220>

<221> 硫代修饰

<222> (1)..(2)

<223> 硫代修饰

<220>

<221> 硫代修饰

<222> (65)..(66)

<223> 硫代修饰

<400> 11

caagcagaag acggcatacg agatttctgc ctgtctcgtg ggctcggaga tgtgtataag 60

agacag 66

<210> 12

<211> 70

<212> DNA

<213> 人工合成

<220>

<221> 硫代修饰

<222> (1)..(2)

<223> 硫代修饰

<220>

<221> 硫代修饰

<222> (69)..(70)

<223> 硫代修饰

<400> 12

aatgatacgg cgaccaccga gatctacact atagcctaca ctctttccct acacgacgct 60

cttccgatct 70

<210> 13

<211> 119

<212> DNA

<213> 人工合成

<220>

<221> 磷酸化

<222> (1)..(1)

<223> 5’端磷酸化

<220>

<221> 兼并碱基

<222> (21)..(74)

<223> H表示A、T或C；V表示G、A或C；D表示G、A或T

<220>

<221> misc_feature

<222> (24)..(28)

<223> n is a, c, g, or t

<220>

<221> 特殊碱基

<222> (50)..(50)

<223> W为脱氧尿嘧啶

<220>

<221> misc_feature

<222> (67)..(71)

<223> n is a, c, g, or t

<400> 13

agctccatct gcatggcttg hvdnnnnnct gtctcttata cacatctccw gacgctcttc 60

cgatctnnnn nhhhaggtgt gggctctaca gtagttttgc tccatataag catgactcc 119

<210> 14

<211> 97

<212> DNA

<213> 人工合成

<220>

<221> 磷酸化

<222> (1)..(1)

<223> 5’端磷酸化

<220>

<221> 兼并碱基

<222> (21)..(74)

<223> H表示A、T或C；V表示G、A或C；D表示G、A或T；B表示G、T或C

<220>

<221> misc_feature

<222> (24)..(28)

<223> n is a, c, g, or t

<220>

<221> 特殊碱基

<222> (50)..(50)

<223> W为脱氧尿嘧啶

<220>

<221> misc_feature

<222> (67)..(71)

<223> n is a, c, g, or t

<400> 14

agctccatct gcatggcttg hvdnnnnnct gtctcttata cacatctccw gacgctcttc 60

cgatctnnnn nbbbcgcgag ttgacatttt tgcttgg 97

Claims

1.一种探针，其特征在于，其从5’端依次为，连接臂，屏蔽序列1，UID序列1，IlluminaTag1序列，Illumina Tag2序列，屏蔽序列2，延伸臂；所述UID序列1为3-12个随机碱基组成；所述屏蔽序列1为0-3个不与连接臂对应的模板上游的序列互补的随机碱基；所述屏蔽序列2为0-3个不与连接臂对应的模板下游的序列互补的随机碱基；所述Illumina Tag1序列为Illumina Nextera Library Prep Kits中Nextera Transposase Adapters Read 2序列的反向互补序列从3’端依次减少0-16个碱基；所述Illumina Tag2序列为用于Illumina测序平台Illumina TruSeq试剂盒5’端接头上的一段序列，其5’端依次减少0-19个碱基。

2.一种探针，其特征在于，其从5’端依次为，连接臂，屏蔽序列1，Illumina Tag1序列，Illumina Tag2序列，UID序列2，屏蔽序列2，延伸臂，所述UID序列2为3-12个随机碱基组成；所述屏蔽序列1为0-3个不与连接臂对应的模板上游的序列互补的随机碱基；所述屏蔽序列2为0-3个不与连接臂对应的模板下游的序列互补的随机碱基；所述Illumina Tag1序列为Illumina Nextera Library Prep Kits中Nextera Transposase Adapters Read 2序列的反向互补序列从3’端依次减少0-16个碱基；所述Illumina Tag2序列为用于Illumina测序平台Illumina TruSeq试剂盒5’端接头上的一段序列，其5’端依次减少0-19个碱基。

3.一种探针，其特征在于，其从5’端依次为，连接臂，屏蔽序列1，UID序列1，IlluminaTag1序列，Illumina Tag2序列，UID序列2，屏蔽序列2，延伸臂；所述UID序列1和UID序列2均为3-12个随机碱基组成；所述屏蔽序列1为0-3个不与连接臂对应的模板上游的序列互补的随机碱基；所述屏蔽序列2为0-3个不与连接臂对应的模板下游的序列互补的随机碱基；所述Illumina Tag1序列为Illumina Nextera Library Prep Kits中Nextera TransposaseAdapters Read 2序列的反向互补序列从3’端依次减少0-16个碱基；所述Illumina Tag2序列为用于Illumina测序平台Illumina TruSeq试剂盒5’端接头上的一段序列，其5’端依次减少0-19个碱基。

4.权利要求1-3任一所述探针，其特征在于，在Illumina Tag1序列和Illumina Tag2序列中间，还有dU区，其为1-3个脱氧尿嘧啶碱基。

5.权利要求1-3任一所述探针，其特征在于，所述连接臂为15-45bp与核酸模板互补结合的碱基序列；延伸臂为15-45bp与核酸模板互补结合的碱基序列。

6.权利要求4所述探针，其特征在于，所述连接臂为15-45bp与核酸模板互补结合的碱基序列；延伸臂为15-45bp与核酸模板互补结合的碱基序列。

7.权利要求1-3任一所述探针，其特征在于，所述延伸臂进行了修饰。

8.权利要求1-3任一所述探针，其特征在于，所述连接臂5’端进行了磷酸化修饰。

9.权利要求1-3任一所述探针，其特征在于，所述Illumina Tag1序列和Illumina Tag2序列选自Illumina平台建库试剂盒中转座子Adapters、接头上的序列或其互补或反向互补序列的任意组合。

10.权利要求7所述探针，其特征在于，所述延伸臂进行了硫代修饰。

11.权利要求10所述探针，其特征在于，所述连接臂Tm值高于延伸臂Tm值2℃以上。

12.权利要求4所述探针，其特征在于，所述延伸臂进行了修饰。

13.权利要求4所述探针，其特征在于，所述连接臂5’端进行了磷酸化修饰。

14.权利要求4所述探针，其特征在于，所述Illumina Tag1序列和Illumina Tag2序列选自Illumina平台建库试剂盒中转座子Adapters、接头上的序列或其互补或反向互补序列的任意组合。

15.权利要求12所述探针，其特征在于，所述延伸臂进行了硫代修饰。

16.权利要求15所述探针，其特征在于，所述连接臂Tm值高于延伸臂Tm值2℃以上。

17.一种适用于高通量测序的对目标区域进行富集的方法，其特征在于，使用了权利要求1-3任一所述的探针或权利要求4所述的探针。

18.如权利要求17所述的方法，其特征在于，步骤为，

杂交、延伸、连接反应：模板DNA与权利要求1-3任一项所述探针或权利要求4所述的探针杂交，延伸、连接，得到第一产物；或同时加入模板DNA、权利要求1-3任一项所述探针或权利要求4所述的探针和聚合酶、连接酶，同时进行杂交，延伸、连接，得到第一产物；

纯化：对第二产物进行纯化得到文库；

将文库上机测序即可。

19.如权利要求18所述的方法，其特征在于，所述杂交、延伸、连接反应步骤为模板DNA与权利要求1-3任一项所述探针或权利要求4所述的探针杂交，延伸、连接，得到第一产物时，模板DNA与权利要求1-3任一项所述探针或权利要求4所述的探针先杂交，然后加入聚合酶、连接酶进行延伸、连接，得到第一产物。

20.如权利要求19所述的方法，其特征在于，所述杂交、延伸、连接反应的反应体系和反应程序为：

纯化水 6μL；

50 ng/μL 模板DNA 2μL；

3Í10^-3μM 权利要求1-3任一所述探针或权利要求4所述的探针 1μL；

10ÍAmpligase Buffer 1μL；

程序为95℃变性5 min，60℃孵育2 h；然后在上述体系中再加入以下试剂进行延伸、连接反应，反应程序为 60℃孵育1 h；

纯化水 1.4μL；

1 mM dNTPs 1μL；

5 U/μL Ampligase DNA ligase 1μL；

10ÍAmpligase Buffer 0.5μL；

50 mM NAD+ 0.1μL；

Phusion® High-Fidelity DNA Polymerase 1μL；

或模板为RNA时，

无核酸酶水 5.5μL；

50 ng/μL 模板RNA 2μL；

3Í10^-3μM权利要求1-3任一所述探针或权利要求4所述的探针 1μL；

RNase Inhibitor 0.5μL；

10ÍAmpligase Buffer 1μL；

70℃变性2 min，65℃孵育2 h；然后再加入以下试剂，42℃反应1 h，进行延伸、连接反应；

1 mM dNTPs 1μL；

5 U/μL Ampligase DNA ligase 1μL；

10ÍAmpligase Buffer 1μL；

50 mM NAD⁺ 0.1μL；

5Í First-Strand Buffer 4μL；

100 mM DTT 2μL；

SMART MMLV RT 1μL。

21.如权利要求18所述的方法，其特征在于，所述杂交、延伸、连接反应步骤为同时加入模板DNA、权利要求1-3任一项所述探针或权利要求4所述的探针和聚合酶、连接酶，同时进行杂交，延伸、连接，得到第一产物时，其，反应体系和反应程序为：

纯化水 3.4μL；

50 ng/μL 模板DNA 2μL；

1 mM dNTPs 1μL；

5 U/μL Ampligase DNA ligase 1μL；

10ÍAmpligase Buffer 1μL；

50 mM NAD+ 0.1μL；

Phusion® HiFi DNA Polymerase 0.5μL；

反应程序为95℃ 5 min，60℃ 3 h。

22.权利要求18所述的方法，其特征在于，所述第二产物的获得步骤为：先用外切酶消化掉剩余的探针和模板DNA，然后利用USER酶将第一产物线性化，再通过标签引物进行PCR扩增，得到第二产物；或同时加入核酸外切酶和标签上游引物，标签下游引物，同时进行酶切消化、线性化和PCR扩增得到第二产物，其中标签上游引物和标签下游引物的3’端有硫代修饰，5’端有硫代、氨基或间臂修饰，保护引物不被外切酶酶切。

23.权利要求22所述的方法，其特征在于，第二产物的获得的反应体系和程序为：

第一产物

Exonuclease I 0.5μL；

Exonuclease III 0.5μL；

37℃孵育40 min，95℃孵育5 min；

再加入以下试剂：

2Í iProof HF Master Mix 50μL；

纯化水 29μL；

20 μM标签上游引物 2μL；

20 μM标签下游引物 2μL；

USER酶 1μL；

37℃孵育15 min，98℃预变性30 s；98℃变性10 s，58℃退火30 s，72℃ 延伸30 s，26cycles；72℃延伸2 min，4℃保温。

24.权利要求22所述的方法，其特征在于，第二产物的获得步骤为同时加入核酸外切酶和标签上游引物，标签下游引物，同时进行酶切消化、线性化和PCR扩增得到第二产物时，模板为DNA时的反应体系和程序为：

第一产物 18μL；

Exonuclease Lambda 0.5μL；

Exonuclease III 1μL；

2Í iProof HF Master Mix 50μL；

H₂O 29.5μL；

20 μM标签上游引物 2μL；

20 μM标签下游引物 2μL；

反应程序为37℃孵育40 min，95℃孵育5 min，98℃预变性30 s；98℃变性10 s，58℃退火30 s，72℃ 延伸30 s，26 cycles；72℃延伸2 min，4℃保温；

或模板为RNA时的反应体系和程序为：

第一产物 10.1μL；

Exonuclease I 1μL；

RNase A 0.1μL；

RNase H 0.1μL；

2Í iProof HF Master Mix 50μL；

H₂O 24.8μL；

20 μM标签上游引物 2μL；

20 μM标签下游引物 2μL；

37℃孵育60 min，95℃孵育5 min，98℃预变性30 s；98℃变性10 s，60℃退火30 s，72℃ 延伸30 s，27 cycles；72℃延伸2 min，4℃保温。

25.权利要求24所述的方法，其特征在于，所述标签引物中的上游引物结构从5’端开始为Illumina测序时用于簇生成的序列区，index序列区；与Illumina Tag1序列反向互补配对的全长序列区；