技术领域
[0001]本发明涉及基因检测技术领域,具体涉及NGS基因变异检测中同源区域影响的判断方法、系统。
背景技术
[0002]NGS(Next-Generation Sequencing)平台作为第一个真正的高通量测序平台,在解决基因组的复杂生物学问题方面具有良好表现,且有效降低了基因测序成本。进而在遗传研究及临床检测等精准医学场景中具有广泛应用。
[0003]基于NGS平台进行基因变异检测的基本过程为:获取若干待检测的NGS数据,将所述NGS数据与标准的参考基因组进行序列比对,并基于前述比对获取两者间的差异以确定是否存在基因变异。但受所述参考基因组中同源区域影响,常导致序列比对无法有效进行。例如由于存在同源区域,在比对过程中可能导致NGS数据同时被映射到了参考基因组内的多个基因片段,进而导致NGS数据被丢弃,基因序列覆盖空白;同时在比对过程中同源假基因比对到基因组上还可能导致假阳性变异检出。
[0004]但需要注意的是,上述由同源区域导致的序列比对异常及检测异常并不是必然事件,而与同源区域的同源程度相关;而现有技术中,对何种程度的同源区域会对变异检测有影响依赖于对应同源区域的充分先验信息。且而在实际检测过程中,并不是所有的同源区域都存在可靠的先验信息,进而导致无法判断变异检测结果是否受到了同源区域的影响,也无法确认检测结果的可靠性。
发明内容
[0005]本发明目的在于提供一种NGS基因变异检测中同源区域影响的判断方法、系统,以解决在缺乏同源区域先验信息的情况下无法对同源区域是否会造成检测异常进行评估的技术问题。
[0006]为达成上述目的,本发明提出如下技术方案:
[0007]NGS基因变异检测中同源区域影响的判断方法,包括:
[0008]依据公开数据库获取若干第一类基因及若干第二类基因;其中,所述第一类基因是已被确认其变异检测结果会受同源区域影响的基因片段,所述第二类基因是已被确认其变异检测结果不会受同源区域影响的基因片段;
[0009]基于本地基因数据库获取与所述第一类基因及所述第二类基因相应的若干原始序列文件,基于本地BAM数据库获取与每一所述原始序列文件相应的序列比对文件,并组合每一所述历史测试数据及相应的序列比对文件以获得若干已知NGS基因数据;
[0010]计算所述原始序列文件中的GC含量、重复单元占比及相似性比值,计算相应序列比对文件中的比对质量;进而通过它们构建与每一所述已知NGS基因数据相应的训练样本;
[0011]以模型评价参数中的准确率、精确度、召回率、F1分数及AUC值均趋近于1为目标,将所述训练样本输入分类模型以对其进行迭代训练直至达到预设的迭代次数,以得到优化分类模型;
[0012]自待检测NGS基因数据中提取GC含量、重复单元占比、相似性比值及比对质量输入所述优化分类模型以判断相应基因的变异检测是否受同源区域影响。
[0013]进一步的,所述将所述训练样本输入分类模型以对其进行迭代训练直至达到预设的迭代次数,以得到优化分类模型,包括:
[0014]将所述训练样本同时输入若干不同类型的分类模型以对它们进行迭代训练直至达到预设的迭代次数,以得到若干不同类型的中间分类模型;
[0015]选择AUC值最接近1的中间分类模型作为所述优化分类模型。
[0016]进一步的,包括:
[0017]所述若干不同类型的分类模型包括:逻辑回归模型、支持向量机模型、决策树模型、随机森林模型、K-近邻模型及XGboost模型。
[0018]进一步的,所述将所述训练样本输入分类模型以对其进行迭代训练直至达到预设的迭代次数,以得到优化分类模型,包括:
[0019]将所述训练样本分为训练集、测试集;
[0020]基于所述训练集对分类模型进行更新,并基于测试集对更新后的分类模型进行验证;
[0021]重复上述步骤直至得到所述优化分类模型。
[0022]进一步的,包括构建所述本地BAM数据库,包括:
[0023]进行参考基因组及本地基因数据库内相应的原始测序数据间的序列比对以获取BAM文件;
[0024]依照染色体坐标对各所述BAM文件进行排序以去除重复序列;
[0025]基于所述去重后的BAM文件构建本地BAM数据库。
[0026]NGS基因变异检测中同源区域影响的判断系统,包括:
[0027]第一获取模块,用于依据公开数据库获取若干第一类基因及若干第二类基因;其中,所述第一类基因是已被确认其变异检测结果会受同源区域影响的基因片段,所述第二类基因是已被确认其变异检测结果不会受同源区域影响的基因片段;
[0028]第二获取模块,用于基于本地基因数据库获取与所述第一类基因及所述第二类基因相应的若干原始序列文件,基于本地BAM数据库获取与每一所述原始序列文件相应的序列比对文件,并组合每一所述历史测试数据及相应的序列比对文件以获得若干已知NGS基因数据;
[0029]第一构建模块,用于计算所述原始序列文件中的GC含量、重复单元占比及相似性比值,计算相应序列比对文件中的比对质量;进而通过它们构建与每一所述已知NGS基因数据相应的训练样本;
[0030]训练优化模块,用于以模型评价参数中的准确率、精确度、召回率、F1分数及AUC值均趋近于1为目标,将所述训练样本输入分类模型以对其进行迭代训练直至达到预设的迭代次数,以得到优化分类模型;
[0031]影响判断模块,用于自待检测NGS基因数据中提取GC含量、重复单元占比、相似性比值及比对质量输入所述优化分类模型以判断相应基因的变异检测是否受同源区域影响。
[0032]进一步的,所述训练优化模块包括:
[0033]训练单元,用于将所述训练样本同时输入若干不同类型的分类模型以对它们进行迭代训练直至达到预设的迭代次数,以得到若干不同类型的中间分类模型;
[0034]选择单元,用于选择AUC值最接近1的中间分类模型作为所述优化分类模型。
[0035]进一步的,所述训练优化模块包括:
[0036]预处理单元,用于将所述训练样本分为训练集、测试集;
[0037]更新单元,用于基于所述训练集对分类模型进行更新,并基于测试集对更新后的分类模型进行验证;
[0038]循环单元,用于重复调用所述预处理单元及所述更新单元直至得到所述优化分类模型。
[0039]进一步的,包括:
[0040]第三获取模块,用于进行参考基因组及本地基因数据库内相应的原始测序数据间的序列比对以获取BAM文件;
[0041]去重模块,用于依照染色体坐标对各所述BAM文件进行排序以去除重复序列;
[0042]第二构建模块,用于基于所述去重后的BAM文件构建本地BAM数据库。
[0043]一种电子设备,包括:
[0044]至少一个处理器;
[0045]与所述至少一个处理器通讯连接的存储器;
[0046]其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行所述的判断方法。
[0047]有益效果:
[0048]由以上技术方案可知,本发明的技术方案提供了一种NGS基因变异检测中同源区域影响的判断方法,以改善目前判断同源区域是否会对NGS基因变异检测产生影响时存在的缺陷。
[0049]发明人发现,为了判断同源区域是否对NGS基因变异检测产生影响,目前基于传统的数学方法及NGS平台本身依据的潜在逻辑(即通过比对进行便于判断),进而产生了需要以目标片段同源区充分先验信息为前提,进而使在序列比对过程中可能存在的由同源区域造成的检测异常在该先验信息的指导下被获取。但实际上,并不是所有的目标片段的同源区域都具有充分的先验信息,且所述先验信息的获取过程也较为复杂,特别是获取基因组中所有目标片段的同源区域先验信息更是需要大量的成本消耗。而发明人发现计算机领域的智能化算法可在有限样本下被训练进而对相似类型的无限数据的自动处理。因此将计算学习引入了所述同源区域影响判断过程中。
[0050]所述方法首先基于现有的公开数据库获取了同源区域对其变异检测影响已知的若干第一类基因及若干第二类基因,然后获取了与所述第一类基因及第二类基因相应的若干已知NGS基因数据。
[0051]并在训练样本构建过程中,(1)首先,考虑到测序中GC偏好的存在,高/低GC含量的区域被测的少,这些区域的拼接难度较大,进一步影响序列的比对与变异检测等一系列操作。(2)其次,重复序列在影响生命的进化、遗传、变异的同时对基因表达、转录调控等起着不可或缺的作用,而当前测序技术测基因组目前产生的读长(reads)较短。且由于基因组序列采用kmer算法进行组装,高度相似的重复序列可能会被压缩到一起,影响对后续的重复序列识别。(3)再者,在生物学上,同源性无法进行量化。而相似性则可用于描述所检测的序列与目标序列之间相同的碱基或氨基酸占整个序列的比例。且通常情况下,序列之间的相似性越高,序列之间同源的可能性越大。(4)同时,比对质量评分越高也说明将其比对到当下位置越可靠。在高度重复或同源的区间,较短的reads在与参考基因组进行比对时可能存在不唯一性,出现multiple mapping和reads聚集的情况。此外这些区域还存在活跃的重组,也会增加比对难度,影响该区域的比对质量。因此比对质量一方面作为反映序列比对到参考基因组质量好坏的重要量化信息,另一方面会明显受高度重复和同源区影响的指标,包含着我们构建变异检测是否会受影响的分类模型来说必不可少的重要特征信息。因此基于上述四方面的考虑,同时提取了已知NGS基因数据的GC含量、重复单元占比、相似性比值及比对质量进行训练样本的构建;以保证分类模型训练的准确性。
[0052]在分类模型的训练中引入了多个评价参数同时作为训练目标,进一步提高了训练后的优化模型进行分类判断时的可靠性。最终,在只需要待检测的NGS基因数据的情况下,即可判断出同源区域是否会对该次变异检测造成影响。
[0053]由此可见,本技术方案创造性的将机器学习算法引入了基因测序,并以对判断结果起重要影响的四个基因参数作为训练样本实现了相应的分类模型的训练优化,进而在不需要获取目标片段同源区域充分先验信息的情况下即可准确的判断出同源区域是否会对NGS平台下的基因变异检测产生影响,进而建立更准确的比对,为后续的表型预测和进化分析奠定基础。
[0054]应当理解,前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。
[0055]结合附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实施例和特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见,或通过根据本发明教导的具体实施方式的实践中得知。
附图说明
[0056]附图不意在按比例绘制。在附图中,在各个图中示出的每个相同或近似相同的组成部分可以用相同的标号表示。为了清晰起见,在每个图中,并非每个组成部分均被标记。现在,将通过例子并参考附图来描述本发明的各个方面的实施例,其中:
[0057]图1为本实施例所述的NGS基因变异检测中同源区域影响的判断方法的流程图;
[0058]图2为进行第一类基因和第二类基因获取的流程图;
[0059]图3为进行本地BAM数据库构建的流程图;
[0060]图4为分类模型优化的流程图;
[0061]图5为进行分类模型优选的流程图。
具体实施方式
[0062]为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。除非另作定义,此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。
[0063]本发明专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样,除非上下文清楚地指明其它情况,否则单数形式的“一个”“一”或者“该”等类似词语也不表示数量限制,而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现在“包括”或者“包含”前面的元件或者物件涵盖出现在“包括”或者“包含”后面列举的特征、整体、步骤、操作、元素和/或组件,并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。“上”“下”“左”“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
[0064]研究人员达成共识,在基于NGS平台进行基因变异检测时,高度同源的序列会对测序中的比对和后续的变异检测造成一定的影响和干扰,但是在没有关于目标区域同源区充分先验信息的情况下,多高的序列的同源性才影响变异检测,影响程度如何,哪些基因片段会受到高度相似的同源区域影响,哪些基因片段不会受到同源区域的影响等问题仍缺乏相关工具或方法进行有效评估。因此本实施例旨在提供一种NGS基因变异检测中同源区域影响的判断方法以对现有技术的上述缺陷进行改进。
[0065]下面结合附图,对本实施例提供的NGS基因变异检测中同源区域影响的判断方法作具体介绍。
[0066]结合
图1所示,所述方法包括如下步骤:
[0067]步骤S102、依据公开数据库获取若干第一类基因及若干第二类基因。
[0068]本步骤中,所述第一类基因是已被确认其变异检测结果会受同源区域影响的基因片段,所述第二类基因是已被确认其变异检测结果不会受同源区域影响的基因片段。
[0069]在具体实施时,所述公开数据库不限于公共基因数据库以及各类文献。具体的,所述公开数据库包括NCBI,UCSC,Ensembl等。
[0070]如
图2所示,作为一种具体的实施方式,所述第一类基因及所述第二类基因具体通过如下步骤获取:
[0071]步骤S102.2、通过坐标提取工具或自定义的提取程序,获取与受同源区影响及不受同源区影响的基因位置信息。
[0072]本步骤中,所述位置信息格式为:染色体编号:基因起始坐标-基因终止坐标。如,物种人的参考基因组版本GRCh38中,BRCA1基因坐标描述为:chr17:43044294-43125364。
[0073]步骤S102.4、采用序列提取工具,基于所述基因位置信息自参考基因组文件内获取受同源区影响的基因片段形成第一类基因,不受同源区影响的基因片段形成第二类基因。
[0074]步骤S104、基于本地基因数据库获取与所述第一类基因及所述第二类基因相应的若干原始序列文件,基于本地BAM数据库获取与每一所述原始序列文件相应的序列比对文件,并组合每一所述历史测试数据及相应的序列比对文件以获得若干已知NGS基因数据。
[0075]作为一种具体的实施方式,如
图3所示,本步骤中所述本地BAM数据库通过如下步骤创建:
[0076]步骤S202、进行参考基因组及本地基因数据库内相应的原始测序数据间的序列比对以获取BAM文件。
[0077]其中,所述序列比对具体通过参考基因组索引文件进行。具体的,所述参考基因组索引文件通过如下步骤构建:
[0078]首先,从公共基因数据库(NCBI,UCSC,Ensembl等)中,下载参考基因组序列FASTA格式文件(下述以ref.fa表示参考基因组序列文件);
[0079]其次,输入参考基因组序列文件ref.fa,采用序列比对软件索引构建模块,创建参考基因组的比对索引,生成的相关文件包括ref.fa.fai,ref.fa.amb,ref.fa.ann,ref.fa.bwt,,ref.fa.pac,ref.fa.sa。
[0080]步骤S204、依照染色体坐标对各所述BAM文件进行排序以去除重复序列。
[0081]步骤S206、基于所述去重后的BAM文件构建本地BAM数据库。
[0082]步骤S106、计算所述原始序列文件中的GC含量、重复单元占比及相似性比值,计算相应序列比对文件中的比对质量;进而通过它们构建与每一所述已知NGS基因数据相应的训练样本。
[0083]本步骤中,进行已知NGS基因数据中特征提取以组建训练样本时,基于如下考量进行:
[0084]高度同源区域、GC含量高和低的区域、重复序列区、比对质量差,这些序列局限性均可能导致NGS的覆盖范围不足,进而影响NGS数据的变异检测。通过搜集与同源性高度相关或者相似的会明显影响到变异检测的序列特性信息,以此编码高质量高利用率的特征,作为获得更具有分辨能力的模型的有利支撑。具体的如下:
[0085](1)对于GC含量:
[0086]事实上,DNA分子含有嘌呤和嘧啶四种碱基:腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T),在DNA的4种碱基中,将鸟嘌呤和胞嘧啶所占的比率称为GC含量。测序中存在的GC偏好的情况,即在基因组上GC含量在50%左右的区域更容易被测到,产生的reads更多,这些区域的覆盖度更高,在高GC或者低GC区域,不容易被测到,产生较少的reads,这些区域的覆盖度更少。并且由于GC偏好的存在,高/低GC含量的区域被测的少,这些区域的拼接难度就较大,进一步影响序列的比对与变异检测等一系列操作。
[0087]具体实施时,所述GC含量通过bedtools软件计算参考基因组该基因位置上序列碱基含量获取。
[0088](2)对于重复单元占比:
[0089]重复序列是指在基因组中出现的相同的或对称的片段,相同包括同一个基因组中相似的片段,也可以是不同物种间基因组中的相似片段。大量实验证明,重复序列包含大量的遗传信息,是基因调控网络的重要组成部分,在影响生命的进化、遗传、变异的同时对基因表达、转录调控等起着不可或缺的作用。不同类型的重复序列是一个物种演化研究的重要标记,在染色体结构和物种进化中起着关键作用,有助于人类遗传变异,并通过拷贝数变异、结构变异、插入、缺失以及基因转录和剪接的改变对人类健康产生实质性影响。另一方面,第二代测序技术测基因组目前产生的读长(reads)较短。由于基因组序列采用kmer算法进行组装,高度相似的重复序列可能会被压缩到一起,影响对后续的重复序列识别。因此,尽管重复区域在基因组稳定性中发挥着重要的作用,但是在构建人类参考基因组GRCh38的过程中,由于技术的限制,这种人类参考基因组中的重复区域被归为空白区和塌陷区,从而在许多分析实验中而被忽略。
[0090]在具体实施时,由于在特征编码中,DNA序列按照其在基因组中出现的次数分为单一序列和重复序列,RepeatMasker会通过将基因组与已知重复序列的数据库进行同源搜素,将识别出的基因组中的重复序列都屏蔽为N或X。因此基于目标序列数据FASTQ文件,利用RepeatMasker重复序列检测工具,通过与参考数据库相似性比对来准确识别或屏蔽基因组中的重复序列,获得序列重复区段占比特征。
[0091](3)对于相似性比值:
[0092]在生物学上,同源性被用来描述物种之间的进化关系,所以在同源性表达中只能用“有”或者“无”,所以这个概念无法进行量化。而相似性是指所检测的序列与目标序列之间相同的碱基或氨基酸占整个序列的比例(相对宏观的一个描述)。序列相似性可以将待研究序列与DNA或蛋白质序列库进行比较,进而可以用于判断这条序列相关的生物方面的属性。相似的序列往往很可能起源于一个共同的祖先序列。它们很可能有相似的空间结构和生物学功能。通常情况下,序列之间的相似性越高,序列之间同源的可能性越大,因此利用相似性来推断同源性是可行的,相似性可以看作是对同源性的一个量化指标使用。
[0093]在具体实施时,基于目标序列数据FASTQ文件,将query中的重叠kmer(overlapping k-mers)在基因组中进行搜索,建立序列之间存在匹配的hits列表,设计快速发现长度>=40个碱基,相似性>=95%的序列,得到关于该目标序列的相似性大小。
[0094](4)对于比对质量:
[0095]比对结果mapping quality(mapQ)的评价采用了和base quality评价相似的Phred评分体系。比如,当mapQ=20时,表示这个读长比对在此位置时的错误概率为0.01。mapping quality评分越高说明将其比对到当下位置越可靠。高度重复或同源的区间,较短的reads在与参考基因组进行比对时可能存在不唯一性,出现multiple mapping和reads聚集的情况。此外这些区域还存在活跃的重组,也会增加比对难度,影响该区域的比对质量。因此比对质量一方面作为反映序列比对到参考基因组质量好坏的重要量化信息,另一方面会明显受高度重复和同源区影响的指标,包含着我们构建变异检测是否会受影响的分类模型来说必不可少的重要特征信息。
[0096]在具体实施时,本地构建的BAM数据库收录了大量样本在hg38参考基因组的上的比对结果,通过统计308个目标区域在本地BAM数据库多个样本文件里每个样本中比对质量大于50的readcount占总reads数目的比值的基本情况,得到目标序列的Mapping_quality指标。
[0097]因此本实施例同时采用它们进行训练样本的构建。
[0098]步骤S108、以模型评价参数中的准确率、精确度、召回率、F1分数及AUC值均趋近于1为目标,将所述训练样本输入分类模型以对其进行迭代训练直至达到预设的迭代次数,以得到优化分类模型。
[0099]如
图4所示,作为一种具体的实施方式,所述优化分类模型具体通过如下步骤获取:
[0100]步骤S108.2、将所述训练样本分为训练集、测试集。
[0101]步骤S108.4、基于所述训练集对分类模型进行更新,并基于测试集对更新后的分类模型进行验证。
[0102]步骤S108.6、重复上述步骤直至得到所述优化分类模型。
[0103]如
图5所示,作为一种具体的实施方式,为了提高后续判断的准确性,本实施例还进行了分类模型的优选。基于此,所述步骤S108具体包括如下步骤:
[0104]步骤S108.2’、将所述训练样本同时输入若干不同类型的分类模型以对它们进行迭代训练直至达到预设的迭代次数,以得到若干不同类型的中间分类模型。
[0105]本步骤中,所述若干不同类型的分类模型包括:逻辑回归模型、支持向量机模型、决策树模型、随机森林模型、K-近邻模型及XGboost模型。
[0106]步骤S108.4’、选择AUC值最接近1的中间分类模型作为所述优化分类模型。
[0107]结合步骤S108.2~步骤S108.6,及步骤S108.2’~步骤S108.4’,本实施例中,共获取了154个与第一类基因相应的训练样本,以及154与第二类基因相应的训练样本。具体训练结果如下表1所示:
[0108]表1为各分类模型的训练结果
[0109]
[0110]一般地,AUC值通常介于0.5-1.0之间。本实施例中最后选择支持向量机模型。
[0111]步骤S110、自待检测NGS基因数据中提取GC含量、重复单元占比、相似性比值及比对质量输入所述优化分类模型以判断相应基因的变异检测是否受同源区域影响。
[0112]基于步骤S102~步骤S110即可在不需要借助同源区域先验信息下,对变异检测中同源区域的影响进行判断。且本实施例所述的方法对服务器计算资源要求较低,一台普通的8核心64G内存的服务器即可同时运行几十个目标基因的处理任务。同时,该方法具有较高的普适性,对人员技术要求较低,对于无任何相关专业技术背景的人员也能进行准确地核查判定。再者,本方法的流程部署简单,使用操作方便,只需部署相关计算节点即可完成全流程分析。
[0113]上述程序可以运行在处理器中,或者也可以存储在存储器中(或称为计算机可读存储介质),计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体,如调制的数据信号和载波。
[0114]这些计算机程序也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程
图一个流程或多个流程和/或方框
图一个方框或多个方框中指定的功能的步骤,对应与不同的步骤可以通过不同的模块来实现。
[0115]本实施例还提供了一种NGS基因变异检测中同源区域影响的判断系统。所述系统包括:
[0116]第一获取模块,用于依据公开数据库获取若干第一类基因及若干第二类基因;其中,所述第一类基因是已被确认其变异检测结果会受同源区域影响的基因片段,所述第二类基因是已被确认其变异检测结果不会受同源区域影响的基因片段。
[0117]第二获取模块,用于基于本地基因数据库获取与所述第一类基因及所述第二类基因相应的若干原始序列文件,基于本地BAM数据库获取与每一所述原始序列文件相应的序列比对文件,并组合每一所述历史测试数据及相应的序列比对文件以获得若干已知NGS基因数据。
[0118]第一构建模块,用于计算所述原始序列文件中的GC含量、重复单元占比及相似性比值,计算相应序列比对文件中的比对质量;进而通过它们构建与每一所述已知NGS基因数据相应的训练样本。
[0119]训练优化模块,用于以模型评价参数中的准确率、精确度、召回率、F1分数及AUC值均趋近于1为目标,将所述训练样本输入分类模型以对其进行迭代训练直至达到预设的迭代次数,以得到优化分类模型。
[0120]影响判断模块,用于自待检测NGS基因数据中提取GC含量、重复单元占比、相似性比值及比对质量输入所述优化分类模型以判断相应基因的变异检测是否受同源区域影响。
[0121]该系统用于实现上述方法的步骤,因此已经进行说明的,在此不再赘述。
[0122]例如,所述训练优化模块具体包括:
[0123]训练单元,用于将所述训练样本同时输入若干不同类型的分类模型以对它们进行迭代训练直至达到预设的迭代次数,以得到若干不同类型的中间分类模型。
[0124]选择单元,用于选择AUC值最接近1的中间分类模型作为所述优化分类模型。
[0125]例如,作为一种可以选择的实施方式,所述训练优化模块具体还包括:
[0126]预处理单元,用于将所述训练样本分为训练集、测试集。
[0127]更新单元,用于基于所述训练集对分类模型进行更新,并基于测试集对更新后的分类模型进行验证。
[0128]循环单元,用于重复调用所述预处理单元及所述更新单元直至得到所述优化分类模型。
[0129]例如,为了实现本地BAM数据库的构建,所述系统还包括:
[0130]第三获取模块,用于进行参考基因组及本地基因数据库内相应的原始测序数据间的序列比对以获取BAM文件。
[0131]去重模块,用于依照染色体坐标对各所述BAM文件进行排序以去除重复序列。
[0132]第二构建模块,用于基于所述去重后的BAM文件构建本地BAM数据库。
[0133]本实施例还提供了一种电子设备。所述电子设备包括:至少一个处理器;与所述至少一个处理器通讯连接的存储器。其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本实施例所述的判断方法。
[0134]由于所述判断系统及电子设备均基于所述判断方法搭建,因此它们在具体实施时也可在不需要同源区域先验信息的情况下对同源区域是否会对变异检测进行影响进行高效判断,且所述系统及电子设备还具有高通量的优势,同时还有系统及电子设备部署方便、实施流程简便及适用范围广的特点。
[0135]虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明。本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。