山海之间

UMI简介

UMI简介
2019-07-28 · 2 min read
UMI NGS bioinformatics

关于UMI的一些东西,概念,位置,如何处理

UMI是什么

UMI全称:Unique Molecular Identifiers
又称分子条形码技术,是对原始样本基因组打断后的每一个片段都加上一段特有的标签序列,用于区分同一样本中成千上万的不同的片段,在后续的数据分析中可以通过这些标签序列来排除由于 DNA 聚合酶和扩增以及测序过程中所引入的错误。分子条形码通常由大约 10nt 左右的随机序列(比如 NNNNNNN),或者简并碱基(NNNRNYN)组成。
有别于样品标签(sample indexsample barcode),分子条形码是针对同一个样本中的不同片段加上的标签序列,而样品标签是用于区分不同样本而加上的标签序列。
因此,每一个样本只能有一个相同的样品标签,但可以有成千上万的分子条形码。

UMI是给同一个样本的不同片段打上标签

UMI加在哪里?

双端index,如果一端的index已经可以区分不同的样本。则另一端index的位置上可以用UMI来代替。即UMIindex的位置上。UMI的长度与index相同。

UMI也可以加在插入片段中,在indexUMI之间可能需要连接酶链接。在我们的某个项目中,UMI就是加在插入片段中,indexUMI之间有8bp的酶切位点。

UMI如何处理?

使用fastpgencore软件可以很方便的处理UMI

标记UMI

使用fastp标记reads上的UMI序列

fastp -i R1.fq -o out.R1.fq -U --umi_loc=read1 --umi_len=8

--umi_loc指定UMI的位置,如果是在reads上,则还需要指定UMI的长度。

FASTP用法

得到一致性序列

使用gencore的可以得到一致性序列

gencore -i in.bam -o out.bam -r hg19.fa -s 3 --umi_prefix=UMI --ratio_threshold=0.9 
Powered by Gridea,浙ICP备17039354号-1,© 2019 - 2020🍋