本篇文章给大家谈谈数据质控平台,以及数据质量监控平台对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。
今天给各位分享数据质控平台的知识,其中也会对数据质量监控平台进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!
本文目录一览:
国家数据质量管理平台是匿名的吗
国家数据质量管理平台是匿名的。根据查询相关公开信息显示,国家数据质量管理平台的日常反馈可以采用实名和匿名两种方式进行,可以是匿名的。数据质量管理平台是三维天地信息标准化管理一体化平台解决方案中的核心标准组件。
使用fastp进行数据质控
fastp是一款较新的数据质控软件,接触这个软件也是由于目前市场的软件各有功能但是功能都不是很全,譬如最近接触到一个RNAseq数据,质量较差,需要去除接头而且含N较多,序列起始端的数据较差需要去除几个bp,本来是打算使用trimmomatic去除接头和起始几个bp+cutadapt去除含N多的序列,但觉得稍微复杂。下面我们看看fastp能做什么。
以上功能大多都不需要输入太多的参数,一些功能默认已经开启,但是可以用参数关闭。fastp完美支持gzip的输入和输出,同时支持SE和PE数据,而且不但支持像Illumina平台的short read数据,也在一定程度上支持了PacBio/Nanopore的long reads数据。
fastp软件会生成HTML格式的报告,而且该报告中没有任何一张静态图片,所有的图表都是使用JavaScript动态绘制,非常具有交互性。想要看一下样板报告的,可以去以下链接: http://opengene.org/fastp/fastp.html
而且软件的开发者还充分考虑到了各种自动化分析的需求,不但生成了人可读的HTML报告,还生成了程序可读性非常强的JSON结果,该JSON报告中的数据包含了HTML报告100%的信息,而且该JSON文件的格式还是特殊定制的,不但程序读得爽,你用任何一款文本编辑器打开,一眼过去也会看得明明白白。想要看一下JSON结果长什么样的,可以去以下链接: http://opengene.org/fastp/fastp.json
下面我们先来看看fastp的具体参数:
虽然参数看起来比较多,但常用的主要包括以下几个部分:
fastp默认启用了接头处理,但是可以使用-A命令来关掉。fastp可以自动化地查找接头序列并进行剪裁,也就是说你可以不输入任何的接头序列,fastp全自动搞定了!对于SE数据,你还是可以-a参数来输入你的接头,而对于PE数据则完全没有必要,fastp基于PE数据的overlap分析可以更准确地查找接头,去得更干净,而且对于一些接头本身就有碱基不匹配情况处理得更好。fastp对于接头去除会有一个汇总的报告。
fastp可以对所有read在头部和尾部进行统一剪裁,该功能在去除一些测序质量不好的cycle比较有用,比如151*2的PE测序中,最后一个cycle通常质量是非常低的,需要剪裁掉。使用-f和-t分别指定read1的头部和尾部的剪裁,使用-F和-T分别指定read2的头部和尾部的剪裁。
很多时候,一个read的低质量序列都是集中在read的末端,也有少部分是在read的开头。fastp支持像Trimmomatic那样对滑动窗口中的碱基计算平均质量值,然后将不符合的滑窗直接剪裁掉。使用-5参数开启在5’端,也就是read的开头的剪裁,使用-3参数开启在3’端,也就是read的末尾的剪裁。使用-W参数指定滑动窗大小,默认是4,使用-M参数指定要求的平均质量值,默认是20,也就是Q20。
默认开启多序列过滤,默认值为15,使用-L(--disable_length_filtering)禁止此默认选项。或使用-l(--length_required)自定义最短序列。
fastp支持对PE数据的每一对read进行分析,查找它们的overlap区间,然后对于overlap区间中不一致的碱基,如果发现其中一个质量非常高,而另一个非常低,则可以将非常低质量的碱基改为相应的非常高质量值的碱基值。此选项默认关闭,可使用-c(--correction)开启。
fastp可以对低质量序列,较多N的序列,该功能默认是启用的,但可以使用-Q参数关闭。使用-q参数来指定合格的phred质量值,比如-q 15表示质量值大于等于Q15的即为合格,然后使用-u参数来指定最多可以有多少百分比的质量不合格碱基。比如-q 15 -u 40表示一个read最多只能有40%的碱基的质量值低于Q15,否则会被扔掉。使用-n可以限定一个read中最多能有多少个N。
最后,附一个简单的例子:
虽然软件作者称其速度很快,但就我的测试来看好像并没有那么快,可能与实验室服务器还在跑别的程序有关。其次就是他的质控报告,对于多个质控结果,如果能够与multiqc一样出一份汇总报告就更好了。
参考:
fastp: 一款超快速全功能的FASTQ文件自动化质控+过滤+校正+预处理软件
https://github.com/OpenGene/fastp
求指点个数据质量管理软件有哪些?
个人觉得亿信华辰的数据质量管理不错。系统功能强大,支持数十种质量评价算法技术并且易扩展,满足业务系统运行、数据中心建设、数据治理过程中各类规则的定义,并可实现跨数据源的对比分析,还能定义自动质量检查,发现重大问题可以自动邮件、短信方式及时告警,也能一键操作生成全方位的质检报告。性能也不错,符合JDBC2.0规范的数据库都能兼容,百万级数据20条规则的质量检查只需2分多钟就能完成。系统功能操作界面都是图形化的操作界面,简单易上手,对使用者的门槛较低,有兴趣可以去亿信华辰具体了解一下。
【生信基础】数据质控软件fastp
fastp 在2018 发表于bioinformatics 具体文章地址如下:
https://academic.oup.com/bioinformatics/article/34/17/i884/5093234
fastp是一款非常棒的数据质控的软件,可以过滤低质量的reads,去除adapter ,数据截取,生成质控报告等等,由于其是C语言撰写的,速度非常快。具体Github路径如下:
https://github.com/OpenGene/fastp
fastp软件参数说明如下:
SE使用实例:
fastp -i BB127_P_1.fq.gz -o BB127_Lib1_Lane1_R1.fastq -A GATCGGAAGAGCACACGTCTGAACTCCAGTCAC -h BB127_filter.html
PE使用实例:
fastp -i reads.1.fq.gz -I reads.2.fq.gz -o clean.1.fq.gz -O clean.2.fq.gz -z 4 -q 20 -u 30 -n 10 -h stat.html
质控报告产出如下:
关于数据质控平台和数据质量监控平台的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。
数据质控平台的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于数据质量监控平台、数据质控平台的信息别忘了在本站进行查找喔。
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。
暂时没有评论,来抢沙发吧~