Velvet 1.2.06 發布

這一版本版本最大的改進就是可以不需要再將PE的兩端數據合并到一起了,使用-separate參數可以使用兩端分離的PE數據,其他沒啥變化(難道這還不夠你尖叫的嗎?!),使用方法如下:

velveth Assem 31 -shortPaired -fasta -separate left.fa right.fa
Posted in 生物信息學. Tags: , . 4 Comments »8,597 views

nucleotide blast(blastn)中空位罰分gap costs的計算方法

為什么要把這個看上去很簡單的問題寫下來呢,因為里面有些地方很容易引起誤解,寫下來給大家一個參考。

首先,blastn中默認的linear的罰分是如何計算的?所謂linear線性罰分,就是gap中每個堿基都扣相同的分數,那么到底是扣幾分呢?我沒有找到官方的說法,但是通過我的試驗,我得出的結論是每個gap中的每個堿基扣2.5分,得到一個總分后還要四舍五入一下,于是1個堿基空位扣3分,兩個扣5分,三個扣8分,以此類推。

其次,選擇其他gap costs選項時,比如“existence 5 extension 2”,存在一個空位扣5分,每個延伸扣2分。一開始我想當然地認為是空位扣分后每個延伸是從第二個空位堿基開始算的,那么單個堿基的空位應該是扣5分,但是實際情況卻是空位延伸罰分是從第一個堿基開始算的,單個堿基的空位就要扣5+2分,兩個堿基的空位是5+2*2,n個堿基的空位就要扣5+n*2了。

最后,沒有了~

Posted in 生物信息學. Tags: . No Comments »5,946 views

序列拼接軟件velvet 1.1.01發布

2011-3-29日發布了velvet最新版本1.1.01,在這一版本中終于支持多線程運行了!!
速度可以提高4-10倍,還有一些另外的修改,附上作者的原話:

Dear Velvet users,

it is my pleasure to announce the release of Velvet 1.1.01!

Sylvain Forêt from ANU did a excellent job multithreading Velvet, 
meaning that it can use multiple CPUs on the same computer, thus freeing 
up the computer that much faster. 4 to 10 fold accelerations have been 
reported. He also reduced the memory footprint, and improved the use of 
mate-pairs, filtering out paired-end contamination.

Also in this new version Yasubumi Sakakibara and colleagues shared their 
MetaVelvet code, which is designed to analyze metagenomic data.

Regards,

Daniel
Posted in 生物信息學. Tags: , . 10 Comments »10,724 views

用Amos軟件包里面的minimus2合并454和Illumina/Solexa拼接得到的contig

用羅氏454測序得到的序列用newbler拼接的效果最好,而用短序列拼接軟件velvet拼接效果很差,所以不能將454的原始reads和Illumina產生的reads合到一起后用velvet進行拼接。在用newbler和velvet分別拼接454和Illumina的reads得到contigs之后,我們就需要將兩者的contig再合并起來,得到更好的拼接結果。這里就介紹一個簡單易用的軟件minimus2。

minimus2是amos拼接軟件包里面的一個組件,它的功能就是將兩組contig進行合并,延伸contig的長度,減少contig的數量。Amos是A Modular, Open-Source whole genome assembler的縮寫,致力于打造成一個拼接軟件的基礎軟件系統。minimus2用的是基于nucmer overlap檢測的算法,速度上比Smith-Waterman hash-overlap的算法要快,下面就介紹一下用法。

首先當然是下載amos軟件包進行安裝,下載地址為:http://sourceforge.net/projects/amos/files/

安裝啥的就不說了,根據說明來就行。安裝完成之后,minimus2軟件位于amos安裝文件夾下的bin里面。在運行minimus2之前首先要準備好文件,比如現在有s1.fa和s2.fa兩組包含contig的文件,首先要知道里面包含的contig數目,針對fasta格式,用

grep -c "^>" s1.fa s2.fa? 命令得到,比如分別為100和200個contig。

然后用cat命令合并到一個文件:

cat s1.fa s2.fa >s1_s2.fa

再用amos里面的另一個軟件toAmos轉換成Amos格式,這個軟件也位于bin文件夾下面

./toAmos -s s1_s2.fa -o s1_s2.afg
這里的-s是指輸入的為fasta格式。

然后就可以運行minimus2了

minimus2的運行參數為:

?minimus2 prefix  \
   -D REFCOUNT=n  \  # Number of sequences is the first set
   -D OVERLAP=n   \  # Minimum overlap (Default 40bp)
   -D CONSERR=f   \  # Maximum consensus error (0..1) (Def 0.06)
   -D MINID=n     \  # Minimum overlap?%id for align. (Def 94)
   -D MAXTRIM=n      # Maximum sequence trimming length (Def 20bp)
最簡單的命令為:
./minimus2 s1_s2 -D REFCOUNT=100

這里只要告訴文件名(不要后綴)和作為參考序列的第一組contig的數目就可以了。會生成一堆以s1_s2開頭的文件,其中s1_s2.fasta就是合并之后得到的contig文件。

大功告成!

應用于第二代測序技術的生物信息學工具[zz]

剛才閑逛發現了這篇被多家博客轉載的文章,來自于SEQanswer,總結地比較全面,不過已經比較老了,隨便看看~

Integrated solutions
* CLCbio Genomics Workbench – de novo and reference assembly of Sanger, Roche FLX, Illumina, Helicos, and SOLiD data. Commercial next-gen-seq software that extends the CLCbio Main Workbench software. Includes SNP detection, CHiP-seq, browser and other features. Commercial. Windows, Mac OS X and Linux.
* Galaxy – Galaxy = interactive and reproducible genomics. A job webportal.
* Genomatix – Integrated Solutions for Next Generation Sequencing data analysis.
* JMP Genomics – Next gen visualization and statistics tool from SAS. They are working with NCGR to refine this tool and produce others.
* NextGENe – de novo and reference assembly of Illumina, SOLiD and Roche FLX data. Uses a novel Condensation Assembly Tool approach where reads are joined via “anchors” into mini-contigs before assembly. Includes SNP detection, CHiP-seq, browser and other features. Commercial. Win or MacOS.
* SeqMan Genome Analyser – Software for Next Generation sequence assembly of Illumina, Roche FLX and Sanger data integrating with Lasergene Sequence Analysis software for additional analysis and visualization capabilities. Can use a hybrid templated/de novo approach. Commercial. Win or Mac OS X.
* SHORE – SHORE, for Short Read, is a mapping and analysis pipeline for short DNA sequences produced on a Illumina Genome Analyzer. A suite created by the 1001 Genomes project. Source for POSIX.
* SlimSearch – Fledgling commercial product. Continue reading “應用于第二代測序技術的生物信息學工具[zz]” »

Posted in 生物信息學. Tags: , , . 7 Comments »89,725 views

得分矩陣PAM與BLOSUM的比較與區別

? 對于蛋白質序列,計分矩陣主要用于記錄在做序列比對時兩個相對應的殘基的相似度,一旦這個矩陣定義好了以后,比對程式就可以利用這個矩陣,盡量將相似的殘基排在一起,以達到最好的比對。
? 得分矩陣主要有兩種,第一種就是PAM(Point Accepted Multation),另一種就是BLOSUM。
1、PAM矩陣(Point Accepted Mutation)
?? 基于進化的點突變模型,如果兩種氨基酸替換頻繁,說明自然界接受這種替換,那么這對氨基酸替換得分就高。一個PAM就是一個進化的變異單位, 即1%的氨基酸改變,但這并不意味100次PAM后,每個氨基酸都發生變化,因為其中一些位置可能會經過多次突變,甚至可能會變回到原來的氨基酸。
PAM矩陣的制作步驟:
? 構建序列相似(大于85%)的比對
? 計算氨基酸 j 的相對突變率mj(j被其它氨基酸替換的次數)
? 針對每個氨基酸對 i 和 j , 計算 j 被 i 替換次數
? 替換次數除以相對突變率(mj)
? 利用每個氨基酸出現的頻度對j 進行標準化
? 取常用對數,得到PAM-1(i, j)
? 將PAM-1自乘N次,可以得到PAM-N。

? 這種矩陣的缺點是一旦PAM1的矩陣有效地誤?差,那么自乘250后得到的PAM250矩陣的誤差就會變得很大。如,PAM120矩陣用于比較相距120個PAM單位的序列。
一個PAM-N矩陣元素(i,j)的值:
反應兩個相距N個PAM單位的序列中第i種氨基酸替換第j種氨基酸的頻率。
針對不同的進化距離采用PAM 矩陣
序列相似度 = 40%????? ?50%????? ?60%?
?????????????? ??? |????????????? |????????????? |
打分矩陣 = PAM120 PAM80 PAM60
PAM250 → 14% – 27%?
2、BLOSUM?矩陣
此矩陣與PAM矩陣的不同之處在于:
(1)用于產生矩陣的蛋白質家族及多肽鏈數目,BLOSUM比PAM大約多20倍。 ?
(2)PAM:家族內成員相比,然后把所有家族中對某種氨基酸的比較結果加和在一起,產生“取代”數據(PAM-1?);PAM-1自乘n次,得PAM-n。
BLOSUM:首先尋找氨基酸模式,即有意義的一段氨基酸片斷(如一個結構域及其相鄰的兩小段氨基酸序列)?
,分別比較相同的氨基酸模式之間氨基酸的保守性(某種氨基酸對另一種氨基酸的取代數據),然后,以所有?60%保守性的氨基酸模式之間的比較數據為根據,產生BLOSUM60;以所有80%保守性的氨基酸模式之間的比?較數據為根據,產生BLOSUM80。?
(3)PAM-n中,n 越小,表示氨基酸變異的可能性越小;相似的序列之間比較應該選用n值小的矩陣,不太相似?的序列之間比較應該選用n值大的矩陣。PAM-250用于約20%相同序列之間的比較。BLOSUM-n中,n越小,表示氨基酸相似的可能性越小;相似的序列之間比較應該選用 n 值大的矩陣,不太相似的序列之間比較應該選 用n值小的矩陣。BLOSUM-62用來比較62%相似度的序列,BLOSUM-80用來比較80%左右的序列。

Posted in 生物信息學. 2 Comments »11,379 views

序列拼接軟件velvet 1.0.14發布

這個版本主要是修正了幾個bug,加了一些小功能:

1、重新加入了每個標準輸出信息的時間戳;

2、在幫助增添了對于k-mer長度的說明;

3、捕獲寫文件時發生的錯誤;

4、修正文件訪問權限;

5、消除編譯時的警告和錯誤;

6、修正一個死循環的bug;

7、修正一個內存溢出問題;

8、加入-clean和-very_clean參數,-clean選項會清除Graph和Graph2之外的文件,-very_clean選項會清除所有文件。

Posted in 生物信息學. Tags: , , . 6 Comments »8,350 views

Illumina/Solexa測序Reads質量過濾軟件包

剛剛在群組中看到SolexaQA軟件包的發布,發表在BMC Bioinformatics上的文章,三大組件用途:

* SolexaQA -- 從Fastq文件統計reads質量并可視化顯示。
* DynamicTrim -- 根據用戶設定的測序質量閾值過濾低質量堿基。
* LengthSort -- 根據用戶設定的Reads長度過濾質量過濾后低于此長度的Reads。 
軟件下載地址:http://solexaqa.sourceforge.net/
文章地址: http://www.biomedcentral.com/1471-2105/11/485
Posted in 生物信息學. Tags: , . 2 Comments »7,591 views

Protein Blast中Blastp/PSI-BLAST/PHI-BLAST區別與選擇

說完blastn,接著說blastp~blsatp中也有三個不同的算法可以選擇,如下:

blastp (protein-protein BLAST)就是簡單地進行蛋白與蛋白的比對,尋找蛋白質相似序列;

PSI-BLAST (Position-Specific Iterated BLAST)叫做位點特異性迭代比對,它在蛋白質數據庫中循環搜索查詢蛋白質,所有前一次被psi-blast發現的統計顯著蛋白質序列將整合成新記分矩陣,通過多次迭代比對,直到不再發現統計顯著的新蛋白質;

PHI-BLAST (Pattern Hit Initiated BLAST)可以在搜索的時候限定蛋白質的模式(pattern),只給出包含此模式的比對結果。

Posted in 生物信息學. Tags: . 1 Comment »12,725 views

nucleotide blast中MegaBlast/Discontiguous MegaBlast/BlastN的區別與選擇

今天在準備學院培訓班的試講,復習了這部分內容,于是寫下來吧~

從blastn頁面上的簡單幫助可以看到Highly similar sequences (megablast)多用于比較相似性比較高(相似性在95%以上)的序列,速度快;More dissimilar sequences (discontiguous megablast)用于相似性稍低于megablast的比對,但是靈敏度和精確度更高,多用于不同物種間的同源比對;而Somewhat similar sequences (blastn)用于比對相似性較差的序列,可以比對最短7個堿基的長度,所以比對精確度最高,比對結果最多,速度最慢。

所以,在選擇的時候根據你提交的序列和搜索的目的進行選擇,如果是想看這段序列在數據庫當中是否有收錄,可以用megablast,如果想用其他物種的基因注釋信息來注釋一個未注釋物種的序列,可以選擇discontiguous megablast,如果想得到更多更全面的結果,可以選擇blastn。

更詳細的解釋可以查看:http://www.ncbi.nlm.nih.gov/blast/producttable.shtml#tab31

Posted in 生物信息學. Tags: , . 1 Comment »8,447 views