
IGV 是常用的基因組瀏覽工具之一,但在項(xiàng)目交付與論文級(jí)出圖中,其在批量制圖、統(tǒng)一風(fēng)格和自動(dòng)化方面存在一定局限。
pyGenomeTracks 采用命令行與配置文件驅(qū)動(dòng),更適合:
l多樣本統(tǒng)一風(fēng)格對(duì)比
l批量輸出指定區(qū)域圖片
l高分辨率論文與報(bào)告配圖
因此,pyGenomeTracks 常被作為 IGV 的有效補(bǔ)充或替代方案。
在一些生信分析項(xiàng)目中,將測(cè)序信號(hào)直觀地展示在基因組上,是用戶最容易理解、有說(shuō)服力的結(jié)果形式之一。
本文將系統(tǒng)介紹 pyGenomeTracks 常用的軟件命令及關(guān)鍵參數(shù),幫助讀者理解基因組可視化圖像是如何生成的。
一、為什么要做基因組信號(hào)可視化?
在各類基于測(cè)序的基因組學(xué)實(shí)驗(yàn)中(如 ChIP-seq、ATAC-seq、DAP-seq 等),我們的核心目標(biāo),都是在全基因組尺度上觀察某個(gè)因子或染色質(zhì)特征“出現(xiàn)在哪里、強(qiáng)不強(qiáng)"。
如果只用表格或一串?dāng)?shù)值來(lái)展示結(jié)果,這些信息往往顯得抽象而零散:
峰值有多少、富集倍數(shù)是多少,看起來(lái)“很科學(xué)",但并不直觀,也不利于快速判斷實(shí)驗(yàn)到底做得好不好。
而基因組信號(hào)可視化,正是把這些數(shù)據(jù)“畫到染色體上"。
通過(guò)將測(cè)序信號(hào)轉(zhuǎn)化為沿染色體連續(xù)變化的曲線,我們可以一眼看到:
l目標(biāo)因子是否在啟動(dòng)子、增強(qiáng)子等特定區(qū)域明顯富集
l不同重復(fù)樣本之間的信號(hào)形態(tài)是否一致、穩(wěn)定
l實(shí)驗(yàn)樣本與 Input 或背景對(duì)照之間,是否存在清晰可辨的差異
這種“看圖說(shuō)話"的方式,不僅能幫助我們快速評(píng)估實(shí)驗(yàn)質(zhì)量,也為后續(xù)的峰值篩選、功能注釋和生物學(xué)解讀提供了直觀可靠的依據(jù)。
二、本案例使用的軟件工具
本流程主要使用 pyGenomeTracks 軟件包中的兩個(gè)工具:
1. make_tracks_file:用于根據(jù)已有結(jié)果文件,自動(dòng)生成可視化所需的配置文件。
2. pyGenomeTracks:用于讀取配置文件,在指定的基因組區(qū)域內(nèi)繪制信號(hào)圖像。
三、軟件獲取與安裝
推薦使用 Conda 安裝 pyGenomeTracks:
conda install -c bioconda pygenometracks -y
安裝完成后可通過(guò)以下命令檢查:
lpyGenomeTracks --help
lmake_tracks_file --help
四、輸入數(shù)據(jù)文件說(shuō)明
1.BigWig 文件(信號(hào)文件)
BigWig 文件用于存儲(chǔ)測(cè)序 reads 在基因組各位置的覆蓋強(qiáng)度或歸一化信號(hào)值,是繪制基因組信號(hào)曲線的基礎(chǔ)數(shù)據(jù)形式。
相比原始的 BAM 文件,BigWig 體積更小、讀取速度更快,尤其適合用于基因組瀏覽器或繪圖工具進(jìn)行連續(xù)信號(hào)展示。
在本案例中,BigWig 文件包括:
lS1.bw:實(shí)驗(yàn)樣本重復(fù) 1 的基因組信號(hào)
lS2.bw:實(shí)驗(yàn)樣本重復(fù) 2 的基因組信號(hào)
lInput.bw:Input 對(duì)照樣本
用于評(píng)估背景噪音和非特異性信號(hào)通過(guò)同時(shí)展示多個(gè) BigWig 文件,可以直觀比較不同重復(fù)之間的一致性,以及實(shí)驗(yàn)樣本與對(duì)照之間的差異。
2.BED 文件(區(qū)域文件)
BED 文件用于標(biāo)記基因組上的離散功能區(qū)域,例如 peak、結(jié)合位點(diǎn)或候選調(diào)控區(qū)域。
與 BigWig 所展示的連續(xù)信號(hào)不同,BED 文件更關(guān)注“哪里發(fā)生了顯著事件"。
在本案例中,使用 peak_location.bed 文件來(lái)展示預(yù)測(cè)得到的轉(zhuǎn)錄因子結(jié)合區(qū)域。
將 BED 區(qū)域疊加到信號(hào)軌跡上,可以幫助我們判斷:
lpeak 是否對(duì)應(yīng)真實(shí)、穩(wěn)定的信號(hào)
l富集信號(hào)是否集中于少數(shù)明確的區(qū)域,還是分散且噪音較大
l不同樣本中同一peak區(qū)域的信號(hào)表現(xiàn)是否一致
3.GTF 文件(注釋文件)
GTF 文件用于提供基因組結(jié)構(gòu)注釋信息,包括基因、轉(zhuǎn)錄本、外顯子、內(nèi)含子以及啟動(dòng)子等功能單元的位置。在基因組信號(hào)可視化中,GTF 文件的作用主要體現(xiàn)在兩個(gè)方面:
l為信號(hào)和 peak 提供生物學(xué)背景,幫助判斷其位于基因的哪個(gè)結(jié)構(gòu)區(qū)域
l解讀信號(hào)的潛在功能意義,例如是否偏向啟動(dòng)子區(qū)域或基因間區(qū)
通過(guò)將 GTF 注釋與 BigWig 信號(hào)、BED 區(qū)域同時(shí)展示,可以實(shí)現(xiàn)從“信號(hào)存在"到“信號(hào)有什么生物學(xué)含義"的過(guò)渡。
五、自動(dòng)生成 tracks.ini 配置文件(軟件命令)
在實(shí)際分析中,不需要手工編寫復(fù)雜的配置文件,而是通過(guò)以下命令自動(dòng)生成:make_tracks_file --trackFiles S1.bw S2.bw Input.bw peak_location.bed sample.gff3 --out tracks.ini
該步驟的作用可以理解為:告訴軟件需要展示哪些文件,以及每個(gè)文件在圖中作為一條獨(dú)立軌道顯示。
生成的 tracks.ini 文件中已經(jīng)包含了軌道名稱、顏色、高度等基礎(chǔ)設(shè)置。
六、統(tǒng)一信號(hào)顯示范圍(常用參數(shù)說(shuō)明)
在默認(rèn)情況下,每個(gè) BigWig 信號(hào)軌道會(huì)根據(jù)自身數(shù)據(jù)自動(dòng)縮放顯示范圍。在多樣本對(duì)比時(shí),這種方式容易造成視覺上的誤解。因此,通常會(huì)人為設(shè)定統(tǒng)一的信號(hào)顯示上限。
七、繪制基因組信號(hào)圖(核心命令)
完成配置文件修改后,即可使用以下命令繪制基因組信號(hào)圖:
pyGenomeTracks --tracks tracks.ini --region NC_083379.1:10813150-10833150 -o image.png --dpi 300
參數(shù)解釋:
ltracks:指定軌道配置文件。
lregion:指定繪制的基因組區(qū)域,格式為“染色體:起始位置-終止位置"。
lo:輸出圖片文件名。
ldpi:輸出圖片分辨率,300 dpi 適合用于項(xiàng)目報(bào)告和論文。

圖 1 默認(rèn)配置示例圖
八、tracks.ini 中常關(guān)注的參數(shù)
在配置文件中,以下參數(shù)對(duì)圖像理解重要:
ltitle:軌道名稱,用于區(qū)分不同樣本
lheight:軌道高度,避免圖像過(guò)于擁擠
lcolor:軌道顯示顏色這些參數(shù)直接影響圖像的清晰度和可讀性。

圖 2 修改配置文件示例圖
九、可以從結(jié)果圖中獲得哪些信息?
通過(guò)最終生成的基因組信號(hào)圖,用戶可以直觀看到:
l目標(biāo)區(qū)域是否存在明顯富集
l不同重復(fù)樣本之間的信號(hào)一致性
lInput 和 IGG 等是否呈現(xiàn)低背景
lpeak 是否與高信號(hào)區(qū)域?qū)?yīng)
這些都是判斷實(shí)驗(yàn)是否成功和結(jié)果是否可靠的重要依據(jù)。
附錄:pyGenomeTracks 可視化配置參數(shù)完整對(duì)照表
(一)坐標(biāo)軸軌道(x-axis)

(二)空白間隔軌道(spacer)

(三)連續(xù)信號(hào)軌道(BigWig)
1. 基本信息

2. 顏色與透明度

3. Y 軸范圍與分辨率

4. 缺失值與統(tǒng)計(jì)方式

5. 信號(hào)繪制方式

6. 信號(hào)運(yùn)算(實(shí)時(shí)計(jì)算)

7. 數(shù)據(jù)變換

8. 文件類型

(四)功能區(qū)間軌道(BED)
1. 基本信息

2. 顏色與邊框

3. 顯示方式

4. 標(biāo)簽與字體

5. 箭頭與結(jié)構(gòu)參數(shù)

6. 文件類型

(五)基因注釋軌道(GTF)
1. 基本信息
2. 基因名稱與轉(zhuǎn)錄本處理

3. 顏色與顯示方式

4. 行數(shù)、標(biāo)簽與字體

5. 箭頭與結(jié)構(gòu)參數(shù)

6. 文件類型

