背景 拷貝數變異(CNVs)是大于50個堿基對的缺失、重復或插入,在人類基因組變異中占很大比例,對人的身體健康有很大影響。目前,基于芯片的檢測方法在臨床中廣泛應用,但全基因組測序(WGS)有望同時檢測CNVs和更小的變異,因此,利用WGS數據準確的檢測CNVs在臨床檢測中至關重要。目前,基于WGS數據檢測CNV的算法原理大致分為:paired-end reads, split reads和coverage depth,文章通過4種基于不同算法原理的CNV檢測軟件(Manta, Delly, ERDS, CNVnator)和一個基因分型工具(SV2)結合,得到可靠的CNVs結果。 分析方法 文章從24例肢體畸形患者中隨機抽取10例作為訓練組。對10例樣本進行aCGH檢測CNV并通過IGV確認,同時基于~30X WGS數據,選擇4個效果較好的CNV鑒定工具(Manta, Delly, ERDS, CNVnator)進行下一步的分析。通過不同軟件的組合與過濾獲得最終檢測結果,確定結果的準確性,并通過剩余的14例樣本進行方案驗證(圖 1)。 圖 1. 樣本選擇與分析流程 對于4種CNV檢測軟件,Delly與Manta的原理主要是基于paired-end檢測,CNVnator與ERDS的原理主要是基于coverage depth檢測,文章對CNV檢測結果進行過濾與合并:對于相同原理軟件的檢測結果,如果CNV區(qū)域存在75%的交集,檢測到不同類型的CNV則刪除結果,檢測到相同類型的CNV則合并結果;不同原理軟件之間的結果,交集的區(qū)域調整為50%;再通過SV2進行基因分型,并對所有CNV結果進行比較過濾(圖 2)。 圖 2. CNV結果分析流程 分析結果 4種軟件的檢測結果差異較大。其中基于paired-end的軟件檢測到更多的CNV結果,尤其在50bp-1kb的缺失中差異明顯;CNVnator對1-50k范圍內的檢測則更加敏感;相同檢測原理的軟件之間檢測結果一致性相對較高;Delly和CNVnator相比于Manta和ERDS軟件更加敏感,而Manta和ERDS的檢測結果在大約一半的病例中得到相互驗證(圖 3)。 圖 3. 4種軟件的檢測結果 對檢測結果隨機選擇1278個缺失和748個插入進行IGV查看驗證,軟件檢測結果與真實的CNV區(qū)域重疊范圍為6.6%-89.5%之間,小的缺失型CNV比插入和大的缺失型CNV更易被檢出。ERDS和Manta軟件對1-50 kb缺失型CNV的檢測更準確;Delly和CNVnator軟件對1 ~ 5 kb缺失型CNV的真陽性率達到50%以上;ERDS對大片段CNV檢測的敏感性最高;超過50kb的插入型CNV在基于coverage depth檢測的軟件中敏感性較高,但是此類CNV通過IGV查看時都沒有得到驗證。驗證結果顯示,假陽性的CNV大多只由一種軟件檢出,多種軟件中共同檢出的結果基本可以確保真實性,而且大多真實的結果能夠通過genomAD數據庫得到驗證(圖 4)。 圖 4. 不同軟件對不同類型CNV的檢測結果及IGV驗證 通過366個真實的CNV(329個缺失,37個插入)和940個假陽性CNV(505個缺失,435個插入)對CNV過濾方法的準確度進行評估。結果表明,根據4種軟件的結果對CNVs進行過濾,對真實的靈敏度沒有影響,而且可以增加準確性;SV2基因分型對缺失表現良好,但對插入的敏感性較低(圖 5)。 圖 5. 4種軟件結合與SV2過濾的CNV結果。 結論 利用WGS數據檢測CNV可以解決aCGH中檢測區(qū)域局限、斷點不明確的問題,但傳統(tǒng)的檢測方法準確性不高,而使用高深度或長讀長測序的成本太高,不適用于臨床檢測。文章中使用多種CNV檢測工具進行過濾的方法很好的解決了上述問題,4種檢測軟件依據不同的算法原理檢測CNV,結合不同軟件結果可以有效提高檢測的準確性,為WGS數據檢測CNV的臨床應用開辟了新思路。 參考文獻 Coutelier, M., Holtgrewe, M., J?ger, M. et al. Combining callers improves the detection of copy number variants from whole-genome sequencing. Eur J Hum Genet (2021). https://doi.org/10.1038/s41431-021-00983-x.