भाग 1: प्रति-नमूना वेरिएंट कॉलिंग¶
AI-सहायता प्राप्त अनुवाद - अधिक जानें और सुधार सुझाएं
इस कोर्स के पहले भाग में, हम आपको एक सरल वेरिएंट कॉलिंग पाइपलाइन बनाना सिखाएंगे जो व्यक्तिगत सीक्वेंसिंग नमूनों पर GATK वेरिएंट कॉलिंग लागू करती है।
विधि का अवलोकन¶
वेरिएंट कॉलिंग एक जीनोमिक विश्लेषण विधि है जिसका उद्देश्य एक संदर्भ जीनोम के सापेक्ष एक जीनोम अनुक्रम में भिन्नताओं की पहचान करना है। यहाँ हम छोटे वेरिएंट कॉल करने के लिए डिज़ाइन किए गए टूल और विधियों का उपयोग करने जा रहे हैं, यानी SNPs और indels।

एक पूर्ण वेरिएंट कॉलिंग पाइपलाइन में आम तौर पर कई चरण शामिल होते हैं, जिनमें संदर्भ के साथ मैपिंग (कभी-कभी जीनोम संरेखण के रूप में संदर्भित) और वेरिएंट फ़िल्टरिंग और प्राथमिकता शामिल है। सरलता के लिए, इस कोर्स के इस भाग में हम केवल वेरिएंट कॉलिंग भाग पर ध्यान केंद्रित करने जा रहे हैं।
डेटासेट¶
हम निम्नलिखित डेटा और संबंधित संसाधन प्रदान करते हैं:
- एक संदर्भ जीनोम जिसमें मानव क्रोमोसोम 20 (hg19/b37 से) का एक छोटा क्षेत्र और इसकी सहायक फ़ाइलें (इंडेक्स और अनुक्रम शब्दकोश) शामिल हैं।
- तीन संपूर्ण जीनोम सीक्वेंसिंग नमूने जो एक परिवार के तीन सदस्यों (माँ, पिता और बेटा) से संबंधित हैं, जिन्हें फ़ाइल आकार को छोटा रखने के लिए क्रोमोसोम 20 पर डेटा के एक छोटे से हिस्से तक सीमित किया गया है। यह Illumina शॉर्ट-रीड सीक्वेंसिंग डेटा है जो पहले ही संदर्भ जीनोम से मैप किया जा चुका है, BAM प्रारूप (Binary Alignment Map, SAM का एक संपीड़ित संस्करण, Sequence Alignment Map) में प्रदान किया गया है।
- जीनोमिक अंतरालों की एक सूची, यानी जीनोम पर निर्देशांक जहाँ हमारे नमूनों में वेरिएंट कॉल करने के लिए उपयुक्त डेटा है, BED प्रारूप में प्रदान किया गया है।
वर्कफ़्लो¶
इस कोर्स के इस भाग में, हम एक वर्कफ़्लो विकसित करने जा रहे हैं जो निम्नलिखित करती है:
- Samtools का उपयोग करके प्रत्येक BAM इनपुट फ़ाइल के लिए एक इंडेक्स फ़ाइल बनाएं
- प्रत्येक BAM इनपुट फ़ाइल पर GATK HaplotypeCaller चलाएं ताकि VCF (Variant Call Format) में प्रति-नमूना वेरिएंट कॉल उत्पन्न हो सकें
Note
इंडेक्स फ़ाइलें बायोइन्फॉर्मेटिक्स फ़ाइल प्रारूपों की एक सामान्य विशेषता हैं; उनमें मुख्य फ़ाइल की संरचना के बारे में जानकारी होती है जो GATK जैसे टूल को पूरी फ़ाइल को पढ़े बिना डेटा के एक सबसेट तक पहुँचने की अनुमति देती है। यह महत्वपूर्ण है क्योंकि ये फ़ाइलें कितनी बड़ी हो सकती हैं।
0. वार्मअप: Samtools और GATK कमांड को इंटरैक्टिव रूप से टेस्ट करें¶
पहले हम कमांड को मैन्युअल रूप से आज़माना चाहते हैं इससे पहले कि हम उन्हें वर्कफ़्लो में लपेटने का प्रयास करें। हमें जिन टूल की आवश्यकता है (Samtools और GATK) GitHub Codespaces वातावरण में इंस्टॉल नहीं हैं, इसलिए हम उन्हें कंटेनर के माध्यम से उपयोग करेंगे (Hello Containers देखें)।
Note
सुनिश्चित करें कि आप nf4-science/genomics डायरेक्टरी में हैं ताकि जब आप pwd टाइप करें तो दिखाए गए पथ का अंतिम भाग genomics हो।
0.1. Samtools के साथ BAM इनपुट फ़ाइल को इंडेक्स करें¶
हम एक Samtools कंटेनर को पुल करने जा रहे हैं, इसे इंटरैक्टिव रूप से स्पिन करें और BAM फ़ाइलों में से एक पर samtools index कमांड चलाएं।
0.1.1. Samtools कंटेनर को पुल करें¶
0.1.2. Samtools कंटेनर को इंटरैक्टिव रूप से स्पिन करें¶
0.1.3. इंडेक्सिंग कमांड चलाएं¶
Samtools डॉक्यूमेंटेशन हमें BAM फ़ाइल को इंडेक्स करने के लिए चलाने के लिए कमांड लाइन देता है।
हमें केवल इनपुट फ़ाइल प्रदान करनी होगी; टूल स्वचालित रूप से इनपुट फ़ाइलनाम में .bai जोड़कर आउटपुट के लिए एक नाम उत्पन्न करेगा।
यह तुरंत पूरा होना चाहिए, और अब आपको मूल BAM इनपुट फ़ाइल के समान डायरेक्टरी में reads_mother.bam.bai नामक एक फ़ाइल दिखनी चाहिए।
डायरेक्टरी सामग्री
0.1.4. Samtools कंटेनर से बाहर निकलें¶
0.2. GATK HaplotypeCaller के साथ वेरिएंट कॉल करें¶
हम एक GATK कंटेनर को पुल करने जा रहे हैं, इसे इंटरैक्टिव रूप से स्पिन करें और BAM फ़ाइल पर gatk HaplotypeCaller कमांड चलाएं जिसे हमने अभी इंडेक्स किया है।
0.2.1. GATK कंटेनर को पुल करें¶
0.2.2. GATK कंटेनर को इंटरैक्टिव रूप से स्पिन करें¶
0.2.3. वेरिएंट कॉलिंग कमांड चलाएं¶
GATK डॉक्यूमेंटेशन हमें BAM फ़ाइल पर वेरिएंट कॉलिंग करने के लिए चलाने के लिए कमांड लाइन देता है।
हमें BAM इनपुट फ़ाइल (-I) के साथ-साथ संदर्भ जीनोम (-R), आउटपुट फ़ाइल के लिए एक नाम (-O) और विश्लेषण करने के लिए जीनोमिक अंतरालों की एक सूची (-L) प्रदान करनी होगी।
हालाँकि, हमें इंडेक्स फ़ाइल के पथ को निर्दिष्ट करने की आवश्यकता नहीं है; टूल स्वचालित रूप से इसे समान डायरेक्टरी में ढूंढेगा, स्थापित नामकरण और सह-स्थान सम्मेलन के आधार पर।
यही बात संदर्भ जीनोम की सहायक फ़ाइलों (इंडेक्स और अनुक्रम शब्दकोश फ़ाइलें, *.fai और *.dict) पर भी लागू होती है।
gatk HaplotypeCaller \
-R /data/ref/ref.fasta \
-I /data/bam/reads_mother.bam \
-O reads_mother.vcf \
-L /data/ref/intervals.bed
आउटपुट फ़ाइल reads_mother.vcf कंटेनर में आपकी वर्किंग डायरेक्टरी के अंदर बनाई गई है, इसलिए आप इसे VS Code फ़ाइल एक्सप्लोरर में तब तक नहीं देखेंगे जब तक आप आउटपुट फ़ाइल पथ नहीं बदलते।
हालाँकि, यह एक छोटी परीक्षण फ़ाइल है, इसलिए आप इसे खोलने और सामग्री देखने के लिए cat कर सकते हैं।
यदि आप फ़ाइल की शुरुआत तक स्क्रॉल करते हैं, तो आपको मेटाडेटा की कई पंक्तियों से बना एक हेडर मिलेगा, जिसके बाद वेरिएंट कॉल की एक सूची होगी, प्रति पंक्ति एक।
प्रत्येक पंक्ति नमूने के सीक्वेंसिंग डेटा में पहचाने गए संभावित वेरिएंट का वर्णन करती है। VCF प्रारूप की व्याख्या करने के लिए मार्गदर्शन के लिए, यह उपयोगी लेख देखें।
आउटपुट VCF फ़ाइल के साथ reads_mother.vcf.idx नामक एक इंडेक्स फ़ाइल है जो स्वचालित रूप से GATK द्वारा बनाई गई थी।
इसका वही कार्य है जो BAM इंडेक्स फ़ाइल का है, टूल को पूरी फ़ाइल लोड किए बिना डेटा के सबसेट को खोजने और पुनर्प्राप्त करने की अनुमति देना।
0.2.4. GATK कंटेनर से बाहर निकलें¶
निष्कर्ष¶
आप जानते हैं कि Samtools इंडेक्सिंग और GATK वेरिएंट कॉलिंग कमांड को उनके संबंधित कंटेनर में कैसे टेस्ट करें।
आगे क्या है?¶
सीखें कि उन्हीं कमांड को दो-चरणीय वर्कफ़्लो में कैसे लपेटें जो कार्य निष्पादित करने के लिए कंटेनर का उपयोग करती है।
1. एक सिंगल-स्टेज वर्कफ़्लो लिखें जो BAM फ़ाइल पर Samtools index चलाती है¶
हम आपको एक वर्कफ़्लो फ़ाइल प्रदान करते हैं, genomics-1.nf, जो वर्कफ़्लो के मुख्य भागों की रूपरेखा देती है।
यह कार्यात्मक नहीं है; इसका उद्देश्य केवल एक कंकाल के रूप में काम करना है जिसका उपयोग आप वास्तविक वर्कफ़्लो लिखने के लिए करेंगे।
1.1. इंडेक्सिंग प्रोसेस को परिभाषित करें¶
आइए एक प्रोसेस लिखें, जिसे हम SAMTOOLS_INDEX कहेंगे, जो इंडेक्सिंग ऑपरेशन का वर्णन करती है।
| genomics-1.nf | |
|---|---|
आपको इस प्रशिक्षण श्रृंखला के भाग 1 और भाग 2 में जो कुछ सीखा है, उससे सभी टुकड़ों को पहचानना चाहिए।
यह प्रोसेस हमें input_bam इनपुट के माध्यम से एक फ़ाइल पथ पास करने की आवश्यकता होगी, तो आइए इसे अगले सेट करें।
1.2. एक इनपुट पैरामीटर घोषणा जोड़ें¶
फ़ाइल के शीर्ष पर, Pipeline parameters सेक्शन के तहत, हम reads_bam नामक एक CLI पैरामीटर घोषित करते हैं और इसे एक डिफ़ॉल्ट मान देते हैं।
इस तरह, हम आलसी हो सकते हैं और पाइपलाइन को लॉन्च करने के लिए कमांड टाइप करते समय इनपुट निर्दिष्ट नहीं करते (विकास उद्देश्यों के लिए)।
| genomics-1.nf | |
|---|---|
अब हमारे पास एक प्रोसेस तैयार है, साथ ही इसे चलाने के लिए एक इनपुट देने के लिए एक पैरामीटर है, तो आइए उन चीजों को एक साथ जोड़ें।
Note
${projectDir} एक बिल्ट-इन Nextflow वेरिएबल है जो उस डायरेक्टरी की ओर इशारा करता है जहाँ वर्तमान Nextflow वर्कफ़्लो स्क्रिप्ट (genomics-1.nf) स्थित है।
यह वर्कफ़्लो रिपॉजिटरी में शामिल फ़ाइलों, डेटा डायरेक्टरी और अन्य संसाधनों को संदर्भित करना आसान बनाता है बिना पूर्ण पथों को हार्डकोड किए।
1.3. SAMTOOLS_INDEX चलाने के लिए वर्कफ़्लो ब्लॉक जोड़ें¶
workflow ब्लॉक में, हमें SAMTOOLS_INDEX प्रोसेस को इनपुट देने के लिए एक channel सेट करना होगा; फिर हम उस चैनल की सामग्री पर चलाने के लिए प्रोसेस को स्वयं कॉल कर सकते हैं।
| genomics-1.nf | |
|---|---|
वर्कफ़्लो ब्लॉक में दो सेक्शन हैं:
main:में चैनल ऑपरेशन और प्रोसेस कॉल शामिल हैंpublish:घोषित करता है कि कौन से आउटपुट प्रकाशित किए जाने चाहिए, उन्हें नामित लक्ष्यों को सौंपते हुए
आप देखेंगे कि हम वही .fromPath चैनल फैक्ट्री का उपयोग कर रहे हैं जो हमने Hello Channels में उपयोग किया था।
वास्तव में, हम कुछ बहुत समान कर रहे हैं।
अंतर यह है कि हम Nextflow को बता रहे हैं कि फ़ाइल पथ को ही चैनल में इनपुट तत्व के रूप में लोड करें, इसकी सामग्री को पढ़ने के बजाय।
1.4. यह परिभाषित करने के लिए एक आउटपुट ब्लॉक जोड़ें कि परिणाम कहाँ प्रकाशित किए जाते हैं¶
वर्कफ़्लो ब्लॉक के बाद, हम एक output ब्लॉक जोड़ते हैं जो निर्दिष्ट करता है कि वर्कफ़्लो आउटपुट कहाँ प्रकाशित करें।
publish: सेक्शन से प्रत्येक नामित लक्ष्य (जैसे bam_index) को अपना ब्लॉक मिलता है जहाँ आप बेस आउटपुट डायरेक्टरी के सापेक्ष आउटपुट पथ को कॉन्फ़िगर कर सकते हैं।
Note
भले ही हम यहाँ जिन डेटा फ़ाइलों का उपयोग कर रहे हैं वे बहुत छोटी हैं, जीनोमिक्स में वे बहुत बड़ी हो सकती हैं।
डिफ़ॉल्ट रूप से, Nextflow प्रकाशन डायरेक्टरी में आउटपुट फ़ाइलों के लिए सिम्बोलिक लिंक बनाता है, जो अनावश्यक फ़ाइल प्रतियों से बचता है।
आप mode विकल्प का उपयोग करके इस व्यवहार को बदल सकते हैं (जैसे, mode 'copy') वास्तविक प्रतियाँ बनाने के लिए।
ध्यान रखें कि जब आप अपनी work डायरेक्टरी को साफ़ करते हैं तो सिमलिंक टूट जाएंगे, इसलिए प्रोडक्शन वर्कफ़्लो के लिए आप mode 'copy' का उपयोग करना चाह सकते हैं।
1.5. आउटपुट डायरेक्टरी को कॉन्फ़िगर करें¶
बेस आउटपुट डायरेक्टरी outputDir कॉन्फ़िग विकल्प के माध्यम से सेट की जाती है। इसे nextflow.config में जोड़ें:
1.6. वर्कफ़्लो चलाएं यह सत्यापित करने के लिए कि इंडेक्सिंग चरण काम करता है¶
चलो वर्कफ़्लो चलाएं! एक अनुस्मारक के रूप में, हमें कमांड लाइन में इनपुट निर्दिष्ट करने की आवश्यकता नहीं है क्योंकि हमने इनपुट पैरामीटर घोषित करते समय इनपुट के लिए एक डिफ़ॉल्ट मान सेट किया था।
कमांड आउटपुट
आप वर्क डायरेक्टरी या परिणाम डायरेक्टरी में देखकर जाँच सकते हैं कि इंडेक्स फ़ाइल सही ढंग से जेनरेट की गई है।
वर्क डायरेक्टरी सामग्री
परिणाम डायरेक्टरी सामग्री
यह रहा!
निष्कर्ष¶
आप जानते हैं कि एक जीनोमिक्स टूल को सिंगल-स्टेप Nextflow वर्कफ़्लो में कैसे लपेटें और इसे कंटेनर का उपयोग करके चलाएं।
आगे क्या है?¶
एक दूसरा चरण जोड़ें जो पहले के आउटपुट का उपभोग करता है।
2. इंडेक्स की गई BAM फ़ाइल पर GATK HaplotypeCaller चलाने के लिए दूसरा प्रोसेस जोड़ें¶
अब जब हमारे पास हमारी इनपुट फ़ाइल के लिए एक इंडेक्स है, तो हम वेरिएंट कॉलिंग चरण को सेट करने के लिए आगे बढ़ सकते हैं, जो वर्कफ़्लो का दिलचस्प हिस्सा है।
2.1. वेरिएंट कॉलिंग प्रोसेस को परिभाषित करें¶
आइए एक प्रोसेस लिखें, जिसे हम GATK_HAPLOTYPECALLER कहेंगे, जो वेरिएंट कॉलिंग ऑपरेशन का वर्णन करती है।
आप देखेंगे कि हमने यहाँ कुछ नया सिंटैक्स पेश किया है (emit:) हमारे प्रत्येक आउटपुट चैनल को विशिष्ट रूप से नाम देने के लिए, और इसके कारण जल्द ही स्पष्ट हो जाएंगे।
यह कमांड काफी अधिक इनपुट लेता है, क्योंकि GATK को एक सरल इंडेक्सिंग कार्य की तुलना में विश्लेषण करने के लिए अधिक जानकारी की आवश्यकता होती है। लेकिन आप ध्यान देंगे कि GATK कमांड में सूचीबद्ध की तुलना में इनपुट ब्लॉक में और भी अधिक इनपुट परिभाषित हैं। ऐसा क्यों है?
Note
GATK BAM इंडेक्स फ़ाइल और संदर्भ जीनोम की सहायक फ़ाइलों को देखना जानता है क्योंकि यह उन फ़ाइलों के आसपास के सम्मेलनों के बारे में जानता है। हालाँकि, Nextflow को डोमेन-अज्ञेयवादी होने के लिए डिज़ाइन किया गया है और यह बायोइन्फॉर्मेटिक्स फ़ाइल प्रारूप आवश्यकताओं के बारे में कुछ नहीं जानता है।
हमें Nextflow को स्पष्ट रूप से बताना होगा कि उसे रनटाइम पर वर्किंग डायरेक्टरी में उन फ़ाइलों को स्टेज करना होगा; अन्यथा यह ऐसा नहीं करेगा, और GATK (सही ढंग से) इंडेक्स फ़ाइलों के गायब होने के बारे में एक त्रुटि फेंकेगा।
इसी तरह, हमें आउटपुट VCF की इंडेक्स फ़ाइल ("${input_bam}.vcf.idx" फ़ाइल) को स्पष्ट रूप से सूचीबद्ध करना होगा ताकि Nextflow को पता चले कि यदि बाद के चरणों में इसकी आवश्यकता हो तो उस फ़ाइल का ट्रैक रखना होगा।
2.2. सहायक इनपुट के लिए परिभाषाएं जोड़ें¶
चूंकि हमारी नई प्रोसेस को कुछ अतिरिक्त फ़ाइलें प्रदान करने की अपेक्षा है, हम Pipeline parameters सेक्शन के तहत उनके लिए कुछ CLI पैरामीटर सेट करते हैं, कुछ डिफ़ॉल्ट मानों के साथ (पहले जैसे ही कारण)।
| genomics-1.nf | |
|---|---|
2.3. सहायक फ़ाइल पथों को रखने के लिए वेरिएबल बनाएं¶
जबकि मुख्य डेटा इनपुट चैनलों के माध्यम से गतिशील रूप से स्ट्रीम किए जाते हैं, सहायक फ़ाइलों को संभालने के लिए दो दृष्टिकोण हैं। अनुशंसित दृष्टिकोण स्पष्ट चैनल बनाना है, जो डेटा प्रवाह को स्पष्ट और अधिक सुसंगत बनाता है। वैकल्पिक रूप से, सरल मामलों के लिए वेरिएबल बनाने के लिए file() फ़ंक्शन का उपयोग किया जा सकता है, विशेष रूप से जब आपको कई प्रोसेस में एक ही फ़ाइल को संदर्भित करने की आवश्यकता हो - हालाँकि ध्यान रखें कि यह अभी भी चैनल बनाता है अस्पष्ट रूप से।
इसे वर्कफ़्लो ब्लॉक में जोड़ें (reads_ch निर्माण के बाद, main: सेक्शन के अंदर):
| genomics-1.nf | |
|---|---|
यह सहायक फ़ाइल पथों को किसी भी प्रोसेस को इनपुट के रूप में प्रदान करने के लिए उपलब्ध कराएगा जिन्हें उनकी आवश्यकता है।
2.4. GATK_HAPLOTYPECALLER चलाने के लिए वर्कफ़्लो ब्लॉक में एक कॉल जोड़ें¶
अब जब हमने अपनी दूसरी प्रोसेस सेट कर ली है और सभी इनपुट और सहायक फ़ाइलें तैयार और उपलब्ध हैं, तो हम वर्कफ़्लो बॉडी में GATK_HAPLOTYPECALLER प्रोसेस में एक कॉल जोड़ सकते हैं।
| genomics-1.nf | |
|---|---|
आपको इस प्रशिक्षण श्रृंखला के भाग 1 से *.out सिंटैक्स को पहचानना चाहिए; हम Nextflow को बता रहे हैं कि SAMTOOLS_INDEX द्वारा आउटपुट किए गए चैनल को लें और उसे GATK_HAPLOTYPECALLER प्रोसेस कॉल में प्लग करें।
Note
आप देखेंगे कि इनपुट प्रोसेस की कॉल में उसी क्रम में प्रदान किए जाते हैं जैसे वे प्रोसेस के इनपुट ब्लॉक में सूचीबद्ध हैं। Nextflow में, इनपुट स्थितीय हैं, जिसका अर्थ है कि आपको उसी क्रम का पालन करना होगा; और बेशक तत्वों की संख्या समान होनी चाहिए।
2.5. प्रकाशन सेक्शन और आउटपुट ब्लॉक को अपडेट करें¶
हमें VCF आउटपुट को शामिल करने के लिए publish: सेक्शन को अपडेट करने की आवश्यकता है, और output ब्लॉक में संबंधित लक्ष्य जोड़ने की आवश्यकता है।
| genomics-1.nf | |
|---|---|
2.6. वर्कफ़्लो चलाएं यह सत्यापित करने के लिए कि वेरिएंट कॉलिंग चरण काम करता है¶
चलो विस्तारित वर्कफ़्लो को -resume के साथ चलाएं ताकि हमें इंडेक्सिंग चरण को फिर से चलाने की आवश्यकता न हो।
कमांड आउटपुट
अब यदि हम कंसोल आउटपुट को देखते हैं, तो हम दो प्रोसेस सूचीबद्ध देखते हैं।
पहली प्रोसेस को कैशिंग के कारण छोड़ दिया गया था, जैसा कि अपेक्षित था, जबकि दूसरी प्रोसेस चलाई गई क्योंकि यह बिल्कुल नई है।
आप परिणाम डायरेक्टरी में आउटपुट फ़ाइलें पाएंगे (वर्क डायरेक्टरी के सिम्बोलिक लिंक के रूप में)।
डायरेक्टरी सामग्री
यदि आप VCF फ़ाइल खोलते हैं, तो आपको उसी सामग्री को देखना चाहिए जो आपने GATK कमांड को सीधे कंटेनर में चलाकर जेनरेट की गई फ़ाइल में की थी।
यह वह आउटपुट है जिसे हम अपने अध्ययन में प्रत्येक नमूने के लिए उत्पन्न करने की परवाह करते हैं।
निष्कर्ष¶
आप जानते हैं कि एक बहुत ही बुनियादी दो-चरणीय वर्कफ़्लो कैसे बनाएं जो वास्तविक विश्लेषण कार्य करती है और जीनोमिक्स फ़ाइल प्रारूप की विशिष्टताओं जैसे सहायक फ़ाइलों से निपटने में सक्षम है।
आगे क्या है?¶
वर्कफ़्लो को नमूनों के एक बैच को थोक में संभालने के लिए अनुकूलित करें।
3. वर्कफ़्लो को नमूनों के बैच पर चलाने के लिए अनुकूलित करें¶
यह सब ठीक है कि एक वर्कफ़्लो है जो एक एकल नमूने पर प्रसंस्करण को स्वचालित कर सकती है, लेकिन यदि आपके पास 1000 नमूने हैं तो क्या होगा? क्या आपको एक bash स्क्रिप्ट लिखने की आवश्यकता है जो आपके सभी नमूनों के माध्यम से लूप करती है?
नहीं, भगवान का शुक्र है! बस कोड में एक मामूली बदलाव करें और Nextflow आपके लिए भी इसे संभाल लेगा।
3.1. इनपुट पैरामीटर घोषणा को तीन नमूनों को सूचीबद्ध करने वाली एक सरणी में बदलें¶
आइए इनपुट BAM फ़ाइल घोषणा में उस डिफ़ॉल्ट फ़ाइल पथ को हमारे तीन परीक्षण नमूनों के लिए फ़ाइल पथों को सूचीबद्ध करने वाली एक सरणी में बदलें, Pipeline parameters सेक्शन के तहत।
Note
टाइप किए गए पैरामीटर घोषणाओं (जैसे reads_bam: Path) का उपयोग करते समय, आप एक सरणी मान नहीं सौंप सकते।
सरणियों के लिए, प्रकार एनोटेशन को छोड़ दें।
और वास्तव में यह सब हमें करने की आवश्यकता है, क्योंकि चैनल फैक्ट्री जो हम वर्कफ़्लो बॉडी में उपयोग करते हैं (.fromPath) इनपुट चैनल में लोड करने के लिए कई फ़ाइल पथों को स्वीकार करने में उतना ही खुश है जितना यह एक को लोड करने में था।
Note
सामान्य रूप से, आप नमूनों की सूची को अपनी वर्कफ़्लो फ़ाइल में हार्डकोड नहीं करना चाहेंगे, लेकिन हम यहां चीजों को सरल रखने के लिए ऐसा कर रहे हैं। हम इस प्रशिक्षण श्रृंखला में बाद में इनपुट को संभालने के लिए अधिक सुरुचिपूर्ण तरीके प्रस्तुत करेंगे।
3.2. वर्कफ़्लो चलाएं यह सत्यापित करने के लिए कि यह सभी तीन नमूनों पर चलती है¶
आइए अब वर्कफ़्लो चलाने का प्रयास करें जब प्लंबिंग सभी तीन परीक्षण नमूनों पर चलाने के लिए सेट की गई है।
मज़ेदार बात: यह काम कर सकता है, OR यह विफल हो सकता है। उदाहरण के लिए, यहाँ एक रन है जो सफल हुआ:
कमांड आउटपुट
यदि आपका वर्कफ़्लो रन सफल रहा, तो इसे तब तक फिर से चलाएं जब तक आपको इस तरह की त्रुटि न मिले:
कमांड आउटपुट
N E X T F L O W ~ version 25.10.2
┃ Launching `genomics-1.nf` [loving_pasteur] DSL2 - revision: d2a8e63076
executor > local (4)
[01/eea165] SAMTOOLS_INDEX (2) | 3 of 3, cached: 1 ✔
[a5/fa9fd0] GATK_HAPLOTYPECALLER (3) | 1 of 3, cached: 1
ERROR ~ Error executing process > 'GATK_HAPLOTYPECALLER (2)'
Caused by:
Process `GATK_HAPLOTYPECALLER (2)` terminated with an error exit status (2)
Command executed:
gatk HaplotypeCaller -R ref.fasta -I reads_father.bam -O reads_father.bam.vcf -L intervals.bed
Command exit status:
2
Command error:
...
A USER ERROR has occurred: Traversal by intervals was requested but some input files are not indexed.
...
यदि आप GATK कमांड त्रुटि आउटपुट को देखते हैं, तो इस तरह की एक पंक्ति होगी:
A USER ERROR has occurred: Traversal by intervals was requested but some input files are not indexed.
खैर, यह अजीब है, यह देखते हुए कि हमने वर्कफ़्लो के पहले चरण में BAM फ़ाइलों को स्पष्ट रूप से इंडेक्स किया था। क्या प्लंबिंग में कुछ गलत हो सकता है?
3.2.1. प्रासंगिक कॉल के लिए वर्क डायरेक्टरी की जाँच करें¶
आइए कंसोल आउटपुट में सूचीबद्ध विफल GATK_HAPLOTYPECALLER प्रोसेस कॉल के लिए वर्क डायरेक्टरी के अंदर देखें।
डायरेक्टरी सामग्री
work/a5/fa9fd0994b6beede5fb9ea073596c2
├── intervals.bed -> /workspaces/training/nf4-science/genomics/data/ref/intervals.bed
├── reads_father.bam.bai -> /workspaces/training/nf4-science/genomics/work/01/eea16597bd6e810fb4cf89e60f8c2d/reads_father.bam.bai
├── reads_son.bam -> /workspaces/training/nf4-science/genomics/data/bam/reads_son.bam
├── reads_son.bam.vcf
├── reads_son.bam.vcf.idx
├── ref.dict -> /workspaces/training/nf4-science/genomics/data/ref/ref.dict
├── ref.fasta -> /workspaces/training/nf4-science/genomics/data/ref/ref.fasta
└── ref.fasta.fai -> /workspaces/training/nf4-science/genomics/data/ref/ref.fasta.fai
इस डायरेक्टरी में सूचीबद्ध BAM फ़ाइल और BAM इंडेक्स के नामों पर विशेष ध्यान दें: reads_son.bam और reads_father.bam.bai।
यह क्या है? Nextflow ने इस प्रोसेस कॉल की वर्क डायरेक्टरी में एक इंडेक्स फ़ाइल स्टेज की है, लेकिन यह गलत है। यह कैसे हुआ?
3.2.2. चैनल सामग्री का निरीक्षण करने के लिए view() ऑपरेटर का उपयोग करें¶
GATK_HAPLOTYPER प्रोसेस कॉल से पहले वर्कफ़्लो बॉडी में ये दो पंक्तियाँ जोड़ें:
फिर वर्कफ़्लो कमांड को फिर से चलाएं।
एक बार फिर, यह सफल हो सकता है या विफल हो सकता है। यहाँ एक सफल रन है:
कमांड आउटपुट
N E X T F L O W ~ version 25.10.2
┃ Launching `genomics-1.nf` [fervent_pasteur] DSL2 - revision: a256d113ad
/workspaces/training/nf4-science/genomics/data/bam/reads_mother.bam
/workspaces/training/nf4-science/genomics/data/bam/reads_father.bam
/workspaces/training/nf4-science/genomics/data/bam/reads_son.bam
executor > local (6)
[4f/7071b0] SAMTOOLS_INDEX (3) | 3 of 3 ✔
/workspaces/training/nf4-science/genomics/work/b4/45a376f0e724be1dc626a6807f73d8/reads_mother.bam.bai
/workspaces/training/nf4-science/genomics/work/4f/7071b082b45dd85b1c9b6b3b32cb69/reads_father.bam.bai
/workspaces/training/nf4-science/genomics/work/3c/331645a9e20e67edae10da5ba17c7b/reads_son.bam.bai
[a2/dbd8d5] GATK_HAPLOTYPECALLER (3) | 3 of 3 ✔
और यहाँ एक विफल है:
कमांड आउटपुट
```console N E X T F L O W ~ version 25.10.2