مقدمه ی بر بیوانفورماتیک ، اولین تلاش ها در زمینه ی بیوانفورماتیک به دهه ی ۱۹۶۰ باز می گردد ، اگرچه در آن زمان لغت بیوانفورماتیک وجود نداشت . برای نخستین بار در سال ۱۹۶۵ دانشمندی به نام مارگارت دایهوف اولین پروژه ی بیوانفورماتیکی را انجام داد ، در این پروژه تمامی توالی های پروتئینی مورد دسترس در آن زمان جمع آوری و برای ساخت یک برنامه ی کامپیوتری در جهت ذخیره و ارائه ی این داده ها مورد استفاده قرار گرفت ، در واقع خانم دایهوف با انجام این پروژه اولین پایگاه داده ی توالی های پروتئینی با نام اطلس توالی و ساختمان پروتئین را ایجاد کرد.
نخستین الگوریتم هم ترازی درسال ۱۹۷۰ توسط نیدلمن و وونچ ایجاد شد که مرحله ای بنیادین در توسعه و پیشرفت در حوزه بیوانفورماتیک بود ، در دهه ی ۱۹۸۰ بانک ژن (Gene Bank)، به عنوان اولین بانک توالی DNA ساخته شد . واژه ی Bioinformatic که از ادغام دو کلمه ی Bio مخفف کلمه ی Biology به معنی زیست شناسی و Informatic به معنی علوم کامپیوتر، ساخته شده است برای اولین بار در دهه ی ۱۹۹۰ به کار رفت .
بیوانفورماتیک چیست ؟
در ابتدا واژه ی Bioinformatic برای فرآیندهای آنالیز دیتا و داده های مرتبط با توالی های DNA,RNA و پروتئین کاربرد داشت ، اما امروزه این واژه ی معرف در این دانش معنای گسترده تری پیدا کرده است و جهت بررسی آنالیز های انواع داده های مربوط به حوزه ی دانش بیولوژی کاربرد دارد.
حدود اوايل سال 1975 بود كه رشته ی بيوانفورماتيک با هدف استفاده ازتكنيک های مديريت سيستم های داده از طریق ایجاد پایگاه دیتا و همچنین آنالیز داده ها با استفاده از نرم افزارهای مختلف در مطالعات بیولوژی به وجود آمد . به این صورت دانش بيوانفورماتيک بعنوان يک تخصص ميان رشته ای با ادغام زيست شناسی، رياضيات (به ويژه آمار)، علوم كامپيوتر و فناوری اطلاعات متولد شد . در این علم با استفاده از سخت افزار كامپيوتر، نرم افزارهای كامپيوتری، و پایگاههای اطلاعاتی مسائل زیست شناختی به ویژه در زمينه های سلولی و مولكولی و همچنین تجزیه و تحلیل اطلاعات و داده های توالی، عملکرد و ساختار ملكول های پروتئين، DNA وRNA امکان پذیر شده است.
کاربرد های بیوانفورماتیک :
در حال حاضر بیوانفورماتیک تنها محدود به تحقيقات بیولوژی مولكولی و ژنومی پايه نمی شود و تاثير عمده ای بر حوزه های بيوتكنولوژی و علوم زيست پزشكی دارد . اين حوزه ی علمی ابزارهای مناسبی برای تجزيه و تحليل داده ها به منظور استخراج الگوهای مفيد در شبيه سازی ساختارهای پيچيده مولكولی و سيستم های زيستی، به محققان ارائه می دهد. تمركز امروزی بر بیوانفورماتیک، بيانگر آغاز يك تغيير اساسی و مهم در مطالعه سيستم های زیستی است كه نتايج پايه ای و كاربردی در بر خواهد داشت.
PCR چیست؟ فرآیند انجام و کاربردها
کاربرد بیوانفورماتیک در زیست شناسی :
بیوانفورماتیک در حوزه ی تحقیقات بیولوژی بر روی تعیین توالی، مطالعه ترانسکریپتوم ،کشف ژن ها، توالی یابی ژنوم، تعیین ساختار پروتئینی، پیشگویی ساختار پروتئینی، پیش بینی بیان ژن، برهمکنش پروتئین- پروتئین، مقایسه های فیلوژنتیکی، یافتن محل اتصال فاکتورهای رونویسی در ژن ها و مدل سازی تکامل تمرکز دارد. و همچنین فراهم کننده ی ابزارهای آنالیز کننده ای جهت داده های ریزآرایه (Microarray) و NGS می باشد ، همچنین در مطالعات ژنومیکس ، ترنسکرپتومیکس ، پروتئومیکس ، اینترکتومیکس و متابولومیکس ، زیست شناسی سامانه ای و … کاربرد دارد . ۱- تجزیه وتحلیل اطلاعات توالی -۲- تحلیل عملکرد ژنوم -۳- مشخص کردن کلیه پروتئین های موجود در سلول-۴- نقشه برداری برهمکنشهای بین پروتئینی -۵- پیش بینی ساختار سه بعدی پروتئین -۶- مطالعه ی متابولوم
کاربرد بیوانفورماتیک در پزشکی
بیوانفوماتیک قابلیت این را دارد که به دانش پزشکی از طریق فراهم آوردن ابزراهای مورد نیاز برای آنالیز دیتا هایی با حجم وسیع کمک قابل توجهی نماید. اهداف تحقیقاتی در حوزه ی بیوانفورماتیک پزشکی شامل : رسیدن به درک عمیقی از عملکرد و کارایی مولکولی ژن ها و پروتئین ها تا مسیرهای سیگنالینگ فعالیت آنها و در نهایت رسیدن به نحوه ی فعالیت و تنظیم کل سیستم از طریق استفاده از استراتژی های محاسباتی پیشرفته می باشد. امروزه به كمك علم بيوانفورماتيک می توان حجم وسیع اطلاعات دادهای حاصل از امیکس را با اطلاعات مرتبط با مربوط بیماران که بصورت الکترونیکی ثبت شده اند ترکیب کرد. ترکیب موفق داده های زیست پزشکی و دیتاهای بالینی در نهایت به کشف داروها و راه های موثرتری برای درمان می انجامد.
طراحی دارو (Drug design)
طراحی دارو روش محاسباتى مى باشد که مى تواند برهم کنش بين دو مولکول را پيشگويى کند. ين روش بطور عمده شامل الگوريتم هاى مانند ديناميک مولکولى ، شبیه سازی مونت کارلوو (Monte Carlo) ، روش جستجو براساس بررسى قطعات و.. مى باشد. مولکولار داکینگ (Molecular Docking) ، يکى از روش هاى زير مجموعه ی مدلينگ مولکولى در علم بيوانفورماتيک مى باشد و روشی پر کاربرد در طراحی دارو است. داکينگ مولکولى در تعيين برهم کنش و تعاملات بين دو مولکول مثل پروتئین با پروتئین یا پروتئین با DNA براى یافتن بهترين جهت گيرى يک ليگاند در يک کمپلکس با حداقل انرژى به کار برده مى شود.
با تکنیک داکینگ مولکولی می توان تعداد زیادی دارو را بررسی كرد و بر اساس نتايج حاصل، به منظور صرفه جويی در هزينه و زمان تنها تعداد اندكی از آنها را برای مطالعات بيشتر در فاز آزمايشگاهی انتخاب كرد. نتایج حاصل از داکینگ توسط یک تابع درجه بندی آماری تجزیه و تحلیل می شود. این تابع درجه بندی آماری برای محاسبه انرژی برهم کنش، آن را به مقادیر عددی به نام درجه داکینگ تبدیل می کند. نتایج بدست آمده از داکینگ شامل اشکال 3 بعدی از لیگاند متصل شده به ماکرومولکول بوده که با استفاده از نرم افزارهايی مانند Pymol و Rasmol قابل مشاهده می باشد و می تواند در بدست آوردن بهترین حالت از لیگاند برای برهم کنش با ماکرومولکول به ما کمک نماید.
پزشکی فرد محور (Personalized medicine) :
پزشکی فرد محور شاخه ای از رشته ی پزشکی است که مشمول یک مجموعه ای از توصیه ها و روش های بهداشتی و درمانی را باتوجه به ژنتیک و شرایط محیط پیرامون و زندگی ، به صورت انحصاری برای شخص و آن فرد در راستای پیشگیری و یا درمان بیماری پیشنهاد و ارائه می دهد . اکنون دارویی که به جهت درمان یک شخص بیمار تجویز می گردد برای تمامی بیماران مبتلا یکسان است . درواقع واکنشی که یک بیمار به دارو خواهد داشت و اثرات سازگار و حتی نامطلوب دارویی در اشخاص مختلف میتواند متفاوت باشد . از سوی دیگر شدت بروز بیماری در افراد مختلف با توجه به عواملی نظیر ژنتیک و اپی ژنتیک میتواند متفاوت باشد و در این صورت درمان های در نظرگرفته شده ی معمول برای تمامی بیماران ثمربخش واقع نمی شود . به این دلیل ، در جهت حل این مشکلات پزشکی فردی تلاش می کند با به کار بردن تکنیک های به روز توالی یابی ، ژنوم تمام اشخاص را توالی یابی و آنالیز کرده و تمامی اطلاعات پنهان در ژنوم شخص را مشخص نماید . باتوجه به مورد یاد شده ، با در دست داشتن اطلاعات ژنومی هر شخص ، میتوانیم مسیرهای سیگنالینگ سلولی پاسخگویی شخص به بیماری و داروهای مختلف و همچنین حساسیت فرد به بیماری های خاص و استعداد ابتلای آن به بیماری ها و تجویز داروی مناسب برای آن فرد را مشخص نماییم .
پایگاهها ی داده زیستی (Biological Databases) :
پايگاه های داده زیستی يا بانک های اطلاعاتی ،محلی برای حفظ و ذخيره بسيار منظم تعداد زیادی از اطلاعات توسط برنامه ها و نرم افزارهای كامپيوتری می باشند كه با روش های بسیار پر سرعت قادر به جستجوی اطلاهات و دیتاها بر طبق کلید واژه می باشند. بسیاری از پایگاه های داده به صورتی طراحی شده اند که این امکان را با افزودن اطلاعات به آنها یا با به روزرسانی کردن آنها به کاربران داده اند . بانک اطلاعات پروتئین در سال ۱۹۷۲ با جمع آوری ساختارهای پروتئینی حاصل از کریستالوگرافی اشعه X صورت گرفت ، و پایگاه داده توالی های پروتئینی SWISSPROT در سال ۱۹۸۷ ایجاد شد. یکی دیگر از اولین پایگاه های داده زیستی GenBank می باشد که در سال ۱۹۸۲ راه اندازی شد و تا سال ۱۹۸۳ تنها۲۰۰۰ توالی در آن ذخیره شده بود ، اما به تدریج میزان توالی های موجود در این پایگاه داده بطور تصاعدی افزایش پیدا کرد بطوری که در سال ۲۰۱۵ تعداد آن به حدود ۱۸۱ میلیون توالی رسید.
سه پایگاه داده اصلی جهت حفظ و بازیابی اطلاعات وجود دارند که عبارتند از GenBank که توسط مرکز ملی اطلاعات بیوتکنولوژی آمریکا (NCBI) واقع در انستیتو ملی سلامت (NIH) اداره می شود ، پایگاه داده EMBLکه توسط انستیتو بیوانفورماتیک اروپا (EBI) اداره میشود و پایگاه داده DNA (DDBJ) که توسط انستیتو ملی ژنتیک ژاپن مدیریت می شود. داده های جدید هر 24 ساعت بین این سه پایگاه به اشتراک گذاشته و مبادله می شوند.
- پایگاه داده ی Gene bank : یکی از کامل ترین و شناخته شده ترین پایگاه های داده زیستی، پایگاه داده GenBank یا NCBI است که حاوی اطلاعات متنوعی از اسید های نوکلئیک و پروتئین ها است. علاوه بر ذخیره داده، GenBank حاوی داده انبوهی از مقالات علمی و کتاب های مرجع در علم بیولوژی و رشته های مرتبط نیز می باشد.
انواع داده های موجود در Gene bank: اطلاعات مربوط به DNA ژنومی ، اطلاعات مربوط به STS ، اطلاعات مربوط به GSS ، اطلاعات مربوط به EST
- اطلاعات مربوط به STS : STS ها بخش های کوتاه ( معمولاً ۵۰۰ جفت باز ) و شناخته شده در سطح DNA هستند که تنها یکبار در ژنوم شخص وجود دارند و به دلیل همین منحصر بودن به عنوان جایگاه ویژه در نظر گرفته میشوند ، این نواحی ژنومی به راحتی با استفاده از پرایمرهای اختصاصی و واکنش PCR قابل شناسایی هستند. توالی های STS در گذشته در پایگاه داده STS که زیرمجموعه ای از GenBank است، نگهداری می شد ولی در حال حاضر این اطالعات از طریق جستجو در پایگاه داده نوکلئوتید قابل دسترس هستند.
- اطلاعات مربوط به GSS : توالی های کوتاهی هستند که حاصل یک بارتوالی یابی انتهای کلون های کاسمید، BAC و یا YAC هستند. توالی هایی مانند AFLP و RFLP مثال هایی از توالی های GSS می باشند. بطور کلی GSSها مشابه با توالی های EST هستند با این تفاوت که برخالف ESTها که منشا آنها مولکول mRNA است، منشا GSSها DNA ژنومی است. این توالی ها در پایگاه داده dbGSS که زیر مجموعه ای از GenBank است، نگهداری می شوند.
- اطلاعات مربوط به EST : EST ها توالی های نوکلئوتیدی کوتاهی هستند که حاصل توالی یابی یک یا هر دو انتهای کلون های cDNA می باشند. برای ایجاد این توالی ها، مولکول های mRNA به فرم پایدارتر یعنی cDNA تبدیل می شوند که cDNA را می توان به راحتی کلون و تعیین توالی کرد. بنابراین ESTهای یک بافت معین نماینده ژن های بیان شده در آن بافت هستند و از این رو از آنها می توان جهت شناسایی ژن های جدید استفاده کرد. Tهای موجود در GenBank در حال حاضر در سه گروه اصلی انسان، موش و سایر موجودات طبقه بندی شده اند.
برخی از پایگاههای داده موجود در NCBI :
- پایگاه داده PubMed : پایگاه داده PubMed سرویس جستجو مقالات علمی است و متعلق به کتابخانه ملی پزشکی آمریکا (NLM) می باشد که مقالات یا خلاصه ی مقالات چاپ شده در مجلات علمی مختلف در آن ذخیره شده و قابل جستجو می باشد.
- پایگاه داده Bookshelf : پایگاه داده Bookshelf مرجع رایگان کتاب های زیستی است. برای دسترسی به صفحه اصلی این پایگاه داده، از فلش رو پایین در صفحه اصلی NCBI گزینه Books را انتخاب کنید و بدون وارد کردن هیچ کلمه ای بر روی گزینه Search کلیک نمایید.
- پایگاه اطلاعاتی MeSH: پایگاه اطلاعاتی MeSH، فرهنگ لغت NCBI است، اگر کلمه ای را در این پایگاه جست و جو کنید معنی و مفهوم آن برای شما نمایش داده می شود. برای دسترسی به صفحه اصلی این پایگاه داده مانند آنچه که قبال توضیح داده شد، بر روی فلش رو به پایین در کنار گزینه database All در صفحه اصلی NCBI کلیک کرده و از منو باز شده گزینه MeSH را انتخاب کنید و بدون وارد کردن هیچ کلمه ای بر روی گزینه Search کلیک نمایید.
- آشنایی با پایگاه داده OMIM (Online Mendeline Inheritance in Man) : پایگاه داده OMIM مجموعه ای جامع، معتبر و به روز از ژن های انسانی و اختلالات ژنتیکی است. در این پایگاه داده می توان اطلاعاتی نظیر جایگاه کروموزومی ژن بیماری زا مورد نظر، عملکرد آن، نوع بیماری ایجاد شده توسط آن، نحوه توارث این بیماری و … را دریافت کرد. برای دسترسی به صفحه اصلی این پایگاه داده مانند آنچه قبال توضیح داده شد عمل کنید و از فلش رو به پایین در صفحه اصلی NCBI، گزینه OMIM را انتخاب کنید و بدون وارد کردن کلمه بر روی گزینه Search کلیک نمایید.
سایر پایگاههای داده زیستی بیوانفورماتیک :
پایگاه داده UniProt
این پایگاه داده یکی از جامعترین ، تخصصی ترین و کاملترین منابع توالی های پروتئینی است که در سال ۲۰۰۲ به جهت دسترسی به پایگاه داده ایجاد شد UniProt ، می توانید کلمه Uniprot را در موتور جستجوی گوگل وارد کنید و یا به آدرسUniProt.orgبروید تا به صفحه اصلی این پایگاه دست یابید, Uniprot از سه پایگاه داده کلیدی تشکیل شده است:
- Swiss-Prot : یکی از جامع ترین پایگاه های داده پروتئینی تفسیر شده است که شرح ساختار و عملکرد پروتئین های آن توسط متخصصین صورت گرفته است و از این رو اطلاعات موجود در این پایگاه از کیفیت بالایی برخودار می باشند.
- TrEMBL (Translated EMBL) : پروتئین های موجود در این پایگاه داده ترجمه ی توالی های نوکلئوتیدی در EMBL هستند و به صورت اتوماتیک تفسیر شده اند .
- Proteomes: این پایگاه داده حاوی توالی های پروتئینی مربوط به ژنوم های تعیین توالی شده، می باشد.
نرم افزار ها و ابزار های اصلی بیوانفورماتیک
بخش های مهم اصلی بیوانفورماتیک عبارتند از گسترش و بسط دادن ابزارها و الگوریتمهای نرم افزاری و آنالیز و تجزیه و تحلیل و تفسیر دادههای بیولوژیکی مرتبط با این حوزه با به کاربردن انواع ابزارهای نرم افزاری و الگوریتمهای ویژه ، بیوانفورماتیک به عنوان شاخهای بین رشتهای از دانش بیولوژی، گسنرش روشهای شناختی، تجزیه و تحلیل برای کشف مقادیر وسیع پایگاه دادههای بیولوژیکی در راستای پشتیبانی و حفظ از ذخیره سازی، ترتیب، سیستم بندی، درک و اجرای دیتاهای زیستی و بیولوژیکی و به عنوان یک وسیله مورد آزمایش برای تحقیقات ژنوم و محصول ژنتیکی استفاده میشود.
این ابزارها شامل بیوانفورماتیک به روز و سنتی، محاسبات و آنالیز های ابری، آمار و ریاضیات و تشخیص الگو، بازسازی، یادگیری ماشینی، شبیه سازی، مدل سازی مولکولی و الگوریتمهای مرتبط با فولدینگ و تاخوردگی ساختارها است. با این وجود ، پیشرفت و تعالی در حوزه دانش بیولوژیکی رابطه نزدیکی با نرم افزار و برنامه نویسی کامپیوتری دارد و برای مدیریت مقادیر زیادی از توالیهای مولکولی DNA ، RNA، پروتئینها، متابولیتها و تجزیه و تحلیل ساختاری و عملکردی مورد نیاز و استفاده است.
نرم افزارهای بیوانفورماتیک در حوزه های مختلف علوم بیولوژیکی قابلیت استفاده دارند ،ابزارهای کامپیوتری می باشند که دقت و سرعت به کاربردن فعالیتهای آزمایشگاهی و پروژههای تحقیقاتی را افزایش میدهند.
- برخی از نرم افزار های بیوانفورماتیکی عبارتند از :
OLIGO
Oligo یکی از نرم افزارهای بیوانفورماتیکی مرتبط با آنالیزو تجزیه و تحلیل پرایمر و یک ابزار مهم و لازم در جهت طراحی و تجزیه و تحلیل توالی و پرایمرهای PCR، ژنهای مصنوعی و انواع پروبها از جمله siRNA و تنظیم کنندههای مولکولی است. بر اساس جدید ترین دیتاهای ترمودینامیکی نزدیکترین همسایه، الگوریتمهای جستجوی Oligo پرایمرهای بهینهای برای PCR، از جمله TaqMan ، پرایمرهای چندگانه، اجماعی یا انحطاط یافته، پیدا میکنند. پردازش دستهای فایلهای متعدد توسط این نرم افزار بیوانفورماتیک امکان پذیر است. همچنین یک ابزار ارزشمند برای جهش زایی به کار رفته در محل (site directed mutagenesis) است.
Vector NTI :
نرم افزار Invitrogen Vector NTI گروهی منسجم از ابزارهای تجزیه و تحلیل و آنالیز و طراحی توالی است. این نرم افزار از شما در مدیریت، نمایش، تجزیه و تحلیل، تبدیل، به اشتراک گذاری و انتشار انواع مختلف دادههای بیولوژیکی مولکولی در یک محیط تجزیه و تحلیل با کیفیت بالا پشتیبانی میکند. برای مثال به پژوهشگران این امکان را می دهد تا قبل از شروع آزمایش در آزمایشگاه، آزمایش شبیه سازی DNA را بر روی کامپیوتر برنامه ریزی و آنالیز کنند.
SnapGene
Snap Gene یکی از نرم افزارهای بیوانفورماتیکی و با رابط کاربری آسان و قابل اطمینان در جهت برنامه ریزی، تداعی و مجسم سازی و مستند سازی روشهای بیولوژی مولکولی متداول و امروزی را امکان پذیر میکند. این نرم افزار با رابط بصری، تجسم توالی DNA، حاشیه نویسی توالی، ویرایش توالی، شبیه سازی و تجسم پروتئین روشهای رایج شبیه سازی را برای کاربران امکان پذیر میکند. این نرم افزار همچنین مستندسازی و به اشتراک گذاری دادهها را نیز امکان پذیر میکند.
Chromas
Chromas یک ابزار بیوانفورماتیکی رایگان با نمایشگر و ویرایشگر ساده و مورد پسند کاربران برای به کار بردن در راستای کروماتوگرامهای به دست آمده از از توالییابی سنگر است. این برنامه دارای گزینههای تبدیل فرمت بسیاری از جمله توابع پردازش دستهای به جهت مدیریت بسیاری از فایلها است. Chromas دارای ویژگیهای و آپشن های بسیاری است از جمله اینکه انواع فایلهای کروماتوگرام با فرمت SCF و ZTR را باز میکند که توسط ترتیب دهندههای دیگر ایجاد شده یا از پایگاه های دادهها و دیتا ها بازیابی شده اند.
BLAST
بلاست یا Basic Local Alignment Search Tool در گروه ابزارهای بیوانفورماتیکی مربوط با همسان ویا یکسان سازی و آنالیز شباهت قرار میگیرد. این ابزارگروهی متشکل از برنامههای جستجو است که برای پلتفرم Windows طراحی شده است و از آن برای جستجوهای شباهت سریع بدون در نظرگرفتن اینکه پروتکل موردنظر برای پروتئین و یا DNA است قابلیت انجام دارد . مقایسه توالیهای نوکلئوتیدی در پایگاه داده را نیز میتوان با به کاربردن این ابزار انجام داد. همچنین میتوان به واسطه ی این ابزار بیوانفورماتیکی آنلاین یک پایگاه دیتای پروتئین را برای پیداکردن شباهت همسانی با توالی پروتئین مورد نظر جست و جو کردNCBI همچنین یک ابزار بیوانفورماتیکی جدیدی را به نام Q BLAST به BLAST افزوده است که به کاربران امکان این دسترسی را می دهد تا نتایج را به دلخواه خود بازیابی و آنالیز نمایند و آن ها را چندین بار با گزینههای قالببندی متفاوت اجرا کنند.
ما کنار شما هستیم
اگر در پژوهش های خود از بیوانفورماتیک و ابزارهای مرتبط با آن استفاده میکنید ، گروه نوترکیب با بهره گیری از متخصصین و روش های ستاپ شده خود می تواند در هر یک از مراحل بالا در کنار شما برای بهبود داده های شما باشد.