Диплом, курсовая, контрольная работа
Помощь в написании студенческих работ

Новые методы обработки данных, полученных с помощью современных технологий секвенирования, для решения задач анализа экспрессии генов

ДиссертацияПомощь в написанииУзнать стоимостьмоей работы

Технологии секвенирования нового поколения наряду со своей основной задачей, т. е. получением последовательностей генома, позволяют решать задачи, связанные с анализом экспрессии генов (RNA-Seq), специфического ДНК-белкового взаимодействия и структуры хроматина (ChlP-Seq), метилирования ДНК (Methyl-Seq). В результате получается, что задачи анализа биологических макромолекул, которые до сих пор… Читать ещё >

Содержание

  • Определения, обозначения и сокращения
  • 1. Обзор литературы
    • 1. 1. Технологические платформы высокопроизводительного секвенирования и характеристики получаемых данных
    • 1. 2. Основные характеристики «сырых» данных получаемых с секвенаторов
    • 1. 3. Общие характеристики алгоритмов сборки de novo нуклеотидных последовательностей
    • 1. 4. «Жадные» алгоритмы сборки (Greedy)
    • 1. 5. Алгоритмы сборки на основе (Overlap/Layout/Consensus) подхода
    • 1. 6. Алгоритмы сборки на основе графа деБруина (БВО)
    • 1. 7. Методы сборки de novo, основанные на гибридных и проприентарных подходах
    • 1. 8. Сравнение алгоритмов сборки de novo
    • 1. 9. Обзор алгоритмов коррекции ошибок секвенирования
    • 1. 10. Актуальность проблемы разработки новых методов для обработки данных de novo секвенирования
    • 1. 11. Обзор методов сборки гаплотипов
  • 2. Разработка алгоритмов для анализа дифференциальной экспрессии генов, по данным транскриптомов видов, последовательность полного генома которых неизвестна
    • 2. 1. Программный комплекс для анализа дифференциальной экспрессии генов двух видов
      • 2. 1. 1. Разработка алгоритма для удаления адаптерных последовательностей
      • 2. 1. 2. Подбор алгоритмов сборки
      • 2. 1. 2. Разработка алгоритма сравнения результатов сборки
      • 2. 1. 2. Программный комплекс для анализа дифференциальной экспрессии двух видов
      • 2. 1. 2. Использование разработанного программного комплекса для анализа дифференциальной экспрессии двух видов гречихи F. esculentum и F. tataricum
  • 3. Разработка методов анализа нуклеотидных последовательностей участков ДНК, связывающих белки, полученных с помощью ChlP-seq
  • 4. Разработка алгоритма выделения паралогичных генов при сборке диплоидных геномов растений из данных секвенирования транскриптома de novo
    • 4. 1. Проблема восстановления нуклеотидных последовательностей для полиплоидных организмов
    • 4. 2. Подходы для восстановления нуклеотидных последовательностей полиплоидных организмов
    • 4. 3. Программный комплекс для выделения паралогичных вариантов генов при сборке denovo транскриптомных последовательностей
    • 4. 4. Сборка de novo транскриптома тетраплоида Capsella bursa — pastoris

Новые методы обработки данных, полученных с помощью современных технологий секвенирования, для решения задач анализа экспрессии генов (реферат, курсовая, диплом, контрольная)

Последние годы характеризуются бурным развитием технологий высокопроизводительного секвенирования. Одной из главных тенденций является удешевление стоимости секвенирования одного нуклеотида. Увеличение производительности секвенаторов приводит к необходимости разработки более производительного программного обеспечения для обработки данных, полученных с их помощью.

Технологии секвенирования нового поколения наряду со своей основной задачей, т. е. получением последовательностей генома, позволяют решать задачи, связанные с анализом экспрессии генов (RNA-Seq), специфического ДНК-белкового взаимодействия и структуры хроматина (ChlP-Seq), метилирования ДНК (Methyl-Seq). В результате получается, что задачи анализа биологических макромолекул, которые до сих пор решались различными методами (микрочипы, футпринтинг и т. д.) можно решить с помощью технологий секвенирования нового поколения, что является значительным преимуществом, так как оборудование для секвенирования стремительно дешевеет. Специфика применения секвенаторов нового поколения для решения различных биологических задач заключается в методах подготовки образцов и последующей обработке данных с помощью методов биоинформатики. При разработке алгоритмов обработки данных секвенирования нового поколения (next-generation sequencing, NGS) имеют место как чисто алгоритмические сложности, связанные с огромным объемом данных, так и специфические сложности связанные с характером биологической задачи. Хотя методы секвенирования нового поколения возникли совсем недавно, было разработано огромное количество специфичных для них алгоритмов обработки данныходнако вследствие быстро растущих объемов данных и непрерывного развития технологий эффективность существующих алгоритмов недостаточна. Более того, многие существующие алгоритмы были разработаны под решение конкретных задач и неприменимы в других условиях. Таким образом, обработка данных является лимитирующим фактором, ограничивающим использование технологий секвенирования. В результате разработка новых алгоритмов остается насущной необходимостью, и прогресс в этой области приведет к расширению области применения технологий секвенирования.

В отличии от секвенаторов, построенных на основе классического метода Сенгера, технологии секвенирования нового поколения дают большое количество сравнительно коротких нуклеотидных последовательностей. На данный момент наиболее распространенными технологиями высокопроизводительного секвенирования являются: секвенирование путем синтеза с обратимой терминацией (Illumina), пиросеквенирование (Roche), секвенирование путем лигирования (SOLiD), полупроводниковое секвенирование (Ion torrent). Длина чтений (последовательностей, полученных в результате секвенирования), выдаваемых секвенаторами, построенными на основе этих технологий, варьируется от 30 п.н. до 700 п.н., а классический метод Сенгера дает чтения длиной 1000 п.н. Вследствие этого программное обеспечение, предназначенное для обработки данных, полученных с секвентаров по Сэнгеру, не эффективно при работе с данными нового поколения. Кроме того, вследствие постоянного роста производительности секвенаторов, объем обрабатываемых данных постоянно растет. Данная ситуация осложняется постоянной доработкой существующих технологий, а также появлением абсолютно новых технологических платформ, что, в частности, приводит к изменению шумовых характеристик получаемых данных. Данные трудности постоянно стимулируют создание новых методов обработки NGS данных, потребность в которых на данный момент полностью не удолетворена.

Первичными данными NGS являются относительно короткие фрагменты (чтения, риды) нуклеотидных последовательностей, и основной 8 проблемой при анализе этих данных является их недостаточная длина. Вследствие этого, для обеспечения возможности проведения анализа необходимо иметь достаточно большие покрытия исследуемой биологической последовательности ридами. В результате растет объем данных, получаемых с секвенирующей установки, и возникают вычислительные проблемы работы с такими объемами. Таким образом, алгоритмические подходы, разработанные для традиционных типов секвенирования, не могут применяться для анализа NGS данных независимо от конкретного типа используемого в эксперименте оборудования.

На данный момент разработан ряд подходов для анализа NGS данных, таких как методы, основанные на графах де Брёйна и алгоритмы на основе пробразования Барроуза — Уилера. К сожалению, данные методы основаны на эвристических подходах и являются приближенными, что приводит к получению неоптимальных результатов и потере части информации, содержащейся в исходных данных. Вследствие приведенных выше фактов, задача разработки новых методов и алгоритмов обработки NGS данных остается достаточно актуальной на сегодняшний день. Цели и задачи работы. Целью работы является разработка новых методов и алгоритмов обработки данных, полученных с секвенаторов нового поколения, для решения задачи анализа экспрессии генов. Были поставлены следующие задачи.

1. Разработка методов для анализа дифференциальной экспрессии генов у двух близких видов, на основе данных de novo секвенирования транскриптомов.

2. Аппробация программного обеспечения, разработанного на основе предложенных методов, на базе проекта de novo секвенирования транскриптомов двух видов гречихи F. esculentum и F.tataricum.

3. Разработка методов и алгоритмов для de novo сборки транскриптомов полиплоидных организмов. 9.

4. Аппробация программного обеспечения, разработанного на основе предложенных методов, на базе проекта de novo секвенирования транскриптома тетраплоида Capsella bursa-pastoris.

5. Разработка методов подготовки первичных данных для последующего анализа результатов ChlP-Seq экспериментов для выявления участков ДНК, специфически связывающих белки — регуляторы транскрипции.

Содержание работы. В первой главе приведен обзор основных методов секвенирования нового поколения и методов обработки данных. Во второй главе приведены результаты разработки алгоритма для анализа дифференциальной экспрессии генов, по данным транскриптомов видов, последовательность полного генома которых неизвестна. Третья глава посвящена разработке методов подготовки первичных данных для последующего анализа результатов ChlP-Seq экспериментов для выявления участков ДНК, специфически связывающих белки — регуляторы транскрипции. В тексте четвертой главы приводятся результаты разработки алгоритма выделения паралогичных генов при сборке диплоидных геномов растений из данных секвенирования транскриптома de novo.

1. Обзор литературы.

Результаты работы были представлены на конференции «Meeting on Advances and Challenges of RNA-Seq Analysis» в городе Халле, Германия в июне 2012 года, на конференции «Bioinformatics of Genome Regulation and StructureSystems Biology — BGRSSB-2012» в г. Новосибирске в июле 2012, на конференции «11th European Conference on Computational Biology» в г. Базель, Швейцария в сентябре 2012, Материалы диссертационной работы отражены в 5 публикациях, из них 3 статьи в рецензируемых журналах и 3 публикации в рецензируемых трудах конференций.

Заключение

.

1. Предложен метод анализа дифференциальной экспрессии генов, по данным секвенирования транскриптомов близких видов, последовательности полных геномов которых неизвестны. Метод применен для анализа транскриптомов двух видов гречихи F. esculentum и F.tataricum. Было найдено больше 4200 генов, с потенциально дифференциальной экспрессией, для F. esculentum и более 4200 генов, потенциально имеющих дифференциальную экспрессию для F.tataricum.

2.Разработан набор средств для предварительной обработки первичных данных при анализе результатов ChlP-Seq экспериментов. Были разработаны средства для подготовки данных, полученных с секвенирующей установки к проведению парного выравнивания с референсной последовательностью, запуска алгоритма парного выравнивания и анализа качества, выполненного выравнивания. Разработано программное обеспечение для маскирования областей геномной последовательности, соответствующей повторам и экзонам. Разработан набор средств для выделения областей покрытых ридами и определения покрытия таких областей.

3. Разработан оригинальный алгоритм для выделения паралогичных вариантов генов при сборке de novo транскриптомов полиплоидных растений. Было проведено севенирование de novo транскриптома тетераплоидного растения Capsella bursa-pastoris. В результате однозначно удалось выделить более 6000 пар паралогичных вариантов.

Показать весь текст

Список литературы

  1. Pop M. Genome assembly reborn: recent computational challenges. Brief Bioinform 2009−10:354−66.
  2. Harismendy O, Ng PC, Strausberg RL, Wang X, Stockwell TB, Beeson KY, Schork NJ, Murray SS, Topol EJ, Levy S, Frazer KA. Evaluation ofnext generation sequencing platforms for population targeted sequencing studies. Genome Biol 2009−10:R32.
  3. Phillippy AM, Schatz MC, Pop M. Genome assembly forensics: finding the elusive mis-assembly. Genome Biol 2008−9:R55.
  4. Kececioglu, J.- Ju, J. Separating repeats in DNA sequence assembly. Annual Conference on Research in Computational Molecular Biology- 2001. p. 176−183.
  5. Myers EW. Toward simplifying and accurately formulating fragment assembly. J ComputBiol 1995−2:275−90.lo.Idury RM, Waterman MS. A new algorithm for DNA sequence assembly. J ComputBiol 1995−2:291−306.
  6. Zerbino DR, Birney E. Velvet: algorithms for de novo short read assembly using de Bruijn graphs. Genome Res 2008−18:821−9.
  7. Pevzner PA, Tang H, Tesler G. De novo repeat classification and fragment assembly. Genome Res 2004−14:1786−96.
  8. Zhi D, Raphael BJ, Price AL, Tang H, Pevzner PA. Identifying repeat domains in large genomes. Genome Biol 2006−7:R7.
  9. FasuIo D, Halpern A, Dew I, Mobarry C. Efficiently detecting polymorphisms during the fragment assembly process. Bioinformatics 2002−18(Suppl l):S294−302.
  10. Pop M, Salzberg SL. Bioinformatics challenges of new sequencing technology. Trends Genet 2008−24:142−9.
  11. Pop M. Genome assembly reborn: recent computational challenges. Brief Bioinform 2009−10:354−66.
  12. Warren RL, Sutton GG, Jones SJ, Holt RA. Assembling millions of short DNA sequences using SSAKE. Bioinformatics 2007−23:500−1.
  13. Warren, RL.- Holt, RA. SSAKE 3.0: Improved speed, accuracy and contiguity. Pacific Symposium on Biocomputing- 2008.
  14. Dohm JC, Lottaz C, Borodina T, Himmelbauer H. SHARCGS, a fast and highly accurate short-read assembly algorithm for de novo genomic sequencing. Genome Res 2007−17:1697−706.
  15. Jeck WR, Reinhardt JA, Baltrus DA, Hickenbotham MT, Magrini V, Mardis ER, Dangl JL, Jones CD. Extending assembly of short DNA sequences to handle error. Bioinformatics 2007−23:2942−4.
  16. Reinhardt JA, Baltrus DA, Nishimura MT, Jeck WR, Jones CD, Dangl JL. De novo assembly using low-coverage short read sequence data from the rice pathogen Pseudomonas syringae pv. oryzae. Genome Res 2009−19:294−305.
  17. Huang X, Yang SP. Generating a genome assembly with PCAP. Curr Pro toe Bioinformatics Chapter 2005- 11 (Unit 11):3.
  18. Batzoglou, S. Algorithmic Challenges in Mammalian Genome Sequence Assembly. In: Dunn, M.- Jorde, L.- Little, P.- Subramaniam, S., editors. Encyclopedia of genomics, proteomics and bioinformatics. John Wiley and Sons- Hoboken (New Jersey): 2005.
  19. Pop, M. McGraw-Hill. McGraw-Hill 2006 Yearbook of Science and Technology. McGraw-Hill- New York: 2005. DNA sequence assembly algorithms.
  20. Sutton, G.- Dew, I. Shotgun Fragment Assembly. In: Rigoutsos, I.- Stephanopoulos, G., editors. Systems Biology: Genomics. Oxford University Press- New York: 2007. p. 79−117.
  21. Miller et al. Page 19 Genomics. Author manuscript- available in PMC 2011 June 1. NIH-PA Author Manuscript
  22. Wang L, Jiang T. On the complexity of multiple sequence alignment. J ComputBiol 1994−1:337−48.
  23. Hernandez D, Francois P, Farinelli L, Osteras M, Schrenzel J. De novo bacterial genome sequencing: millions of very short reads assembled on a desktop computer. Genome Res 2008−18:802−9.
  24. Miller JR, Deicher AL, Koren S, Venter E, Walenz BP, Brownley A, Johnson J, Li K, Mobarry C, Sutton G. Aggressive assembly of pyrosequencing reads with mates. Bioinformatics 2008−24:2818−24.
  25. Hossain MS, Azimi N, Skiena S. Crystallizing short-read assemblies around seeds. BMC Bioinformatics 2009−10(Suppl 1):S16.
  26. PA. 1-Tuple DNA sequencing: computer analysis. J Biomol Struct Dyn 1989−7:63−73.
  27. Pevzner PA, Tang H, Waterman MS. An Eulerian path approach to DNA fragment assembly. Proc Natl Acad Sei U S A 2001−98:9748−53
  28. Simpson, JT.- Wong, K.- Jackman, SD.- Schein, JE.- Jones, SJ.- Birol, I. Genome Res. 2009. ABySS: A parallel assembler for short read sequence data. Epub ahead of print
  29. Pevzner PA, Tang H. Fragment assembly with double-barreled data. Bioinformatics 2001 -17(Suppl l):S225−33.
  30. Chaisson M, Pevzner P, Tang H. Fragment assembly with short reads. Bioinformatics 2004−20:2067−74.
  31. Chaisson MJ, Pevzner PA. Short read fragment assembly of bacterial genomes. Genome Res 2008−18:324−30.
  32. Chaisson MJ, Brinza D, Pevzner PA. De novo fragment assembly with short mate-paired reads: Does the read length matter? Genome Res 2009−19:336−46.
  33. Butler J, MacCallum I, Kleber M, Shlyakhter IA, Belmonte MK, Lander ES, Nusbaum C, Jaffe DB. ALLPATHS: de novo assembly of whole-genome shotgun microreads. Genome Res 2008−18:810−20.
  34. Li R, Zhu H, Ruan J, Qian W, Fang X, Shi Z, Li Y, Li S, Shan G, Kristiansen K, Yang H, Wang J. De novo assembly of human genomes with massively parallel short read sequencing. Genome Res. 2009
  35. Sundquist A, Ronaghi M, Tang H, Pevzner P, Batzoglou S. Whole-genome sequencing and assembly with high-throughput, short-read technologies. PLoS ONE 2007−2:e484.
  36. Bryant DW Jr, Wong WK, Mockler TC. QSRA: a quality-value guided de novo short read assembler. BMC Bioinformatics. 2009 Feb 24- 10:69.
  37. Ariyaratne PN, Sung WK. PE-Assembler: de novo assembler using short paired-end reads. Bioinformatics. 2011 Jan 15−27(2):167−74. Epub 2010 Dec 12.
  38. Schmidt B, Sinha R, Beresford-Smith B, Puglisi SJ. A fast hybrid short read fragment assembly algorithm. Bioinformatics. 2009 Sep l-25(17):2279−80. Epub 2009 Jun 17.
  39. Myers EW. The fragment assembly string graph. Bioinformatics 2005−21(Suppl 2):ii79−85.
  40. Zhang W, Chen J, Yang Y, Tang Y, Shang J, et al. (2011) A Practical Comparison of De Novo Genome Assembly Software Tools for Next-Generation Sequencing Technologies. PLoS ONE 6(3): el7915. doi:10.1371/journal.pone.17 915
  41. Young AL, Abaan HO, Zerbino D, Mullikin JC, Birney E, Margulies EH. A new strategy for genome assembly using short sequence reads and reduced representation libraries. Genome Res. 2010 Feb-20(2):249−56.
  42. Zhao X, Palmer LE, Bolanos R, Mircean C, Fasulo D, Wittenberg GM. EDAR: an efficient error detection and removal algorithm for next generation sequencing data. J Comput Biol. 2010 Nov-17(l 1): 1549−60. Epub 2010 Oct 25.
  43. Yang X, Dorman KS, Aluru S. Reptile: representative tiling for short read error correction. Bioinformatics. 2010 Oct 15−26(20):2526−33. Epub 2010 Aug 16.
  44. Shi H, Schmidt B, Liu W, Muller-Wittig W. A parallel algorithm for error correction in high-throughput short-read data on CUDA-enabled graphics hardware. J Comput Biol. 2010 Apr-17(4):603−15.
  45. SaImela L. Correction of sequencing errors in a mixed set of reads. Bioinformatics. 2010 May 15−26(10): 1284−90. Epub 2010 Apr 8.
  46. Schroder J, Schroder H, Puglisi SJ, Sinha R, Schmidt B. SHREC: a short-read error correction method. Bioinformatics. 2009 Sep 1−25(17):2157−63. Epub 2009 Jun 19.
  47. Kelley DR, Schatz MC, Salzberg SL. Quake: quality-aware detection and correction of sequencing errors. Genome Biol. 2010−11(11):R116. Epub 2010 Nov 29.
  48. Wong TK, Lam TW, Chan PY, Yiu SM. Correcting short reads with high error rates for improved sequencing result. Int J Bioinform Res Appl. 2009−5(2):224−37.
  49. Chin FY, Leung HC, Li WL, Yiu SM. Finding optimal threshold for correction error reads in DNA assembling. BMC Bioinformatics. 2009 Jan 30- 10 Suppl 1: S15.
  50. Boetzer M, Henkel CV, Jansen HJ, Butler D, Pirovano W. Scaffolding pre-assembled contigs using SSPACE. Bioinformatics. 2011 Feb 15−27(4):578−9. Epub 2010 Dec 12.
  51. Assefa S, Keane TM, Otto TD, Newbold C, Berriman M. ABACAS: algorithm-based automatic contiguation of assembled sequences. Bioinformatics. 2009 Aug 1−25(15): 1968−9. Epub 2009 Jun 3.
  52. Nijkamp J, Winterbach W, van den Broek M, Daran JM, Reinders M, de Ridder D. Integrating genome assemblies with MAIA. Bioinformatics. 2010 Sep 15−26(18):i433−9.
  53. Lancia, G. et al. SNPs problems, complexity, and algorithms. In Proceedings of the 9th Annual European Symposium on Algorithms. Lecture Notes in Computer (2001).
  54. Lippert, R. et al. Algorithmic strategies for the single nucleotide polymorphism haplotype assembly problem. Brief. Bioinform. (2002), 3, 23.
  55. Levy, S. et al. The diploid genome sequence of an individual human. PLoS Biol. (2007), 5, e254.
  56. Aguiar D, Istrail S HapCompass: a fast cycle basis algorithm for accurate haplotype assembly of sequence data. J Comput Biol. 2012 Jun-19(6):577−90.
  57. Kent, W James (2002)."BLAT~the BLAST-like alignment tool". Genome Research 12 (4): 656−664.
  58. Yi-An Chen, Chang-Chun Lin, Chin-Di Wang, Huan-Bin Wu and Pei-Ing Hwang. An optimized procedure greatly improves EST vector contamination removal. BMC Genomics 2007, 8:416
  59. Chevreux B., Wetter T., Suhai S.: Genome sequence assembly using trace signals and additional sequence information. Computer Science and Biology: Proceedings of the German Conference on Bioinformatics 1999, 99:45−56.
  60. Altschul, S- Gish, W- Miller, W- Myers, E- Lipman, D (October 1990). «Basic local alignment search tool». Journal of Molecular Biology 215 (3): 403−410.
  61. De novo sequencing and characterization of floral transcriptome in two species of buckwheat (Fagopyrum). Maria D Logacheva, Artem S
  62. Kasianov, Dmitriy V Vinogradov, Tagir H Samigullin, Mikhail S Gelfand, Vsevolod J Makeev and Aleksey A Penin, BMC Genomics 2011, 12:30.
  63. Ricinus communis genome project. http://gsc.jcvi.org/projects/msc/ricinuscommunis/.
  64. Min XJ, Butler G, Storms R, Tsang A: OrfPredictor: predicting proteincoding regions in EST-derived sequences. Nucleic Acids Research 2005, W677-W680.
  65. Zambelli, F., Pesole, G., and Pavesi, G. (2012). Motif discovery and transcription factor binding sites before and after the next-generation sequencing era. Brief. Bioinformatics, bbs016.
  66. Li H. and Durbin R. (2009) Fast and accurate short read alignment with Burrows-Wheeler Transfonn. Bioinformatics, 25:1754−60.
  67. Langmead B, Trapnell C, Pop M, Salzberg SL. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biol 10: R25.98. http://www.girinst.org/repbase/.
  68. Boeva, V. et al. (2006) Short fuzzy tandem repeats in genomic sequences, identification, and possible role in regulation of gene expression. Bioinformatics, 22, 676−684.
Заполнить форму текущей работой