Методы поиска повторов в последовательностях ДНК
Повторенная ДНК состоит из нуклеотидных последовательностей различной длины и состава, которые встречаются в геноме несколько раз либо в тандемно-повторенном, либо в диспергированном виде. Последовательности ДНК, которые не повторяются, называются уникальной ДНК (single-copy DNA). Размер части генома, занятой повторяющимися последовательностями, широко варьирует между таксонами. У дрожжей… Читать ещё >
Методы поиска повторов в последовательностях ДНК (реферат, курсовая, диплом, контрольная)
Геном эукариот характеризуется двумя основными особенностями: повторенность нуклеотидных последовательностей; разделением по составу на различные фрагменты, характеризуемые специфическим содержанием нуклеотидов.
Повторенная ДНК состоит из нуклеотидных последовательностей различной длины и состава, которые встречаются в геноме несколько раз либо в тандемно-повторенном, либо в диспергированном виде. Последовательности ДНК, которые не повторяются, называются уникальной ДНК (single-copy DNA). Размер части генома, занятой повторяющимися последовательностями, широко варьирует между таксонами. У дрожжей он достигает 20%, у млекопитающих до 60% всей ДНК повторяется. У растений процент повторенных последовательностей может превышать 80% [5].
Для поиска повторов используются различные методы, которые можно разделить на несколько групп. Первые 3 группы решают задачу, когда максимум что известно про повторы — примерная длина и степень дивергенции.
- 1. Точные методы. В эту группу включены методы, которые гарантируют обнаружение всех специфицированных повторов.
- 2. Приближенные, в том числе эвристические методы строятся с целью убыстрения точных методов.
- 3. Методы, использующие статистические особенности последовательности, например, методы сжатия, фурье-трансформации, байесовский подход. Однако эти методы работают только на протяженных кластерах сравнительно коротких повторов.
- 4. Поиск по образцу. Эта группа отличается тем, что прототип повтора известен заранее. Образец может быть представлен одиночной последовательностью, консенсусом, консенсусной матрицей или более сложной моделью. Например, многие известные повторы собраны в БД (база данных) RepBase (http://www.girinst.org/~server/repbase.html). В случае короткого повтора, когда внутренние делеции-вставки маловероятны, для поиска используется простое сканирование последовательности заданной моделью. В случае длинного прототипа используются методы поиска выравнивания прототипа с исследуемой последовательностью [6].
Поиск гомологии в БД нуклеотидных последовательностей
Поиск гомологии в БД нуклеотидных последовательностей необходим при решении самых разных задач, например:
ь предсказание функций неизвестных генов;
ь сравнительное изучение структурно-функциональных особенностей целых геномов, их частей, а также их эволюции.
ь Предсказание экзон-интронной структуры генов;
ь Стыковка и проверка секвенированных фрагментах в проектах по секвенированию. Несмотря на то, что имеются эффективные методы и алгоритмы сравнения пары нуклеотидных последовательностей, они недостаточно быстры, чтобы выполнить сравнение между заданной последовательностью и всеми последовательностями БД ввиду большого объема последней. Для поиска гомологии по БД часто применяют методы фильтрации, а именно для пары последовательностей предварительно вычисляют некоторую величину, которая могла бы отбросить заведомо негомологичные пары. Для оставшихся пар уже можно было бы выполнить сравнение с помощью какого-либо детального метода [7].