Логотипы последовательностей.
Информационно-теоретическая интерпретация консервативных участков последовательностей биологических полимеров
Если все нуклеотиды в позиции выравнивания Lz представлены равномерно (ДМ, Lz) = 0,25), то значение данной меры будет наивысшим — Hs (Lz) = 2 бита. Два бита информации можно интерпретировать как два последовательных ответа на связанные вопросы (первый — А, Т в данной позиции или Г, Ц?; второй в зависимости от ответа на первый — А или Т (Г или Ц)), т. е. мера Hs (L) показывает, сколько нам… Читать ещё >
Логотипы последовательностей. Информационно-теоретическая интерпретация консервативных участков последовательностей биологических полимеров (реферат, курсовая, диплом, контрольная)
Участки последовательностей биологических полимеров, ассоциированные со значимыми процессами клеточного уровня, обычно характеризуются определенным паттерном распределения формирующих их мономеров. К подобным участкам можно отнести сайты связывания ДНК/РНК с белковыми факторами (например, факторы инициации/терминации матричных процессов) и специальные участки аминокислотных последовательностей (формирующие определенный структурный мотив или сигнал).
Классическим подходом к описанию подобных участков является формирование так называемых консенсусных последовательностей. Консенсусная последовательность — это последовательность мономеров, представленная в однобуквенном коде, каждый элемент которой соответствует наиболее часто встречаемому тину остатка в данной позиции множественного выравнивания, характеризующего сайт интереса. В случае если какаялибо позиция множественного выравнивания не имеет четко выраженной специфичности, для нее используют специальный символ «X». Хотя консенсусные последовательности и удобны для простого описания специальных сайтов, они обладают рядом существенных недостатков:
- • при использовании консенсусных последовательностей теряется информация о других, хотя и менее значимых, но возможных заменах в конкретных позициях сайта узнавания;
- • теряется информация об относительной значимости отдельных позиций сайта, так как без рассмотрения исходного множественного выравнивания непонятно, насколько данная позиция консервативна;
- • формируется некорректное представление о строгой детерминированности сайтов узнавания, в то время как процессы молекулярного узнавания всегда вероятностны и успех в каждом случае определяется конкретной композицией сайта.
Решением перечисленных недостатков является применение специальных логотипов последовательностей, основанных на мерах теории информации. Анализ каждой позиции множественного выравнивания показывает, что для них характерны определенные распределения частот встречаемости символов мономеров. Таким образом, каждую позицию множественного выравнивания можно охарактеризовать информационной энтропией, отражающей наше знание о том, насколько равномерно представлены различные типы мономеров:
где L — индекс позиции в выравнивании; М — конкретный тип мономера; Q — множество всех возможных типов мономеров (четыре типа для нуклеотидов, 20 — для аминокислот); /(М, L) — частота встречаемости мономера М в L столбце множественного выравнивания.
Приведем простые примеры возможных значений данной характеристики:
- • если какая-либо позиция Lx выравнивания нуклеотидных последовательностей представлена единственным символом (например, А — аденином), то частота данного символа будет равна /(A, Lx) = 1, а частоты всех остальных символов будут равны 0. В этом случае мера неуверенности Hs (Lx.) оказывается также равной 0 бит, что соответствует полной детерминированности данной позиции сайта;
- • если позиция Ly представлена символами, А и Г с равными частотами (/(A, Ly) = 0,5,/(Г, Ly) = 0,5,/(Г, Ly) = 0,/(Ц, Ly) = 0), то мера Hs (Ly) = 1 бит. На бытовом уровне один бит информации соответствует ответу на вопрос да/нет, т. е. выбору из двух возможных вариантов (А или Г);
- • если все нуклеотиды в позиции выравнивания Lz представлены равномерно (ДМ, Lz) = 0,25), то значение данной меры будет наивысшим — Hs (Lz) = 2 бита. Два бита информации можно интерпретировать как два последовательных ответа на связанные вопросы (первый — А, Т в данной позиции или Г, Ц?; второй в зависимости от ответа на первый — А или Т (Г или Ц)), т. е. мера Hs (L) показывает, сколько нам требуется информации для идентификации мономера в конкретной позиции выравнивания.
Если провести случайные выравнивания множества несвязанных последовательностей из генома какого-либо организма, то на основании частот встречаемости отдельных нуклеотидов мы можем рассчитать среднюю информационную энтропию, приходящуюся на каждую позицию генома:
Для геномов, не имеющих явно выраженного преобладания какого-либо типа нуклеотида, данная величина будет близка к 2 битам информации на позицию и, следовательно, энтропии равномерного распределения Щ1Г).
Разница между средней энтропией для каждой позиции генома Hg и энтропией конкретной позиции сайта узнавания 7?сайта(1),
показывает информационную значимость (уменьшение неуверенности) каждой позиции.
Если откладывать значения /?сайта(1) на графике, то эффектную замену консенсусных последовательностей можно получить, масштабируя высоту символов типов мономеров, составляющих каждую позицию выравнивания, в соответствии с их вкладом в уменьшение информационной энтропии (см. рис. 2.3):
График, изображенный на рисунке, называют логотипом последовательности, и он лишен недостатков, присущих консенсусным последовательностям.