Читать книгу Математические модели в естественнонаучном образовании. Том II - Денис Владимирович Соломатин - Страница 6
Глава 5. Построение филогенетических деревьев
5.5. Другие методы
ОглавлениеНа самом деле существует много других подходов к построению филогенетического дерева. Список предлагаемых методов довольно длинный и с каждым годом становится все длиннее, так как исследователи продолжают развивать данную проблематику.
В дополнение к дистанционным методам и методу максимальной экономии существует третий основной класс подходов, называемых методами максимального правдоподобия. Идея метода максимального правдоподобия состоит в том, что сначала предстоит выбрать конкретную модель молекулярной эволюции, например, модель Джукса-Кантора, 2- или 3-параметрическую модель Кимуры или более сложную. Затем нужно рассмотреть конкретное дерево, которое является кандидатом для описания связи данных таксонов. Предполагая, что эволюционная модель и конкретное дерево верны, можно рассчитать вероятность того, что последовательность ДНК могла быть получена именно на этих исходных данных. Вычисляется вероятность дерева, охватывающего имеющиеся данные. Повторяем этот процесс на всех остальных деревьях, получая значение вероятности для каждого. Затем выбираем дерево, к которого получилась наибольшая вероятность, поскольку именно такое дерево, как оказалось, лучше всего соответствует имеющимся данным.
Для многих исследователей методы максимального правдоподобия, которые следуют давней традиции в математической статистике, дают наибольшую надежду на то, что построенное дерево получилось хорошим. Однако можно столкнуться с рядом проблем. Во-первых, вычисляемые вероятности зависят от выбора конкретной модели эволюции, и если эта модель плохо описывает реальный процесс, то можно поставить под сомнение достоверность результатов. Во-вторых, как и в случае с экономностью, метод требует рассмотрения всех возможных деревьев, а значит, больших вычислительных затрат. Для каждой рассматриваемой топологии дерева требуется громоздкий расчет, чтобы найти оптимальные параметры модели, согласующиеся с данными. Если количество таксонов велико, то невозможно перебрать все возможные деревья, оптимизируя параметры модели для каждого, поэтому на практике используются эвристические методы сокращения числа свободных переменных. Хотя с практической точки зрения кажется, что данные методы работают хорошо, максимизация вероятности требует гораздо больше вычислительных ресурсов, чем другие подходы.
Другой способ классификации методов построения филогенетических деревьев состоит в том, чтобы разделить их на два класса: те, которые выбирают дерево на основе некоторого критерия оптимальности, и те, которые представляют собой алгоритмы, создающие дерево. Метод максимальной экономии и метод максимального правдоподобия основаны на критериях оптимальности, тогда как обсуждаемые ранее дистанционные методы являются алгоритмическими. Некоторые исследователи утверждают, что методы имеющие критерии оптимальности по своей сути превосходны, потому что они, по крайней мере, ясно указывают, на чем основан выбор дерева. Однако, поскольку поиск оптимального из большого числа деревьев может оказаться невыполнимым с вычислительной точки зрения, компьютерные реализации методов экономии и правдоподобия иногда начинаются с рассмотрения деревьев, созданных алгоритмическим методом, например, методом присоединение соседей, или одного из его вариантов, полученного путем циклического перемещения нескольких веток исходного дерева.
Одна из трудностей выбора оптимального метода для использования заключается в том, что можно найти хорошие аргументы за и против любого из методов. Тем не менее, необходимость строить деревья для исследования биологических проблем слишком велика, чтобы можно было не использовать существующие методы, а ожидать появления новых. Достаточно разумный подход заключается в том, чтобы всегда использовать несколько различных методов для имеющихся данных. Вместо того, чтобы доверять одному методу, для получения точного дерева, посмотрите, дают ли разные методы примерно одинаковые результаты. Они часто это делают и если используемые методы этого не делают, то стоит выяснить, почему такое происходит. Недостаточно просто запустить компьютерную программу на имеющихся данных и принять получившееся дерево как истинное.
Даже когда дерево уже выбрано тем или иным методом, было бы желательно дать количественную оценку, насколько можно быть уверенным в правильности выбора. Частичный ответ на этот вопрос может дать статистический метод самопроверки, – бутстрэппинга, что буквально означает «подтягивание за ремешки обуви». В процедуре самопроверки истинные последовательности данных используются для создания набора новых, псевдореплицированных последовательностей той же длины. Основания в конкретном сайте для генерации новых последовательностей выбираются с той же вероятностью какую имели основания, появляющиеся в случайно выбранном сайте в исходных последовательностях. Таким образом будет построено и записано дерево для филогении псевдорепликантов. Затем эта процедура повторяется много раз, что дает большую коллекцию подобных деревьев. Если достаточно высокий процент получаемых таким способом деревьев согласуется с первоначальным деревом, полученным с использованием исходных данных, то можем быть уверены в истинности проверяемого дерева.
Однако важным предостережением при использовании вышеописанного метода является то, что этот метод помогает только оценить влияние изменчивости в последовательностях на построение дерева. Данный метод ничего не говорит о фундаментальной обоснованности алгоритма, с помощью которого выбирается дерево – он только указывает, как изменчивость данных могла повлиять на результат.
На большом количестве таксонов настоятельно рекомендуется использовать специализированное компьютерное программное обеспечение для использования любого из упомянутых методов. Двумя широко используемыми пакетами, реализующими различные методы, являются PAUP* (Суоффорд, 2002) и PHYLIP (Фельзенштейн, 1993). Если вдруг когда-нибудь получите доступ к любому из них, то стоит изучить их возможности.