Lab.6 IITP RAS logo
13/12/18
02:19:30

Лаборатория математических методов и моделей в биоинформатике
Института проблем передачи информации им. А.А. Харкевича
Российской академии наук

« back

Поиск мультибоксового регуляторного сигнала в наборе невыравненных последовательностей

Общие сведения

Программа TwoBox (версия 3.17) предназначена для поиска по набору входных последовательностей системы наиболее похожих сайтов заданной длины, когда из каждой последовательности выбирается не более одного сайта. Программа стремится в первую очередь выбирать по одному сайту из каждой последовательности, но может и исключать некоторые последовательности из поиска, если такое решение оказывается лучшим в смысле используемых функционалов качества.

Разыскиваемые сайты могут быть представлены одним боксом (т.е. непрерывным участком исходной последовательности), либо состоять из нескольких боксов, находящихся на фиксированном расстоянии друг от друга или на любом расстоянии в пределах заданного интервала. Длина каждого бокса задается независимо. Текущая версия 3.17 обеспечивает поиск одно- и двухбоксовых сайтов, хотя примененный алгоритм можно обобщить и на большее число боксов.

Предусмотрена также возможность поиска сигнала с учетом априорной информации о всех или некоторых позициях одного или более боксов. Эта известная информация задается в форме "мотива" бокса. Подробная информация о входных данных и параметрах приводится в описании программы.

Программа TwoBox представляет собой развитие ранее запрограммированного алгоритма поиска однобоксового регуляторного сигнала [1-3] методом глобальной оптимизации заданного функционала качества. В результате находится квазиоптимальное решение задачи, соответствующее максимальному значению функционала по всем локальным экстремумам, достигнутым в ходе поиска, ограничиваемого по ряду внутренних критериев алгоритма, либо по времени или по числу итераций алгоритма.

Учитывая вычислительную трудоемкость алгоритма (которая дополнительно возрастает с увеличением числа боксов), программа TwoBox изначально ориентирована на параллельную вычислительную установку, в которой межпроцессорный обмен информацией реализуется средствами протокола MPI. Число процессоров кластера не регламентируется; программа в состоянии задействовать все доступные процессоры, при этом общее время счета снижается за счет распараллеливания приблизительно в s-1 раз, где s - число процессоров. Минимальное число процессоров - два, так что программа в состоянии работать и на типичном современном компьютере с двухядерным процессором.

Представленная версия программы (исполняемый модуль архитектуры х86) предназначена для проведения расчетов на кластере из одного и более IBM-совместимых ПК с операционной системой Windows, связанных по локальной сети TCP/IP. Среда MPI организуется с помощью свободно распространяемого продукта MPICH2 v.1.2 (разработчик - Argonne National Laboratory). Для работы с программой этот продукт (или его последующая версия) должен быть установлен на используемые компьютеры. (Если это по какой-то причине нежелательно, или проводится лишь начальное ознакомление с программой, можно, не устанавливая сам продукт, скопировать в папку программы необходимые библиотеки, хотя в этом случае работоспособность не гарантируется. Подробнее см. описание программы).

Программа имеет интерфейс командной строки и рассчитана на запуск в среде командного процессора операционной системы. Язык программирования - С, компилятор Microsoft Visual Studio 2005 Service Pack 1, имя исполняемого модуля - twobox.exe. Целевой процессор - Intel 32-битной архитектуры. Целевые операционные системы - Microsoft Windows XP Service Pack 3, Microsoft Windows Server 2003 Service Pack 2. Использование программы TwoBox на других типах процессоров и операционных систем возможно, но может потребовать дополнительного тестирования и/или перекомпиляции.

Разработчик программы: Л.И. Рубанов, в.н.с. ИППИ РАН им. А.А. Харкевича
Контактный e-mail: rubanov@iitp.ru

Литература

  1. Данилова Л.В., Горбунов К.Ю., Гельфанд М.С., Любецкий В.А. Алгоритм выделения регуляторных сигналов в последовательностях ДНК (2) // Молекулярная биология, 2001, том 35, № 6, стр. 987-995.
  2. С.Н. Истомина, Л.И. Рубанов. Параллельный алгоритм поиска регуляторного сигнала в геномах бактерий // Информационные процессы, 2002, т. 2, № 1, с. 85-90.
    http://www.jip.ru/2002/Isto.pdf
  3. L.V. Danilova, V.A. Lyubetsky, M.S. Gelfand. An algorithm for identification of regulatory signals in unaligned DNA sequences, its testing and parallel implementation. In Silico Biology, 2003. In Silico Biology, V. 3, No 1,2, 2003, p. 33-47.
    http://www.bioinfo.de/isb/2003/03/0004/

Описание программы в формате PDF

Дистрибутив программы

Библиотеки и исполняемые модули пакета MPICH2 V1.2 « back