Поиск мультибоксового регуляторного сигнала в наборе невыравненных последовательностей
Общие сведения
Программа TwoBox
(версия 3.17) предназначена для поиска по набору входных
последовательностей системы наиболее похожих сайтов заданной длины, когда из каждой
последовательности выбирается не более одного сайта. Программа стремится в первую очередь
выбирать по одному сайту из каждой последовательности, но может и исключать некоторые
последовательности из поиска, если такое решение оказывается лучшим в смысле используемых
функционалов качества.
Разыскиваемые сайты могут быть представлены одним боксом (т.е. непрерывным участком исходной последовательности), либо состоять из нескольких боксов, находящихся на фиксированном расстоянии друг от друга или на любом расстоянии в пределах заданного интервала. Длина каждого бокса задаётся независимо. Текущая версия 3.17 обеспечивает поиск одно- и двухбоксовых сайтов, хотя примененный алгоритм можно обобщить и на большее число боксов.
Предусмотрена также возможность поиска сигнала с учётом априорной информации о всех или некоторых позициях одного или более боксов. Эта известная информация задаётся в форме «мотива» бокса. Подробная информация о входных данных и параметрах приводится в описании программы.
Программа TwoBox
представляет собой развитие ранее запрограммированного
алгоритма поиска однобоксового регуляторного сигнала [1–3] методом глобальной
оптимизации заданного функционала качества. В результате находится квазиоптимальное решение
задачи, соответствующее максимальному значению функционала по всем локальным экстремумам,
достигнутым в ходе поиска, ограничиваемого по ряду внутренних критериев алгоритма, либо
по времени или по числу итераций алгоритма.
Учитывая вычислительную трудоемкость алгоритма (которая дополнительно возрастает
с увеличением числа боксов), программа TwoBox
изначально ориентирована
на параллельную вычислительную установку, в которой межпроцессорный обмен информацией
реализуется средствами протокола MPI. Число процессоров кластера не регламентируется;
программа в состоянии задействовать все доступные процессоры, при этом общее время счёта
снижается за счёт распараллеливания приблизительно в s−1 раз, где s —
число процессоров. Минимальное число процессоров — два, так что программа в состоянии работать
и на типичном современном компьютере с двухядерным процессором.
Представленная версия программы (исполняемый модуль архитектуры х86) предназначена для проведения расчетов на кластере из одного и более IBM-совместимых ПК с операционной системой Windows, связанных по локальной сети TCP/IP. Среда MPI организуется с помощью свободно распространяемого продукта MPICH2 v.1.2 (разработчик — Argonne National Laboratory). Для работы с программой этот продукт (или его последующая версия) должен быть установлен на используемые компьютеры. (Если это по какой-то причине нежелательно или проводится лишь начальное ознакомление с программой, можно, не устанавливая сам продукт, скопировать в папку программы необходимые библиотеки, хотя в этом случае работоспособность не гарантируется. Подробнее см. в описании программы).
Программа имеет интерфейс командной строки и рассчитана на запуск в среде командного процессора
операционной системы. Язык программирования — С, компилятор — Microsoft Visual Studio 2005 Service
Pack 1, имя исполняемого модуля — twobox.exe
. Целевой процессор — Intel 32-битной
архитектуры. Целевые операционные системы — Microsoft Windows XP Service Pack 3, Microsoft
Windows Server 2003 Service Pack 2. Использование программы TwoBox
на других
типах процессоров и операционных систем возможно, но может потребовать дополнительного
тестирования и/или перекомпиляции.
Разработчик программы: Л.И. Рубанов, в.н.с. ИППИ РАН им. А.А. Харкевича
Контактный e-mail: rubanov@iitp.ru
Файлы для загрузки
Литература
- Л.В. Данилова, К.Ю. Горбунов, М.С. Гельфанд, В.А. Любецкий. Алгоритм выделения регуляторных сигналов в последовательностях ДНК. Молекулярная биология, 2001, том 35, № 6, стр. 987–995. Перевод: L.V. Danilova, K.Yu. Gorbunov, M.S. Gelfand, V.A. Lyubetskii. Algorithm of regulatory signal recognition in DNA sequences. Molecular Biology, 2001, Vol. 35, No. 6, P. 841–848. DOI: 10.1023/A:1013282101105
- С.Н. Истомина, Л.И. Рубанов. Параллельный алгоритм поиска регуляторного сигнала в геномах бактерий. Информационные процессы, 2002, том 2, № 1, стр. 85–90. текст
- L.V. Danilova, V.A. Lyubetsky, M.S. Gelfand. An algorithm for identification of regulatory signals in unaligned DNA sequences, its testing and parallel implementation. In Silico Biology, 2003, Vol. 3, No. 1,2, P. 33–47. текст