Lab.6 IITP RAS logo
19/03/24
09:07:59

Лаборатория математических методов и моделей в биоинформатике
Института проблем передачи информации им. А.А. Харкевича
Российской академии наук

« back

Поиск высококонсервативных элементов (ВКЭ) в наборе геномов

Комплекс параллельных программ iHCE реализует метод, описанный нами в [1]. Он предназначен для поиска ВКЭ в наборе относительно хорошо собранных полных геномов. Программы прошли предварительную проверку на ядерных геномах надтипа Alveolata [1], а также митохондриальных геномах инфузорий (тип Ciliophora) [2] и однодольных растений. Комплекс включает в себя следующие программы для суперкомпьютера с MPI:

  • Программа PairHits находит все пары приближённо совпадающих слов-кандидатов в двух последовательностях из разных геномов и тем самым формирует рёбра исходного графа. Это первый этап метода, изложенного в [1].
  • Программа BldGraph осуществляет уплотнение исходного графа, преобразуя его в начальный многодольный граф (доля соответствует геному). Это второй этап метода, изложенного в [1].
  • Программа FinDense преобразует начальный граф в финальный и определяет в последнем m-плотные подграфы (кластеры), состоящие из вершин (слов), которые принадлежат не менее чем m долям и соединены рёбрами с наибольшим суммарным весом. Это третий этап метода, изложенного в [1].

Эти программы предполагают обработку больших данных и рассчитаны исключительно на 64-битные процессоры и операционные системы. Разные этапы алгоритма требуют различной вычислительной мощности и масштабируются с разной эффективностью, поэтому комплекс реализован в виде нескольких отдельных программ. Для уменьшения объёмов файлов и ускорения работы программы используют специфические форматы входных и промежуточных данных с минимумом контроля. Формирование и интерпретация файлов в правильном формате -- обязанность пользователя. Например, пользователь может создать собственную базу данных, где хранятся исходные данные в любом доступном или желаемом формате, и самостоятельно реализовать приложения или скрипты для формирования и чтения файлов в требуемом формате. Мы действовали таким способом, но не будем детально обсуждать этот вопрос.

Все программы написаны на С++ и имеют интерфейс командной строки, позволяющий задавать наиболее важные параметры. Значения параметров, указанные в командной строке, имеют наивысший приоритет. Полный набор настраиваемых параметров задаётся в файле конфигурации, который обязателен и используется всеми тремя программами; значения из этого файла применяются, если они не были изменены в командной строке запуска. Если значение не указано ни в командной строке, ни в файле конфигурации, то используется зафиксированное в программе значение по умолчанию (что предусмотрено не для всех параметров). Образцы файла конфигурации есть в примерах для загрузки ниже. Краткая справка по командной строке выдаётся при запуске программы с параметром -? или --help.

Исполняемые модули для Windows 64 бит (варианты с MPI и без) и исходные коды для Linux можно загрузить по ссылкам ниже. Исходный код совместим с любой реализацией стандарта MPI версий 1.2 и выше. Он предоставляется бесплатно на условиях лицензии GNU General Public License (GPL) версии 3.GNU GPL V3
Исполняемые модули для Windows 64 bit предполагают наличие в системе установленной среды MPICH2 v.1.4.1p1 64 bit (последняя выпущенная версия для Windows), полный комплект которой можно загрузить из архива разработчика, а только установочный файл - по ссылке ниже.
Альтернативный вариант, для которого подготовлены свои варианты исполняемых модулей, требует установки Microsoft MPI v.7.1 64 bit; свободно распространяемый установочный файл также можно загрузить по ссылке ниже.

Файлы для загрузки

  Вариант без MPI Вариант для MPICH2 1.4.1p1 Вариант для Microsoft MPI 7.1
Исполняемый модуль PairHits для Windows 64-bit pairhits64nompi-1.12.zip pairhits64-1.12.zip pairhits64ms-1.12.zip
Исполняемый модуль BldGraph для Windows 64-bit bldgraph64nompi-2.16.zip bldgraph64-2.16.zip bldgraph64ms-2.16.zip
Исполняемый модуль FinDense для Windows 64-bit findense64nompi-1.6.zip findense64-1.6.zip findense64ms-1.6.zip
Контрольный пример для Windows ihce-wintest-4.34.zip
Установочный файл MPICH2 1.4.1p1 для Windows 64-bit mpich2-1.4.1p1-win-x86-64.msi
Установочный файл Microsoft MPI 7.1 для Windows 64-bit MSMpiSetup.exe
Исходные коды iHCE v.4.34 и контрольный пример для Linux - GNU GPL V3 ihce-src-4.34.tgz

Литература

[1] L.I. Rubanov, A.V. Seliverstov, O.A. Zverkov and V.A. Lyubetsky. Method for identification of highly conserved elements and evolutionary analysis of superphylum Alveolata. (2016) BMC Bioinformatics 17:385. Open Access

[2] Применение нашего метода поиска ВКЭ для исследования эволюции хромосомной структуры митохондриального генома простейших типа Ciliophora.

« back