Поиск высококонсервативных элементов (ВКЭ) в наборе геномов
Комплекс параллельных программ iHCE реализует метод, описанный нами в [1]. Он предназначен для поиска ВКЭ в наборе относительно хорошо собранных полных геномов. Программы прошли предварительную проверку на ядерных геномах надтипа Alveolata [1], а также митохондриальных геномах инфузорий (тип Ciliophora) [2] и однодольных растений. Комплекс включает в себя следующие программы для суперкомпьютера с MPI:
- Программа PairHits находит все пары приближённо совпадающих слов-кандидатов в двух последовательностях из разных геномов и тем самым формирует рёбра исходного графа. Это первый этап метода, изложенного в [1].
- Программа BldGraph осуществляет уплотнение исходного графа, преобразуя его в начальный многодольный граф (доля соответствует геному). Это второй этап метода, изложенного в [1].
- Программа FinDense преобразует начальный граф в финальный и определяет в последнем m-плотные подграфы (кластеры), состоящие из вершин (слов), которые принадлежат не менее чем m долям и соединены рёбрами с наибольшим суммарным весом. Это третий этап метода, изложенного в [1].
Эти программы предполагают обработку больших данных и рассчитаны исключительно на 64-битные процессоры и операционные системы. Разные этапы алгоритма требуют различной вычислительной мощности и масштабируются с разной эффективностью, поэтому комплекс реализован в виде нескольких отдельных программ. Для уменьшения объёмов файлов и ускорения работы программы используют специфические форматы входных и промежуточных данных с минимумом контроля. Формирование и интерпретация файлов в правильном формате -- обязанность пользователя. Например, пользователь может создать собственную базу данных, где хранятся исходные данные в любом доступном или желаемом формате, и самостоятельно реализовать приложения или скрипты для формирования и чтения файлов в требуемом формате. Мы действовали таким способом, но не будем детально обсуждать этот вопрос.
Все программы написаны на С++ и имеют интерфейс командной строки, позволяющий задавать наиболее важные параметры. Значения параметров, указанные в командной строке, имеют наивысший приоритет. Полный набор настраиваемых параметров задаётся в файле конфигурации, который обязателен и используется всеми тремя программами; значения из этого файла применяются, если они не были изменены в командной строке запуска. Если значение не указано ни в командной строке, ни в файле конфигурации, то используется зафиксированное в программе значение по умолчанию (что предусмотрено не для всех параметров). Образцы файла конфигурации есть в примерах для загрузки ниже. Краткая справка по командной строке выдаётся при запуске программы с параметром -? или --help.
Исполняемые модули для Windows 64 бит (варианты с MPI и без) и исходные коды для Linux можно загрузить по ссылкам ниже. Исходный код совместим с любой реализацией стандарта MPI версий 1.2 и выше. Он предоставляется бесплатно на условиях лицензии GNU General Public License (GPL) версии 3.
Исполняемые модули для Windows 64 bit предполагают наличие в системе установленной среды MPICH2 v.1.4.1p1 64 bit (последняя выпущенная версия для Windows), полный комплект которой можно загрузить из архива разработчика, а только установочный файл - по ссылке ниже.
Альтернативный вариант, для которого подготовлены свои варианты исполняемых модулей, требует установки Microsoft MPI v.7.1 64 bit; свободно распространяемый установочный файл также можно загрузить по ссылке ниже.
Файлы для загрузки
Вариант без MPI | Вариант для MPICH2 1.4.1p1 | Вариант для Microsoft MPI 7.1 | |
Исполняемый модуль PairHits для Windows 64-bit | pairhits64nompi-1.12.zip | pairhits64-1.12.zip | pairhits64ms-1.12.zip |
Исполняемый модуль BldGraph для Windows 64-bit | bldgraph64nompi-2.16.zip | bldgraph64-2.16.zip | bldgraph64ms-2.16.zip |
Исполняемый модуль FinDense для Windows 64-bit | findense64nompi-1.6.zip | findense64-1.6.zip | findense64ms-1.6.zip |
Контрольный пример для Windows | ihce-wintest-4.34.zip | ||
Установочный файл MPICH2 1.4.1p1 для Windows 64-bit | mpich2-1.4.1p1-win-x86-64.msi | ||
Установочный файл Microsoft MPI 7.1 для Windows 64-bit | MSMpiSetup.exe | ||
Исходные коды iHCE v.4.34 и контрольный пример для Linux - GNU GPL V3 | ihce-src-4.34.tgz |
Литература
[1] L.I. Rubanov, A.V. Seliverstov, O.A. Zverkov and V.A. Lyubetsky. Method for identification of highly conserved elements and evolutionary analysis of superphylum Alveolata. (2016) BMC Bioinformatics 17:385. Open Access
[2] Применение нашего метода поиска ВКЭ для исследования эволюции хромосомной структуры митохондриального генома простейших типа Ciliophora.