Поиск высококонсервативных элементов (ВКЭ) в наборе геномов
Комплекс параллельных программ iHCE
реализует метод, описанный нами в
[1]. Он предназначен для поиска ВКЭ в наборе относительно хорошо собранных
полных геномов. Программы прошли предварительную проверку на ядерных геномах надтипа Alveolata
[1], а также митохондриальных геномах инфузорий (тип Ciliophora)
[2] и однодольных растений. Комплекс включает в себя следующие три программы
для суперкомпьютера с MPI, реализующие соответственно три этапа метода, изложенного в
[1].
- Программа
PairHits
находит все пары приближённо совпадающих слов-кандидатов в двух последовательностях из разных геномов и тем самым формирует рёбра исходного графа. - Программа
BldGraph
осуществляет уплотнение исходного графа, преобразуя его в начальный многодольный граф (доля соответствует геному). - Программа
FinDense
преобразует начальный граф в финальный и определяет в последнем m-плотные подграфы (кластеры), состоящие из вершин (слов), которые принадлежат не менее чем m долям и соединены рёбрами с наибольшим суммарным весом.
Эти программы предполагают обработку больших данных и рассчитаны исключительно на 64-битные процессоры и операционные системы. Разные этапы алгоритма требуют различной вычислительной мощности и масштабируются с разной эффективностью, поэтому комплекс реализован в виде нескольких отдельных программ. Для уменьшения объёмов файлов и ускорения работы программы используют специфические форматы входных и промежуточных данных с минимумом контроля. Формирование и интерпретация файлов в правильном формате — обязанность пользователя. Например, пользователь может создать собственную базу данных, где хранятся исходные данные в любом доступном или желаемом формате, и самостоятельно реализовать приложения или скрипты для формирования и чтения файлов в требуемом формате. Мы действовали таким способом, но не будем детально обсуждать этот вопрос.
Все программы написаны на языке С++ и имеют интерфейс командной строки, позволяющий задавать
наиболее важные параметры. Значения параметров, указанные в командной строке, имеют наивысший
приоритет. Полный набор настраиваемых параметров задаётся в файле конфигурации, который обязателен
и используется всеми тремя программами; значения из этого файла применяются, если они не были
изменены в командной строке запуска. Если значение не указано ни в командной строке, ни в файле
конфигурации, то используется зафиксированное в программе значение по умолчанию (что предусмотрено
не для всех параметров). Образцы файла конфигурации есть в примерах для загрузки ниже. Краткая
справка по командной строке выдаётся при запуске программы с параметром -?
или
--help
.
Исполняемые модули для Windows 64 бит (варианты с MPI и без) и исходные коды для Linux можно
загрузить по ссылкам ниже. Исходный код совместим с любой реализацией стандарта MPI версий 1.2
и выше. Он предоставляется бесплатно на условиях лицензии GNU General Public License (GPL)
версии 3.
Исполняемые модули для Windows 64 bit предполагают наличие в системе установленной среды MPICH2
v.1.4.1p1 64 bit (последняя выпущенная версия для Windows), полный комплект которой можно
загрузить из архива разработчика,
а только установочный файл — по ссылке ниже.
Альтернативный вариант, для которого подготовлены свои варианты исполняемых модулей, требует
установки Microsoft MPI v.7.1 64 bit; свободно распространяемый установочный файл также можно
загрузить по ссылке ниже.
Файлы для загрузки
Вариант без MPI | Вариант для MPICH2 1.4.1p1 | Вариант для Microsoft MPI 7.1 | |
---|---|---|---|
Исполняемый модуль PairHits для Windows 64-bit |
pairhits64nompi-1.12.zip | pairhits64-1.12.zip | pairhits64ms-1.12.zip |
Исполняемый модуль BldGraph для Windows 64-bit |
bldgraph64nompi-2.16.zip | bldgraph64-2.16.zip | bldgraph64ms-2.16.zip |
Исполняемый модуль FinDense для Windows 64-bit |
findense64nompi-1.6.zip | findense64-1.6.zip | findense64ms-1.6.zip |
Контрольный пример для Windows | ihce-wintest-4.34.zip | ||
Установочный файл MPICH2 1.4.1p1 для Windows 64-bit | mpich2-1.4.1p1-win-x86-64.msi | ||
Установочный файл Microsoft MPI 7.1 для Windows 64-bit | MSMpiSetup.exe | ||
Исходные коды iHCE v.4.34 и контрольный пример для Linux – GNU GPL V3 |
ihce-src-4.34.tgz |
Литература
- L.I. Rubanov, A.V. Seliverstov, O.A. Zverkov, V.A. Lyubetsky. A method for identification of highly conserved elements and evolutionary analysis of superphylum Alveolata. BMC Bioinformatics, 2016, Vol. 17, Art. 385. DOI: 10.1186/s12859-016-1257-5
- R.A. Gershgorin, K.Yu. Gorbunov, O.A. Zverkov, L.I. Rubanov, A.V. Seliverstov, V.A. Lyubetsky. Highly conserved elements and chromosome structure evolution in mitochondrial genomes in ciliates. Life, 2017, Vol. 7, Iss. 1, Art. 9. DOI: 10.3390/life7010009