Lab.6 IITP RAS logo
19/04/19
00:17:29

Лаборатория математических методов и моделей в биоинформатике
Института проблем передачи информации им. А.А. Харкевича
Российской академии наук

« back

Пример 4 использования программы Super3GL

В Примере 4 используется набор исходных деревьев, состоящий из 1511 деревьев генов, взятых из 820 бактериальных видов (файл all_trees.tre). Метки листьев дерева содержат в качестве первого сегмента (до знака подчёркивания) сокращённые названия видов, далее идут номер генома и имя гена. Таблица расшифровки названий видов представлена файлом BacNames.csv. Из содержащихся в таблице 820 видов шесть вообще не встречаются в исходных деревьях генов; кроме того, в двух деревьях присутствует только один вид. Программа удаляет указанные данные как неинформативные, в результате остаётся 1509 деревьев с 814 видами.

Файл конфигурации программы для запуска в обычном режиме (фазы 1 и 2) - super3GL.ini

Командная строка запуска на 512 процессорах в среде MVAPICH-1.2:

mpirun -np 512 -maxtime 600 super3GL

Время исполнения на суперкомпьютере МВС-100К в МСЦ РАН - 391 мин.

Файл базисных деревьев, полученный после выполнения фазы 1 - basis.tre

Файл супердерева, полученный после завершения фазы 2 - super3.tre
Отметим, что это дерево неполное: 82 вида (из 814) нельзя однозначно вставить в дерево, поэтому они были отброшены (см. протокол работы).
Тот же файл после расшифровки обозначений видов с помощью утилиты uncode - super3n.tre; получен с помощью командной строки:

uncode super3.tre BacNames.csv super3n.tre

Файл протокола работы - super3GL.log

Загрузить комплект файлов Примера 4: example814.zip

« back