Аннотации:
Рассматриваются алгоритмы масштабируемого распараллеливания решения сверхбольших разреженных сеточных СЛАУ, представленных в универсальных сжатых форматах, в том смысле, что их реализация осуществляется без программных ограничений на порядки алгебраических систем и на количество используемых вычислительных узлов, процессоров и/или ядер. Данная задача сводится к распределенному варианту алгебраической 3D-декомпозиции областей, в котором отсутствует чрезмерная расчетно-информационная нагрузка корневого процессора, т.е. все организуемые MPI-процессы, каждый из которых соответствует своей подобласти, являются практически равноправными. Вычислительный процесс состоит из двух основных этапов, первый из которых заключается в непосредственной автоматической декомпозиции, на основе анализа матричного портрета и формировании крупноблочного представления СЛАУ. Второй этап - это реализация крыловского итерационного алгоритма FGMRES (гибкого обобщенного метода минимальных невязок), использующего точное или приближенное обращение диагональных матричных блоков (многопоточное решение подсистем в подобластях с использованием средств OpenMP) с помощью прямого или итерационного метода соответственно. Описываемые методы реализованы в составе библиотеки алгебраических решателей Krylov. В работе приводятся некоторые оценки используемых ресурсов и особенности параллельных вычислительных технологий. Эффективность разработанных алгоритмов иллюстрируется результатами численных экспериментов по решению характерных алгебраических задач на различных конфигурациях многопроцессорной вычислительной системы. The paper considers the algorithms for solving large sparse SLAEs arising from grid approximations of boundary value problems. The SLAEs and algorithms are not limited in a sense of number of unknowns, computational nodes, processors and/or cores. This problem is reduced to a distributed variant of algebraic 3D-domain decomposition, in which no excessive load of the root process is present, i.e. all MPI-processes, each of which corresponds to its own subdomain, are almost equal. The computational process consists of two main stages. The first stage is the automatic decomposition, based on the analysis of the matrix portrait and the
formation of large-block representation of the original SLAE. The second stage implements a
Krylov subspace iterative process with FGMRes (flexible generalized minimal residual method) using either exact or approximate inverse of diagonal blocks as a preconditioner. The methods described are implemented as a part of Krylov, a library of algebraic solvers. The paper presents some features of current parallel implementation and estimates of resource usage. Efficiency of the developed algorithms is illustrated by solving several typical model problems with different parameters and in different configurations of multiprocessor computer systems.
Описание:
Валерий Павлович Ильин, д.ф.-м.н., профессор, главный научный сотрудник, Институт вычислительной математики и математической геофизики СО РАН (Новосибирск, Российская Федерация), ilin@sscc.ru. Данил Валерьевич Перевозкин, младший научный сотрудник, Институт вычислительной математики и математической геофизики СО РАН (Новосибирск, Российская Федерация), foxillys@gmail.com. V.P. Il’in, Institute of Computational Mathematics and Mathematical Geophysics SB RAS (Novosibirsk, Russian Federation), D.V. Perevozkin, Institute of Computational Mathematics and Mathematical Geophysics SB RAS (Novosibirsk, Russian Federation)