Cуперкомпьютеры: администрирование
Реклама. ООО «ЛитРес», ИНН: 7719571260.
Оглавление
Сергей Анатольевич Жуматий. Cуперкомпьютеры: администрирование
Введение
Соглашения и обозначения, принятые в книге
Глава 1. Что же такое «супер»?
Общие понятия о параллельной обработке и параллельных программах
Виды кластеров
Кластеры и суперкомпьютеры – общее и разное
Что означает «супер» для администратора суперкомпьютера
Централизованное управление вычислительным комплексом
Краткое резюме
Ключевые слова для поиска
Глава 2. Как устроен суперкомпьютер
Управляющий узел
Вычислительный узел
Служебные узлы
Сетевое оборудование
InfiniBand
Идентификация компонентов и адресация в сетях InfiniBand
Управление подсетью InfiniBand
IP через InfiniBand (IP over IB, IPoIB)
Утилиты для просмотра информации по сетям InfiniBand
Хранение данных
Особенности аппаратной архитектуры
Краткое резюме
Ключевые слова для поиска
Глава 3. Как работает суперкомпьютер
Как происходит типичный сеанс пользователя
Жизненный цикл задания
Что скрыто от пользователя
Краткое резюме
Ключевые слова
Глава 4. UNIX и Linux – основы
Процессы
Права
Понятие сервиса, ключевые сервисы
Справка
Соглашения об именах файлов
Соглашения о расширениях
Шаблоны
Команды для работы с деревом каталогов
Команды для работы с каталогами
Команды для работы с файлами
Пакеты
Сетевые команды
«Кластерные» команды
Краткое резюме
Ключевые слова для поиска
Глава 5. UNIX и Linux – приёмы работы
Магия sysctl
Подсистема udev
Трюки с shell
Краткое резюме
Ключевые слова для поиска
Глава 6. Сетевые файловые системы
NTP
NFS
Lustre
PanFS
GPFS
Другие файловые системы
Краткое резюме
Ключевые слова для поиска:
Глава 7. Удалённое управление
ssh и parallel ssh
Проброс переменных окружения
Проброс портов
Проброс X-соединения
Передача файлов
SSH-agent
Настройка ssh-сервера
Настройка ssh-клиента
IPMI
iKVM
Краткое резюме
Ключевые слова для поиска:
Глава 8. Пользователи: учёт, управление, общение
Синхронизация учётных записей
Классика
NIS/NIS+
LDAP
Краткое резюме
Ключевые слова для поиска
Глава 9. Пользователи: квотирование, разграничение прав
Квотирование
UNIX-группы, ACL
Блокировка
Краткое резюме
Ключевые слова для поиска
Глава 10. Системы управления заданиями
Принципы работы, возможности
Проблема доступа
OpenPBS, Torque
Настройка MOM сервера на вычислительных узлах
Настройка планировщика
Использование Torque
Команды управления заданиями
Slurm
Установка
Настройка
Настройка аккаунтинга
Управление
Аккаунтинг
Краткое резюме
Ключевые слова для поиска
Глава 11. Организация удалённого доступа пользователей
SSH
FTP и WWW
X-window
Альтернативы для X11
Краткое резюме
Ключевые слова для поиска
Глава 12. Системы мониторинга состояния кластера
SNMP
Ganglia
Nagios
Zabbix
Lm_sensors/Hwmon
APCUPS
NUT
Краткое резюме
Ключевые слова для поиска
Глава 13. Резервное копирование
Tar
Bacula
Rsync
Краткое резюме
Ключевые слова для поиска
Глава 14. Компиляторы и среды для параллельных технологий
gcc/gfortran
Компиляторы Intel, PGI, Pathscale
mpich
OpenMPI
Mvapich/Mvapich2
HP/Platform MPI, IntelMPI
Библиотека SHMEM, стандарт OpenSHMEM
Компиляция и запуск программ SHMEM
Cuda
OpenCL
OpenACC
Environment modules и LMOD
Краткое резюме
Ключевые слова для поиска
Глава 15. Библиотеки поддержки параллельных вычислений
Scalapack
PETSc
FFT/FFTW
TBB
Отладчики и профилировщики
Краткое резюме
Ключевые слова
Глава 16. Загрузка и init
Загрузка с жёсткого диска
INIT в стиле SystemV
Systemd
Сетевая загрузка
DHCP
TFTP, PXE, NFS-root
Краткое резюме
Ключевые слова для поиска
Глава 17. Настройка узлов, инсталляция ПО
Драйверы сетей и оборудования
Настройка управляющего и вычислительных узлов
Инсталляция и настройка управляющего узла
Настройка NFS-сервера
Настройка коммуникационного ПО
Установка компиляторов и библиотек
Настройка системы управления заданиями
Инсталляция и настройка вычислительного узла кластера
Краткое резюме
Ключевые слова для поиска
Глава 18. Готовые стеки и системы развёртывания
ROCKS
Parallel Knoppix / PelicanHPC
Краткое резюме
Ключевые слова для поиска
Глава 19. Система управления кластерами xCAT
Установка и начальная настройка
Архитектура и команды
Управление узлами
Загрузка, управление
Краткое резюме
Ключевые слова для поиска
Глава 20. Общение с пользователями
Переписка
Учёт заявок от пользователей
Актуализация
Краткое резюме
Ключевые слова для поиска:
Глава 21. Инструкции «раз–два–три»
NTP
Настройка NFS-сервера
Настройка NFS-клиента
Установка Lustre
Установка NIS+ сервера
Установка NIS+ клиента
Установка OpenLDAP (на примере RH)
Настройка Xorg
APCUPSD
xCAT
Глава 22. Скрипты на shell – основы и частые ошибки
Глава 23. Systemd – краткий курс
Unit-ы
Команды
Журнал
Заключение
Словарь терминов
Словарь жаргонизмов
Отрывок из книги
Здравствуй, читатель!
Эта книга написана для того, чтобы помочь начинающему или уже «продолжающему» системному администратору стать администратором вычислительного кластера или суперкомпьютера. Именно помочь, так как научить этому никакой книжке не под силу. Тем, у кого уже есть опыт администрирования Linux, учиться придётся меньше, но всё равно придётся обязательно. Тем, кто такого опыта не имеет, советуем почитать книги по администрированию Linux и потренироваться, например, на виртуальной машине. В этой книге мы коснёмся основ Linux, но лишь поверхностно.
.....
Ещё одна особенность архитектуры касается уже не отдельного, а нескольких узлов. Как мы ранее указывали, вычислительные узлы в вычислительном кластере объединены высокоскоростной коммуникационной сетью. Такая сеть может предоставлять дополнительные возможности обмена данными между процессами параллельных программ, запущенных на нескольких вычислительных узлах. В рамках одного узла применяется технология прямого доступа в память (Direct Memory Access, или DMA), позволяющая устройствам узла связываться с оперативной памятью без участия процессора. Например, обмен данными с жёстким диском или с сетевым адаптером может быть организован с использованием технологии DMA.
Адаптер InfiniBand, используя технологию DMA, предоставляет возможность обращаться в память удалённого узла без участия процессора на удалённом узле (технология Remote Direct Memory Access, или RDMA). В этом случае возникнет необходимость синхронизации кэшей процессоров (данный аспект мы не будем рассматривать подробно). Применение технологии RDMA позволяет решить некоторые проблемы масштабируемости и эффективности использования ресурсов.
.....