Читать книгу Цифровое просвещение – философия, стратегия, этика, Виртуальная Компьютерная Лаборатория. Искусство и наука технологического лидерства в эпоху искусственного интеллекта - Михаил Александрович Демидов, Михаил Александрович Полиевктов, Михаил Александрович Шилов - Страница 22
Глава 2. ФИЛОСОФИЯ ИНЖЕНЕРНОГО ПОДХОДА К СОЗДАНИЮ ВИРТУАЛЬНОЙ КОМПЬЮТЕРНОЙ ЛАБОРАТОРИИ НА ОСНОВЕ АБСТРАГИРОВАНИЯ
Обеспечение высокой доступности и устойчивости к сбоям
ОглавлениеВ процессе эксплуатации Виртуальной Компьютерной Лаборатории необходимо обеспечивать устойчивость к сбоям и оперативное восстановление после них для того, чтобы гарантировать непрерывность учебной и исследовательской деятельности. Виртуальная Компьютерная Лаборатория должна быть спроектирована с учетом принципов высокой доступности и отказоустойчивости, что может быть достигнуто через реализацию механизмов автоматического обнаружения ошибок, мгновенного переключения на резервные компоненты и быстрого восстановления после аварийных ситуаций.
Методы восстановления должны сводить к минимум риски потери ценных данных и не допускать длительных простоев Виртуальной Компьютерной Лаборатории, гарантируя тем самым надежность и стабильность образовательных и исследовательских процессов. При этом задачей систем мониторинга и оповещения является своевременное обнаружение проблем и автоматизированное реагирования на них, по возможности еще до того, как будут возникать прямые последствия для пользователей.
В качестве примера мы рассмотрим реализацию Виртуальную Компьютерную Лабораторию на основе технологической платформы VMware vSphere Foundation, которую использует автор, где отказоустойчивость и быстрое восстановление после сбоев достигаются за счет представленных ниже встроенных функций и архитектурных решений:
– vSphere High Availability (HA). Эта функция автоматически перезапускает виртуальные машины на других физических хостах (серверах) кластера в случае сбоя на физическом сервере, где они были размещены, обеспечивая минимально возможное время простоя (упрощенно говоря, это то время, которое требуется на повторный запуск виртуальной машины на другом сервере после обнаружения отказа). HA непрерывно анализирует состояние всех хостов в кластере и в случае обнаружения отказа немедленно реагирует, перераспределяя нагрузку и восстанавливая работоспособность виртуальных машин. При этом виртуальные машины должны находиться в пуле ресурсов, доступном всем хостам и располагаться в системе хранения данных SAN или NAS, например, VMware vSAN Enterprise. Для повышения отказоустойчивости и/или производительности, несколько физических дисковых устройств объединяются в логические юниты, являющиеся виртуальными разделами RAID 1/5/6/1+0 массивов, в которых реализовано зеркалирование, чередование блоков данных c контролем четности, кэширование и другие технологии.
– VMware vSAN Enterprise. vSAN обеспечивает интегрированное управление хранилищем для виртуальных машин, распределяя данные по всему кластеру и обеспечивая их доступность и защиту. vSAN поддерживает политики хранения данных, которые автоматически применяются для гарантии заданных параметров производительности, устойчивости и доступности.
– vSphere Fault Tolerance (FT). FT предоставляет непрерывную доступность, создавая и поддерживая копии виртуальных машин, включающие состояние дисков, памяти, процессорных команд и сетевого трафика, на другом хосте в реальном времени. В случае сбоя первичной виртуальной машины ее копия немедленно берет на себя все функции без потери данных, пользовательских сессий или сеансов ввода/вывода, что обеспечивает непрерывность работы критически важных виртуальных машин. Однако при этом нужно закладывать потери производительности на поддержание технологии FT.
– vSphere vMotion. vMotion позволяет выполнять миграцию работающих виртуальных машин между хостами без прерывания их работы. Например, это основная функция для проведения технического обслуживания, с помощью которой можно перемещать запущенные виртуальные машины без необходимости их выключения на другие сервера в процессе установки обновлений гипервизора ESXi с последующей перезагрузкой сервера, на котором они были размещены, а также для оптимизации использования ресурсов в реальном времени c помощью DRS.
– vSphere Distributed Resource Scheduler (DRS). DRS автоматически распределяет ресурсы между виртуальными машинами в зависимости от их потребностей, обеспечивая оптимальную производительность и балансировку нагрузки между серверами в кластере (работает совместно с vMotion), что улучшает общую производительность и устойчивость системы к изменениям вычислительной нагрузки.
– VMware Aria Operations for Logs. Это решение для управления логами и аналитики, предназначенное для автоматизированного сбора, анализа и визуализации лог-данных из различных источников в аппаратно-программной инфраструктуре. Aria Operations for Logs облегчает обнаружение и диагностику проблем, а также предоставляет достаточно глубокие аналитические возможности для управления логами.
– VMware Aria Operations. Aria Operations является комбинацией инструментов аналитики и мониторинга для централизованного управления ресурсами, производительностью и здоровьем аппаратно-программной инфраструктуры; для оптимизации использования ресурсов и улучшения общей производительности. Характерными примерами применения Aria Operations является удаление образов дисков, которые не связаны с виртуальными машинами или выявление избытка/недостатка ресурсов под конкретные конфигурации виртуальных машин, а также оценка и прогнозирование совокупной стоимости владения ИТ-инфраструктурой.
– VMware Skyline. Автоматизированная служба поддержки и проактивного анализа, предоставляющая рекомендации по устранению потенциальных проблем до того, как они станут критическими. Skyline собирает конфигурационные данные для предоставления предупреждений о проблемах и рекомендаций по их предотвращению.
Рассмотренные инструменты обеспечивают комплексный подход к отказоустойчивости и быстрому восстановлению, позволяют оптимизировать виртуальную инфраструктуру, помогают достичь высокой доступности, производительности и безопасности. Внедрение механизмов устойчивости к сбоям и эффективного восстановления после них не только повышает техническую надежность Виртуальной Компьютерной Лаборатории, но и является ключевым элементом для обеспечения высокого качества образовательного процесса и результативности научных исследований в современной образовательной среде8.
8
Дополнительную информацию см. в гл. 3 в разделе «Архитектурные компоненты гиперконвергентной Виртуальной Компьютерной Лаборатории».