Читать книгу Искусственный интеллект в здравоохранении - Коллектив авторов, Ю. Д. Земенков, Koostaja: Ajakiri New Scientist - Страница 5

Раздел 1
Технологии искусственного интеллекта
§ 3. Наборы данных для обучения и тестирования алгоритмов искусственного интеллекта

Оглавление

Разработка любой системы ИИ базируется на обработке и использовании определенного набора данных. Чем больше данных обработает алгоритм ИИ, тем более точно и корректно он сможет формулировать выводы на их основе. На этапах тестирования и эксплуатации системы структура и свойства набора данных также играют ключевую роль.

Подготовка набора данных включает определенные процедуры (рис. 4).


Рис. 4. Процесс подготовки набора данных для обучения и тестирования систем ИИ. Источник: [Национальный стандарт РФ ГОСТ Ρ 59921.5…].


Подробнее рассмотрим основные процедуры. Задачи подготовки набора данных должны быть определены проблемой, целью создания системы ИИ, должны включать определение предметной области и выбор методов обработки данных. Например, в случае контролируемого машинного обучения алгоритм ИИ наблюдает набор размеченных данных и обучается функции, позволяющей предсказывать аннотацию для новых входных данных. Возможными типами задач контролируемого машинного обучения являются классификация и регрессия (аппроксимация и предсказание значения непрерывных параметров какого-либо объекта). При регрессии аннотация может принимать любое действительное значение, не ограничиваясь конечным набором категорий как при классификации.

В случае неконтролируемого машинного обучения алгоритм распознает паттерны (структуру) в неразмеченных данных. Возможными типами задач неконтролируемого машинного обучения являются кластеризация (группировка экземпляров данных в кластеры со сходными характеристиками) и детекция аномалий (идентификация редких экземпляров данных, существенно отличающихся от остальных).

Подход к формированию набора данных определяется необходимостью валидации системы ИИ.

Аналитическая валидация (analytical validation) – подтверждение способности системы ИИ точно, воспроизводимо и надежно генерировать предполагаемые технические результаты вычислений из входных данных.

В этом случае необходимо представление данных: синдромов, заболеваний, исходов, отражающее максимальную вариативность (то есть и частые, и редкие случаи представлены в одинаковом объеме). Набор данных для аналитической валидации должен быть подготовлен для определения следующих характеристик: производительность (например, время, затрачиваемое на обработку системы ИИ медицинского исследования при наличии функции автоматического расчета времени и т. д.), точность интерпретации исследований с учетом функциональных возможностей системы ИИ, повторяемость, воспроизводимость.

Возможно включение исследований с нарушением технологии (внешние помехи, артефакты, неверное наложение электродов/датчиков, нарушение последовательности регистрации, укладки пациента). Такие исследования должны быть помечены должным образом. Для снижения систематической ошибки следует использовать данные из разных источников (например, из разных медицинских организаций) и разные модели оборудования.

Клиническая валидация (clinical validation) – подтверждение способности системы ИИ выдавать клинически значимые выходные данные, связанные с ее целевым использованием в рамках установленного изготовителем функционального назначения.

В этом случае необходимо представление данных согласно частоте их встречаемости, заболеваемости, распространенности в популяции. При проведении клинической валидации следует использовать верифицированный набор данных. Характеристики наборов данных (размерность, разреженность, баланс, распределение классов и др.) должны подбираться в соответствии с задачей.

Под размерностью понимается количество атрибутов, которые имеют объекты в наборе данных (например, значение артериального давления, масса тела пациента, уровень холестерина и др.). Наборы данных с высокой размерностью (с большим количеством атрибутов) выдвигают повышенные требования к алгоритмам системы ИИ, допустимому размеру таких наборов, а также к вычислительным ресурсам для их обработки. В зависимости от поставленной цели и дизайна исследования допустимо обоснованное снижение размерности набора данных, в частности, за счет кластеризации данных либо группировки взаимосвязанных по какому-либо признаку атрибутов в объединенные категории.

Высокий уровень разреженности (отсутствия) данных способен существенно осложнить для системы ИИ задачу поиска и категоризации объектов интереса, что нужно учитывать в зависимости от поставленной задачи.

Сбалансированный набор данных должен содержать одинаковое количество примеров различных категорий (классов) объектов интереса. В случае бинарной классификации это может соответствовать распределению 50/50 для случаев «патология/норма».

Важным этапом подготовки данных является деидентификация (обезличивание). Должны быть удалены любые персональные данные. В случае необходимости возможно их изменение, например замена даты рождения на возраст.

Подготовленные наборы данных могут быть структурированы посредством выделения признаков в соответствии с поставленной задачей. В процессе структурирования снижают размерность набора данных, оставляя достаточный список атрибутов для точного и полного описания элементов набора данных, что будет способствовать последующему обобщению шагов и проведению качественной разметки (аннотации) данных.

Фильтрация набора данных позволяет исключить данные, не соответствующие заданным параметрам (например, смазанные изображения), повысив их качество.

Существенную роль в подготовке данных играет разметка. Выделяется три вида разметки: ретроспективная, проспективная разметка, верификация [Национальный стандарт РФ ГОСТ Р 59921.5…].

Ретроспективная разметка представляет собой сбор элементов согласно указанным метаданным, перечень которых выбирают в соответствии с поставленной целью. Такую разметку проводят путем выгрузки данных из информационной системы. Ретроспективная разметка не предполагает выполнение манипуляций или какой-либо обработки элементов. Для каждого элемента набора данных устанавливают соответствие с информацией (диагноз, результаты лабораторного исследования и др.). К примеру, ретроспективная разметка пациентов с подтвержденной новой коронавирусной инфекцией предполагает следующий перечень метаданных: идентификационный номер, дата рождения, дата выполнения рентгенологического исследования, результаты теста на полимеразную цепную реакцию.

Проспективная разметка представляет собой сбор элементов в соответствии с поставленной целью, а также проведение дополнительных манипуляций с элементами (постановка меток начала и окончания события, меток обнаружения признаков, обозначений патологий и т. п.). Для проведения такой разметки помимо технических специалистов привлекаются лица, обладающие специальными знаниями, например медицинскими. Разметка проводится путем ручного аннотирования содержания данных или их частей, которое может быть выполнено в графической или текстовой форме либо при их комбинации.

Верификация данных может обеспечиваться:

– внесением дополнительных сведений в набор данных, подготовленный при проспективной разметке (например, дополнение результатами повторных исследований);

– слепым анализом набора данных экспертами с достижением заданного уровня согласованности их решений.

Основные критерии отнесения к верифицированному набору данных:

– данные получены из реальной практики (не допускается получение синтезированных данных, например ЭКГ от генератора физиологических сигналов);

– данные получены в «сыром виде» – без применения фильтров и математических средств постобработки;

– структура набора данных соответствует поставленной цели его формирования (обучение, аналитическая, клиническая валидация);

– количество наблюдений (исследований) достаточно для достижения статистической значимости результата;

– разметка проведена с использованием тезауруса (кодированной библиотеки типовых формулировок, соответствующих рекомендации ассоциации специалистов в данной области по ГОСТ 7.24, ГОСТ 7.25[7]).

В ходе первичной разметки отмечаются все целевые структуры в подготовленном наборе данных. Специалисты, проводящие разметку, должны быть компетентны в области конкретных типов данных (изображения, текстовые или сигнальные (ЭКГ, ЭЭГ, спирометрия), количественные (ЧСС, артериальное давление, спирометрия), бинарные данные (да/нет)). Экспертная разметка осуществляется специалистами с большим опытом работы (не менее трех лет) в областях, соответствующих решаемым задачам.

На всех этапах жизненного цикла системы ИИ важно обеспечить хранение верифицированного набора данных и доступ к нему. В решении этой задачи ключевую роль играют метаданные (metadata) – информация о ресурсе.

Метаданные применяют для классификации, упорядочения и описания. Они составляются для улучшения возможностей поиска, обеспечения доступа к данным, их совместимости и повторного использования.

Метаданные бывают трех типов:

– описательные (служат для обнаружения, сбора или группирования данных по общим для них характеристикам);

– структурные (определяют состав или организацию набора данных);

– административные (используются для управления базой данных).

Выбор зависит от типа данных. Например, метаданные для хранения верифицированного набора медицинских изображений могут включать:

1. Тип изображения:

– вид исследования (например, компьютерная томография);

– разрешение;

– общее число изображений и по сериям.

2. Число исследований.

3. Источники исследований:

– оборудование;

– типы оборудования;

– медицинскую организацию.

4. Параметры сканирования изображений.

5. Параметры хранения изображений:

– формат данных;

– уровень и тип сжатия данных.

6. Аннотацию (разметку):

– тип;

– что и как описано;

– привлеченную экспертную группу.

7. Контекст.

8. Как определена и промаркирована истинная разметка.

9. Связанные данные:

– демографические;

– клинические;

– лабораторные;

– геномные;

– временны́е;

– принимаемые препараты (лекарства);

– другие.

10. Временной диапазон сбора изображений (дата и время исследования).

11. Использование данных (какое программное обеспечение использовать для просмотра данных).

12. Кому принадлежат данные.

13. Кто ответственен за данные.

14. Допустимое использование.

15. Назначение набора данных.

16. Информацию об одобрении комитета по этике.

17. Информацию о деидентификации набора данных.

18. Информацию о проведенном контроле качества набора данных.

19. Параметры доступа:

– доступность;

– цену и лицензионные соглашения.

20. Распределение случаев (если применимо):

– процент «норма/патология» (код МКБ);

– данные патологии: число исследований с каждой патологией.


Данные необходимо передавать в локальное хранилище (при одноцентровом исследовании) либо во внешнее хранилище данных (в случае многоцентрового исследования). Хранение данных может быть организовано на локальном сервере или при облачном хранении. При этом доступность и безопасность обеспечиваются на лучшем уровне при использовании локального сервера. В то же время при облачном хранении возможны совместное использование данных и резервное копирование.

Статистические и научные данные, включая обезличенные данные, полученные посредством удаления идентифицирующих сведений из персональной информации (например, медицинской), должны быть защищены.

Необходимо установить стандартные процедуры доступа к набору данных для третьих лиц, закрепленные в документе о политике по защите информации. При организации доступа следует подписывать соглашение с организацией, формирующей наборы данных.

Важно отметить, что в медицине количество собираемых данных, пригодных для анализа системами ИИ, стремительно растет благодаря развитию новых технологий их получения и хранения (носимые устройства, электронные медицинские записи; генетическая информация, полученная путем секвенирования генома, и т. д.).

7

https://docs.cntd.ru/document/1200057506.

Искусственный интеллект в здравоохранении

Подняться наверх