Читать книгу Проведение статистического анализа на языке программирования R в медико-биологических исследованиях. Учебное пособие - - Страница 7
1. ТИПЫ ДАННЫХ
ОглавлениеПри проведении статистического анализа аналитик сталкивается с тремя основными типами данных:
1) количественными;
2) качественными;
3) смешанными (сочетающими количественные и качественные характеристики).
Количественные данные38 – численные данные, имеющие шкалу измерения. Они могут быть разделены на дискретные и непрерывные.
Дискретные количественные данные – это числовые данные, полученные путем подсчета какой-либо величины.
Примером таких данных являются: вес пациента, измеряющийся в килограммах; рост пациента, измеряемый в сантиметрах; количество пациентов; концентрация различных веществ в крови или моче пациента и т. д. (результаты антропометрических, лабораторных и функциональных исследований пациентов).
Непрерывные количественные данные – изменение какой-либо количественной величины, измеренной за определенный период времени.
Примерами непрерывных количественных данных являются электроэнцефалограмма головного мозга, электрокардиограмма сердечной мышцы и др. В таблице 1 представлен пример дискретных количественных данных.
Качественные данные – это данные, описывающие признак предмета исследования естественным языком. Они могут быть номинальными и порядковыми.
Номинальные данные – это подгруппа качественных данных, используемая для именования переменных, не имеющих числового значения.
Примером качественного номинального признака предмета исследования являются пол пациента, наличие или отсутствие вредных привычек, занятие пациентом физической культурой и т. д.
Порядковые данные – это подгруппа качественных данных, имеющих порядок или масштаб. Часто качественные порядковые данные могут быть представлены числами, которым соответствует качественное описание. Примером порядковых качественных данных могут являться порядковый номер пациента, порядковый номер ответа на вопрос и т. д.
Наиболее распространенный пример качественных порядковых данных – ответ на вопрос по пяти-, десяти- и т. д. балльной шкале. Пример пятибалльной шкалы уверенности в каком-либо вопросе, применяющейся при проведении опросов:
1. Да.
2. Скорее да.
3. Затрудняюсь ответить.
4. Скорее нет.
5. Нет.
Каждому из пяти представленных ответов может соответствовать число от 1 до 5 в случае применения порядковой шкалы или от 0 до 1 в случае вероятностной шкалы. Выбор шкалы соответствия ограничивается только фантазией исследователя, и единственное требование, которое возникает при планировании сбора качественных данных – единообразие используемых шкал.
В языке программирования R качественное описание объекта, содержащееся в наборе данных, представляется как тип данных «фактор»39, а значения, принимаемые переменной, имеющей тип «фактор», называются уровнями фактора. В таблице 2 представлен пример факторных данных.
В данном случае идентификатор представлен численно буквенным кодом, идентифицирующим пациента в некоторой базе данных, а пол пациента обозначен буквами «М» (мужской) и «Ж» (женский).
В практике анализа и проведения эксперимента редко встречаются наборы данных, содержащие только количественные или только качественные данные. Чаще всего наборы данных имеют смешанный характер. В таблице 3 представлен пример смешанного набора данных.
Фактически набор данных представляет собой совокупность переменных (название каждого столбца), каждая из которых описывает качественную или количественную характеристику исследуемого объекта или явления. Соответственно, переменные, содержащие только качественные значения, называются факторами. Создание наборов медицинских данных детально рассматривается в курсе «Создание наборов данных»40.
Для каждого типа переменных или их совокупности существует свой набор статистических тестов, позволяющих проводить детальный анализ наличия или отсутствия различий между всевозможными уровнями факторов, наличие связи или отсутствие связей между данными, принадлежащими к разным уровням фактора, которые будут рассмотрены далее. Алгоритм анализа, представленный на рисунке 2, является верным для количественных и смешанных наборов данных. Методы анализа качественных данных не рассматриваются в настоящем учебном пособии.
Ниже представлены примеры наборов данных, содержащих смешанные данные, но с превалирующим количеством качественных переменных и с превалирующим числом количественных данных.
1.1. Пример количественных и качественных данных
В практике анализа наборы данных, содержащие только качественные переменные, возникают при сборе методом опроса или анкетирования (даже в этом случае результаты опроса или анкетирования, скорее всего, будут содержать возраст пациента и время (календарную дату) проведения опроса). То же самое относится и к наборам данных, содержащим только количественные переменные: как правило, присутствует порядковый номер образца, и/или идентификатор пациента и/или гендерный признак пациента. Рассмотрим на примерах некоторые наборы данных, содержащиеся в пакетах языка R, в частности в пакете MASS. Знак «#» применяется для экранирования (компилятор языка не будет воспринимать текст, находящийся после данного знака, как текст программы) комментариев в тексте программы.
Листинг 141
library (MASS) #Подключаем библиотеку, содержащую набор данных bacteria
head (bacteria) # выводим первую часть набора данных
#=======================================================
# Результат вывода первой части набора данных
#=====================================================
y ap hilo week ID trt
1 y p hi 0 X01 placebo
2 y p hi 2 X01 placebo
3 y p hi 4 X01 placebo
4 y p hi 11 X01 placebo
5 y a hi 0 X02 drug+
6 y a hi 2 X02 drug+
#=======================================================
#Проводим определение структуры набора данных
#=======================================================
str (bacteria) # Выводим структуру данных, содержащуюся в наборе данных
# bacteria
#=======================================================
# Результаты применения функции
#=======================================================
'data.frame’: 220 obs. of 6 variables:
$ y: Factor w/ 2 levels «n», «y»: 2 2 2 2 2 2 1 2 2 2…
$ ap: Factor w/ 2 levels «a», «p»: 2 2 2 2 1 1 1 1 1 1…
$ hilo: Factor w/ 2 levels «hi», «lo»: 1 1 1 1 1 1 1 1 2 2…
$ week: int 0 2 4 11 0 2 6 11 0 2…
Продолжение листинга 1
$ ID: Factor w/ 50 levels «X01», «X02», «X03»,..: 1 1 1 1 2 2 2 2 3 3…
$ trt: Factor w/ 3 levels «placebo», «drug»,..: 1 1 1 1 3 3 3 3 2 2…
Приведенный набор данных содержит в основном «факторы», его уровни представлены естественным языком. Таким представлением в языке R описываются качественные данные, а сам набор данных содержит только один количественный показатель (week), описывающий порядковый номер недели проведения исследования.
Листинг 2
library (MASS) #Подключаем пакет, содержащий набор данных muscle
head (muscle) #Выводим начало набора данных
#=======================================================
#Результат применения команды
#=======================================================
Strip Conc Length
3 S01 1 15.8
4 S01 2 20.8
5 S01 3 22.6
6 S01 4 23.8
9 S02 1 20.6
10 S02 2 26.8
#=======================================================
#Выводим структуру набора данных
#=======================================================
str (muscle)
#=======================================================
'data.frame’: 60 obs. of 3 variables:
$ Strip: Factor w/ 21 levels «S01», «S02», «S03»,..: 1 1 1 1 2 2 2 2 3 3…
Продолжение листинга 2
$ Conc: num 1 2 3 4 1 2 3 4 0.25 0.5…
$ Length: num 15.8 20.8 22.6 23.8 20.6 26.8 28.4 27 7.2 15.4…
Набор данных muscle содержит значения концентрации хлорида кальция, кратные величине 2,2 ммоль (Conc), и длину полосы сокращения сердечной мышцы, измеряемую в миллиметрах (Length) – представленные данные являются количественными. Одновременно набор данных содержит и качественный параметр, а именно обозначение линии сердечной мышцы при проведении измерений (Strip).
38
В языке программирования R количественные данные могут быть представлены типами numeric, integer, double (в языке R отсутствует тип данных с одинарной точностью).
39
Фактор (лат. factor «делающий, производящий») – причина, движущая сила какого-либо процесса, определяющая его характер или отдельные его черты. См.: Фактор // Большая советская энциклопедия: в 30 т. / гл. ред. А. М. Прохоров. 3-е изд. М.: Советская энциклопедия, 1969—1978.
40
Васильев Ю. А., Арзамасов К. М., Владзимирский А. В. [и др.]. Подготовка набора данных для обучения и тестирования программного обеспечения на основе технологии искусственного интеллекта: учебное пособие. Издательские решения, 2024. 140 с.
41
Здесь и далее во всем тексте пособия примеры программного кода на языке R будут обозначены словом «Листинг» и иметь сквозную нумерацию.