Читать книгу Проведение статистического анализа на языке программирования R в медико-биологических исследованиях. Учебное пособие - - Страница 6
ВВЕДЕНИЕ
ОглавлениеНаучная методология проведения исследований включает в себя:
1) постановку вопроса;
2) обзор и анализ литературы;
3) формулировку цели исследования;
4) формулировку задач исследования;
5) формулировку предварительной гипотезы;
6) планирование эксперимента (или сбора данных);
7) проведение эксперимента (сбор и структурирование данных);
8) анализ полученных результатов эксперимента (данных);
9) проверку гипотезы на основе полученных данных;
10) построение математической модели2;
11) проверку математической модели на результатах других экспериментов (на других данных).
В практике научных исследований «возникновение вопросов» по тематике деятельности исследователя является частым явлением3, что обусловлено многими причинами, например, обычным исследовательским любопытством или клинической (или технической) необходимостью. Возникающие вопросы, как правило, не имеют законченной формы и не представляют собой сформулированную цель исследования, декомпозированную на задачи. Для того чтобы возникший у исследователя вопрос приобрел законченную форму в виде сформулированной цели исследования, необходимо проведение предварительного литературного обзора по тематике вопроса. В рамках литературного обзора исследователю необходимо ответить на несколько вопросов:
1. Существуют ли литературные источники по интересующему исследователя вопросу (исторические источники, научные и научно-популярные публикации, учебная, учебно-методическая литература, ГОСТы, ОСТы, СНиПы, СанПиНы и т. д.)45?
2. Насколько широко интересующий вопрос представлен в научной литературе (сколько публикаций на данную тему удалось найти, как давно найденные источники были опубликованы, степень и уровень достоверности найденных источников)?
3. Как данный вопрос представлен в научной литературе – как нерешенный или как частично решенный, или считается полностью решенным?
4. Какие методики и подходы применяются для решения исследуемого вопроса (экспериментальные или/и теоретические)?
На основании проведенного анализа литературных источников исследователь может сформулировать цель исследования и провести ее декомпозицию (если это необходимо) на задачи, которые требуется решить6, чтобы достигнуть поставленной цели. После постановки цели и задачи исследования и проведения предварительного анализа литературы формулируется предварительная гипотеза (предположение, выдвигаемое исследователем о наличии или отсутствии эффекта или явления).
При частичном подтверждении или опровержении выдвинутой гипотезы результатами проведенного эксперимента или на основании поступивших данных исследователь возвращается к пункту 4, уточняет или выдвигает новую гипотезу и повторяет все нижестоящие пункты.
Финальным этапом выполнения работ является построение математической модели, или статистического описания результатов проведенного исследования. В самом простом случае в качестве математической модели могут выступать вычисленные на основании количественных данных основные параметры выборочного распределения вероятностей, выборочные средние значения, средневзвешенные значения, среднее квадратическое отклонение, квантили и т. д. В целом модель включает величины вычисленных статистических параметров, составляющие основу описательной статистики.
Полученная математическая модель должна быть подвергнута проверке на других данных, имеющих ту же природу и подобные условия получения, что и данные, использованные для построения исходной модели. Математическая модель может носить феноменологический7 характер и не обладать предсказательной способностью в случае изменений в условиях проведения эксперимента или получения данных.
Каждый из этапов проведения исследований имеет высокую степень важности для получения достоверного конечного результата. Наиболее ресурсоемкими частями являются этапы 6—9, ошибки на этих стадиях приводят к большим финансовым потерям и дискредитации исследования как такового. За период развития науки было разработано достаточно большое количество методов, позволяющих эффективно выполнять этапы 6—9 цикла научных исследований. Однако при наличии большого объема данных, факторов, влияющих на исследуемый процесс или свойство, и анизотропии исследуемых свойств в пространстве и/или во времени применение детерминированных методов анализа становится крайне затруднительной и ресурсоемкой процедурой. В подобных случаях используют методы статистического анализа и/или моделирования.
В данном учебном пособии рассматриваются основные статистические методы, рекомендованные к использованию национальными стандартами по метрологии, рекомендациями по проведению статистического анализа результатов эксперимента и в публикациях ряда авторов.
В настоящее время для проведения статистического анализа данных разработано и применяется большое количество программного обеспечения. Наиболее известными специализированными программными продуктами являются:
1. Statistica©8.
2. SPSS Statistics©9.
3. Minitab©10.
4. Salstat11.
5. JASP12.
6. Jamovi13.
7. Язык программирования R14 с интегрированной средой разработки (IDE – integrated development environment) RStudio©15.
8. Язык программирования Python c интегрированной средой разработки Spyder16.
Обзор всего существующего на сегодняшний день программного обеспечения, позволяющего проводить статистический анализ данных, потребует отдельной книги. Стоит отметить только основные особенности, которые необходимо учитывать при выборе того или иного инструмента:
1. Стоимость коммерческого программного обеспечения. Она, как правило, очень высока, а набор функций, доступных пользователю, ограничен финансовыми возможностями организации.
2. Возможность установки и использования на различных операционных системах таких, как Microsoft Windows, OS Linux, macOS и др.
3. Наличие открытого исходного кода программного обеспечения (ПО). Такое ПО обладает большей гибкостью в части возможности добавления собственных функций и проверки правильности реализации сторонних.
4. Наличие специализированного языка программирования, адаптированного для решения конкретных задач. Это ускоряет решение сложных вычислительных задач, снижает требования к аппаратным ресурсам и повышает гибкость программного обеспечения при решении специфичных задач.
5. Доступность программного обеспечения для исследователей с малым объемом финансирования.
6. Также важно учитывать наличие широкой поддержки данного инструмента статистической обработки академическим сообществом (наличие научно обоснованных и верифицированных алгоритмов, применяемых для проведения статистических тестов и анализа данных).
Из всего вышеизложенного следует, что во многих случаях наиболее подходящим в широкой практике для проведения статистических исследований является ПО с открытым исходным кодом и/или специализированные языки программирования.
Одним из таких является язык программирования R с интегрированной средой разработки RStudio©, разработанный и поддерживаемый компанией Posit Software, PBC и распространяющийся по открытой лицензии GNU GPL 317. Данная среда разработки не требует специализированных навыков при установке на большинство программно-аппаратных комплексов общего назначения; инструкцию по установке текущей версии RStudio можно найти на сайте проекта18.
Интерфейс RStudio представлен на рисунке 1.
Рисунок 1 – Интегрированная среда разработки RStudio с подключенным компилятором языка программирования R. 1 – интерактивная консоль ввода команд языка R; 2 – поле ввода скриптов на языке R; 3 – область отображения переменных и истории ввода команд в среде RStudio; 4 – область построения графиков, отображения справки (Help) и др.
Детальный обзор интегрированной среды разработки RStudio выходит за рамки настоящего пособия и должен рассматриваться на практических занятиях по статистическому анализу данных на языке программирования R19.
Практическая часть применения статистических методов анализа данных построена на открытых источниках данных, присутствующих в пакете MASS20 языка R, и на открытом наборе данных, содержащем исследования метрик диагностической точности 100 врачей21. Перечень основных наборов данных, содержащихся в пакете MASS:
1. Aids222 – набор данных, содержащий обезличенную информацию о пациентах, у которых диагностирован СПИД в Австралии до 1 июля 1991 г.
2. Cushings23 – набор данных, содержащий наблюдаемые показатели экскреции с мочой двух стероидных метаболитов у пациентов с подтвержденным диагнозом синдрома Кушинга (гипертензивное заболевание, связанное с избыточной секрецией кортизола надпочечниками).
3. GAGurine24 – набор данных, содержащий значения концентрации гликозаминогликанов (GAG) в моче у детей в возрасте от 0 до 17 лет.
4. Melanoma25 – набор данных, содержащий обезличенные данные 205 пациентов в Дании с подтвержденным диагнозом злокачественной меланомы.
5. Pima.te26 – набор данных, содержащий информацию о популяции женщин в возрасте не менее 21 года, принадлежащих к индейскому племени пима и проживающих в окрестностях Феникса (штат Аризона), которые были обследованы на наличие диабета в соответствии с критериями Всемирной организации здравоохранения. Сбор данных осуществлялся Национальным институтом диабета и болезней органов пищеварения и почек США. Содержит 532 полные записи после исключения (в основном отсутствующих) данных об инсулине в сыворотке крови. Обучающий набор Pima.tr содержит случайно выбранный набор данных 200 испытуемых, а Pima.te – оставшихся 332 испытуемых. Pima.tr2 содержит Pima.tr плюс 100 испытуемых с отсутствующими значениями объясняющих переменных.
6. anorexia27 – набор данных, содержащий обезличенную информацию об изменении веса молодых женщин, страдающих анорексией.
7. bacteria28 – набор данных, содержащий тесты на наличие бактерии H. influenzae у детей со средним отитом на северной территории Австралии.
8. biopsy29 – набор данных о раке молочной железы, полученный из госпиталей Висконсинского университета в Мэдисоне от доктора Уильяма Х. Вольберга. Он оценивал биопсии опухолей молочной железы 699 пациенток до 15 июля 1992 г. Каждый из девяти признаков оценивался по шкале от 1 до 10, известен также исход заболевания; имеются 699 строк и 11 столбцов.
9. birtwt30 – набор данных, содержащий факторы риска, связанные с низкой массой тела младенца при рождении. Данные были собраны в Медицинском центре Baystate, Спрингфилд, штат Массачусетс, в течение 1986 года.
10. epil31 – набор данных о количестве двухнедельных приступов у 59 эпилептиков. Количество приступов регистрировалось в течение базового периода в 8 недель, после чего пациенты были рандомизированы в группу лечения или контрольную группу. Затем подсчеты проводились в течение четырех последовательных двухнедельных периодов. Возраст пациента является единственной ковариатой.
11. gehan32 – набор данных, содержащий исследования 42 больных лейкемией. Часть из них получала лечение препаратом 6-меркаптопурин, остальные – контрольная группа. Испытание было организовано в виде подобранных пар, обе из которых были выведены из исследования при выходе из ремиссии.
12. muscle33 – набор данных, содержащий результаты исследования по влиянию концентрации хлорида кальция на сокращение мышц сердца крыс.
13. Indometh34 – набор данных, содержащий фармакокинетику индометацина.
14. Theoph35 – набор данных, содержащий фармакокинетику теофиллина.
15. lh36 – набор данных, содержащий временной ряд изменения концентрации лютеинизирующего гормона в образцах крови.
16. women37 – набор данных, содержащий средний рост и вес женщин в Америке в возрасте от 30 до 39 лет.
Весь процесс статистического анализа данных можно представить в виде алгоритма, изображенного на рисунках 2.1 и 2.2.
Рисунок 2.1 – Алгоритм проведения статистического анализа смешанных данных
Рисунок 2.2 – Алгоритм проведения статистического анализа количественных данных
Каждый из представленных в алгоритме тестов или методов рассматривается в данном пособии. Стоит отметить, что перечень перечисленных методов не является исчерпывающим, и читатель может самостоятельно расширять и дополнять их.
Кроме того, в пособии рассматриваются особенности проведения корреляционного анализа, обозначены нюансы интерпретации результатов корреляционного анализа медико-биологических данных. Одной из особенностей анализа данных, содержащих результаты исследований пациентов, дифференцированных по разным группам, является сравнение мер центральной тенденции (средних, медиан) величин проявления эффекта в группе. Этому вопросу посвящена отдельная глава. Рассматриваются разные критерии сравнения групп по количественным переменным. Также описываются два базовых метода построения предсказательных и классифицирующих моделей и приводятся способы их оценки, настройки и сравнения результатов.
Авторы учебного пособия выражают благодарность М. Р. Коденко и Р. В. Решетникову за ценные советы, данные при подготовке рукописи.
2
Построение математической модели является обязательным, если конечной целью исследования выступает предсказание каких-либо свойств, описание явлений и процессов (феноменологические модели).
3
Даже если исследователь обладает широким кругозором и высоким уровнем образования в области возникшего вопроса, предварительное проведение литературного обзора необходимо для понимания актуальности вопроса, в частности: какие части возникшего вопроса уже детально исследованы другими авторами, а какие остались без внимания и почему.
4
Для поиска соответствующей литературы рекомендуется использовать специализированные поисковые платформы, такие как Google Scholar (https://scholar.google.com), электронные библиотеки e-library (https://www.elibrary.ru) или PubMed (https://pubmed.ncbi.nlm.nih.gov). Также следует использовать каталоги Российской государственной библиотеки (https://www.rsl.ru) и Государственной публичной научно-технической библиотеки России (https://www.gpntb.ru).
5
В исследовательской практике очень редко рождаются уникальные вопросы – те, с которыми никто ранее не сталкивался. Часто вопрос, возникающий у исследователя, уже был кем-то изучен или изучен не до конца.
6
Хорошим методическим руководством по решению математических (да и в целом исследовательских задач) является книга «Как решать задачу: понимание постановки задачи, составление и осуществление плана, анализ решения». См.: Пойа Д. Как решать задачу: понимание постановки задачи, составление и осуществление плана, анализ решения / пер. с англ. В. Г. Звонаревой и Д. Н. Белла; под ред. и с предисл. Ю. М. Гайдука. 4-е изд. М.: URSS, 2009. 206 с.
7
Феноменологический (от слова «феномен») – эмпирическое описание наблюдаемого явления или эффекта.
8
Коммерческий программный продукт, разработанный компанией Dell (США), а настоящим владельцем является компания TIBCO (США).
9
Коммерческий программный продукт, разработанный в Чикагском университете США, в настоящее время права на данный продукт принадлежат компании IBM (США).
10
Коммерческий программный продукт, разработанный в университете штата Пенсильвания (США), распространяемый компанией Minitab Inc. со штаб-квартирой в Пенсильвании (США).
11
Свободно распространяемое программное обеспечение, разработчиком которого являются Алан Дж. Салмони и Марк Ливингстон. Выпуск новых версий ПО закончился в 2003 году.
12
Свободно распространяемый аналог SPSS Statistics со встроенным языком программирования R поддерживается Университетом Амстердама (Нидерланды).
13
Свободно распространяемый программный продукт, предназначенный для статистического анализа данных, считается аналогом SPSS Statistics.
14
Язык программирования высокого уровня, разработанный сотрудниками статистического факультета Оклендского университета (США) для статистического анализа данных. Свободно распространяется.
15
RStudio не является единственной интегрированной средой разработки на языке R, но практика применения показала, что данная среда наиболее удобна для применения.
16
В этот язык программирования входит набор библиотек, позволяющих проводить статистический анализ данных, собственно, как и компилируемых языков высокого уровня, таких как Си и Си++. Основным минусом Python для статистического анализа данных является его более общее назначение (в ряде случаев то, что на R решается двумя строчками кода, на Python может потребовать написания кода в несколько десятков строк). Да и в R практически каждая библиотека, набор данных и часто функции сопровождаются публикациями в академической печати, чего не скажешь о библиотеках и функциях, входящих в Python.
17
Более подробно о данном типе лицензии можно прочесть: https://www.gnu.org/licenses/agpl-3.0.txt.
18
См.: https://posit.co/download/rstudio-desktop. В случае, если ваши системы отличны от систем общего назначения (например, исследователь использует ПК с архитектурой arm), то лучше обратиться за помощью к системному администратору.
19
Обзор системы RStudio представлен на сайте: https://docs.posit.co/ide/user.
20
Процесс установки пакетов в языке программирования R и IDE RStudio: https://search.r-project.org/R/refmans/utils/html/install. packages.html.
21
Открытый набор данных, доступный на сайте Московского эксперимента: https://www.telemed.ai.
22
Venables W. N., Ripley B. D. Modern Applied Statistics with S. 4th edition. Springer, 2002.
23
Aitchison J., Dunsmore I. R. Statistical Prediction Analysis. Cambridge University Press, 1975. Tables 11.1—3.
24
Venables W., Ripley B. D. S programming. Springer Science & Business Media, 2000.
25
Andersen Per K., Borgan Ø., Gill R. D., et al. Statistical models based on counting processes. Springer Science & Business Media, 2012.
26
Smith J. W., Everhart J. E., Dickson, W. C., et al. Using the ADAP learning algorithm to forecast the onset of diabetes mellitus. In Proceedings of the Symposium on Computer Applications in Medical Care / ed. R. A. Greenes. Washington, 1988. P. 261—265.
27
Hand D. J., Daly F., McConway K., et al. A Handbook of Small Data Sets. Chapman & Hall, 1993. P. 229. Data set 285.
28
Menzies School of Health Research 1999—2000. Annual Report. P. 20. URL:https://www.menzies.edu.au/icms_docs/172302_2000_Annual_report.pdf.
29
Murphy P. M., Aha D. W. UCI Repository of machine learning databases. [Machine-readable data repository]. Irvine, CA: University of California; Department of Information and Computer Science, 1992.
30
Hosmer D. W., Lemeshow S. Applied Logistic Regression. New York: Wiley, 1989.
31
Thall P. F., Vail S. C. Some covariance models for longitudinal count data with over-dispersion // Biometrics. 1990. Vol. 46, №3. Р. 657—671.
32
Cox D. R., Oakes D. Analysis of Survival Data. Chapman & Hall, 1984. P. 7. Taken from: Gehan E.A. A generalized Wilcoxon test for comparing arbitrarily single-censored samples // Biometrika. 1965. №52. Р. 203—233.
33
Linder A., Chakravarti I. M., Vuagnat P. Fitting asymptotic regression curves with different asymptotes. In Contributions to Statistics. Presented to Professor P. C. Mahalanobis on the occasion of his 70th birthday / ed. C. R. Rao. Oxford: Pergamon Press, 1964. P. 221—228.
34
Kwan К. С., Breault G. O., Umbenhauer E. R., et al. Kinetics of Indomethacin absorption, elimination, and enterohepatic circulation in man // Journal of Pharmacokinetics and Biopharmaceutics. 1976. №4. Р. 255—280.
35
Boeckmann A. J., Sheiner L. B., Beal S. L. Nonmem Users Guide. Part V. Nonmem Project Group; University of California, San Francisco, 1994.
36
Diggle P. J. Time Series: A Biostatistical Introduction. Oxford, 1990. Table A.1, series 3.
37
The World Almanac and Book of Facts, 1975.