Читать книгу Ценность ваших данных - Николай Скворцов - Страница 11
Часть 1. Данные: Смена парадигм
От первой научной революции до четвертой промышленной
Глава 2. От данных к мудрости
2.1. Данные и информация
ОглавлениеПрежде чем начать разбираться в вопросах управления и извлечения ценности из данных, стоит подробнее остановиться на терминах «данные» (data) и «информация» (information) и их значениях. Применительно к сфере управления данными эти термины часто используют как синонимы, но во многих случаях значения различают[27][28]. Понять разницу поможет экскурс в историю их происхождения.
В английском языке слово information появилось гораздо раньше, чем слово data, – в конце XIV века. Слово пришло из старофранцузского языка. Французские information, informateur – производные от informer – «осведомлять, сообщать, делать известным». Первоисточник – латинское informatio – «разъяснение, истолкование, сообщение». От in – «в, к, в направлении» + forma – «форма». Истоки слова «форма» неизвестны[29][30].
Во второй половине XV века за словом information закрепилось значение «переданные сведения, относящиеся к определенной теме». Сфера применения постепенно расширялась. В частности, в XX веке слово стало появляться в документальных источниках в связи с передачей телевизионных сигналов – с 1937 года, применением перфокарт – c 1944-го, анализом ДНК – с 1953-го. Термин «теория информации» (information theory) используется с 1950 года, «информационная технология» (information technology) – с 1958-го (впервые появился в журнале Harvard Business Review), «информационная революция» (information revolution) – с 1966-го, «информационная перегрузка» (information overload) – с 1967-го.
В русский язык слово «информация» пришло из западноевропейских языков при Петре I – в начале XVIII века (но в словарях появляется лишь во второй половине XIX века). Основные значения – «сообщения, сведения, пояснения».
Что же касается слова data, то оно в английском языке стало использоваться (в значении, близком к сегодняшнему) в 1640-х годах – более чем на два столетия позже слова information.
Слово data произошло от латинского datum – «данная вещь» (от латинского dare – «давать»). Оно применяется как во множественном, так и в единственном числе, однако в научной литературе для единственного числа может использоваться термин datum.
1640-е годы – время начала Английской гражданской войны, открывшей путь к промышленной революции XVIII–XIX веков. Одновременно это было время осуществления первой научной революции и возникновения классической европейской науки. Слова data и datum в значении «данные или предоставленные факты» впервые появились в работах английского священника Генри Хаммонда (Henry Hammond), который, как и многие представители его профессии в то время, участвовал в формировании основ классической науки[31][32].
Начиная с работ Хаммонда слово information стало все чаще и чаще дублироваться словом data, чему способствовала научная революция, наступление «Века разума» (The Age of Reason) и эпохи Просвещения. Появилось (благодаря быстрому распространению книгопечатания, изобретенного Гуттенбергом в 1450 году) большое количество книг по уже существовавшим и вновь появляющимся отраслям науки. Таким образом, был создан и активно обрабатывался огромный объем совместно используемых сведений. Для обозначения таких сведений, предоставляемых для обсуждения и осмысления, начал применяться термин data (сначала в классическом значении – «факты, данные в качестве основы для вычислений при решении математических задач»), более подходящий в данном случае, чем термин information[33].
Необходимо отметить еще одно важное слово, появление которого оказало существенное влияние на дальнейшее распространение термина «данные». В 1798 году Джон Синклер[34] в своем «Статистическом отчете о Шотландии» ввел в английский язык термин «статистика». По определению Синклера, статистика – это собрание фактов, которые совершенно не обязательно должны были быть представлены (и даже в основном не были представлены) в числовом виде. Однако с 1829 года слово statistics стало употребляться в английских документальных источниках в более строгом значении – «собранные и классифицированные числовые данные». С этого момента изучение любого предмета стало сопровождаться проведением всеобъемлющих подсчетов[35].
Широкое распространение статистических методов привело к тесной смысловой привязке термина data к термину statistics. В 1897 году в документальных источниках на английском языке слово data стало использоваться в новом значении – «факты в числовом виде, собранные для дальнейшего использования».
В XX веке спектр значений cлова data существенно расширился.
В 1946 году появилось значение «передаваемая и хранимая информация, с помощью которой осуществляется выполнение компьютерных операций»[36].
Стали использоваться новые термины: «обработка данных» (data processing) – с 1954 года, «база данных» (database) – с 1962 года, «ввод данных» (data entry) – с 1970 года[37].
В русском языке слово «данные» – производное от «дать», «давать». Родственно древнеиндийскому слову datis – «дар». Данные – то, что дано, найдено. В толковом словаре Даля «данныя, данности – известное, бесспорное, очевидное, верное, все, что служит основанием для какого-либо вывода, расчета, заключения»[38]. В энциклопедическом словаре Брокгауза и Ефрона приведено следующее определение: «В вопросах математики данные суть величины, значения которых известны или предполагаются известными; зная их, требуется в рассматриваемом вопросе определить искомые неизвестные величины.
Данные (Δεδόμενα) есть заглавие одного из сочинений Эвклида, составляющего продолжение его “Элементов”. Можно указать несколько изданий этой книги: Гарди в 1625 году с греческим текстом и Баррова в 1659 году Эвклид называет данным все то, что на основании теорем, заключающихся в элементах, непосредственно следует из условий задачи. Например, если проводим из данной точки прямую, касательную к данному кругу, то эта прямая есть данная по величине и положению»[39].
Приведем несколько современных определений.
Согласно «Оксфордскому словарю современного английского языка»[40]:
● Data: 1) Известные факты, используемые для вывода или расчета. 2) Числовые и нечисловые значения характеристик кого-либо (чего-либо), с которыми выполняет операции компьютер или какое-нибудь другое подобное устройство.
● Information: 1) a) Что-то, что было сообщено; знания. б) Элементы знаний; новости. 2) Обвинение или жалоба, поданная в суд и т. п.
Согласно «Новому словарю русского языка»[41]:
● Данные: 1) Сведения, факты, характеризующие кого-либо, что-либо, необходимые для каких-либо выводов, решений. 2) Свойства, способности, качества как условия или основания, необходимые для чего-либо.
● Информация: 1) Сообщение о положении дел где-либо, о состоянии чего-либо. 2) а) Сведения об окружающем мире и протекающих в нем процессах, воспринимаемые человеком или специальными устройствами. б) Обмен такими сведениями между людьми и специальными устройствами. в) Обмен сигналами в животном и растительном мире. 3) То же, что: информирование.
Все это позволяет понять разницу между понятиями «данные» и «информация» и очертить преимущественные сферы их применения.
Следует заметить, что здесь в отношении термина «информация» мы ограничиваемся его общепринятыми нестрогими определениями и не обсуждаем научные определения, используемые в теории связи, теории информации и кибернетике и связанные с понятием количества информации. Отметим только, что известны два основных сугубо научных подхода к определению этого термина[42].
Согласно первому, информация – это внешнее описание объекта, содержащееся в передаваемом сообщении. Количество информации определяется как мера неопределенности, снимаемой полученным сообщением. Такое представление в 1948 году ввел Клод Шеннон[43] в своей статье «Математическая теория связи», попутно предложив для обозначения наименьшей единицы информации использовать слово «бит».
Согласно второму подходу, информация не связывается с передаваемым сообщением. Она относится к объекту и есть мера его разнообразия. Автор этого представления – Уильям Эшби[44].
Указанные научные определения в дальнейшем в этой книге не используются, поскольку ценность информации слабо связана с ее количеством. Важность информации субъективна и зависит от цели ее потребителя. Все способы количественного определения ценности основаны на представлении о цели, достижению которой способствует полученная информация. Чем больше информация помогает достижению цели, тем более ценной она считается[45]. Массив информации объемом в сотни гигабайт может иметь колоссальную важность для одной организации и нулевую для другой.
Основываясь на приведенных сведениях, можно продолжить обсуждение вопросов, относящихся к ценности данных.
Как уже говорилось выше, применительно к сфере управления данными термины «данные» и «информация» часто используются как синонимы. Кроме того, как видно из приведенных выше определений, термин «информация» иногда заменяется термином «знания».
Всегда ли допустимо такое обобщение и не приводит ли оно к недоразумениям? В частности, к существенному недопониманию между участниками многочисленных проектов по внедрению различного рода информационных систем, а также между участниками их дальнейшей эксплуатации и пользователями. В том числе и по вопросам определения ценности данных.
Для ответа необходимо более подробно обсудить взаимосвязь понятий «данные» и «информация», а также соотнести их с понятиями «знания» (knowledge) и «мудрость» (wisdom).
27
DAMA International. DAMA-DMBOK: Data Management Body of Knowledge: 2nd Edition. Technics Publications, 2017. (Русский перевод: DAMA-DMBOK: Свод знаний по управлению данными. Второе издание / Dama International. – М.: Олимп-Бизнес, 2020.)
28
Laney D. B. Infonomics: How to Monetize, Manage, and Measure Information as an Asset for Competitive Advantage; Routledge; 1st edition, 2017. (Русский перевод: Д. Лейни. Инфономика: информация как актив: монетизация, оценка, управление. – М.: Точка, 2020. – [Библиотека «Айтеко»].)
32
В частности, Хаммонд перевел на английский язык ряд сочинений французского ученого и философа Блеза Паскаля.
34
Сэр Джон Синклер (Sir John Sinclair) – шотландский политический деятель и экономист, первый президент Совета сельского хозяйства Шотландии.
36
В это время в США проводились работы по созданию первого в мире лампового компьютера, в ходе которых была предложена и реализована знаменитая «архитектура фон Неймана», основанная на принципе совместного хранения команд и данных в компьютерной памяти и применяемая сегодня в подавляющем большинстве вычислительных машин.
40
Oxford Dictionary of Current English / Edited by Della Thompson: 2nd Edition, Oxford University Press, 1993.
41
Ефремова Т. Ф. Новый словарь русского языка. Толково-словообразовательный. В 2 т. – М.: Русский язык, 2000.
42
Шамис А. Л. Модели поведения, восприятия и мышления: курс лекций. – М.: Интуит НОУ, 2016. – URL: https://intuit.ru/studies/courses/2191/423/info.
43
Клод Шеннон (Claude Elwood Shannon) – выдающийся американский математик, основатель математической теории информации.
44
Уильям Эшби (William Ross Ashby) – английский психиатр, крупный теоретик кибернетики.
45
Чернавский Д. С. Синергетика и информация (динамическая теория информации). 2-е изд., испр. и доп. – М.: Едиториал УРСС, 2004.