Читать книгу Блокчейн - Александр Цихилов - Страница 6
Часть I
Как устроен блокчейн
Хеширование информации
ОглавлениеИнструмент хеширования данных является важной и неотъемлемой частью технологии блокчейн. Хеширование используется для создания адресации в блокчейн-системах, для формирования цифровой электронной подписи сообщений, а также для добычи криптомонет (так называемого «майнинга») в некоторых блокчейн-проектах, базирующихся на принципе «доказательства работы». Прежде чем рассматривать вышеупомянутые элементы блокчейн-систем, нам потребуется разобраться с тем, что же все-таки такое хеширование данных и на основе каких принципов эта процедура работает.
Начнем с определения. Хеширование – это метод преобразования набора данных произвольного размера в стандартизированную строку фиксированной длины при помощи специального алгоритма. То есть если взять какой-то набор данных, например, весь текст этой книги, то можно создать его цифровой отпечаток длиной, скажем, десять символов. При этом мы должны определить точный алгоритм преобразования входных данных и использовать его без изменения для любых других данных произвольного размера, получая на выходе стандартную строку в десять символов. Еще говорят, что в таком случае используется «детерминированный алгоритм», потому что он всегда выдает предопределенный результат. Фактически получаемый результат должен стать уникальным отображением преобразуемых входных данных. Для этого мы должны создать такой алгоритм преобразования, который ни при каких обстоятельствах не допустит получения одинакового результата преобразования для разных входящих наборов данных. То есть не создаст так называемых «коллизий». При этом малейшее изменение во входных данных, даже изменение одного их бита, должно видоизменять результирующий хеш на выходе до неузнаваемости. Вот пример работы одного из самых простых алгоритмов хеширования (SHA-1), где прообразами хешей являются два варианта написания английского слова «децентрализация», при этом во втором слове изменена всего лишь одна буква:
Как видно из полученных результатов, второй хеш не имеет ничего общего с первым, хотя разница в исходных прообразах минимальна. Читатель, вероятно, задастся вопросом: а зачем вообще это все нужно? На самом деле хеширование – это исключительно полезная функция, которая довольно широко применяется в компьютерных технологиях.
Представим себе ситуацию, что нам необходимо передать по каналам связи значительный объем данных, в которых при передаче по тем или иным причинам могут возникать помехи и искажения. Как нам проверить, дошли ли до конечного получателя данные в исходном виде? Пока мы не сравним каждый бит исходной информации с полученным, мы не сможем с уверенностью сказать, что передача данных прошла без ошибок. А что, если по пути следования в данные вмешался кто-то посторонний и намеренно исказил информацию? А как быть, если объем информации измеряется гигабайтами? Процесс сравнения двух огромных информационных блоков может занять значительное время. Не проще ли к передаваемому блоку данных приложить короткий уникальный «цифровой отпечаток», созданный на базе общеизвестного алгоритма хеширования? Тогда при получении мы можем еще раз запустить этот же самый алгоритм, подав ему на вход полученные данные, и затем просто сравнить результирующий хеш с тем, который был приложен к передаваемым данным. Если они в точности совпадут, значит, передача прошла без искажений, и мы имеем на руках данные, полностью аналогичные исходным. Таким образом мы проверяем целостность данных. Популярным вариантом использования алгоритма подобной проверки является получение значения так называемой «контрольной суммы», расчет которой базируется на алгоритме хеширования входного блока данных.
Рассуждая логически, мы приходим к пониманию, что совершенно невозможно преобразовать большой блок данных в исключительно малый без потерь исходной информации. И это действительно так. Алгоритм хеширования представляет собой одностороннюю математическую функцию, результат действия которой практически невозможно обратить в исходные данные до преобразования. То есть вычислительно из хеша чрезвычайно сложно получить его прообраз. Теоретически это возможно осуществить только последовательным перебором вариантов – при помощи так называемого метода «грубой силы». Этот метод базируется на принципе «зашифруй и сравни»: некие предполагаемые исходные данные хешируются и сравниваются с имеющимся хешем. Если эти два хеша не совпали, значит, данный предполагаемый прообраз нам не подходит. Меняем его и хешируем снова – и так далее до бесконечности, пока хеши вдруг неожиданно не совпадут. Только тогда мы можем говорить о том, что мы «расшифровали хеш», но количество вариантов, которое нам необходимо перебрать, чтобы добиться такого результата, измеряется, без преувеличения, астрономическими величинами.
Данный метод, кстати, широко используется для защиты хранимых секретных паролей на различных серверах. Размещать пароли пользователей на интернет-серверах в открытом виде явно небезопасно – их могут похитить злоумышленники и затем попытаться нанести системе и ее участникам материальный ущерб. Но если пароли хранятся не в открытом виде, а в виде хешей, то задача несанкционированного доступа значительно усложняется. Если пароль вводит его владелец, то система хеширует пароль и сравнивает с хранимым хешем пароля для данного пользователя. Если они совпали, значит, пароль введен верный, и система открывает пользователю доступ. Если хеши не совпадают – пароль неправильный. А наличие у злоумышленника украденного хеша пароля задачу ему отнюдь не упрощает, поскольку ему необходимо восстановить исходный пароль методом масштабного перебора вариантов. Понятно, что чем длиннее исходный пароль, тем больше максимально возможных вариантов его перебора. Поэтому для получения исходного пароля необходимо задействовать исключительные вычислительные мощности, что в конечном итоге отражается на общей стоимости атаки, которая может обойтись дороже, чем возможная материальная выгода от подбора конкретного пароля.
Еще один популярный способ использования алгоритмов хеширования применяется в так называемых торрент-трекерах. Торренты – это технология обмена файлами, как правило, медийного характера (в подавляющем большинстве – видео). Сама технология имеет гибридную модель, когда торрент-файлы, содержащие техническую информацию, распространяются централизованно через специальные торрент-трекинговые порталы. При этом непосредственный обмен основными файлами происходит децентрализованно, через организацию прямого соединения между «сидерами» – теми, кто отдает файлы, и «личерами» – теми, кто их получает. В силу объема передаваемой по сети интернет информации (а иные видеофайлы могут иметь объем, измеряемый гигабайтами) их передача осуществляется фрагментами. Задача принимающей стороны – связаться с различными отправителями фрагментов одного и того же файла и получить на свое устройство все его части.
Конечная цель – собрать в правильном порядке из этих кусочков исходный файл большого объема так, чтобы целостность всех данных не пострадала и медийный проигрыватель не выдал ошибку при попытке запустить файл для просмотра. Одна из основных процедур данной технологии – постоянное сравнение значительных блоков данных с целью контроля их целостности и правильной идентификации их фрагментов. Вот здесь на помощь и приходит функционал хеширования. Именно по хешам как целых файлов, так и их фрагментов осуществляется идентификация соответствия блоков данных именно тем, которые были запрошены. И если все хеши совпадают, значит, в итоге мы гарантированно «склеим» нужный нам файл без ошибок. Поэтому именно технология хеширования позволяет быстро и надежно сравнивать различные блоки данных и гарантировать их целостность при передаче.
Наконец, технология хеширования активно используется для ускорения поиска данных. Для этого формируются так называемые «хеш-таблицы», которые содержат хеши различных информационных блоков. Их сортируют в определенном порядке, чтобы при осуществлении поиска можно было быстро найти данные по их хешам, обращаясь сразу в нужный раздел вместо масштабного поиска по всей базе.
Теперь рассмотрим вопрос, какие математические и логические операции используются для вычисления хешей. Алгоритмов хеширования достаточно много – от относительно простых до достаточно затейливых. Обычно при создании математической модели алгоритма преследуются цели усложнения задачи обратного восстановления прообраза из хеша и расширения максимально возможного диапазона получаемых из прообраза хешей. Это необходимо для того, чтобы вероятность появления коллизий, то есть получения одинаковых хешей из двух различных прообразов, составила исключительно малую величину. Понятно, что с увеличением разрядности (размера) хеша вероятность появления коллизий экспоненциально уменьшается. Однако в ряде случаев требуется решить задачу для хешей относительно небольших размеров, поскольку это влияет на совокупный объем хранимой информации и, как следствие, на стоимость этого хранения.
В качестве примера работы алгоритмов хеширования приведем несколько наиболее популярных процедур, в том числе и тех, которые используются в различных проектах, базирующихся на технологии блокчейн – таких, как, например, Bitcoin (SHA-256) или Ethereum (SHA-3). Данные алгоритмы состоят из определенного количества шагов (итераций), на каждом из которых с данными совершаются какие-либо логические операции из следующего набора.