Читать книгу Информатика и ИТ. Нейросети. - - Страница 7
Глава 3
Представление информации в компьютере
Компьютерное представление текстовой информации
ОглавлениеТекстовые данные являются важнейшим источником информации. Для записи слов человечеством были изобретены буквы, для указания оттенков речи – знаки препинания. Все это – символы, символьный способ хранения изначально дискретен, и способ компьютерного представления сводится к кодированию символов численным способом.
Все используемые способы представления символов в памяти компьютера, так или иначе, сводятся к нумерации символов алфавита и хранения полученных кодов как целых чисел. Этому коду драйвер видеокарты ставит в соответствие начертание символа (тем или иным шрифтом).
Такое кодирование производится размещением кодовых таблиц в оперативной памяти компьютера, по которым каждому символу ставится в соответствие двоичный код.
При кодировании языков, использующих алфавитную (не иероглифическую) письменность, достаточно 127 символов (в английском языке 26 букв +26 прописных «заглавных» +10 цифр + знаки препинания и арифметические знаки). Следовательно, для кодировки достаточно по 7 бит на каждый символ, этот принцип использует самая распространенная система кодирования латиницы – ASCII (American Standard Code for Information Interchange – американский стандартный код для обмена информацией). Код ASCII был разработан в 60-х годах XX века для любых видов передачи информации (телеграфа, телетайпа) и поэтому в нём, кроме информационных символов, используются символы-команды для управления связью. Эти символы: Начало текста, Конец текста, Звуковой сигнал, Горизонтальная табуляция и т. д. ныне вышли из употребления. Их коды являются служебными и трактуются большинством форматов как управляющие команды. Они занимают первые 31 позиции в таблице.
Таблица 3.1.
Таблица символов ASCII (128 – 255)
С 1981 г. в таблице ASCII для представления 1 символа используется 1 байт, т.е. таблица может описывать 28=256 символических кодов.
Коды с десятичными номерами 0—127 образуют основную страницу таблицы. В основной странице располагаются управляющие команды для принтеров (0—31 – возврат каретки, перевод строки и т.д.), затем спецсимволы (#$%&*@ пр.), цифры и латинские буквы, прописные и строчные.
Коды с номерами 128—255 (табл. 3.1) отданы под знаки национальных алфавитов и символов псевдографики (псевдографика широко использовалась в 80-е годы). Вид символов, имеющих значение кода больше 127, зависит от выбранного шрифта.
С распространением компьютеров, программных продуктов и использования информационных ресурсов по миру выяснилось, что во многих странах Юго-Восточного региона 128 кодов под национальные символы не хватает, и в 1991 г. был принят стандарт ISO-10646-1 (иначе UNICODE-3). Для этого стандарта на кодирование символа отводится 3 байта.
В Юникоде первые 128 символов тоже совпадают с соответствующими символами ASCII. Далее размещены основные алфавиты современных языков. В целом, UNICODE-3 описывает алфавиты всех известных (в том числе и «мертвых» языков; в кодировку внесены все математические и иные научные, и символьные обозначения, и даже придуманные языки – письменность эльфов и Мордора.
В современных компьютерах используется укороченная, 16-битовая версия UNICODE. По этой системе каждый символ кодируется двухбайтовым числом, следовательно, таблица описывает 216=65536 кодов, этой емкости вполне хватает для алфавитов современных широко используемых языков. Текстовые документы, созданные по такой таблице кодировки, имеют в два раза больший объем, по сравнению с кодировкой ASCII, но при современных технических средствах это не представляет особых проблем и затруднений.
Существуют и другие таблицы кодирования.
UTF (Unicode Transformation Format) – применяется в UNIX-подобных операционных системах, кодировка с переменным количеством байт/символ.
CP1251 – «Code Page 1251» – однобайтовая кодовая страница кодировки ОС Windows
Для представления русского варианта кириллицы были разработаны несколько кодовых таблиц, наиболее распространенной была КОИ-8 (Код Обмена Информацией, 8-ми битный).