Читать книгу Информатика и ИТ. Нейросети. - - Страница 7

Глава 3
Представление информации в компьютере
Компьютерное представление текстовой информации

Оглавление

Текстовые данные являются важнейшим источником информации. Для записи слов человечеством были изобретены буквы, для указания оттенков речи – знаки препинания. Все это – символы, символьный способ хранения изначально дискретен, и способ компьютерного представления сводится к кодированию символов численным способом.

Все используемые способы представления символов в памяти компьютера, так или иначе, сводятся к нумерации символов алфавита и хранения полученных кодов как целых чисел. Этому коду драйвер видеокарты ставит в соответствие начертание символа (тем или иным шрифтом).

Такое кодирование производится размещением кодовых таблиц в оперативной памяти компьютера, по которым каждому символу ставится в соответствие двоичный код.

При кодировании языков, использующих алфавитную (не иероглифическую) письменность, достаточно 127 символов (в английском языке 26 букв +26 прописных «заглавных» +10 цифр + знаки препинания и арифметические знаки). Следовательно, для кодировки достаточно по 7 бит на каждый символ, этот принцип использует самая распространенная система кодирования латиницы – ASCII (American Standard Code for Information Interchange – американский стандартный код для обмена информацией). Код ASCII был разработан в 60-х годах XX века для любых видов передачи информации (телеграфа, телетайпа) и поэтому в нём, кроме информационных символов, используются символы-команды для управления связью. Эти символы: Начало текста, Конец текста, Звуковой сигнал, Горизонтальная табуляция и т. д. ныне вышли из употребления. Их коды являются служебными и трактуются большинством форматов как управляющие команды. Они занимают первые 31 позиции в таблице.

Таблица 3.1.

Таблица символов ASCII (128 – 255)


С 1981 г. в таблице ASCII для представления 1 символа используется 1 байт, т.е. таблица может описывать 28=256 символических кодов.

Коды с десятичными номерами 0—127 образуют основную страницу таблицы. В основной странице располагаются управляющие команды для принтеров (0—31 – возврат каретки, перевод строки и т.д.), затем спецсимволы (#$%&*@ пр.), цифры и латинские буквы, прописные и строчные.

Коды с номерами 128—255 (табл. 3.1) отданы под знаки национальных алфавитов и символов псевдографики (псевдографика широко использовалась в 80-е годы). Вид символов, имеющих значение кода больше 127, зависит от выбранного шрифта.

С распространением компьютеров, программных продуктов и использования информационных ресурсов по миру выяснилось, что во многих странах Юго-Восточного региона 128 кодов под национальные символы не хватает, и в 1991 г. был принят стандарт ISO-10646-1 (иначе UNICODE-3). Для этого стандарта на кодирование символа отводится 3 байта.

В Юникоде первые 128 символов тоже совпадают с соответствующими символами ASCII. Далее размещены основные алфавиты современных языков. В целом, UNICODE-3 описывает алфавиты всех известных (в том числе и «мертвых» языков; в кодировку внесены все математические и иные научные, и символьные обозначения, и даже придуманные языки – письменность эльфов и Мордора.

В современных компьютерах используется укороченная, 16-битовая версия UNICODE. По этой системе каждый символ кодируется двухбайтовым числом, следовательно, таблица описывает 216=65536 кодов, этой емкости вполне хватает для алфавитов современных широко используемых языков. Текстовые документы, созданные по такой таблице кодировки, имеют в два раза больший объем, по сравнению с кодировкой ASCII, но при современных технических средствах это не представляет особых проблем и затруднений.

Существуют и другие таблицы кодирования.

UTF (Unicode Transformation Format) – применяется в UNIX-подобных операционных системах, кодировка с переменным количеством байт/символ.

CP1251 – «Code Page 1251» – однобайтовая кодовая страница кодировки ОС Windows

Для представления русского варианта кириллицы были разработаны несколько кодовых таблиц, наиболее распространенной была КОИ-8 (Код Обмена Информацией, 8-ми битный).

Информатика и ИТ. Нейросети.

Подняться наверх