Читать книгу Электронные издания - Владимир Вуль - Страница 13
Глава 2
Структура и элементы гипертекстовых документов
2.1. Общая характеристика и структура HTML-документа
ОглавлениеНа заре компьютеризации пользователям приходилось работать с простыми текстовыми редакторами, такими как WordStar, для которых информация, отображаемая на экране, отличалась от выводимой на бумагу с помощью принтера. В текст документа вставлялись специальные управляющие символы, которые не отображались на экране, но обеспечивали вывод на печать в нужном формате отдельных фрагментов документа. При форматировании одна группа символов определяла начало фрагмента, затем следовал текст, к которому применялось это форматирование, а после него следовали символы конца фрагмента. Так задавалась разрядка, курсив, полужирный шрифт и пр. Аналогичные способы применялись и при работе с первыми версиями СУБД (системы управления базами данных) dBase (например, dBase II), о чем автор может судить по своему личному опыту.
Тот же принцип положен в основу структуры HTML-документа, однако управляющие символы, которые здесь называются тэгами, определяют особенности отображения информации, выводимой уже не на принтер, а на экран монитора. Значительная часть таких тэгов используется парами: вначале открывающий тэг, затем объект управления, а в конце – закрывающий тэг. Такая конструкция называется контейнером, так как объект форматирования размещается внутри нее. Некоторые тэги принципиально не нуждаются в паре. Примером может служить тэг принудительного перевода строки. Тэг может включать в себя некоторые параметры (атрибуты), которые размещаются непосредственно после имени тэга. Если параметров несколько, то в качестве разделителей используются пробелы.
Для просмотра HTML-документов используют специальные программы, которые называются браузерами (Browser, т. е. средство просмотра – в дословном переводе). Такие программы нуждаются в графической оболочке. В частности, значительное число браузеров (Microsoft Internet Explorer, Netscape Communicator, Opera и др.) работают в среде Windows 95, 98 и 2000.
Популярность языка HTML росла вместе с развитием сети Интернет. Отсутствие в течение некоторого времени стандартов на язык HTML привело к тому, что некоторые браузеры отображали должным образом не все тэги, а в версиях различных фирм одни и те же тэги могли трактоваться неодинаково или даже не поддерживались. Широкое использование HTML-документов в сети Интернет привело к появлению международных стандартов на этот язык, называемых спецификациями языка HTML. Этой работой занялась широко известная организация World Wide Web Consortium (W3C). Первая из спецификаций, признанная большинством компаний-разработчиков, явилась HTML 2.0, представленная в конце 1995 г. Вскоре была выпущена предварительная (рабочая) версия спецификации 3.0, а в мае 1996 г. – проект спецификации HTML 3.2. После длительного обсуждения и исправления в январе 1997 г. эта спецификация стала официальной рекомендацией для разработчиков HTML-документов и браузеров. В декабре 1997 года официальной рекомендацией стала спецификация HTML 4.0, которая остается в действии до настоящего времени.
Основой спецификации HTML 4.0 стало отделение параметров описания документов от параметров представления отдельных его фрагментов на экране монитора. Такое разделение облегчает адаптацию языка к различным платформам и средам (Windows, UNIX, DOS и пр.) и упрощает процесс внесения изменений в документы. В соответствии с такой концепцией для описания документа следует использовать таблицу стилей, причем это понятие сходно с используемым в современных текстовых редакторах, таких как Word 97 или 2000. Использование же данных о форме представления документа вперемежку с содержанием самого документа не рекомендуется.
Спецификация HTML 4.0 отменяет ряд ранее использовавшихся тэгов. Отмена тэга означает, что этот тэг по-прежнему поддерживается браузерами, но его применение в современных документах не рекомендуется. В дальнейшем такие тэги могут быть переведены в разряд устаревших, которые уже могут не поддерживаться браузерами. Информация такого рода может быть получена на сайте http://www.w3.org/TR/.
Любой HTML-документ заключен в контейнер <HTML> и </HTML>.
Здесь и далее по тексту запись "контейнер <HTML> и </HTML>" означает, что это контейнер с открывающим <HTML> и закрывающим </HTML> тэгами. Аналогичен смысл записи и для других возможных тэгов.
Сам документ, как уже говорилось выше, представляет собой обычный текстовый файл. Его можно просматривать в DOS с помощью стандартных редакторов и средств просмотра текстовых документов, при этом вместе с самим текстом мы будем видеть и тэги. Структурно документ распадается на 2 части: заголовочную и основную, или тело документа. Первая часть находится внутри контейнера <HEAD> и </HEAD>, а основная часть – внутри контейнера <BODY> и </BODY>.
Единственный обязательный тэг, который используется в заголовочной части, —<TITLE>, причем он образует контейнер, внутри которого размещается текст заголовка. При загрузке документа в браузер текст заголовка загружается в первую очередь в окно заголовка браузера. Если текст заголовка достаточно информативен, пользователь в процессе поиска релевантных документов уже на этапе загрузки документа может определить, действительно ли ему нужен этот документ, а если не нужен, то сразу отказаться от его загрузки и перейти к загрузке следующего. Текст названия используется и при создании закладки для данного документа, с этой точки зрения также очень важна его информативность.
Релевантность (relevancy) – это мера, определяющая, насколько полно тот или иной документ отвечает критериям, указанным в запросе пользователя. Однако не все документы, признанные поисковой системой наиболее релевантными, будут таковыми по мнению пользователя.
Многие HTML-документы связаны друг с другом, и ссылки от одного документа на другие могут быть абсолютные и относительные, причем последние – формируются относительно того каталога, в котором расположен документ – источник ссылки. Абсолютные ссылки длинные, а относительные, хотя и короче, но перестают работать при перемещении основного документа. В HTML-документы можно включать сразу обе ссылки, чтобы связи между документами не нарушались в любых условиях.
Для формирования ссылок в заголовочной части используется тэг <BASE>, в котором используется один единственный параметр HREF (Hyper Reference – гиперссылка), в качестве значения которого указывается URL (Universal Resours Locator) – адрес файла, на который производится ссылка. Параметр HREF используется в том же качестве и в некоторых других тэгах, например, тэге-указателе ссылки (см. разд. 2.5). Адрес может быть локальным, т. е. задавать размещение файла в каталогах и подкаталогах на том же самом компьютере, или сетевым, например:
<BASE HREF="http://www.uprint.spb.ru/main.htm">
Для организации логической связи и соподчиненности электронных изданий может использоваться тэг <LINK> (Link – связь). В этом тэге могут использоваться 4 параметра: HREF, REL (от Relarion – отношение), REV (от Reverse – противоположный, обратный) и TYPE (тип). С помощью первого из них задается URL связанного с данным документом. Параметр REL определяет вид отношения между текущим и связанным с ним документом, а REV – обратное отношение (между другим и текущим документами). Последний параметр TYPE задает тип и параметры присоединяемой к документу таблицы стилей. Примеры тэга <LINK>:
<LINK REL="contents" HREF="(адрес)">
<LINK HREF="mailto: (адрес автора)" REV="made">
Другими значениями параметра REL могут быть bookmark (закладка), copyright (авторское право), glossary (глоссарий, словарь специальных терминов в конце книги), help (помощь). Значение made параметра REV является признаком обратного отношения. Другие его значения: autor (автор), editor (редактор), publisher (издатель).
Позднее в состав заголовочной части был добавлен специальный тэг <META>, с помощью которого задается метаинформация, связанная с данным электронным изданием, или атрибуты для ускоренного поиска. Частные случаи метаинформации – это имя автора, издателя, редактора, название издательства, время публикации и другие характерные признаки издания. Тэг <META> имеет 2 параметра: NAME, которым задается имя атрибута и CONTENT (содержание), определяющий значение этого атрибута. Например:
<META NAME="author" CONTENT="В. А. Вуль">
<META NAME="description" (описание) CONTENT="Электронные издания">
Вероятно, приведенные примеры не нуждаются в каких-либо комментариях. Итак, внутри контейнера <HEAD> и </HEAD>, ограничивающего заголовочную часть HTML-документа, обычно используется один контейнер <TITLE> и
</TITLE>, внутри которого размещается текст заголовка, и могут быть включены тэги <BASE>, <LINK> и <META>. Отметим, что HTML-документ, содержащий только заголовочную часть, будет нормально отображаться браузерами как пустой документ. Пример такого документа представлен на рис. 2.1.
Рис. 2.1. Пример отображения в браузере MS Internet Explorer пустого HTML-документа
А ниже показан соответствующий этому документу HTML-код:
<HTML>
<HEAD> <TITLE>Пустой документ </TITLE> </HEAD>
<BODY> </BODY>
</HTML>
Наличие пробелов между тэгами или внутри контейнеров никак не влияет на отображение HTML-документа.