1.6. Коди і символи

Файл, що містить гіпертекстовий WWW-документ, являє собою текстовий файл. “Всередині” комп'ютера сучасної архітектури і при передачі по мережах кожний символ тексту представляється у вигляді цілого числа, яке, в свою чергу, кодується комбінацією з восьми двійкових розрядів, званих бітами. Така комбінація з восьми біт, що обробляються ЕОМ як одне ціле, отримала назву байт. Кожний біт в байті може мати рівно два стани: “включений” і “вимкнений”, або “1” і “0”.

Легко пересвідчитися, що існує рівно 256 комбінацій з восьми біт, кожний з яких може бути зайнятий або нулем, або одиницею. Таким чином виходить, що вісьма бітами (тобто, одним байтом) можуть бути представлені числа, або коди, від 0 до 255 (тобто, від 00000000 до 11111111 в двійковій системі числення). Кожному коду можна поставити у відповідність певний текстовий символ, наприклад, букву або цифру, або керуючий символ, такий як повернення каретки, перехід на новий рядок і т. п. Щоб текст виглядав однаково на моніторах різних комп'ютерів, необхідний певний стандарт на відповідність кодів і символів, що представляються ними для текстової інформації. Такий стандарт, прийнятий в цей час на переважній більшості комп'ютерних систем, отримав назву American Standard Code for Information Interchange (ASCII, вимовляється як “аскі”). Цей стандарт охоплює лише коди від 0 до 127. У кодовій таблиці ASCII не знайшлося місця для багатьох спеціальних символів, що часто використовуються. Також, з буквених символів там присутні тільки символи англійського алфавіта. Щоб закодувати букви національних алфавітів, в тому числі російського, зберігши при цьому сумісність з таблицею ASCII, необхідно використати коди в діапазоні від 128 до 255. Ось тут-то і починаються складності.

Кодові таблиці для кодування букв російського алфавіта (кирилиця)

Існує досить багато різних кодових таблиць, співпадаючих в діапазоні кодів від 0 до 127 зі стандартом ASCII і використовуючих діапазон кодів від 128 до 255 для спеціальних символів і букв російського алфавіта. Серед них найбільш поширені наступні чотири:

1. Microsoft Windows Cyrillic code page 1251

Відома також як CP-1251 або Windows-1251. Найбільш широко застосовується в “русифікованих” системах Microsoft Windows 3.1, 95, 98 і NT.

2. KOI8-r

Базується на державному стандарті Коду Обміну Інформацією КОІ8 (ГОСТ 19768-74). Застосовується в основному на комп'ютерах з операційною системою UNIX. Прийнята за стандарт кодування російськомовних текстів при обміні по електронній пошті. Більшість WWW-серверів зберігають російськомовні документи в цьому кодуванні. У цей час є набори шрифтів для Microsoft Windows в кодуванні KOI8-r. Вони були розроблені спеціально для мережевих програм, працюючих під Windows.

3. CP-866 Microsoft/IBM code page 866

Відома також як “альтернативне кодування ГОСТа” (в деяких документах її означають Alt-GOST або alt). Застосовується в основному на персональних комп'ютерах IBM PC з операційною системою MS-DOS при роботі в текстовому режимі. Програми перегляду під DOS практично не використовуються (звичайно на IBM-сумісних машинах вони працюють під Microsoft Windows). Однак, ми згадуємо це кодування, оскільки текст WWW-документа можна створювати в текстовому редакторі, працюючому під DOS.

4. ISO-8859-5

Розташування російських букв в ній практично співпадає з так званим “основним кодуванням ГОСТа” (іноді можна зустріти її позначення як Main-GOST). Застосовується рідко, хоч і є міжнародним стандартом кодування російського алфавіта, зареєстрованим International Standards Organization (ISO).

Декілька особняком від вищепереліченого кодування стоїть кодування Unicode, яке, за задумом її розробників, що входять в так званий консорціум Unicode, повинне раз і назавжди вирішити проблему зберігання в текстових файлах символів будь-кого з існуючих на Землі систем писемності. На жаль, поки ще Unicode використовується вельми рідко.

При перенесенні файлів з текстами на російській мові з одного комп'ютера на інший, або навіть з однієї програми в іншу, досить часто виникає необхідність перекодування таких файлів. Для перекодування файлів використовують спеціальні програми.

Для читання документів на російській мові ви повинні встановити в програмі перегляду шрифт, що використовує одну з кодових таблиць, що містять букви російського алфавіта (кирилиця).

Узгодження кодування сервера і програми перегляду

Якщо спробувати прочитати російськомовний WWW-документ, закодований за допомогою однієї кодової таблиці, програмою перегляду, що використовує шрифти, розраховані на іншу таблицю, то російський текст буде виглядати як безглуздий набір знаків. Наприклад, слово Привіт!, вислане сервером в кодуванні KOI8-r, при використанні програмою перегляду шрифту в кодуванні Windows-1251 виглядає на екрані як рТЙЧіФ! Як же примусити сервер і програму перегляду настроїтися на яке-небудь одне кодування?

Іноді турботу про відповідність кодових таблиць сервера і програми перегляду бере на себе сервер. При цьому він повинен визначити кодування, на яке настроєна програма перегляду, і висилати документи саме в цьому кодуванні. Для автоматичного визначення використовується можливість протоколу HTTP 1.0 передавати в заголовку запиту перелік допустимих форматів документів і наборів символів MIME content-type і charset. З багатьох причин цей підхід досить часто не спрацьовує. У такому випадку автори документів, розміщених на сервері, часто вдаються до більш універсального прийому, пропонуючи читачеві з декількох гіперпосилань вибрати ту, яка вказує на потрібний документ в бажаному кодуванні.

Деякі програми перегляду уміють самі підстроюватися під кодування документа, що висилається сервером, якщо кодування правильно вказане в заголовку відповіді WWW-сервера в спеціальному полі charset, передбаченому протоколом HTTP 1.0. На жаль, багато які сервери не настроєні так, щоб додавати це поле автоматично.


Информация о работе «World Wide Web и HTML /Укр./»
Раздел: Иностранный язык
Количество знаков с пробелами: 62770
Количество таблиц: 1
Количество изображений: 2

Похожие работы

Скачать
156341
11
15

... в даній роботі, була опробована й досліджена в реальних умовах моєї професійної діяльності й показала свою працездатність і ефективність. 3. Розробка системи керування та актуалізації інформації web-сайту національного оператора Енергоринка   3.1 Вибір інструментарію для створення web-сайту та системи керування   Перед тим, як безпосередньо перейти до створення Web-сайту Національного ...

Скачать
33937
3
0

... Resourse Locator, уніфікований вказівник ресурсів), згідно з яким адреса найчастіше має такий формат: протокол://доменне і'мя//каталог/файл Р.1. Основи Web-програмування. Використання мови HTML   1.1.Базові елементи HTML   Елемент HTML Для позначення меж HTML-документу використовується подвійний тег < HTML >. Початковий тег < HTML >, у якого відсутні атрибути, розміщується на ...

Скачать
48778
0
0

... документа. Ще одною з очевидних переваг XML є можливість використання її в якості універсальної мови запитів до сховищ інформації. Сьогодні в глибинах W3C знаходиться на розгляді робочий варіант стандарту XML-QL (або XQL), що, можливо, у майбутньому складе серйозну конкуренцію SQL. Крім того, XML-документи можуть виступати в якості унікального засобу збереження даних, що містить у собі одночасно ...

Скачать
22762
0
4

текста, насыщенного изображениями, звуком, анимацией, видеоклипами и гипертекстовыми ссылками на другие документы. Можно работать на Web без знания языка HTML, поскольку тексты HTML могут создаваться разными специальными редакторами и конвертерами. Но писать непосредственно на HTML нетрудно. Возможно, это даже легче, чем изучать HTML-редактор или конвертер, которые часто ограничены в своих ...

0 комментариев


Наверх