Кодування символів

АЗБУКА МОРЗЕ

Одним із перших цифрових способів передачі інформації став код Морзе. Код Морзе — це нерівномірний телеграфний код, де спосіб кодування літер алфавіту, цифр та інших символів подано певною комбінацією «крапок» і «тире». За одиницю часу приймається тривалість однієї крапки, тривалість тире дорівнює трьом крапкам, пауза між елементами одного знака — одна крапка, між знаками в слові — 3 крапки, між словами — 7 крапок. Азбука, з якої формується зазначепий код, була названа па честь американського винахідника Семюела Морзе, який придумав її в 1838 році. Телеграф і радіотелеграф спочатку використовували азбуку Морзе, пізніше почали застосовз'вати код Водо та ASCII, які є більш зручними для автоматизації.

КОДУВАННЯ СИМВОЛІВ У КОМП'ЮТЕРНІЙ ТЕХНІЦІ

Символи тексту людина розрізняє за накресленням. Наприклад, кожен з нас швидко визначить у тексті літеру «а», яким би шрифтом її не було набрано. Якщо слідувати аналогії зі сприйняттям тексту людиною, то в комп’ютері потрібно зберігати зображення літер, потім з них складати слова і зберігати зображення рядків.

Зрозуміло, що цей спосіб неефективний, оскільки доведеться зберігати безліч зображень, хоча кількість літер, з яких їх складено, обмежена (це літери алфавіту тої мови, якою подано текст).

Тому для комп’ютерного подання текстової інформації застосовується інший спосіб: символи алфавіту кодуються двійковими числами, а текст подається у вигляді набору чисел — кодів символів, що його складають.

Щоб такий набір чисел можна було декодувати, слід знати, де закінчується і де починається код коленого символу, а для цього, як було показано на прикладі чисел, необхідно перед кодуванням визначити потрібну для кодування кількість розрядів. Толе яку довжину коду символу взяти, щоб закодувати всі символи, які можуть трапитися в тексті?

Якщо це двійковий код з довжиною 2 розряди, то з його допомогою можна б}'де закодувати алфавіт, що містить 4 символи, оскільки за цієї довжини коду існує чотири різні його комбінації. Двійковий код з довжиною З розряди дозволяє закодувати алфавіт, що містить 8 символів (рис. 1.6).

Код з довжиною 2 розряди
Код	Літера	Десяткове значення коду
00	А	0
01	Б	1
10	В	2
11	Г	3

Код з довжиною 3 розряди
Код	Літера	Десяткове значення коду
000	А	0
001	Б	1
010	В	2
011	Г	3
100	ґ	4
101	д	5
110	Е	6
111	Є	7

Рис. 1.6. Кодування символів двійковими кодами різної довжини

Прослідковусться така закономірність:

2 розряди — 2 • 2 = 4 = 2² символів;

3 розряди — 2 • 2 • 2 = 8 = 2³ символів;

4 розряди — 2 • 2 • 2 • 2 = 32 = 2‘ символів;

N розрядів — 2 • 2 • 2 • ... • 2 • 2 = 2*^у символів.

З допомогою двійкового коду завдовжки N розрядів можна закодувати алфавіт, що містить г'^символів.

Таким чином, щоб закодувати текст, слід обрати довжину коду, достатню для кодування потрібної кількості символів, і скласти таблищо, де буде вказано, який код якому символу відповідає. Такі таблиці вже складено, і називають їх наборами символів.

Таблиця 1.3. Символи з розширеного набору символів ASCII та їхні коди

Символ	Десяткове значення коду	Код	Символ	Десяткове значення коду	Код
пробіл	32	00100000	0	48	00110000
І	33	00100001	1	49	00110001
#	35	00100011	2	50	00110010
$	36	00100100	3	51	00110011
*	42	00101010	4	52	00110100
+	43	00101011	5	53	00110101
J	44	00101100	6	54	00110110
-	45	00101101	7	55	00110111
.	46	00101110	8	56	00111000
/	47	00101111	9	57	00111001
А	65	01000001	N	78	01001110
В	66	01000010	0	79	01001111
С	67	01000011	р	80	01010000
D	68	01000100	Q	81	01010001
Е	69	01000101	R	82	01010010
F	70	01000110	S	83	01010011
G	71	01000111	т	84	01010100
Н	72	01001000	и	85	01010101
І	73	01001001	V	86	01010110
J	74	01001010	W	87	01010111
К	75	01001011	X	88	01011000
L	76	01001100	Y	89	01011001
М	77	01001101	Z	90	01011010

Сьогодні найпоширенішими с набори символів ASCII, Unicode («юпі-код») і сумісні з ними. Фрагмент розширеного набору символів ASCII

наведено в табл. 1.3. У цьому наборі, як ви можете пересвідчитися, для кодування застосовують 8 розрядів. Розмір алфавіту, який можна закодувати з допомогою такого набору, вміщує 256 символів (пронумеровані десятковими цифрами від 0 до 255). Цього достатньо, щоб закодувати цифри, знаки пунктуації, латинські літери (великі й малі) та літери кирилиці (великі й малі).

Недолік такої таблиці кодування — неможливість закодувати текст, що містить фрагменти багатьма мовами, наприклад, англійською (латиниця), українською (кирилиця) і німецькою (латиниця та умляути).

Щоб усунути це обмеження, в 1991 році було запропоновано стандарт кодування Unicode, який дозволяє використовз'вати в текстах будь-які символи будь-яких мов світу. Загалом в Unicode для кодування символів відведено 31 розряд двійкового коду.

Використовуючи Unicode, закодовано всі алфавіти відомих мов, зокрема і «мертвих» (єгипетські ієрогліфи, писемність майя, етруський алфавіт). Для мов, що мають кілька алфавітів або варіантів написання (наприклад, японська, індійська), закодовано всі варіанти. В Unicode внесено всі математичні, хімічні, музичні та інші наукові символьні позначення. Потенційна ємність Unicode така велика, що наразі використов.усться лише незначний відсоток доступних кодів символів.

Перші 128 символів у стандарті Unicode збігаються з таблицею ASCII. Далі розміщено основні алфавіти сучасних мов. Вони містяться в першій частині таблиці, значення їхніх кодів не перевищують 2¹⁶ = 65536. Тому в с.учаспих комп’ютерах застосовується скорочена 16-розрядпа версія Unicode, яка називається базовою багатомовною площиною (Base Miltilingual Plane, BMP).

ОСОБЛИВОСТІ КОДУВАННЯ КИРИЛИЦІ

У наборі ASCII перші 32 коди (з 0 по 31) відведені для операцій (перенесення рядка, скасування попередньої операції, подавання звукового сигналу). Ці коди мають сприйматися пристроєм виведення як команди.

Наступні коди, з 32 по 127, є інтернаціональними і відповідають символам латинського алфавіту, цифрам, знакам арифметичних операцій та знакам пунктуації. Коди з 128 по 255 — національні, тобто в кодуваннях для різних мов тому самому коду відповідають різні символи.

Для українських і російських літер є кілька кодових таблиць (code pages), що різняться розташуванням символів. Найчастіше вам траплятимуться такі: KOI8-U, KOI8-R, Windows-1251, Code Page 866 (CP 866), ISO 8859. Тексти, створені з використанням однієї таблиці, неправильно

відображаються у разі використання іншої. Саме це с причиною того, що інколи в браузері замість тексту ви бачите беззмістовний набір знаків (рис. 1.7).

ВПРАВА 2

Рис. 1.7. Символи відображаються неправильно

Завдання. Ознайомитися з особливостями кодування тексту.

1. Запустіть програму Word, виберіть команду для вставлення символів у текст на вкладці Вставлення ► Символ ► Інші символи. Відкриється вікно, показане на рис. 1.8.

Рис. 1.8. Діалогове вікно для вставлення символів

2. Виберіть у списку Шрифт елемент (звичайний текст), а у списку 2’ елемент ASCII (дес.). Збільште вікно, як показано на рисунку.

3. Зверніть увагу, що у вікні обрано символ пробілу. Його код (32) відображається в нижньому правому куті вікна. Праворуч від поля з кодом розташовано список, у якому обирають таблицю символів і формат відображення значень їхніх кодів (десятковий чи шістнадцятковий).

4. Знайдіть у таблиці та клацніть символ 126 — після нього, окрім, знаків йдуть літери мов, у яких застосовується латиниця (німецька, голландська, фінська). Виберіть у списку таблиць елемент кирилиця (дес.). Набір символів після 126 символу змінився — у таблиці з’явилися літери кирилиці (рис. 1.9).

Рис. 1.9. Символи кирилиці в таблиці символів

5. Виберіть у списку з: таблицю Юнікод (шіст.). У верхній частині вікна праворуч з'явиться список Набір. Розгорніть його, ви побачите, які набори символів і літер закодовано в цій таблиці (рис. 1.10).

Рис. 1.10. Перелік наборів символів, закодованих у таблиці Юнікод

6. Відкрийте в браузері сторінку uk.wikipedia.org, що містить текст українською мовою. У контекстному меню сторінки виберіть команду Коди-ровка (Кодування) та інше кодування сторінки (наприклад, Западноев-ропейская (ISO)). Як зміниться її текст? Поверніть початкове кодування сторінки, обравши елемент Юникод (UTF-8).

Висновки

Для комп’ютерного подання текстової інформації символи алфавіту кодуються двійковими числами, а текст подасться у вигляді набору чисел — кодів символів, що його складають.

З допомогою двійкового коду з довжиною N розрядів можна закодувати алфавіт, що містить 2^Л символів.

Для кодування тексту створено таблиці, в яких вказано, який код якому символу відповідає, їх називають наборами символів.

Найпоширенішими с набори символів ASCII, Unicode та сумісні з ними.

Контрольні запитання та завдання

1. Який підхід до кодування запропонував свого часу Семюел Морзе?

2. Який підхід застосовано до кодування текстової інформації в комп’ютерних технологіях?

3. Яку назву мас стандартний набір, що складається з 256 символів?

4. Яку назву мас стандарт кодування, що дозволяє здійснити кодування всіх алфавітів відомих мов?

5. Чому па веб-сторіиці може неправильно відображатися текст?

Питання для роздумів

1°. Яку мінімальну довжину коду матиме повідомлення, подане за допомогою алфавіту з 65 символів?

2°. Чому азбука Морзе с нерівномірним кодом?

Завдання для досліджень

1. Підготуйте повідомлення про використання на практиці різних способів кодування текстової інформації.

2. Дізнайтеся, що таке стенографія і яке її призначення.

Це матеріал з підручника Інформатика 8 клас Казанцева

Категорія: Інформатика

Автор: admin от 19-12-2016, 20:02, Переглядів: 8164