Как стать автором
Обновить

Кодировки must die

Время на прочтение1 мин
Количество просмотров1.6K
йНДХПНБЙХ ОПЕДЯРЮБКЧР ЯНАНИ НДМН ХГ МЮХЛЕПГЕИЬХУ НПСФХИ АНПЭАШ Я ПСМЕРНЛ.

«KOI8», — подумал Штирлиц.

Как подсказал Яндекс, в самом полном словаре иероглифов корейского языка, подготовленном около тысячи лет назад, было учтено около 53 тысяч знаков. Тяжело им, наверно, корейцам. В русском же языке другая проблема: всего 33 буквы, но зато кодировок… кто-то их считал? Я нет. В опере 4, файерфокс предлагает на выбор 7.

Не буду вдаваться в историю вопроса и копать, какой катаклизм породил какую из русских кодировок, скажу лишь только основной вывод, который я сделал для себя из этого безобразия: национальные кодировки — это зло. Рудимент, который Интернету (а в данном случае именно с большой буквы) следует отбросить за ненадобностью. Так и хочется ляпнуть «Да здравствует Великое Перекодирование Интернета в UTF-8!» :-)

Где же искать корень зла? Взглянем на протокол HTTP. Итак, что мы видим? Заголовки, строка запроса GET и данные POST кодируются в формате «url-encoded», который, в свою очередь, базируется на символах US-ASCII.

Легко представить, насколько приятнее было бы видеть адреса страниц вида habrahabr.ru/blog/Хабраблог, закодированные в UTF-8.
Теги:
Хабы:
Всего голосов 27: ↑22 и ↓5+17
Комментарии123

Публикации

Истории

Ближайшие события

Конференция «Я.Железо»
Дата18 мая
Время14:00 – 23:59
Место
МоскваОнлайн
Конференция «IT IS CONF 2024»
Дата20 июня
Время09:00 – 19:00
Место
Екатеринбург