Как стать автором
Обновить

Кодировки must die

Время на прочтение 1 мин
Количество просмотров 1.5K
йНДХПНБЙХ ОПЕДЯРЮБКЧР ЯНАНИ НДМН ХГ МЮХЛЕПГЕИЬХУ НПСФХИ АНПЭАШ Я ПСМЕРНЛ.

«KOI8», — подумал Штирлиц.

Как подсказал Яндекс, в самом полном словаре иероглифов корейского языка, подготовленном около тысячи лет назад, было учтено около 53 тысяч знаков. Тяжело им, наверно, корейцам. В русском же языке другая проблема: всего 33 буквы, но зато кодировок… кто-то их считал? Я нет. В опере 4, файерфокс предлагает на выбор 7.

Не буду вдаваться в историю вопроса и копать, какой катаклизм породил какую из русских кодировок, скажу лишь только основной вывод, который я сделал для себя из этого безобразия: национальные кодировки — это зло. Рудимент, который Интернету (а в данном случае именно с большой буквы) следует отбросить за ненадобностью. Так и хочется ляпнуть «Да здравствует Великое Перекодирование Интернета в UTF-8!» :-)

Где же искать корень зла? Взглянем на протокол HTTP. Итак, что мы видим? Заголовки, строка запроса GET и данные POST кодируются в формате «url-encoded», который, в свою очередь, базируется на символах US-ASCII.

Легко представить, насколько приятнее было бы видеть адреса страниц вида habrahabr.ru/blog/Хабраблог, закодированные в UTF-8.
Теги:
Хабы:
+17
Комментарии 123
Комментарии Комментарии 123

Публикации

Истории

Ближайшие события

Московский туристический хакатон
Дата 23 марта – 7 апреля
Место
Москва Онлайн