반응형

한글의 인코딩

  • 조합형
    • 초성, 중성, 종성의 조합으로 표현
    • 다른 문자체계들과 호환안되는 단점
  • 완성형
    • 한글자를 독립적으로 보고 각 글자에 코드를 부여
    • 조합형의 단점때문에 완성형이 표준으로 채택
    • EUC-KR
      • KS C 5601(완성형, 이후 KS X 1001로 개칭됨)이라는 코드에 기반함
      • 사용빈도가 높은 2350자만 지원해서 한계가 있음
    • CP(Code Page) 949
      • 한국어판 Microsoft Windows의 기본 코드 페이지로 EUC-KR의 2350 + 8822자를 더 추가함
      • 통합완성형, 확장완성형, MS에서 개발했기 때문에 ms949, windows-949등으로도 불림
    • unicode
      • unicode1.0
        • KS C 5601에 포함된 완성형 2,350자 한글을 지원
      • unicode 1.1
        • KS C 5657(이후 KS X 1002)에 포함된 1,930자 및 중국에서 요청한 6글자를 포함한 2,376자를 추가해 총 6,656자가 수록
        • 한 번에 일괄적으로 추가되지 않았고 빠진 글자들이 단계별로 추가되었기 때문에 배열 순서가 엉망이고 지원하는 플랫폼도 별로 없어 잘 사용되지 못함
      • unicode2.0
        • 완성형 11,172자(가, 각, 갂, 갃, …, 힠, 힡, 힢, 힣)와 조합형 한글 낱자가 모두 수록되어 있어 현대 한글과 옛한글 모두 완벽하게 표현가능
        • 기존1.1에 있던 한글을 삭제후,가나다순으로 새 영역에 배당, but 한글 재배당 때문에 unicode 1과 2는 호환이 안됨

unicode

  • 전 세계의 모든 문자를 다루도록 설계된 표준 문자 전산 처리 방식
  • 유니코드 문자의 경우 해당 글자의 코드를 표기할 때 U+(16진수 숫자, 주로 4자리)라고 쓴다. 예를 들면 한글 '가' 자는 유니코드에서 16진수로 AC00(10진수의 44032)라는 코드 넘버를 가지는데, 이것을 U+AC00이라고 적음

unicode의 encoding

  • 유니코드는 각 글자에 숫자를 배당하는 방식, 규격이고 인코딩은 유니코드 숫자를 저장하는 방식, 표현
  • UTF-8
    • 가장 많이 사용되는 가변 길이 유니코드 인코딩
    • https://namu.wiki/w/UTF-8
    • UTF-8로 표현 가능한 길이는 최대 6바이트지만 다른 인코딩과의 호환을 위해 4바이트까지만 사용한다. 그래서 한 글자가 1~4바이트 중 하나로 인코딩될 수 있으며, 1바이트 영역은 아스키 코드와 하위 호환성을 가진다. 아스키 코드의 0~127까지는 UTF-8로 완전히 동일하게 기록된다. 어차피 유니코드는 U+10FFFF까지만(10진법으로는 1,114,111) 이용하는데, UTF-8은 아래에 나와 있듯이 가변 바이트 길이를 선언하기 위해 꽤 많은 비트를 잡아먹고도 2,097,151까지 인코딩할 수 있기 때문에 4바이트만으로도 충분하고도 남는다.
 

UTF-8 - 나무위키

이 저작물은 CC BY-NC-SA 2.0 KR에 따라 이용할 수 있습니다. (단, 라이선스가 명시된 일부 문서 및 삽화 제외) 기여하신 문서의 저작권은 각 기여자에게 있으며, 각 기여자는 기여하신 부분의 저작권

namu.wiki

 

반응형

'etc' 카테고리의 다른 글

504 gateway time-out 에러 해결방법  (0) 2022.09.08
proxy/reverse proxy, web server, load balancer 개념  (0) 2022.09.08
app-ads.txt  (0) 2022.05.04
헷갈리는 것들  (0) 2019.03.15
Web Application Architecture 교육 (2019/03/11~03/15)  (0) 2019.03.11

+ Recent posts