한글 인코딩 관련 간단 정리
인코딩문자셋KSC5601CP949EUC-KR유니코드UTF-8
AI 요약
Beta이 글은 한글 인코딩과 문자셋의 관계를 명확히 정리합니다. 문자셋은 문자 코드 집합이며, 인코딩 방법은 이를 표현하는 방식입니다.
KSC5601과 CP949는 각각 다른 인코딩 방식을 가진 문자셋으로, EUC-KR과 CP949로 통칭되기도 합니다. KSC5601은 2바이트를 사용하며 2,350자의 한글을 표현하고, CP949는 마이크로소프트가 확장한 규격으로 11,172자를 표현합니다.
CP949는 표준을 위반하여 웹페이지에서 사용하면 문제가 될 수 있습니다. 유니코드는 UCS와 UTF-8, UTF-16, UTF-32 등의 인코딩 방법을 포함하며, 완성형 코드와 초성/중성/종성 분리 코드를 모두 지원합니다.
CP949는 코드 배열이 임의적이어서 정렬에 문제를 일으킬 수 있습니다.
이 글이 궁금하신가요?
원문 블로그에서 전체 내용을 확인해 보세요
원문 읽으러 가기

