유니코드의 채택은 다국어 지원 및 다양한 문자 집합 간의 상호 운용성을 향상시켰으며, 현대의 소프트웨어와 통신에서 널리 사용되고 있다고 한다
유니코드(Unicode)는 전 세계의 모든 문자를 컴퓨터에서 일관되게 표현하고 다룰 수 있도록 설계된 국제 표준이다. 기본적으로 각 문자에 대해 고유한 코드 포인트(숫자)를 할당하여 표현한다. 이는 서로 다른 언어 및 문자 체계 간의 상호 운용성을 증가시키는 데 기여한다.
UTF-8, UTF-16, UTF-32 등 인코딩: 유니코드 코드 포인트를 실제로 저장하고 전송하는 방법으로 여러 가지 인코딩이 사용된다. 대표적으로 UTF-8, UTF-16, UTF-32 등이 있다. 각 인코딩 방식은 코드 포인트를 비트로 어떻게 나타낼지에 대한 규칙을 정의함.
UTF-8: 가장 널리 사용되는 유니코드 인코딩 중 하나다. 가변 길이 인코딩 방식으로, 영어와 같은 기본 ASCII 문자는 1바이트로 표현하고, 다국어 문자는 2바이트 이상으로 표현한다.
UTF-16, UTF-32: 각각 16비트와 32비트로 고정 길이 인코딩을 사용한다. UTF-16은 대부분의 문자를 2바이트로 표현하고, UTF-32는 모든 문자를 4바이트로 표현한다.
이모지 및 특수 문자: 유니코드는 다양한 이모지 및 특수 문자도 포함하고 있어, 다양한 텍스트 기반의 표현을 가능하게 한다.
# < 유니 코드 프로그램 >
- 유니 코드(unicode)는 전 세계의 모든 문자를 표현하기 위한 표준 인코딩 체계
- 유니코드 프로그램 : 언어, 문자 , 특수 기호 등의 표준화
## 문자열 결합하기
string1 = "파이썬(pyhon)"
string2 = " 재미있어요"
string3 = "!!!"
print(string1 + string2 + string3)
# 문자열로 합치기 위해 인코딩후 합치고 다시 디코딩하여 보여준다.
파이썬(pyhon) 재미있어요!!!
### 문자열을 UTF - 8 로 인코딩하기
text = "안녕하세요"
encode_text= text.encode("utf-8")
print(encode_text)
b'\xec\x95\x88\xeb\x85\x95\xed\x95\x98\xec\x84\xb8\xec\x9a\x94'
### 문자열을 UTF-8로 디코딩하기
decode_text = encode_text.decode("utf-8")
decode_text
'안녕하세요'
'파이썬' 카테고리의 다른 글
메모리 절약 - 이터레이터 (1) | 2023.11.16 |
---|---|
클로저와 데코레이터 (3) | 2023.11.14 |
도서 입고/대출반납 관리를 위한 키오스크 파이썬 프로그램 실습 (3) | 2023.11.13 |
파이썬 class 클래스 (1) | 2023.11.10 |
파이썬은 객체지향 언어인가 절차지향 언어인가? (3) | 2023.11.09 |