토큰

데이터
1분 읽기

LLM이 텍스트를 처리하기 위해 분할하는 최소 단위입니다.

다른 이름
Token토큰화

상세 설명

토큰(Token)은 LLM이 텍스트를 처리할 때 사용하는 최소 단위입니다. 영어에서는 대략 단어의 75% 정도가 하나의 토큰에 해당하며, 한글은 한 글자가 2-3토큰을 차지하는 경우가 많습니다. 토크나이저(Tokenizer)가 텍스트를 토큰으로 분할하며, BPE(Byte Pair Encoding) 등의 알고리즘이 사용됩니다. API 과금은 보통 입력/출력 토큰 수를 기준으로 하며, 컨텍스트 윈도우의 크기도 토큰 단위로 측정됩니다.

관련 용어

LLM컨텍스트 윈도우NLP