AI/LLM

[기본-교육] token과 chunk

moviewine 2023. 9. 1. 16:26

"chunk"와 "token"은 자연어 처리(Natural Language Processing, NLP) 분야에서 중요한 개념입니다.

- 토큰(Token):

토큰은 문장 또는 텍스트를 작은 단위로 나눈 것을 말합니다. 이러한 단위는 보통 단어, 구두점, 숫자 등과 같은 텍스트의 기본 구성 요소를 나타냅니다.
예를 들어, "Hello, world!"라는 문장은 다음과 같은 토큰으로 나눌 수 있습니다: "Hello", ",", "world", "!".
토큰화는 텍스트를 이해 가능한 작은 조각으로 나누는 중요한 NLP 전처리 단계 중 하나입니다.

- 청크(Chunk):

청크는 토큰의 그룹이며, 이 그룹은 문장에서 의미 있는 단위를 나타내는 경우가 많습니다.
예를 들어, "New York City"라는 텍스트는 일반적으로 하나의 개체명(Entity)으로 인식되며, 이는 "New", "York", "City"라는 개별 토큰들의 청크입니다.
청크는 정보 추출, 문장 구조 분석 등과 같은 NLP 작업에서 중요하게 활용됩니다.

요약하면, 토큰은 텍스트를 작은 단위로 나눈 것이며, 청크는 이러한 토큰들의 그룹으로, 문장에서 의미 있는 정보를 나타낼 때 사용됩니다. 청크는 문맥을 고려하여 텍스트의 의미를 더 잘 이해하기 위해 유용하게 활용됩니다.