토큰화
-
[2일차] 문장을 작은 단위로 쪼개기AI/Do It 공부단_자연어처리 2023. 9. 11. 09:31
2-1. 토큰화(Tokenization)란? 2-2. 바이트 페어 인코딩이란? 2-3. 어휘 집합 구축 2-4. 토큰화하기 ========== 2-1. 토큰화(Tokenization)란? # 토큰화 - 문장을 토큰 시퀀스로 나누는 과정 - 문자, 단어, 서브워드 등 세 가지 방법이 있음. - 문자 단위 토큰화는 어휘 집합의 크기가 매우 커질 수 있는 단점이 있고, 단어 단위 토큰화는 각 문자 토큰이 의미 있는 단위가 되기 어려운 단점이 있음. - 대표적인 서브워드 단위 토큰화는 바이트 페어 인코딩이 있음. 2-2. 바이트 페어 인코딩 # GPT는 BPE방식을 쓰고, BERT는 BPE와 유사 방식인 워드피스(wordpiece)를 토크나이저로 사용함. # 바이트 페어 인코딩..