AI/Do It 공부단_자연어처리
-
[2일차] 문장을 작은 단위로 쪼개기AI/Do It 공부단_자연어처리 2023. 9. 11. 09:31
2-1. 토큰화(Tokenization)란? 2-2. 바이트 페어 인코딩이란? 2-3. 어휘 집합 구축 2-4. 토큰화하기 ========== 2-1. 토큰화(Tokenization)란? # 토큰화 - 문장을 토큰 시퀀스로 나누는 과정 - 문자, 단어, 서브워드 등 세 가지 방법이 있음. - 문자 단위 토큰화는 어휘 집합의 크기가 매우 커질 수 있는 단점이 있고, 단어 단위 토큰화는 각 문자 토큰이 의미 있는 단위가 되기 어려운 단점이 있음. - 대표적인 서브워드 단위 토큰화는 바이트 페어 인코딩이 있음. 2-2. 바이트 페어 인코딩 # GPT는 BPE방식을 쓰고, BERT는 BPE와 유사 방식인 워드피스(wordpiece)를 토크나이저로 사용함. # 바이트 페어 인코딩..
-
[1일차] 처음 만나는 자연어처리AI/Do It 공부단_자연어처리 2023. 9. 8. 09:17
[ 1일차(처음 만나는 자연어처리) 목록 ] 1-1. 딥러닝 기반 자연어 처리 모델 1-2. 트랜스퍼 러닝 1-3. 학습 파이프라인 1-4. 개발 환경 설정 ========== 1-1. 딥러닝 기반 자연어 처리 모델(p.12 ~ 16) 1) 이론 # 기계의 자연어 처리: 입력 > 모델(함수) > 출력(확률) - 예시: [ 입력(자연어) > 출력(확률) > 후처리 ] 재미없는 편인 영화에요 > [0.0, 0.3, 0.7]: 긍정, 중립, 부정 > 부정(negative) - 딥러닝도 모델! (Hidden layer를 사용하는 모델) - 모델을 만드려면 데이터가 필요하며, 이 데이터는 라벨링(labeling)으로 확보 => training (labeling된 데이터의 패턴을 모델이 익히게 함) - 자연어 처리..