전체 글
-
[2일차] 문장을 작은 단위로 쪼개기AI/Do It 공부단_자연어처리 2023. 9. 11. 09:31
2-1. 토큰화(Tokenization)란? 2-2. 바이트 페어 인코딩이란? 2-3. 어휘 집합 구축 2-4. 토큰화하기 ========== 2-1. 토큰화(Tokenization)란? # 토큰화 - 문장을 토큰 시퀀스로 나누는 과정 - 문자, 단어, 서브워드 등 세 가지 방법이 있음. - 문자 단위 토큰화는 어휘 집합의 크기가 매우 커질 수 있는 단점이 있고, 단어 단위 토큰화는 각 문자 토큰이 의미 있는 단위가 되기 어려운 단점이 있음. - 대표적인 서브워드 단위 토큰화는 바이트 페어 인코딩이 있음. 2-2. 바이트 페어 인코딩 # GPT는 BPE방식을 쓰고, BERT는 BPE와 유사 방식인 워드피스(wordpiece)를 토크나이저로 사용함. # 바이트 페어 인코딩..
-
[1일차] 처음 만나는 자연어처리AI/Do It 공부단_자연어처리 2023. 9. 8. 09:17
[ 1일차(처음 만나는 자연어처리) 목록 ] 1-1. 딥러닝 기반 자연어 처리 모델 1-2. 트랜스퍼 러닝 1-3. 학습 파이프라인 1-4. 개발 환경 설정 ========== 1-1. 딥러닝 기반 자연어 처리 모델(p.12 ~ 16) 1) 이론 # 기계의 자연어 처리: 입력 > 모델(함수) > 출력(확률) - 예시: [ 입력(자연어) > 출력(확률) > 후처리 ] 재미없는 편인 영화에요 > [0.0, 0.3, 0.7]: 긍정, 중립, 부정 > 부정(negative) - 딥러닝도 모델! (Hidden layer를 사용하는 모델) - 모델을 만드려면 데이터가 필요하며, 이 데이터는 라벨링(labeling)으로 확보 => training (labeling된 데이터의 패턴을 모델이 익히게 함) - 자연어 처리..
-
[고급-교육] LLM Papers & Github ListsAI/LLM 2023. 9. 7. 09:54
# Basic Sources https://github.com/mlabonne/llm-course # Foundation Model https://github.com/Beomi/KoAlpaca GitHub - Beomi/KoAlpaca: KoAlpaca: 한국어 명령어를 이해하는 오픈소스 언어모델KoAlpaca: 한국어 명령어를 이해하는 오픈소스 언어모델. Contribute to Beomi/KoAlpaca development by creating an account on GitHub.github.com # PEFT(Parameter Efficient Fine-Tuning) https://github.com/tloen/alpaca-lora GitHub - tloen/alpaca-lora: Instruc..
-
일반 상대성 이론Science & Engineering/Physics & Mathematics 2023. 9. 7. 09:10
# 출처: BARD 일반 상대성 이론은 알베르트 아인슈타인이 1915년에 발표한 중력의 상대론적 이론입니다. 뉴턴의 중력 법칙을 일반화한 이론으로, 중력을 시공간의 곡률로 설명합니다. 일반 상대성 이론의 기본 개념은 다음과 같습니다. * **등가 원리** 등가 원리란, 주어진 중력장에서 모든 입자는 질량, 부피, 전하 등 그 성질에 상관없이 똑같이 떨어진다는 원리입니다. 이 원리에 따르면, 중력은 물체에 가하는 힘이 아니라, 시공간의 곡률에 의해 생기는 현상입니다. * **시공간의 곡률** 시공간은 시간과 공간의 통합된 개념으로, 일반 상대성 이론에서 중력의 매개체 역할을 합니다. 중력이 강할수록 시공간은 휘어지고, 약할수록 휘어짐이 적습니다. * **중력파** 중력파는 중력의 전파를 나타내는 파동입니다..
-
[고급-모델] LLaMA & LLaMA2 소개AI/LLM 2023. 9. 1. 20:45
1. LLaMA code review # 출처: https://youtube.com/watch?v=jvYpv0VJBOA- YouTubewww.youtube.comGithub https://github.com/facebooksearch/llama 2. LLaMA2 code review # 출처: https://youtu.be/zN30JodATrU?si=bPgzd-KKhxQJfgjA Github # LLAMA Recipe 로 llama2를 돌리는 IDE 가이드 참조 # 저자의 한국어 fine-tuning model 참조
-
[기본-교육] token과 chunkAI/LLM 2023. 9. 1. 16:26
"chunk"와 "token"은 자연어 처리(Natural Language Processing, NLP) 분야에서 중요한 개념입니다. - 토큰(Token): 토큰은 문장 또는 텍스트를 작은 단위로 나눈 것을 말합니다. 이러한 단위는 보통 단어, 구두점, 숫자 등과 같은 텍스트의 기본 구성 요소를 나타냅니다. 예를 들어, "Hello, world!"라는 문장은 다음과 같은 토큰으로 나눌 수 있습니다: "Hello", ",", "world", "!". 토큰화는 텍스트를 이해 가능한 작은 조각으로 나누는 중요한 NLP 전처리 단계 중 하나입니다. - 청크(Chunk): 청크는 토큰의 그룹이며, 이 그룹은 문장에서 의미 있는 단위를 나타내는 경우가 많습니다. 예를 들어, "New York City"라는 텍스트는..