AI
-
[2일차] 문장을 작은 단위로 쪼개기AI/Do It 공부단_자연어처리 2023. 9. 11. 09:31
2-1. 토큰화(Tokenization)란? 2-2. 바이트 페어 인코딩이란? 2-3. 어휘 집합 구축 2-4. 토큰화하기 ========== 2-1. 토큰화(Tokenization)란? # 토큰화 - 문장을 토큰 시퀀스로 나누는 과정 - 문자, 단어, 서브워드 등 세 가지 방법이 있음. - 문자 단위 토큰화는 어휘 집합의 크기가 매우 커질 수 있는 단점이 있고, 단어 단위 토큰화는 각 문자 토큰이 의미 있는 단위가 되기 어려운 단점이 있음. - 대표적인 서브워드 단위 토큰화는 바이트 페어 인코딩이 있음. 2-2. 바이트 페어 인코딩 # GPT는 BPE방식을 쓰고, BERT는 BPE와 유사 방식인 워드피스(wordpiece)를 토크나이저로 사용함. # 바이트 페어 인코딩..
-
[1일차] 처음 만나는 자연어처리AI/Do It 공부단_자연어처리 2023. 9. 8. 09:17
[ 1일차(처음 만나는 자연어처리) 목록 ] 1-1. 딥러닝 기반 자연어 처리 모델 1-2. 트랜스퍼 러닝 1-3. 학습 파이프라인 1-4. 개발 환경 설정 ========== 1-1. 딥러닝 기반 자연어 처리 모델(p.12 ~ 16) 1) 이론 # 기계의 자연어 처리: 입력 > 모델(함수) > 출력(확률) - 예시: [ 입력(자연어) > 출력(확률) > 후처리 ] 재미없는 편인 영화에요 > [0.0, 0.3, 0.7]: 긍정, 중립, 부정 > 부정(negative) - 딥러닝도 모델! (Hidden layer를 사용하는 모델) - 모델을 만드려면 데이터가 필요하며, 이 데이터는 라벨링(labeling)으로 확보 => training (labeling된 데이터의 패턴을 모델이 익히게 함) - 자연어 처리..
-
[고급-교육] LLM Papers & Github ListsAI/LLM 2023. 9. 7. 09:54
# Basic Sources https://github.com/mlabonne/llm-course # Foundation Model https://github.com/Beomi/KoAlpaca GitHub - Beomi/KoAlpaca: KoAlpaca: 한국어 명령어를 이해하는 오픈소스 언어모델KoAlpaca: 한국어 명령어를 이해하는 오픈소스 언어모델. Contribute to Beomi/KoAlpaca development by creating an account on GitHub.github.com # PEFT(Parameter Efficient Fine-Tuning) https://github.com/tloen/alpaca-lora GitHub - tloen/alpaca-lora: Instruc..
-
[고급-모델] LLaMA & LLaMA2 소개AI/LLM 2023. 9. 1. 20:45
1. LLaMA code review # 출처: https://youtube.com/watch?v=jvYpv0VJBOA- YouTubewww.youtube.comGithub https://github.com/facebooksearch/llama 2. LLaMA2 code review # 출처: https://youtu.be/zN30JodATrU?si=bPgzd-KKhxQJfgjA Github # LLAMA Recipe 로 llama2를 돌리는 IDE 가이드 참조 # 저자의 한국어 fine-tuning model 참조
-
[기본-교육] token과 chunkAI/LLM 2023. 9. 1. 16:26
"chunk"와 "token"은 자연어 처리(Natural Language Processing, NLP) 분야에서 중요한 개념입니다. - 토큰(Token): 토큰은 문장 또는 텍스트를 작은 단위로 나눈 것을 말합니다. 이러한 단위는 보통 단어, 구두점, 숫자 등과 같은 텍스트의 기본 구성 요소를 나타냅니다. 예를 들어, "Hello, world!"라는 문장은 다음과 같은 토큰으로 나눌 수 있습니다: "Hello", ",", "world", "!". 토큰화는 텍스트를 이해 가능한 작은 조각으로 나누는 중요한 NLP 전처리 단계 중 하나입니다. - 청크(Chunk): 청크는 토큰의 그룹이며, 이 그룹은 문장에서 의미 있는 단위를 나타내는 경우가 많습니다. 예를 들어, "New York City"라는 텍스트는..
-
[고급-교육] LangChain (MS MVP AI 김태영)AI/LLM 2023. 9. 1. 14:26
# 출처: 챗GPT에 날개를 달아줄 랭체인(LangChain) https://youtu.be/JBcWvMeOAes?list=PLGnaBtRshJSRpBodFlJnIlQhvY6DMKhUD - 참고문서: https://docs.langchain.com/docs/🦜️🔗 LangChain | 🦜️🔗 LangChainLangChain is a framework for developing applications powered by language models.docs.langchain.com # ChatGPT와 함께 빠르게 발전하는 기술 LangChain - ChatGPT는 거짓말도 하지만, LangChain은 사실 정보를 기반으로 답을 해주므로 더 사실에 근접할 것 # LangChain: 언어 모델을 기반으로 한..