일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 파이썬
- PostgreSQL
- 행렬 표기
- 벡터와 행렬의 관계
- 이미지 깨짐 해결
- Blender
- pgAdmin
- 분산
- 일러스트
- 과학적 시각화
- 행렬의 뺄셈
- 알 수 없는 좌표계
- Python
- scientific visualization
- 이미지 파일 저장
- Matrix
- 평균
- illustrator
- 프로젝트 좌표계
- 공간적 자기상관성
- 이미지 연결
- 블렌더
- spatial autocorrelation
- 정방 행렬
- django
- QGIS
- 행렬
- shp파일 좌표계
- PyCharm
- 일러스트레이터
- Today
- Total
주석으로 채워가는 대학원생의 연구 노트
[LLM] 언어 모델(LLM, Large Language Model)이란 본문
언어 모델(LLM, Large Language Model)은 인공지능(AI) 연구에서 중요한 분야로, 컴퓨터가 인간의 언어를 이해하고 생성할 수 있도록 돕는 기술이다.
글쓴이는 앞으로 LLM의 기본 개념부터 실제 개발 과정까지 하나씩 배워가며, 배운 내용을 정리하고 공유하려고 한다.
또한, 복잡한 개념도 비전공자들이 쉽게 이해할 수 있도록 최대한 쉽게 풀어 설명하려고 한다.
# 목차
1. 언어 모델(Language Model)이란
1-1.통계적 언어 모델 : n-gram
1-2. 신경망 언어 모델
2. 거대 언어 모델(Large Language Model)이란
1. 언어 모델(Language Model)이란
# 정의
언어 모델(Language Model)은 컴퓨터가 인간의 언어를 이해하고 활용할 수 있도록 설계된 기술이다.
언어 모델(LM)은 방대한 양의 텍스트 데이터를 학습하여 단어와 문장의 패턴, 맥락, 그리고 의미를 파악하는 능력을 갖춘다.
이를 통해 문장을 완성하거나, 질문에 답하고, 텍스트를 번역하는 등 다양한 작업을 수행한다.
예를 들어, "오늘 날씨는..."이라는 문장을 입력하면 언어 모델은 이어질 단어를 예측하여 "맑다" 혹은 "흐리다"와 같은 답을 생성한다.
이 과정은 단순히 무작위로 단어를 선택하는 것이 아니라, 학습한 데이터를 바탕으로 문맥에 맞는 가장 적절한 결과를 도출하는 방식으로 이루어진다.
다시 말해, 언어 모델이란 주어진 단어 뒤에 올 단어를 예측하는 역할을 수행하는 모델이다.
# 언어 모델의 종류
언어 모델은 크게 두 가지로 구분할 수 있다.
1. 통계적 언어 모델
통계적 언어 모델은 컴퓨터가 문장이나 단어의 자연스러움을 수학적으로 계산하는 방법이다.
이 모델은 특정 단어나 문장이 등장할 확률을 기반으로 언어를 분석하고 처리한다.
대표적인 기법으로는 n-grame 모델이 있다.
# n-gram 모델이란
n-gram은 연속된 단어나 문자의 조합이 얼마나 자주 함께 나타나는지를 통계적으로 분석하는 방법이다.
여기서 'n'은 동시에 고려되는 단어의 수를 의미한다.
영화 인사이드 아웃의 대사 "Where joy goes, so does sorrow(기쁨이 가는 곳에 슬픔도 가야지)"를 사용하여 n-gram 모델의 개념을 살펴보자.
구분 | 텍스트 |
1-gram (유니그램, uni-gram) |
Where, joy, goes, so, does, sorrow |
2-gram (바이그램, bi-gram) |
Where joy, goes so, does sorrow |
3-gram (트라이그램, tri-gram) |
Where joy goes, so does sorrow |
n이 4 이상일 경우에는 숫자로 표기하며, 예를 들어 4-gram 또는 5-gram이라 부른다. |
이 예시에서 알 수 있듯이, n-gram 모델은 n개의 연속적인 단어나 문자들의 조합을 바탕으로 언어의 패턴을 파악하여 다음에 올 단어를 예측한다.
여기서 n-gram은 다음에 나올 단어를 예측할 때 'n-1개'의 이전 단어만을 고려한다.
예를 들어, n=3인 경우 3-gram은 앞의 두 단어만을 기반으로 다음 단어를 예측한다.
그렇기 때문에 n-gram 모델은 예측하고자 하는 단어 앞 n-1개의 단어만 고려하고, 그 이전의 단어들은 무시하게 된다는 단점이 있다.
이러한 구조적 한계로 인해 문장이 길어지거나 복잡한 맥락이 필요한 경우, 정확도가 떨어질 수 있다.
2. 신경망 언어 모델
신경망 언어 모델(Neural Network Language Model, NNLM)은 통계적 언어 모델의 한계를 극복하기 위해 등장한 방법으로, 인공신경망(Neural Network)을 활용해 언어를 학습하고 처리하는 모델이다.
이번 포스팅에서는 신경망 언어 모델에 대해 간략하게 설명하고 다음 포스팅에서 자세히 설명하도록 하겠다.
대표적인 기법으로는 RNN(Recurrent neural network )과 LSTM(Long Short-Term Memory NEtworks)이 있다.
# 순환 신경망 (Recurrent Neural Network, RNN)
RNN은 시간의 흐름에 따라 순차적인 데이터를 처리하는 신경망이다.
기존의 신경망과 달리, RNN은 이전 단계의 정보를 기억하면서 현재 입력 데이터를 함께 처리한다.
이 구조 덕분에 RNN은 문장과 같은 연속된 데이터를 학습하는 데 효과적이다.
예를 들어, “I love”라는 입력이 주어지면 RNN은 그다음에 올 단어를 예측하기 위해 이전 단어인 “I”와 “love”를 고려한다.
하지만, 문장이 길어질 경우 장기 의존성 문제(Long-term Dependency)가 발생한다.
이는 멀리 떨어진 단어의 정보를 제대로 기억하지 못하는 한계로 이어진다.
# 장단기 기억 네트워크 (Long Short-Term Memory, LSTM)
LSTM은 RNN의 장기 의존성 문제를 해결하기 위해 고안된 신경망이다.
이 모델은 게이트 구조를 활용해 중요한 정보는 오래 유지하고, 불필요한 정보는 제거하는 방식으로 작동한다.
게이트 구조의 핵심은 다음과 같다.
- 입력 게이트(Input Gate): 새로운 정보를 저장할지 결정
- 망각 게이트(Forget Gate): 불필요한 정보를 버릴지 판단
- 출력 게이트(Output Gate): 다음 단계로 전달할 정보를 선택
이러한 구조 덕분에 LSTM은 문장의 앞부분에 있는 정보를 뒷부분까지 장기간 기억할 수 있다.
2. 거대 언어 모델(Large Language Model)이란
앞서 언어 모델(LM)은 인간의 언어를 이해하고 생성하도록 훈련된 일종의 인공지능 모델이라고 설명하였다.
거대 언어 모델(Large Language Model, LLM)은 이름 그대로 대규모 데이터를 학습한 언어 모델을 의미한다.
LLM은 딥러닝 알고리즘과 통계 모델링을 결합해 자연어 처리(Natural Language Processing, NLP) 작업을 수행하는 데 사용된다.
이 모델은 방대한 양의 언어 데이터를 사전에 학습하면서 문장 구조, 문법, 의미와 같은 언어의 복잡한 패턴을 이해한다. 이를 바탕으로 텍스트를 이해하거나 생성하는 다양한 작업을 수행할 수 있다.
앞으로 LLM을 공부하며 각 개념이 무엇인지, 어떤 구조를 가지고 있는지, 이를 어떻게 활용할 수 있는지 자세히 살펴보려고 한다.
비전공자인 내가 공부하기에는 아직 갈 길이 멀다고 느끼지만, 차근차근 헤쳐 나가 보려고 한다.
# 참고 자료
이번 포스팅에서 아래 도서와 사이트를 참고하여 학습하고 내용을 정리하였습니다.
만약 저작권이나 기타 문제가 있을 경우 알려주시면, 즉시 검토하고 수정하도록 하겠습니다.
https://wikidocs.net/book/2155
딥 러닝을 이용한 자연어 처리 입문
`24년 9월 기준: 누적 조회수: 1,600만` 많은 분들의 피드백으로 수년간 보완된 입문자를 위한 딥 러닝 자연어 처리 교재 E-book입니다. 오프라인 출판물 기…
wikidocs.net
https://product.kyobobook.co.kr/detail/S000212568407
랭체인으로 LLM 기반의 AI 서비스 개발하기 | 서지영 - 교보문고
랭체인으로 LLM 기반의 AI 서비스 개발하기 | 내 질문에 대답하고, PDF를 요약해주고, 번역도 하고, 메일도 써주는 똑똑한 AI 서비스 만들기! 개념, 원리, 실습을 한 권으로 빠르게! RAG를 구현하며 배
product.kyobobook.co.kr
https://heytech.tistory.com/343
[NLP] N-gram 언어 모델의 개념, 종류, 한계점
📌 Text 빅데이터분석 플랫폼 베타테스트 참가자 모집 중!(네이버페이 4만 원 전원 지급) 👋 안녕하세요, 코딩이 필요 없는 AI/빅데이터 분석 All in One 플랫폼 개발팀입니다.😊 저희
heytech.tistory.com
https://velog.io/@dong970827/RNN-LSTM-GRU-%EA%B0%9C%EB%85%90
RNN, LSTM, GRU 개념
순차 데이터를 학습하는데 많이 이용되는 알고리즘 3개에 대해 알아보자.
velog.io
https://velog.io/@do_genie/LLM%EC%9D%B4%EB%9E%80
LLM이란?
LM (언어 모델, Language Model) 이란, 인간의 언어를 이해하고 생성하도록 훈련된 일종의 인공지능 모델이다. 언어 모델의 품질은 크기나 훈련된 데이터의 양 및 다양성, 훈련 중에 사용된 학습 알고
velog.io