생성형 AI, 인공지능이 인기 있습니다.
근데 용어는 여전히 어렵게만 느껴집니다. 잘 정리해서 내 것으로 만들어보겠습니다.
1. 프롬프트: 모델에 입력할 모든 것입니다.
1) Instruction : 모델에 넣을 텍스트로, 모델이 수행할 모든 과제를 설명합니다.
ex) "답변을 하나의 문장으로 해라."
- 지시는 구체적으로 할 수록, 멋지게 답변합니다.
2) context 맥락 : 관련된 정보나 디테일입니다.
- 예시의 수에 따라, 원샷, 퓨샷 추론으로 부릅니다.
- 예시에 따른 학습 방식을 "in-context 학습"이라고도 부릅니다.
콘텍스트 윈도우 : 토큰의 수로 볼 수 있습니다. 고정된 사이즈를 가지는데, 512부터 10만 토큰까지 모델마다 다양해요.
망각 : 길고 긴 문장을 모두 사용할 수 없습니다. 까먹는 거죠.
프롬프트를 최적화하는 프롬프트 엔지니어링의 전부입니다.
응답: 입력 후 나타난 답변입니다.
2. 퓨샷 추론을 가지고하는 인콘텍스트 학습
예시를 "shot" 이라고 부르는게 신기합니다. 인콘텍스트 사례를 샷으로 부르겠습니다.
Inference configuration parameters
추론 파라미터를 조정하는 도구가 많습니다. 주로 사용하는 파라미터가 top K, temperature가 되겠습니다.
Hallucination을 줄이기 위해 파라미터를 활용해야 합니다.
Greedy vs random sampling
그리디 샘플링이란 말은 처음 듣습니다.. 확률 분포 중에 가중치 전략을 사용해서 다음 토큰을 랜덤하게 선택합니다. 그냥 랜덤하게 고른다면 랜덤 샘플링이고, 그리디라면 모든 토큰 중 가장 높은 확률을 선택하는 것으로 보입니다.
용어는 중요한데, 쉽지는 않죠. 랜덤 샘플링에서, top-p, top-k은 가장 흔한 추론 파라미터입니다. top-k는 가장 높은 확률인 최상위 k개 토큰을 랜덤하게 고른다. top-p는 합쳐서 원하는 확률까지 맞출 수 있는 상위 토큰을 고르는 것입니다. 두가지 함께 쓰는게 좋습니다.
top-k, top-p와 대조적으로, temperature를 바꾸는 것이 다음 토큰 확률 분포를 변화시킨다는 것입니다. 즉, 다음 토큰 예측에 영향을 주는 것입니다. temperature가 낮으면, 확률이 너무 높은 게 하나 보이고, 높아지면 대부분 비슷해지면서 고르는게 좀 이상해집니다. 이상하니까, 더 창의적이라고 할 수도 있겠네요. 그 다음에 그 토큰이 나오는게 신기해지는 것이 어쩌면 Hallucination을 발생하게 만드는 거겠죠.
그래서 높은 temperature는 같은 것이 자주 나오는 것이죠. 반복되고 비슷한 답이 나옵니다. 너무 높으면, 말도 안되는 답변이 나오겠습니다.
'일기장' 카테고리의 다른 글
HCX 격파 도전: 엔지니어링 밋업(1) (0) | 2025.01.13 |
---|---|
[회고] 2024년 엔지니어 회고 (0) | 2025.01.06 |
[AWS] MLS 준비 (0) | 2024.09.30 |
[AWS] DEA-C01 합격 후기 및 조언 (16) | 2024.09.29 |
[스터디] 네이버 AI 가이드 후기 (0) | 2024.05.15 |