[2์ฃผ์ฐจ] ํ๋กฌํํธ ์์ง๋์ด๋ง ๊ธฐ๋ฒ ์กฐ์ฌ ๋ฐ ์ค์ต
1. ๊ฐ์
์ด๋ฒ ์๊ฐ์ ํ๋กฌํํธ ์์ง๋์ด๋ง์ ํต์ฌ ๊ธฐ๋ฒ์ ์ง์ ์กฐ์ฌํ๊ณ ์ ๋ฆฌํ ๋ค, ์ค์ ํ ์คํธ๋ฅผ ํตํด ํ๋กฌํํธ ๊ธฐ๋ฐ ๋ณ ๊ฒฐ๊ณผ๋ฅผ ๋น๊ตํ ๊ฒ์ด๋ค.
2. ํ๋กฌํํธ ์ข ๋ฅ์ ์ค๋ช
1. Zero-shot
ํ ์ค ์ ๋ฆฌ
- ์์ ์์ด ์ง์๋ฌธ๋ง์ผ๋ก ๋ชจ๋ธ์ด ๋ฐ๋ก ์์ ์ ์ํํ๊ฒ ํ๋ ํ๋กฌํํ ๋ฐฉ์์ด๋ค.
ํต์ฌ ์๋ฆฌ
- LLM์ ์ฌ์ ํ์ต(pretraining) ๊ณผ์ ์์ ๋ฐฉ๋ํ ํจํด์ ์ด๋ฏธ ํ์ตํจ
- ๊ทธ๋์ ์ถ๊ฐ ์์ ์์ด๋ ์ง์๋ง ๋ณด๊ณ ํ๋ฅ ์ ์ผ๋ก ๊ฐ์ฅ ์ ์ ํ ๋ต์ ์์ฑ (autoregressive -> ์๊ธฐํ๊ท ์์ฑ)
- ์ฆ, ์ด๋ฐ ์์ฒญ์ด๋ฉด ์ด๋ฐ ๋ต์ด๊ฒ ์ง๋ผ๋ ํจํด ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํ์ฉ ํ๋ ๊ฒ
์ฌ์ฉ ์์

- ๋ด๊ฐ ๋ฐ๋ก ์์๋ฅผ ์์ฑํ์ง ์๊ณ ์๊ตฌ์ฌํญ๋ง ์์ฑ
์ธ์ ์ฐ๋ฉด ์ข์์ง
- ๊ฐ๋จํ ์์ (๋ฒ์ญ, ์์ฝ, ๋ถ๋ฅ ๋ฑ)
- ๋ชจ๋ธ์ด ์ด๋ฏธ ์ถฉ๋ถํ ํ์ตํ์ ๊ฐ๋ฅ์ฑ์ด ๋์ ์ผ๋ฐ์ ์ธ ๋ฌธ์
- ๋น ๋ฅด๊ฒ ๊ฒฐ๊ณผ๋ฅผ ์ป๊ณ ์ถ์ ๋ (ํ๋กฌํํธ ์งง๊ณ ๋น์ฉ ์ ์)
2. Few-shot
ํ ์ค ์ ๋ฆฌ
- ๋ช ๊ฐ์ ์์(์ ์ถ๋ ฅ)๋ฅผ ํจ๊ป ์ ๊ณตํด์ ๋ชจ๋ธ์ด ํจํด์ ๋ฐ๋ผ ์์ ํ๋๋ก ์ ๋ํ๋ ํ๋กฌํํ ๋ฐฉ์
ํต์ฌ ์๋ฆฌ
- LLM์ in-context learning์ด ์์
- ์ฆ, ํ๋กฌํํธ๋ ์์ ์๋ ์์๋ค์ ๋ณด๊ณ "์ ์ด๋ฐ ํจํด์ด๊ตฌ๋"๋ผ๊ณ ์ดํดํจ
- ์ดํ ์ ๋ ฅ์ ๋ํด ๊ฐ์ ํจํด์ ๋ฐ๋ผ autoregressive ํ๊ฒ ์์ฑ
- ํต์ฌ์ "ํ์ต ์์ด, ํ๋กฌํํธ ์์์ ์ฆ์์ผ๋ก ํจํด์ ๋ฐ๋ผํ๋ค"
์ฌ์ฉ ์์

- ์์๋ฅผ ํ๋ ๋ณด์ฌ์ฃผ๋ฉด ๋ชจ๋ธ์ด ๊ทธ ํจํด์ ๋ฐ๋ผ ์๋ก์ด ๋จ์ด๋ ์์ฐ์ค๋ฝ๊ฒ ์ฌ์ฉ
- ๊ฒฝ์ฐ์ ๋ฐ๋ผ ์์๋ฅผ 2-3๊ฐ ์ถ๊ฐํ์ฌ ์ํ๋ ์ ํ๋๋ฅผ ๋์ผ ์ ์์

- ํ์ง๋ง ๋ณต์กํ ์ถ๋ก ์์ ์ ์ ์ฌ์ง์ฒ๋ผ ์ค๋ฅ๊ฐ ๋ฐ์ํ ์ ์์. ์ด๋ ์ข ๋ ๋ง์ ์์๋ฅผ ์ถ๊ฐํ๊ฑฐ๋ ๋ค๋ฅธ ๋ฐฉ์์ ํ๋กฌํํ ์ด ํ์ํจ
์ธ์ ์ฐ๋ฉด ์ข์์ง
- ์ํ๋ ์ถ๋ ฅ ํ์์ด ๋ช ํํ ๋ (์ : ๋ถ๋ฅ, ๋ฒ์ญ ์คํ์ผ, ํฌ๋งท ๋ง์ถ๊ธฐ)
- zero-shot์ผ๋ก ์ํ๋ ํํ์ ๊ฐ์ ์ป๊ธฐ ํ๋ค ๋
3. Chain-of-Thought (CoT)
ํ ์ค ์ ์
- ๋ชจ๋ธ์ด ์ต์ข ๋ต๋ฟ ์๋๋ผ ์ค๊ฐ ์ถ๋ก ๊ณผ์ (์๊ฐ ๊ณผ์ )์ ๋จ๊ณ๋ณ๋ก ์์ฑํ๋๋ก ์ ๋ํ๋ ํ๋กฌํํธ ๊ธฐ๋ฒ
ํต์ฌ ์๋ฆฌ
- LLM์ ์๋ ํ ๋ฒ์ ๋ต์ ์์ฑํ์ง๋ง, ๋จ๊ณ์ ์ผ๋ก ์๊ฐํ๋ผ๋ ์ ํธ๋ฅผ ์ฃผ๋ฉด ์ถ๋ก ๊ณผ์ ์ ํ ํฐ ๋จ์๋ก ์ ๊ฐํ๋ฉด์ ๋ ์ ํํ ๊ฒฐ๊ณผ๋ฅผ ๋ง๋ฆ
์ฌ์ฉ ์์

- ์ฒซ ๋ฒ ์งธ๋ CoT๊ฐ ์๋๋ค. ๋ชจ๋ธ์ด ์ค๊ฐ ๊ณ์ฐ ์์ด ์ง๊ด์ ์ผ๋ก ๋ต์ ์์ฑํ๋ค๋ณด๋ ๊ณ์ฐ ๊ณผ์ ์ด ์๋ต๋๋ฉด์ ์ค๋ฅ๊ฐ ๋ฐ์ํจ
- ๋ ๋ฒ ์งธ๋ CoT์ด๋ค. ๋ชจ๋ธ์ด ์ถ๋ก ๊ณผ์ ์ ๋จ๊ณ์ ์ผ๋ก ์์ฑํด์ ๊ณ์ฐ ํ๋ฆ์ด ๋ช ํํด์ ธ ์ค๋ฅ๊ฐ ๊ฐ์ํ๋ค.
์ธ์ ์ฐ๋ฉด ์ข์์ง
- ์กฐ๊ฑด ๋ฑ์ด ๋ง์ ๋จ๊ณ์ ์ถ๋ก ์ด ํ์ํ ๋ฌธ์
4. Self-Consistency
ํ ์ค ์ ์
- ๊ฐ์ ๋ฌธ์ ๋ฅผ ์ฌ๋ฌ ๋ฒ ๋ค๋ฅธ ์ถ๋ก ๊ฒฝ๋ก(CoT)๋ก ํ๊ฒ ํ ๋ค, ๊ฐ์ฅ ๋ง์ด ๋์จ ๋ต์ ์ ํํ๋ ๊ธฐ๋ฒ
ํต์ฌ ์๋ฆฌ
- LLM์ ํ ๋ฒ ํ ๋๋ง๋ค ์ถ๋ก ๊ฒฝ๋ก๊ฐ ๋ฌ๋ผ์ง๋ค. ์ด๋ ์ ๋ต์ ์ฌ๋ฌ ๋ฒ ๋ฐ๋ณต๋๊ณ ์ค๋ต์ ๋๋คํ๊ฒ ํฉ์ด์ง๋ค. ์ด ๋ ๋ค์๊ฒฐ๋ก ํ๋ฉด ์ ๋ต์ ์๋ ดํ๋ ์๋ฆฌ๋ฅผ ์ฌ์ฉํ๋ ๊ธฐ๋ฒ์ด๋ค.
์ฌ์ฉ ์์


- Few-shot CoT๋ก ๋ฌธ์ ํ์ด ๋ฐฉ์์ ์ ๋ํ๊ณ , ๋์ผํ ํ๋กฌํํธ๋ฅผ ์ฌ๋ฌ ๋ฒ ์คํํ์ฌ ๋ค์ํ ์ถ๋ก ๊ฒฐ๊ณผ๋ฅผ ์ป์ ๋ค, ๊ทธ ์ค ๊ฐ์ฅ ๋ง์ด ๋์จ ๋ค ใ ์ ์ต์ข ์ ๋ต์ผ๋ก ์ ํ
์ธ์ ์ฐ๋ฉด ์ข์์ง
- CoT ์ฐ๋ฉด ๋ง์ ์๋ ์๋๋ฐ ๋ถ์์ ํ ๋
3. ํ๋กฌํํธ ๋ฐฉ์ ๋ณ ์ค์ต๊ณผ ๊ฒฐ๊ณผ
1. ์ค์ต ํ๊ฒฝ ๋ฐ ์ฌ์ฉ ์๋ฃ
- ์ฌ์ฉํ ๋ชจ๋ธ : gemini-2.5-flash
- SDK : google-genai
- ์คํ ํ๊ฒฝ : Mac OS (venv)
- ์ธ์ด : python
- ํ ์คํธ์ ์ฌ์ฉํ ์๋ฃ

- ํ ์คํธ์ ์ฌ์ฉํ ๋ฐ์ดํฐ์ ๊ฒฐ๊ณผ ๊ฐ : dataset.jsonl, answer_key.jsonl (๊นํ๋ธ ์ฐธ์กฐ)
2. ์ค์ต ์ ๊ฐ์ค
- Zero-shot์์ ์ ๋ต๋ฅ ์ด ์ด๋ ์ ๋์ผ์ง ์์ธกํ๊ณ ์ด์ ๋ฅผ ์ค๋ช
ํ๋ค๋ฉด?
- easy๋ ๋๋ถ๋ถ ์ ๋ต์ ๋ง์ถ ๊ฒ์ด๊ณ medium, hard๋ก ๊ฐ๋ฉด ์ถ๋ก ์ ๊ฐ๊น๊ธฐ ๋๋ฌธ์ ์ ๋ต๋ฅ ์ ๋จ์ด ์ง ๊ฒ์ด๋ค.
- ์ด๋ค ๋์ด๋(easy / medium / hard)์์ ๊ฐ์ฅ ํฐ ๊ฐ์ ์ด ์ผ์ด๋ ์ง ์์ธกํ๋ค๋ฉด?
- medium ์ผ๋ถ์ hard์์ ํฐ ๊ฐ์ ์ด ๋ ๊ฒ์ผ๋ก ๋ณด์ธ๋ค.
- 4๊ฐ์ง ๊ธฐ๋ฒ ์ค ๊ฐ์ฅ ํฐ ์ ๋ต๋ฅ ์ ํ๊ฐ ์ด๋์ ์ผ์ด๋ ์ง ์์ธกํ๋ค๋ฉด?
- Few-shot -> CoT์์ ํฐ ์ ๋ต๋ฅ ๋ก ์ ํํ ๊ฒ์ผ๋ก ์์ ๋๋ค.
3. ๊ฐ ํ๋กฌํํธ ๋ณ ์ ๋ฌธ
- Zero-shot
- zero-shot.py ์ฐธ์กฐ
- Few-shot
- few-shot.py ์ฐธ์กฐ
- CoT
- CoT.py ์ฐธ์กฐ
- Self-Consistency
- Self-Consistency.py ์ฐธ์กฐ
4. ๊ฒฐ๊ณผ ์์ฝ
| Step | ๊ธฐ๋ฒ | ํ๋กฌํํธ ํน์ง | ์ ํ๋ |
| Step1 | Zero-shot | ๊ท์น๋ง ์ ๊ณต | 83.33% |
| Step2 | Few-shot | ์์ 3๊ฐ ์ถ๊ฐ | 92.59% |
| Step3 | CoT | ๋จ๊ณ์ ์ถ๋ก ์ถ๊ฐ | 86.67% |
| Step4 | Self-Consistency | CoT + ๋ค์๊ฒฐ | 86.7% |
- ์์ธ๋ก Few-shot์ ์ผ์น์จ์ด ๊ฐ์ฅ ๋๊ฒ ๋์๋ค.
5. ์ค๋ต ๋ถ์
- Zero-shot
- hard์์ ์ ๋ต์ ์์ ํ๋ฆฐ ๊ฒ์ด ์๋ค.
- ์ผ๋ถ๋ ์ ๋ต์ ๋ง์ผ๋, ๊ธฐ๋ํ ์ถ๋ ฅ ๊ฐ๊ณผ ์ผ์นํ์ง ์์์ ํ๋ ธ๋ค๊ณ ํ๊ธฐ ๋์๋ค.
- Few-shot
- hard์์ ๋์ ์ ๋ต๋ฅ ์ ๋ณด์๋ค.
- ์ผ๋ถ๋ ์ ๋ต์ ๋ง์ผ๋, ๊ธฐ๋ํ ์ถ๋ ฅ ๊ฐ๊ณผ ์ผ์นํ์ง ์์์ ํ๋ ธ๋ค๊ณ ํ๊ธฐ ๋์๋ค.
- CoT
- ํ๋ฆฐ ์ ๋ต์ ์์ง๋ง, ๊ธฐ๋ํ ์ถ๋ ฅ๊ฐ๊ณผ ๋ฌ๋ผ์ ํ๋ ธ๋ค๊ณ ํ๊ธฐ๊ฐ ๋์๋ค.
- Self-consistency
- ํ๋ฆฐ ์ ๋ต์ ์์ง๋ง, ๊ธฐ๋ํ ์ถ๋ ฅ๊ฐ๊ณผ ๋ฌ๋ผ์ ํ๋ ธ๋ค๊ณ ํ๊ธฐ๊ฐ ๋์๋ค.
6. ๊ฒฐ๋ก ๊ณผ ์ธ์ฌ์ดํธ
- ์ค์ง์ ์ผ๋ก CoT์ Self-consistency๋ 100%์ ์ ๋ต๋ฅ ์ ๋ํ๋์ง๋ง ์ ํด๋ ๊ฐ๊ณผ ์ผ์นํ์ง ์์์ ํ๋ฆฐ ๊ฒฝ์ฐ๊ฐ ๋๋ถ๋ถ์ด์๋ค.
- few-shot ๋ง์ผ๋ก๋ ์ถฉ๋ถํ ๋์ ์ ๋ต๋ฅ ์ ๋ณด์๋๋ฐ, ์ด๋ ํ์ฌ LLM ๋ชจ๋ธ์ด ๊ธฐ๋ณธ์ ์ผ๋ก ์ถ๋ก ์ฑ๋ฅ์ด ๋งค์ฐ ์ข์์ก๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค.
- ํ์ฌ ํ ์คํธ์ ์ฌ์ฉํ data ์ธ์ ๋์ฑ ์ด๋ ค์ด ์ถ๋ก ๋ฌธ์ ์ผ ๊ฒฝ์ฐ์ CoT ๋๋ Self-consistency์ ์ฌ์ฉ ํจ๋ ฅ์ด ์์ ๊ฒ์ผ๋ก ํ๋จ๋๋ค.
ํ ์คํธ ์ฝ๋ ๊นํ๋ธ ์ฃผ์
https://github.com/jasonpark112/aiagent-repo/tree/jasonpark112/week-2/jasonpark112
aiagent-repo/week-2/jasonpark112 at jasonpark112 · jasonpark112/aiagent-repo
Contribute to jasonpark112/aiagent-repo development by creating an account on GitHub.
github.com
'AI > AI agent' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
| [3์ฃผ์ฐจ] RAG์ ๊ตฌ์ฑ ์์์ ์ค์ต (0) | 2026.04.05 |
|---|---|
| [1์ฃผ์ฐจ] LLM ํธ์ถ์ ํ ์คํธํ๊ณ ์ดํดํ๊ธฐ (0) | 2026.03.22 |
๋๊ธ