๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ

[2์ฃผ์ฐจ] ํ”„๋กฌํ”„ํŠธ ์—”์ง€๋‹ˆ์–ด๋ง ๊ธฐ๋ฒ• ์กฐ์‚ฌ ๋ฐ ์‹ค์Šต

์‹œํ๋ฆฌํ‹ฐ์ง€ํ˜ธ 2026. 3. 29.

1. ๊ฐœ์š”

์ด๋ฒˆ ์‹œ๊ฐ„์€ ํ”„๋กฌํ”„ํŠธ ์—”์ง€๋‹ˆ์–ด๋ง์˜ ํ•ต์‹ฌ ๊ธฐ๋ฒ•์„ ์ง์ ‘ ์กฐ์‚ฌํ•˜๊ณ  ์ •๋ฆฌํ•œ ๋’ค, ์‹ค์ œ ํ…Œ์ŠคํŠธ๋ฅผ ํ†ตํ•ด ํ”„๋กฌํ”„ํŠธ ๊ธฐ๋ฐ˜ ๋ณ„ ๊ฒฐ๊ณผ๋ฅผ ๋น„๊ตํ•  ๊ฒƒ์ด๋‹ค.

 


2. ํ”„๋กฌํ”„ํŠธ ์ข…๋ฅ˜์™€ ์„ค๋ช…

1. Zero-shot

 ํ•œ ์ค„ ์ •๋ฆฌ

  • ์˜ˆ์‹œ ์—†์ด ์ง€์‹œ๋ฌธ๋งŒ์œผ๋กœ ๋ชจ๋ธ์ด ๋ฐ”๋กœ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜๊ฒŒ ํ•˜๋Š” ํ”„๋กฌํ”„ํŒ… ๋ฐฉ์‹์ด๋‹ค.

 

ํ•ต์‹ฌ ์›๋ฆฌ

  • LLM์€ ์‚ฌ์ „ ํ•™์Šต(pretraining) ๊ณผ์ •์—์„œ ๋ฐฉ๋Œ€ํ•œ ํŒจํ„ด์„ ์ด๋ฏธ ํ•™์Šตํ•จ
  • ๊ทธ๋ž˜์„œ ์ถ”๊ฐ€ ์˜ˆ์‹œ ์—†์ด๋„ ์ง€์‹œ๋งŒ ๋ณด๊ณ  ํ™•๋ฅ ์ ์œผ๋กœ ๊ฐ€์žฅ ์ ์ ˆํ•œ ๋‹ต์„ ์ƒ์„ฑ (autoregressive -> ์ž๊ธฐํšŒ๊ท€ ์ƒ์„ฑ)
  • ์ฆ‰, ์ด๋Ÿฐ ์š”์ฒญ์ด๋ฉด ์ด๋Ÿฐ ๋‹ต์ด๊ฒ ์ง€๋ผ๋Š” ํŒจํ„ด ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ํ™œ์šฉ ํ•˜๋Š” ๊ฒƒ

 

์‚ฌ์šฉ ์˜ˆ์‹œ

 

  • ๋‚ด๊ฐ€ ๋”ฐ๋กœ ์˜ˆ์‹œ๋ฅผ ์ž‘์„ฑํ•˜์ง€ ์•Š๊ณ  ์š”๊ตฌ์‚ฌํ•ญ๋งŒ ์ž‘์„ฑ

 

์–ธ์ œ ์“ฐ๋ฉด ์ข‹์€์ง€

  • ๊ฐ„๋‹จํ•œ ์ž‘์—… (๋ฒˆ์—ญ, ์š”์•ฝ, ๋ถ„๋ฅ˜ ๋“ฑ)
  • ๋ชจ๋ธ์ด ์ด๋ฏธ ์ถฉ๋ถ„ํžˆ ํ•™์Šตํ–ˆ์„ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์€ ์ผ๋ฐ˜์ ์ธ ๋ฌธ์ œ
  • ๋น ๋ฅด๊ฒŒ ๊ฒฐ๊ณผ๋ฅผ ์–ป๊ณ  ์‹ถ์„ ๋•Œ (ํ”„๋กฌํ”„ํŠธ ์งง๊ณ  ๋น„์šฉ ์ ์Œ)

 

2. Few-shot

ํ•œ ์ค„ ์ •๋ฆฌ

  • ๋ช‡ ๊ฐœ์˜ ์˜ˆ์‹œ(์ž…์ถœ๋ ฅ)๋ฅผ ํ•จ๊ป˜ ์ œ๊ณตํ•ด์„œ ๋ชจ๋ธ์ด ํŒจํ„ด์„ ๋”ฐ๋ผ ์ž‘์—…ํ•˜๋„๋ก ์œ ๋„ํ•˜๋Š” ํ”„๋กฌํ”„ํŒ… ๋ฐฉ์‹

 

ํ•ต์‹ฌ ์›๋ฆฌ

  • LLM์€ in-context learning์ด ์žˆ์Œ
  • ์ฆ‰, ํ”„๋กฌํ”„ํŠธ๋Š” ์•ˆ์— ์žˆ๋Š” ์˜ˆ์‹œ๋“ค์„ ๋ณด๊ณ  "์•„ ์ด๋Ÿฐ ํŒจํ„ด์ด๊ตฌ๋‚˜"๋ผ๊ณ  ์ดํ•ดํ•จ
  • ์ดํ›„ ์ž…๋ ฅ์— ๋Œ€ํ•ด ๊ฐ™์€ ํŒจํ„ด์„ ๋”ฐ๋ผ autoregressive ํ•˜๊ฒŒ ์ƒ์„ฑ
  • ํ•ต์‹ฌ์€ "ํ•™์Šต ์—†์ด, ํ”„๋กฌํ”„ํŠธ ์•ˆ์—์„œ ์ฆ‰์„์œผ๋กœ ํŒจํ„ด์„ ๋”ฐ๋ผํ•œ๋‹ค"

 

์‚ฌ์šฉ ์˜ˆ์‹œ

  • ์˜ˆ์‹œ๋ฅผ ํ•˜๋‚˜ ๋ณด์—ฌ์ฃผ๋ฉด ๋ชจ๋ธ์ด ๊ทธ ํŒจํ„ด์„ ๋”ฐ๋ผ ์ƒˆ๋กœ์šด ๋‹จ์–ด๋„ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์‚ฌ์šฉ
  • ๊ฒฝ์šฐ์— ๋”ฐ๋ผ ์˜ˆ์‹œ๋ฅผ 2-3๊ฐœ ์ถ”๊ฐ€ํ•˜์—ฌ ์›ํ•˜๋Š” ์ •ํ™•๋„๋ฅผ ๋†’์ผ ์ˆ˜ ์žˆ์Œ

  • ํ•˜์ง€๋งŒ ๋ณต์žกํ•œ ์ถ”๋ก  ์ž‘์—…์€ ์œ„ ์‚ฌ์ง„์ฒ˜๋Ÿผ ์˜ค๋ฅ˜๊ฐ€ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ์Œ. ์ด๋Š” ์ข€ ๋” ๋งŽ์€ ์˜ˆ์‹œ๋ฅผ ์ถ”๊ฐ€ํ•˜๊ฑฐ๋‚˜ ๋‹ค๋ฅธ ๋ฐฉ์‹์˜ ํ”„๋กฌํ”„ํŒ…์ด ํ•„์š”ํ•จ

 

์–ธ์ œ ์“ฐ๋ฉด ์ข‹์€์ง€

  • ์›ํ•˜๋Š” ์ถœ๋ ฅ ํ˜•์‹์ด ๋ช…ํ™•ํ•  ๋•Œ (์˜ˆ : ๋ถ„๋ฅ˜, ๋ฒˆ์—ญ ์Šคํƒ€์ผ, ํฌ๋งท ๋งž์ถ”๊ธฐ)
  • zero-shot์œผ๋กœ ์›ํ•˜๋Š” ํ˜•ํƒœ์˜ ๊ฐ’์„ ์–ป๊ธฐ ํž˜๋“ค ๋•Œ

 

3. Chain-of-Thought (CoT)

ํ•œ ์ค„ ์ •์˜

  • ๋ชจ๋ธ์ด ์ตœ์ข… ๋‹ต๋ฟ ์•„๋‹ˆ๋ผ ์ค‘๊ฐ„ ์ถ”๋ก  ๊ณผ์ •(์ƒ๊ฐ ๊ณผ์ •)์„ ๋‹จ๊ณ„๋ณ„๋กœ ์ƒ์„ฑํ•˜๋„๋ก ์œ ๋„ํ•˜๋Š” ํ”„๋กฌํ”„ํŠธ ๊ธฐ๋ฒ•

 

ํ•ต์‹ฌ ์›๋ฆฌ

  • LLM์€ ์›๋ž˜ ํ•œ ๋ฒˆ์— ๋‹ต์„ ์ƒ์„ฑํ•˜์ง€๋งŒ, ๋‹จ๊ณ„์ ์œผ๋กœ ์ƒ๊ฐํ•˜๋ผ๋Š” ์‹ ํ˜ธ๋ฅผ ์ฃผ๋ฉด ์ถ”๋ก  ๊ณผ์ •์„ ํ† ํฐ ๋‹จ์œ„๋กœ ์ „๊ฐœํ•˜๋ฉด์„œ ๋” ์ •ํ™•ํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋งŒ๋“ฆ

 

์‚ฌ์šฉ ์˜ˆ์‹œ

  • ์ฒซ ๋ฒˆ ์งธ๋Š” CoT๊ฐ€ ์•„๋‹ˆ๋‹ค. ๋ชจ๋ธ์ด ์ค‘๊ฐ„ ๊ณ„์‚ฐ ์—†์ด ์ง๊ด€์ ์œผ๋กœ ๋‹ต์„ ์ƒ์„ฑํ•˜๋‹ค๋ณด๋‹ˆ ๊ณ„์‚ฐ ๊ณผ์ •์ด ์ƒ๋žต๋˜๋ฉด์„œ ์˜ค๋ฅ˜๊ฐ€ ๋ฐœ์ƒํ•จ
  • ๋‘ ๋ฒˆ ์งธ๋Š” CoT์ด๋‹ค. ๋ชจ๋ธ์ด ์ถ”๋ก  ๊ณผ์ •์„ ๋‹จ๊ณ„์ ์œผ๋กœ ์ƒ์„ฑํ•ด์„œ ๊ณ„์‚ฐ ํ๋ฆ„์ด ๋ช…ํ™•ํ•ด์ ธ ์˜ค๋ฅ˜๊ฐ€ ๊ฐ์†Œํ–ˆ๋‹ค.

 

์–ธ์ œ ์“ฐ๋ฉด ์ข‹์€์ง€

  • ์กฐ๊ฑด ๋“ฑ์ด ๋งŽ์•„ ๋‹จ๊ณ„์  ์ถ”๋ก ์ด ํ•„์š”ํ•œ ๋ฌธ์ œ

 

4. Self-Consistency

ํ•œ ์ค„ ์ •์˜

  • ๊ฐ™์€ ๋ฌธ์ œ๋ฅผ ์—ฌ๋Ÿฌ ๋ฒˆ ๋‹ค๋ฅธ ์ถ”๋ก  ๊ฒฝ๋กœ(CoT)๋กœ ํ’€๊ฒŒ ํ•œ ๋’ค, ๊ฐ€์žฅ ๋งŽ์ด ๋‚˜์˜จ ๋‹ต์„ ์„ ํƒํ•˜๋Š” ๊ธฐ๋ฒ•

 

ํ•ต์‹ฌ ์›๋ฆฌ

  • LLM์€ ํ•œ ๋ฒˆ ํ’€ ๋•Œ๋งˆ๋‹ค ์ถ”๋ก  ๊ฒฝ๋กœ๊ฐ€ ๋‹ฌ๋ผ์ง„๋‹ค. ์ด๋•Œ ์ •๋‹ต์€ ์—ฌ๋Ÿฌ ๋ฒˆ ๋ฐ˜๋ณต๋˜๊ณ  ์˜ค๋‹ต์€ ๋žœ๋คํ•˜๊ฒŒ ํฉ์–ด์ง„๋‹ค. ์ด ๋•Œ ๋‹ค์ˆ˜๊ฒฐ๋กœ ํ•˜๋ฉด ์ •๋‹ต์— ์ˆ˜๋ ดํ•˜๋Š” ์›๋ฆฌ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ธฐ๋ฒ•์ด๋‹ค.

 

์‚ฌ์šฉ ์˜ˆ์‹œ

  • Few-shot CoT๋กœ ๋ฌธ์ œ ํ’€์ด ๋ฐฉ์‹์„ ์œ ๋„ํ•˜๊ณ , ๋™์ผํ•œ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์—ฌ๋Ÿฌ ๋ฒˆ ์‹คํ–‰ํ•˜์—ฌ ๋‹ค์–‘ํ•œ ์ถ”๋ก  ๊ฒฐ๊ณผ๋ฅผ ์–ป์€ ๋’ค, ๊ทธ ์ค‘ ๊ฐ€์žฅ ๋งŽ์ด ๋‚˜์˜จ ๋‹ค ใ…‚์„ ์ตœ์ข… ์ •๋‹ต์œผ๋กœ ์„ ํƒ

 

์–ธ์ œ ์“ฐ๋ฉด ์ข‹์€์ง€

  • CoT ์“ฐ๋ฉด ๋งž์„ ์ˆ˜๋„ ์žˆ๋Š”๋ฐ ๋ถˆ์•ˆ์ • ํ•  ๋•Œ

3. ํ”„๋กฌํ”„ํŠธ ๋ฐฉ์‹ ๋ณ„ ์‹ค์Šต๊ณผ ๊ฒฐ๊ณผ

1. ์‹ค์Šต ํ™˜๊ฒฝ ๋ฐ ์‚ฌ์šฉ ์ž๋ฃŒ

  • ์‚ฌ์šฉํ•œ ๋ชจ๋ธ : gemini-2.5-flash
  • SDK : google-genai
  • ์‹คํ–‰ ํ™˜๊ฒฝ : Mac OS (venv)
  • ์–ธ์–ด : python
  • ํ…Œ์ŠคํŠธ์— ์‚ฌ์šฉํ•  ์ž๋ฃŒ

  • ํ…Œ์ŠคํŠธ์— ์‚ฌ์šฉํ•  ๋ฐ์ดํ„ฐ์™€ ๊ฒฐ๊ณผ ๊ฐ’ : dataset.jsonl, answer_key.jsonl (๊นƒํ—ˆ๋ธŒ ์ฐธ์กฐ)

 

2. ์‹ค์Šต ์ „ ๊ฐ€์„ค

  1. Zero-shot์—์„œ ์ •๋‹ต๋ฅ ์ด ์–ด๋А ์ •๋„์ผ์ง€ ์˜ˆ์ธกํ•˜๊ณ  ์ด์œ ๋ฅผ ์„ค๋ช…ํ•œ๋‹ค๋ฉด?
    • easy๋Š” ๋Œ€๋ถ€๋ถ„ ์ •๋‹ต์„ ๋งž์ถœ ๊ฒƒ์ด๊ณ  medium, hard๋กœ ๊ฐ€๋ฉด ์ถ”๋ก ์— ๊ฐ€๊น๊ธฐ ๋•Œ๋ฌธ์— ์ •๋‹ต๋ฅ ์€ ๋–จ์–ด ์งˆ ๊ฒƒ์ด๋‹ค.
  2. ์–ด๋–ค ๋‚œ์ด๋„(easy / medium / hard)์—์„œ ๊ฐ€์žฅ ํฐ ๊ฐœ์„ ์ด ์ผ์–ด๋‚ ์ง€ ์˜ˆ์ธกํ•œ๋‹ค๋ฉด?
    • medium ์ผ๋ถ€์™€ hard์—์„œ ํฐ ๊ฐœ์„ ์ด ๋‚  ๊ฒƒ์œผ๋กœ ๋ณด์ธ๋‹ค.
  3. 4๊ฐ€์ง€ ๊ธฐ๋ฒ• ์ค‘ ๊ฐ€์žฅ ํฐ ์ •๋‹ต๋ฅ  ์ ํ”„๊ฐ€ ์–ด๋””์„œ ์ผ์–ด๋‚ ์ง€ ์˜ˆ์ธกํ•œ๋‹ค๋ฉด?
    • Few-shot -> CoT์—์„œ ํฐ ์ •๋‹ต๋ฅ ๋กœ ์ ํ”„ํ•  ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ ๋œ๋‹ค.

 

3. ๊ฐ ํ”„๋กฌํ”„ํŠธ ๋ณ„ ์ „๋ฌธ

  • Zero-shot
    • zero-shot.py ์ฐธ์กฐ
  • Few-shot
    • few-shot.py ์ฐธ์กฐ
  • CoT
    • CoT.py ์ฐธ์กฐ
  • Self-Consistency
    • Self-Consistency.py ์ฐธ์กฐ

 

4. ๊ฒฐ๊ณผ ์š”์•ฝ

Step ๊ธฐ๋ฒ• ํ”„๋กฌํ”„ํŠธ ํŠน์ง• ์ •ํ™•๋„
Step1 Zero-shot ๊ทœ์น™๋งŒ ์ œ๊ณต 83.33%
Step2 Few-shot ์˜ˆ์‹œ 3๊ฐœ ์ถ”๊ฐ€ 92.59%
Step3 CoT ๋‹จ๊ณ„์  ์ถ”๋ก  ์ถ”๊ฐ€ 86.67%
Step4 Self-Consistency CoT + ๋‹ค์ˆ˜๊ฒฐ 86.7%
  • ์˜์™ธ๋กœ Few-shot์˜ ์ผ์น˜์œจ์ด ๊ฐ€์žฅ ๋†’๊ฒŒ ๋‚˜์™”๋‹ค.

 

5. ์˜ค๋‹ต ๋ถ„์„

  1. Zero-shot
    • hard์—์„œ ์ •๋‹ต์„ ์•„์˜ˆ ํ‹€๋ฆฐ ๊ฒƒ์ด ์žˆ๋‹ค.
    • ์ผ๋ถ€๋Š” ์ •๋‹ต์€ ๋งž์œผ๋‚˜, ๊ธฐ๋Œ€ํ•œ ์ถœ๋ ฅ ๊ฐ’๊ณผ ์ผ์น˜ํ•˜์ง€ ์•Š์•„์„œ ํ‹€๋ ธ๋‹ค๊ณ  ํ‘œ๊ธฐ ๋˜์—ˆ๋‹ค.
  2. Few-shot
    • hard์—์„œ ๋†’์€ ์ •๋‹ต๋ฅ ์„ ๋ณด์˜€๋‹ค.
    • ์ผ๋ถ€๋Š” ์ •๋‹ต์€ ๋งž์œผ๋‚˜, ๊ธฐ๋Œ€ํ•œ ์ถœ๋ ฅ ๊ฐ’๊ณผ ์ผ์น˜ํ•˜์ง€ ์•Š์•„์„œ ํ‹€๋ ธ๋‹ค๊ณ  ํ‘œ๊ธฐ ๋˜์—ˆ๋‹ค.
  3. CoT
    • ํ‹€๋ฆฐ ์ •๋‹ต์€ ์—†์ง€๋งŒ, ๊ธฐ๋Œ€ํ•œ ์ถœ๋ ฅ๊ฐ’๊ณผ ๋‹ฌ๋ผ์„œ ํ‹€๋ ธ๋‹ค๊ณ  ํ‘œ๊ธฐ๊ฐ€ ๋˜์—ˆ๋‹ค.
  4. Self-consistency
    • ํ‹€๋ฆฐ ์ •๋‹ต์€ ์—†์ง€๋งŒ, ๊ธฐ๋Œ€ํ•œ ์ถœ๋ ฅ๊ฐ’๊ณผ ๋‹ฌ๋ผ์„œ ํ‹€๋ ธ๋‹ค๊ณ  ํ‘œ๊ธฐ๊ฐ€ ๋˜์—ˆ๋‹ค.

 

6. ๊ฒฐ๋ก ๊ณผ ์ธ์‚ฌ์ดํŠธ

  • ์‹ค์งˆ์ ์œผ๋กœ CoT์™€ Self-consistency๋Š” 100%์˜ ์ •๋‹ต๋ฅ ์„ ๋‚˜ํƒ€๋ƒˆ์ง€๋งŒ ์ •ํ•ด๋‘” ๊ฐ’๊ณผ ์ผ์น˜ํ•˜์ง€ ์•Š์•„์„œ ํ‹€๋ฆฐ ๊ฒฝ์šฐ๊ฐ€ ๋Œ€๋ถ€๋ถ„์ด์—ˆ๋‹ค.
  • few-shot ๋งŒ์œผ๋กœ๋„ ์ถฉ๋ถ„ํžˆ ๋†’์€ ์ •๋‹ต๋ฅ ์„ ๋ณด์˜€๋Š”๋ฐ, ์ด๋Š” ํ˜„์žฌ LLM ๋ชจ๋ธ์ด ๊ธฐ๋ณธ์ ์œผ๋กœ ์ถ”๋ก  ์„ฑ๋Šฅ์ด ๋งค์šฐ ์ข‹์•„์กŒ๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค.
  • ํ˜„์žฌ ํ…Œ์ŠคํŠธ์— ์‚ฌ์šฉํ•œ data ์™ธ์— ๋”์šฑ ์–ด๋ ค์šด ์ถ”๋ก  ๋ฌธ์ œ์ผ ๊ฒฝ์šฐ์— CoT ๋˜๋Š” Self-consistency์˜ ์‚ฌ์šฉ ํšจ๋ ฅ์ด ์žˆ์„ ๊ฒƒ์œผ๋กœ ํŒ๋‹จ๋œ๋‹ค.

ํ…Œ์ŠคํŠธ ์ฝ”๋“œ ๊นƒํ—ˆ๋ธŒ ์ฃผ์†Œ

https://github.com/jasonpark112/aiagent-repo/tree/jasonpark112/week-2/jasonpark112

 

aiagent-repo/week-2/jasonpark112 at jasonpark112 · jasonpark112/aiagent-repo

Contribute to jasonpark112/aiagent-repo development by creating an account on GitHub.

github.com

 

 

๋Œ“๊ธ€