λ³Έλ¬Έ λ°”λ‘œκ°€κΈ°

ν”Όμ–΄μŠ¨ μƒκ΄€κ³„μˆ˜μ™€ 곡뢄산

μ‹œνλ¦¬ν‹°μ§€ν˜Έ 2025. 2. 12.

ν”Όμ–΄μŠ¨ μƒκ΄€κ³„μˆ˜

 

-1 λΆ€ν„° 1 사이 값을 κ°€μ§„λ‹€. μƒκ΄€κ³„μˆ˜κ°€ 1에 κ°€κΉŒμšΈμˆ˜λ‘ 두 λ³€μˆ˜λŠ” κ°•ν•œ μ–‘μ˜ 상관관계가 있고, λ°˜λŒ€λ‘œ μƒκ΄€κ³„μˆ˜κ°€ -1에 κ°€κΉŒμšΈ 수둝 κ°•ν•œ 음의 상관관계가 μžˆλ‹€κ³  λ³Ό 수 μžˆλ‹€. 

 

ν”Όμ–΄μŠ¨ 상관관계 값을 κ³„μ‚°ν•˜λ €λ©΄ 두 λ³€μˆ˜μ˜ '곡뢄산(covariance)'μ΄λΌλŠ” 값을 κ΅¬ν•΄μ„œ, 곡뢄산을 각 λ³€μˆ˜μ˜ ν‘œμ€€ 편차의 곱으둜 λ‚˜λˆ  μ€˜μ•Ό ν•œλ‹€. 예λ₯Ό λ“€μ–΄ XλΌλŠ” λ³€μˆ˜μ™€ YλΌλŠ” λ³€μˆ˜κ°€ μžˆλ‹€κ³  ν•˜λ©΄, X와 Y의 곡뢄산 값을 X의 ν‘œμ€€ νŽΈμ°¨μ™€ Y의 ν‘œμ€€ 편차의 곱으둜 λ‚˜λˆ  μ£ΌλŠ” 것이닀. 곡식을 보자면,

 

ν”Όμ–΄μŠ¨ μƒκ΄€κ³„μˆ˜

μ΄λ ‡κ²Œ μ‚¬μš©ν•œλ‹€.

 

 

κ³΅λΆ„μ‚°μ΄λž€?

 

곡뢄산은 두 λ³€μˆ˜ κ°„μ˜ κ΄€κ³„μ˜ λ°©ν–₯μ„±κ³Ό 강도λ₯Ό μΈ‘μ •ν•  λ•Œ μ‚¬μš©ν•  수 μžˆλŠ” 톡계 값이닀. X와 Y의 곡뢄산은 μ•„λž˜μ™€ 같은 μˆ˜μ‹μ„ 톡해 계산 ν•  수 μžˆλ‹€.

곡뢄산

즉, 곡뢄산을 κ΅¬ν•˜λ €λ©΄ 각 κ°’κ³Ό ν•΄λ‹Ή λ³€μˆ˜μ˜ 평균값 κ°„μ˜ 편차λ₯Ό κ³±ν•˜μ—¬ λͺ¨λ‘ λ”ν•œ λ’€, λ°μ΄ν„°μ˜ 총 개수둜 λ‚˜λˆ  μ£Όλ©΄ λœλ‹€.

 

ν•˜λ‚˜μ˜ λ³€μˆ˜κ°€ 증가할 λ•Œ λ‹€λ₯Έ λ³€μˆ˜λ„ μ¦κ°€ν•˜λŠ” κ²½ν–₯이 μžˆλ‹€λ©΄ 곡뢄산 값은 μ–‘μˆ˜κ°€ 되고, λ°˜λŒ€λ‘œ ν•˜λ‚˜μ˜ λ³€μˆ˜κ°€ 증가할 λ•Œ λ‹€λ₯Έ λ³€μˆ˜λŠ” κ°μ†Œν•œλ‹€λ©΄ 곡뢄산 값은 μŒμˆ˜κ°€ λœλ‹€. 얼핏 보면 κ°œλ… μžμ²΄λŠ” μƒκ΄€κ³„μˆ˜μ™€ 거의 λΉ„μŠ·ν•΄ λ³΄μ΄μ§€λ§Œ, 곡뢄산 κ°’μ˜ ν¬κΈ°λŠ” λ³€μˆ˜μ˜ λ‹¨μœ„μ— 큰 영ν–₯을 λ°›λŠ”λ‹€λŠ” ν•œκ³„κ°€ μžˆλ‹€. 예λ₯Ό λ“€λ©΄ λ¬΄κ²ŒλŠ” 그램, ν‚¬λ‘œκ·Έλž¨, 톀 λ“± λ‹€μ–‘ν•œ λ‹¨μœ„λ₯Ό μ‚¬μš©ν•΄μ„œ ν‘œν•œν•  수 있고, κΈΈμ΄λŠ” μ„Όν‹°λ―Έν„°, λ―Έν„°, ν‚¬λ‘œλ―Έν„° λ“±μœΌλ‘œ ν‘œν˜„ν•  수 μžˆλ‹€. κ°„λ‹¨νžˆ λ§ν•˜λ©΄, 이 λ‹¨μœ„μ— 따라 곡뢄산 κ°’μ˜ λ²”μœ„κ°€ 크게 λ‹¬λΌμ§„λ‹€λŠ” λœ»μ΄λ‹€. λ”°λΌμ„œ 곡뢄산 값이 크게 λ‚˜μ™”μ„ λ•Œ, μ •λ§λ‘œ 상관관계가 μ»€μ„œ 그런 건지, 단지 λ³€μˆ˜μ˜ λ‹¨μœ„ λ•Œλ¬Έμ— μˆ«μžκ°€ μ»€μ„œ 그런 건지 νŒλ‹¨ν•  μˆ˜κ°€ μ—†λ‹€.

 

그런데 ν”Όμ–΄μŠ¨ μƒκ΄€κ³„μˆ˜λŠ” 이런 곡뢄산을 각 λ³€μˆ˜μ˜ ν‘œμ€€ 편차의 곱으둜 λ‚˜λˆ μ„œ, -1μ—μ„œ 1μ‚¬μ΄μ˜ 값을 가지도둝 λ§Œλ“ λ‹€. 즉, λ³€μˆ˜μ˜ λ‹¨μœ„μ— 관계없이 μƒκ΄€κ΄€κ³„μ˜ λ°©ν–₯κ³Ό 강도λ₯Ό μ’€ 더 κ°κ΄€μ μœΌλ‘œ 비ꡐ할 수 μžˆλŠ” 것이닀.

 

곡뢄산과 ν”Όμ–΄μŠ¨ μƒκ΄€κ³„μˆ˜λŠ” λ³€μˆ˜ κ°„μ˜ 상관관계λ₯Ό ν‘œν˜„ν•  λ•Œ μœ μš©ν•˜κ²Œ ν™œμš©λ˜λŠ” 톡계 값이닀. 

λŒ“κΈ€