작을수록 최근 조사를 더 무겁게 가중. 7~14일 권장.
사전분포의 강도. 작을수록 데이터에 더 의존.
박민식/한동훈 단일화 시 표가 어느 후보에게 흡수되는지의 평균. 나머지는 김성근/기권으로 분산.
| 시나리오 | 하정우 | 한동훈 | 박민식 | 김성근 | 해석 |
|---|
각 기관마다 후보 지지율을 측정하는 경향이 다름 (House Effect). 한국리서치는 한동훈에게 보수적, 비전코리아는 우호적.
본 시스템은 합성 패널(Synthetic Panel) 기반의 확률론적 선거 시뮬레이션 엔진이다. 전통적 점추정(point estimation) 방식의 여론조사가 갖는 구조적 한계—표본오차의 과소평가, 조사기관 편향(house effect), 시계열 동태성 미반영—를 극복하기 위해, Dirichlet-Multinomial 베이지안 모델과 확률론적 몬테카를로 반복 시뮬레이션(Stochastic Monte Carlo Iteration)을 결합하였다. 이를 통해 단일 숫자가 아닌 결과의 확률 분포(probability distribution)와 불확실성의 정량적 경계(credible interval)를 도출하며, "누가 앞서는가"를 넘어 "어떤 조건에서 판세의 구조적 변동이 발생하는가"라는 전략적 질문에 답한다.
여론은 다차원적 변수가 유기적으로 상호작용하는 복잡계(Complex System)이다. 그러나 전통적 여론조사 보도는 특정 시점의 스냅샷에 불과하며, 조사-발표 간 시차(time lag), 응답률 저하에 따른 대표성 훼손, 조사방식별 체계적 편향 등이 노이즈로 작용한다. 본 모델은 이러한 한계를 극복하고자 다음의 방법론적 전환을 시도한다:
합성 패널은 거시 인구구조 데이터와 미시 여론 데이터를 수학적으로 정합(calibration)하여 재구성한 통계적 시민 모델(Statistical Citizen Model)이다. 이는 실제 유권자 집단을 확률론적으로 복제하여, 가상 공간에서 반복 실험이 가능한 시뮬레이션 단위로 기능한다. 각 합성 패널 유닛은 다음의 다차원 속성 벡터를 보유한다:
합성 패널 속성 구조: Θᵢ = (D, B, P) D: 인구통계 레이어 — 연령, 성별, 지역, 직업, 소득 분포 B: 행동 속성 레이어 — 지지 정당, 정치 성향, 이슈 민감도, 과거 투표 이력 P: 반응 확률 함수 — P(vote=c | Θᵢ, context) ∈ [0,1] 집합적 행동 시뮬레이션: 전체 합성 패널 N명에 대해 각 개인의 조건부 투표 확률을 계산하고, 이를 집계하여 전체 득표율 분포 π = (π₁, π₂, ..., πₖ)를 도출
이러한 개별 반응 확률(individual response probability)의 정밀한 설계는 단순 산술 평균으로 포착할 수 없는 하위집단 간 이질성(heterogeneity)과 조건부 행동 패턴을 모델링하는 기초가 된다.
데이터 출처: 중앙선거관리위원회 여론조사공표심의위원회(NESDC) 공식 등록 여론조사
수집 기간: 2026년 4월 13일 ~ 5월 27일 (총 19건, 누적 표본 약 9,500명)
조사 유형: 3자 대결, 4자 대결, 양자 대결(하-한, 하-박) 문항 포함
메타데이터: 표본크기(N), 조사방식(ARS 84%/면접 16%), 응답률(6.4%~23.3%), 조사기관
조사기관별 House Effect ha는 전체 조사의 가중 평균 대비 해당 기관의 체계적 편차로 추정하며, 이를 관측 모델에서 명시적으로 분리하여 보정한다. 이는 특정 기관의 과대/과소 추정 경향이 최종 결과를 왜곡하는 것을 방지한다.
K명의 후보에 대한 지지율 벡터 π = (π₁, ..., πK)는 Dirichlet 분포를 켤레 사전분포(conjugate prior)로 하는 다항분포 모델로 추정한다. 복수의 여론조사를 시간 가중치와 함께 순차적으로 업데이트하는 베이지안 학습(Bayesian learning)을 적용한다.
사전분포 (Prior): π ~ Dirichlet(α₀), α₀ = (α_prior, ..., α_prior) [약정보 사전분포] 우도 함수 (Likelihood): y ~ Multinomial(N, π) 사후분포 (Posterior): α_post[c] = α_prior + Σᵢ wᵢ × Nᵢ × p̂ᵢ[c] 시간 감쇠 가중치: wᵢ = exp(−(T_ref − tᵢ) / λ) - λ: 반감기 파라미터 (5~14일), 작을수록 최근 조사에 집중 - T_ref: 기준 시점 (최종 조사일 또는 선거일) - Nᵢ: i번째 조사의 유효 표본크기 - p̂ᵢ[c]: i번째 조사에서 후보 c의 관측 지지율
사후분포로부터 N회(5,000~50,000)의 독립적 표본을 추출하여 가상 선거를 반복 시행한다. 각 시뮬레이션에서 득표율 벡터 π(j)를 샘플링하고, 최다 득표 후보를 결정한다. 이를 통해 점추정이 아닌 분포 기반의 추론이 가능해진다.
몬테카를로 샘플링:
for j = 1 to N:
π⁽ʲ⁾ ~ Dirichlet(α_post)
winner⁽ʲ⁾ = argmax_c π⁽ʲ⁾[c]
결과 통계량:
E[π[c]] = mean(π⁽¹⁾[c], ..., π⁽ᴺ⁾[c]) — 기대 득표율
CI₉₅[c] = [quantile(2.5%), quantile(97.5%)] — 95% 신뢰구간
P(win|c) = Σⱼ 𝟙(winner⁽ʲ⁾ = c) / N — 승리 확률
분포 형태 분석:
- 조밀한 분포: 외부 충격에 견고한 안정적 우세
- 분산된 분포: 작은 변수에도 역전 가능한 불안정 우세
- 중첩 영역(Overlap): 후보 간 분포가 겹치는 '접전 구간'
잠재 지지율 xt의 시간적 진화는 국소 수준 모형(Local Level Model)으로 표현하며, 칼만 필터(Kalman Filter)로 순방향 추정 후 RTS 스무더로 역방향 보정하여 전 기간의 최적 추세를 도출한다.
상태 방정식 (State Transition):
x_t = x_{t-1} + w_t, w_t ~ N(0, Q·Δt)
관측 방정식 (Observation):
y_{i,a} = x_{tᵢ} + h_a + v_i, v_i ~ N(0, R/Nᵢ)
- x_t: 시점 t의 잠재(true) 지지율
- h_a: 조사기관 a의 House Effect
- Q: 상태 변동 분산 (일별 변동성, ≈0.16)
- R: 관측 오차 분산 (기본 표본오차, ≈625)
- Nᵢ: 표본크기 (클수록 관측 신뢰도 증가)
추정 절차:
1. Forward Kalman Filter: P(x_t | y₁:t) 순차 추정
2. Backward RTS Smoother: P(x_t | y₁:T) 전체 기간 보정
3. Extrapolation: 선거일까지 외삽 (마름모 마커로 표시)
후보 단일화 시나리오에서 사퇴 후보의 지지표가 잔류 후보에게 이전되는 비율은 Beta 분포로 모델링하여 흡수율의 불확실성을 명시적으로 반영한다. 과거 선거의 경험적 데이터와 정치적 친연성을 기반으로 사전분포를 설정하며, 사용자 조정이 가능하다.
표 이전 모델:
r_{A→B} ~ Beta(α, β), E[r] = α/(α+β)
시나리오별 적용:
S2 (박민식 사퇴): 박→한 80%, 박→하 13%, 잔여→기권/김성근
S3 (한동훈 사퇴): 한→박 50%, 한→하 20%, 잔여→기권/김성근
각 시뮬레이션마다 Beta 분포에서 이전 비율을 독립 샘플링하여
단일 시나리오 내에서도 결과의 분포를 생성
| 지표 | 정의 | 전략적 의미 |
|---|---|---|
| 기대 득표율 | E[π[c]] | 중심 경향성, 단 분포의 폭을 함께 고려해야 함 |
| 95% 신뢰구간 | [q₂.₅, q₉₇.₅] | 결과의 불확실성 범위, 좁을수록 추정 신뢰도 높음 |
| 승리 확률 | P(1위 | 시뮬레이션) | 지지율과 독립적 지표, 분포 형태에 민감 |
| 접전 구간 | 분포 중첩 영역 | 역전 가능 구간, 전략적 집중 타겟 |
⚠️ 본 결과는 실제 선거 예측이 아닌 구조적 가능성의 시뮬레이션입니다.
통계적 시뮬레이션은 관측된 여론조사 데이터에 기반한 조건부 확률 분포를 생성하는 것이며, 다음의 구조적 한계를 내포한다:
베이지안 통계 및 선거 예측
합성 패널 및 마이크로시뮬레이션
시계열 분석 및 상태공간모형
데이터 출처