부산 북구갑 시뮬레이션

2026년 국회의원보궐선거

베이지안 업데이트 + 몬테카를로 합성패널 시뮬레이션 · 기준: 기존 여론조사 내용 · 합성패널(통계적 시민) 분석

⚠️

주의 본 화면의 결과는 실제 여론조사·지지율·당선 예측이 아니라 AI 시뮬레이션 결과입니다. 슬라이더를 조정하면 모델 가정 변화에 따른 합성패널 반응 분포가 실시간으로 갱신됩니다.

여론조사 추세 vs 시뮬레이션

19건 실측 + D-day 외삽 (다이아몬드 마커)

시뮬레이션 결과 (5,000회)

실시간 후보별 득표율 평균 + 90% CI

당선 확률

하정우 · 더불어민주당

—

95% CI

한동훈 · 무소속

—

95% CI

박민식 · 국민의힘

—

95% CI

📊 통계시민(합성패널) & 여론조사누적 시뮬레이션

시뮬레이션 결과

시뮬레이션 컨트롤

모델 파라미터

시간 감쇠 λ (일) i

⏱️ 시간 감쇠 λ (람다)

각 여론조사의 가중치를 결정하는 시간 감쇠율입니다.

공식: 가중치 = exp(-경과일 / λ)

경과일	λ=3일	λ=5일	λ=7일
0일 (오늘)	100%	100%	100%
3일 전	37%	55%	65%
7일 전	10%	25%	37%
14일 전	1%	6%	14%

λ 작게 → 최신 여론 트렌드 강조 (변동성 ↑)
λ 크게 → 전체 기간 평균 반영 (안정성 ↑)

💡 초박빙 선거에서 λ 1일 차이가 당선확률 5~10%p 차이를 만들 수 있습니다.

작을수록 최근 조사를 더 무겁게 가중. 7~14일 권장.

Dirichlet 약사전 α i

🎲 Dirichlet 사전분포 α (알파)

베이지안 추론에서 "데이터 보기 전 믿음"의 강도입니다.

해석: α = 가상의 사전 관측치 수

α 값	의미	효과
0.5~1	무정보 사전	데이터에 거의 전적으로 의존
2~3	약한 사전	데이터 위주 + 약간의 평활화
5~10	중간 사전	극단값 억제, 안정적 추정

α 작게 → 여론조사 원본에 충실 (노이즈 포함)
α 크게 → 후보 간 차이 축소 (보수적 추정)

💡 표본 수가 적거나 이상치가 있을 때 α=2~3 권장.

2.0

사전분포의 강도. 작을수록 데이터에 더 의존.

몬테카를로 N

20,000

시나리오 선택

예상 투표율

후보	예상 변동	근거
박민식	+1~2%p	국힘 고정층 상대적 강세
한동훈	+0.5~1%p	중도보수 결집
하정우	-1~2%p	민주당 이탈표 증가
김성근	±0	코어 지지층 한정

후보	예상 변동	근거
하정우	기준선	여론조사 반영값
한동훈	기준선	여론조사 반영값
박민식	기준선	여론조사 반영값
김성근	기준선	여론조사 반영값

후보	예상 변동	근거
하정우	+2~3%p	민주당 기반 동원 효과
한동훈	+0.5~1%p	중도층 유입
박민식	-1~2%p	상대적 희석 효과
김성근	-0.5%p	신규 유입 제한적

60%

표 이전 가정 (단일화 시)

박→한 흡수율 평균80%

박→하 흡수율 평균13%

한→박 흡수율 평균50%

한→하 흡수율 평균20%

박민식/한동훈 단일화 시 표가 어느 후보에게 흡수되는지의 평균. 나머지는 김성근/기권으로 분산.

후보별 잠재 득표율 사후 분포 · 데이터 기준일 2026-05-23

샘플

후보별 당선확률 (선택 시나리오)

예상 득표율 분포 (선택 시나리오)

6가지 시나리오 비교 (상대적매트릭스)

시뮬레이션 결과 요약 표

시나리오	하정우	한동훈	박민식	김성근	해석

잠재 지지율 궤적 (95% 신뢰구간)

Kalman + RTS smoother · House Effect 보정 후

주요 3 후보 지지율 추세 · 3자/4자 조사 통합 (3자 우선, 없으면 4자 값)

양자대결: 하정우 vs 한동훈

양자대결: 하정우 vs 박민식

조사기관별 4자 대결 평균 지지율

각 기관마다 후보 지지율을 측정하는 경향이 다름 (House Effect). 한국리서치는 한동훈에게 보수적, 비전코리아는 우호적.

19건 여론조사 메타 + 핵심지지율

모델 설명 (클릭하여 접기)

Abstract

본 시스템은 합성 패널(Synthetic Panel) 기반의 확률론적 선거 시뮬레이션 엔진이다. 전통적 점추정(point estimation) 방식의 여론조사가 갖는 구조적 한계—표본오차의 과소평가, 조사기관 편향(house effect), 시계열 동태성 미반영—를 극복하기 위해, Dirichlet-Multinomial 베이지안 모델과 확률론적 몬테카를로 반복 시뮬레이션(Stochastic Monte Carlo Iteration)을 결합하였다. 이를 통해 단일 숫자가 아닌 결과의 확률 분포(probability distribution)와 불확실성의 정량적 경계(credible interval)를 도출하며, "누가 앞서는가"를 넘어 "어떤 조건에서 판세의 구조적 변동이 발생하는가"라는 전략적 질문에 답한다.

1. 연구 배경: 정태적 여론조사의 한계

여론은 다차원적 변수가 유기적으로 상호작용하는 복잡계(Complex System)이다. 그러나 전통적 여론조사 보도는 특정 시점의 스냅샷에 불과하며, 조사-발표 간 시차(time lag), 응답률 저하에 따른 대표성 훼손, 조사방식별 체계적 편향 등이 노이즈로 작용한다. 본 모델은 이러한 한계를 극복하고자 다음의 방법론적 전환을 시도한다:

불확실성의 명시적 정량화: 신뢰구간(Credible Interval)과 승리확률 분포로 표현
시계열 동태성 반영: 칼만 필터 기반 잠재 지지율(latent support) 추세 추정
다중 데이터 소스 통합: 이질적 조사들의 가중 결합 및 house effect 보정
반사실적 시나리오 분석: 후보 단일화 등 가상 조건의 구조적 영향 시뮬레이션

2. 합성 패널(Synthetic Panel): 통계적 시민 모델

합성 패널은 거시 인구구조 데이터와 미시 여론 데이터를 수학적으로 정합(calibration)하여 재구성한 통계적 시민 모델(Statistical Citizen Model)이다. 이는 실제 유권자 집단을 확률론적으로 복제하여, 가상 공간에서 반복 실험이 가능한 시뮬레이션 단위로 기능한다. 각 합성 패널 유닛은 다음의 다차원 속성 벡터를 보유한다:

합성 패널 속성 구조:
  Θᵢ = (D, B, P)

  D: 인구통계 레이어 — 연령, 성별, 지역, 직업, 소득 분포
  B: 행동 속성 레이어 — 지지 정당, 정치 성향, 이슈 민감도, 과거 투표 이력
  P: 반응 확률 함수 — P(vote=c | Θᵢ, context) ∈ [0,1]

집합적 행동 시뮬레이션:
  전체 합성 패널 N명에 대해 각 개인의 조건부 투표 확률을 계산하고,
  이를 집계하여 전체 득표율 분포 π = (π₁, π₂, ..., πₖ)를 도출

이러한 개별 반응 확률(individual response probability)의 정밀한 설계는 단순 산술 평균으로 포착할 수 없는 하위집단 간 이질성(heterogeneity)과 조건부 행동 패턴을 모델링하는 기초가 된다.

3. 데이터 및 전처리

데이터 출처: 중앙선거관리위원회 여론조사공표심의위원회(NESDC) 공식 등록 여론조사
수집 기간: 2026년 4월 13일 ~ 5월 27일 (총 19건, 누적 표본 약 9,500명)
조사 유형: 3자 대결, 4자 대결, 양자 대결(하-한, 하-박) 문항 포함
메타데이터: 표본크기(N), 조사방식(ARS 84%/면접 16%), 응답률(6.4%~23.3%), 조사기관

조사기관별 House Effect h_a는 전체 조사의 가중 평균 대비 해당 기관의 체계적 편차로 추정하며, 이를 관측 모델에서 명시적으로 분리하여 보정한다. 이는 특정 기관의 과대/과소 추정 경향이 최종 결과를 왜곡하는 것을 방지한다.

4. 통계 모델

4.1 Dirichlet-Multinomial 베이지안 모델

K명의 후보에 대한 지지율 벡터 π = (π₁, ..., π_K)는 Dirichlet 분포를 켤레 사전분포(conjugate prior)로 하는 다항분포 모델로 추정한다. 복수의 여론조사를 시간 가중치와 함께 순차적으로 업데이트하는 베이지안 학습(Bayesian learning)을 적용한다.

사전분포 (Prior):
  π ~ Dirichlet(α₀),  α₀ = (α_prior, ..., α_prior)  [약정보 사전분포]

우도 함수 (Likelihood):
  y ~ Multinomial(N, π)

사후분포 (Posterior):
  α_post[c] = α_prior + Σᵢ wᵢ × Nᵢ × p̂ᵢ[c]

시간 감쇠 가중치:
  wᵢ = exp(−(T_ref − tᵢ) / λ)

  - λ: 반감기 파라미터 (5~14일), 작을수록 최근 조사에 집중
  - T_ref: 기준 시점 (최종 조사일 또는 선거일)
  - Nᵢ: i번째 조사의 유효 표본크기
  - p̂ᵢ[c]: i번째 조사에서 후보 c의 관측 지지율

4.2 몬테카를로 시뮬레이션: 불확실성의 정량화

사후분포로부터 N회(5,000~50,000)의 독립적 표본을 추출하여 가상 선거를 반복 시행한다. 각 시뮬레이션에서 득표율 벡터 π^(j)를 샘플링하고, 최다 득표 후보를 결정한다. 이를 통해 점추정이 아닌 분포 기반의 추론이 가능해진다.

몬테카를로 샘플링:
  for j = 1 to N:
    π⁽ʲ⁾ ~ Dirichlet(α_post)
    winner⁽ʲ⁾ = argmax_c π⁽ʲ⁾[c]

결과 통계량:
  E[π[c]] = mean(π⁽¹⁾[c], ..., π⁽ᴺ⁾[c])           — 기대 득표율
  CI₉₅[c] = [quantile(2.5%), quantile(97.5%)]    — 95% 신뢰구간
  P(win|c) = Σⱼ 𝟙(winner⁽ʲ⁾ = c) / N              — 승리 확률

분포 형태 분석:
  - 조밀한 분포: 외부 충격에 견고한 안정적 우세
  - 분산된 분포: 작은 변수에도 역전 가능한 불안정 우세
  - 중첩 영역(Overlap): 후보 간 분포가 겹치는 '접전 구간'

4.3 Kalman Filter + RTS Smoother: 잠재 지지율 시계열

잠재 지지율 x_t의 시간적 진화는 국소 수준 모형(Local Level Model)으로 표현하며, 칼만 필터(Kalman Filter)로 순방향 추정 후 RTS 스무더로 역방향 보정하여 전 기간의 최적 추세를 도출한다.

상태 방정식 (State Transition):
  x_t = x_{t-1} + w_t,   w_t ~ N(0, Q·Δt)

관측 방정식 (Observation):
  y_{i,a} = x_{tᵢ} + h_a + v_i,   v_i ~ N(0, R/Nᵢ)

  - x_t: 시점 t의 잠재(true) 지지율
  - h_a: 조사기관 a의 House Effect
  - Q: 상태 변동 분산 (일별 변동성, ≈0.16)
  - R: 관측 오차 분산 (기본 표본오차, ≈625)
  - Nᵢ: 표본크기 (클수록 관측 신뢰도 증가)

추정 절차:
  1. Forward Kalman Filter: P(x_t | y₁:t) 순차 추정
  2. Backward RTS Smoother: P(x_t | y₁:T) 전체 기간 보정
  3. Extrapolation: 선거일까지 외삽 (마름모 마커로 표시)

4.4 시나리오 분석: 표 이전의 확률적 모델링

후보 단일화 시나리오에서 사퇴 후보의 지지표가 잔류 후보에게 이전되는 비율은 Beta 분포로 모델링하여 흡수율의 불확실성을 명시적으로 반영한다. 과거 선거의 경험적 데이터와 정치적 친연성을 기반으로 사전분포를 설정하며, 사용자 조정이 가능하다.

표 이전 모델:
  r_{A→B} ~ Beta(α, β),  E[r] = α/(α+β)

시나리오별 적용:
  S2 (박민식 사퇴): 박→한 80%, 박→하 13%, 잔여→기권/김성근
  S3 (한동훈 사퇴): 한→박 50%, 한→하 20%, 잔여→기권/김성근

각 시뮬레이션마다 Beta 분포에서 이전 비율을 독립 샘플링하여
단일 시나리오 내에서도 결과의 분포를 생성

5. 결과 해석 및 전략적 함의

지표	정의	전략적 의미
기대 득표율	E[π[c]]	중심 경향성, 단 분포의 폭을 함께 고려해야 함
95% 신뢰구간	[q₂.₅, q₉₇.₅]	결과의 불확실성 범위, 좁을수록 추정 신뢰도 높음
승리 확률	P(1위 \| 시뮬레이션)	지지율과 독립적 지표, 분포 형태에 민감
접전 구간	분포 중첩 영역	역전 가능 구간, 전략적 집중 타겟

6. 한계 및 유의사항

⚠️ 본 결과는 실제 선거 예측이 아닌 구조적 가능성의 시뮬레이션입니다.
통계적 시뮬레이션은 관측된 여론조사 데이터에 기반한 조건부 확률 분포를 생성하는 것이며, 다음의 구조적 한계를 내포한다:

입력 데이터의 품질 의존성: 여론조사 자체의 표본 편향, 응답 편향, 사회적 바람직성 편향이 모델에 전파됨
시간 외삽의 불확실성: 선거일까지의 지지율 변동(캠페인 효과, 돌발 이슈)은 본질적으로 예측 불가
투표 행태 미반영: 실제 투표율, 전략적 투표, 막판 결심자(late decider)의 행동 패턴 미포함
표 이전 가정의 불확실성: 흡수율 파라미터는 과거 사례 기반 추정치로, 현 선거와 상이할 수 있음

7. 참고문헌

베이지안 통계 및 선거 예측

Gelman, A., et al. (2013). Bayesian Data Analysis (3rd ed.). CRC Press. [Book]
Linzer, D. A. (2013). Dynamic Bayesian Forecasting of Presidential Elections. Political Analysis, 21(2), 197-216. [DOI]
Jackman, S. (2005). Pooling the Polls Over an Election Campaign. Australian J. Political Science, 40(4), 499-517. [DOI]
Heidemanns, M., Gelman, A., & Morris, G. E. (2020). An Updated Dynamic Bayesian Forecasting Model for the US Presidential Election. Harvard Data Science Review, 2(4). [DOI]

합성 패널 및 마이크로시뮬레이션

Ghitza, Y., & Gelman, A. (2013). Deep Interactions with MRP: Election Turnout and Voting Patterns Among Small Electoral Subgroups. American J. Political Science, 57(3), 762-776. [DOI]
Leemann, L., & Wasserfallen, F. (2017). Extending the Use and Prediction Precision of Subnational Public Opinion Estimation. American J. Political Science, 61(4), 1003-1022. [DOI]
Lauderdale, B. E., et al. (2020). Model-Based Pre-Election Polling for National and Sub-National Outcomes in the US and UK. International J. Forecasting, 36(2), 399-413. [DOI]

시계열 분석 및 상태공간모형

Rauch, H. E., Tung, F., & Striebel, C. T. (1965). Maximum Likelihood Estimates of Linear Dynamic Systems. AIAA Journal, 3(8), 1445-1450. [DOI]
Durbin, J., & Koopman, S. J. (2012). Time Series Analysis by State Space Methods (2nd ed.). Oxford University Press. [Book]

데이터 출처

중앙선거관리위원회 여론조사공표심의위원회. [NESDC 공식 사이트]

부산 북구갑 시뮬레이션

여론조사 추세 vs 시뮬레이션

시뮬레이션 결과 (5,000회)

시뮬레이션 컨트롤

모델 파라미터

⏱️ 시간 감쇠 λ (람다)

🎲 Dirichlet 사전분포 α (알파)

📉 저투표율 시나리오 (55%)

📊 기준 투표율 (60%)

📈 고투표율 시나리오 (65%)

표 이전 가정 (단일화 시)

후보별 잠재 득표율 사후 분포 · 데이터 기준일 2026-05-23

후보별 당선확률 (선택 시나리오)

예상 득표율 분포 (선택 시나리오)

6가지 시나리오 비교 (상대적매트릭스)

시뮬레이션 결과 요약 표

잠재 지지율 궤적 (95% 신뢰구간)

주요 3 후보 지지율 추세 · 3자/4자 조사 통합 (3자 우선, 없으면 4자 값)

양자대결: 하정우 vs 한동훈

양자대결: 하정우 vs 박민식

조사기관별 4자 대결 평균 지지율

19건 여론조사 메타 + 핵심지지율

Abstract

1. 연구 배경: 정태적 여론조사의 한계

2. 합성 패널(Synthetic Panel): 통계적 시민 모델

3. 데이터 및 전처리

4. 통계 모델

4.1 Dirichlet-Multinomial 베이지안 모델

4.2 몬테카를로 시뮬레이션: 불확실성의 정량화

4.3 Kalman Filter + RTS Smoother: 잠재 지지율 시계열

4.4 시나리오 분석: 표 이전의 확률적 모델링

5. 결과 해석 및 전략적 함의

6. 한계 및 유의사항

7. 참고문헌