Richhhhh

[20260407] 빅데이터분석기사 필기 9일차_연관분석

dvlpsy — Tue, 7 Apr 2026 00:50:48 +0900

번호	핵심 키워드	상세 설명
1	연관성 분석	대량의 데이터에서 항목 간의 숨겨진 연관 규칙을 찾아내는 분석 기법으로, '장바구니 분석' 또는 '서열 분석'이라고도 불림. 조건과 반응(If-Then) 구조로 연관성을 파악함.
2	지지도 (Support)	전체 거래 중 특정 조건 품목과 결과 품목이 동시에 포함된 거래의 비율. 연관 규칙의 발생 빈도를 나타냄.
3	신뢰도 (Confidence)	조건 품목이 발생했을 때 결과 품목이 발생할 조건부 확률. 조건 품목이 주어졌을 때 결과 품목이 나타날 가능성을 나타냄.
4	향상도 (Lift)	연관 규칙이 우연에 의해 발생한 것인지 아닌지를 측정하는 척도. 1을 기준으로 1보다 크면 양의 관계, 1이면 독립, 1보다 작으면 음의 관계를 의미함.
5	아프리오리 알고리즘 (Apriori Algorithm)	모든 경우의 수를 탐색하는 비효율성을 개선하기 위해, 최소 지지도를 충족하는 '빈발 항목'을 찾아 연관 규칙 분석의 대상을 줄이는 알고리즘.

Q1. 어떤 분석 방법이 쇼핑몰 거래 데이터에서 함께 자주 구매되는 상품 조합을 찾아내는 데 가장 적합한가?

A: 회귀분석: 변수들 간 연속적 관계를 모델링하는 방법

B: 군집분석: 유사한 고객이나 상품을 그룹화하는 방법

C: 연관성 분석: 대량 데이터에서 항목 간의 연관규칙을 발굴하는 방법

D: 시계열 분석: 시간에 따른 추세나 패턴을 예측하는 방법

정답이에요!

C. 함께 자주 구매되는 상품 조합을 찾는 것은 연관성 분석의 주요 목적이에요. 연관성 분석은 대량의 데이터에서 항목 간의 연관규칙을 찾아내는 기법이라는 점을 기억하세요.

Q2. 장바구니 분석에서 두 상품이 우연히 함께 나타날 확률 대비 실제 함께 구매되는 정도가 얼마나 증가했는지를 나타내는 지표는 무엇인가?

A: 신뢰도 (confidence)

B: 아프리오리 (Apriori 알고리즘)

C: 지지도 (support)

D: 향상도 (리프트, lift)

아쉬워요. C

D. 향상도는 두 항목이 독립일 때의 기대 확률에 비해 실제로 함께 발생하는 비율이 얼마나 높은지를 보여줘요. 지지도는 전체 거래에서의 빈도, 신뢰도는 앞항목이 있을 때 뒤항목이 있을 조건부 확률이라는 점도 기억하세요.

Q3. 다음 표에서 A: 와인(구매수 4,000), B: 꽃(구매수 2,000), 동시구매 1,000, 전체 거래 10,000일 때 A→B의 향상도(lift)는 얼마인가?

A: 0.10 (10%)

B: 1.25

C: 0.25 (25%)

D: 2.50

아쉬워요.C

B. 동시구매 확률은 1,000/10,000 = 0.1이고 P(A)=0.4, P(B)=0.2이므로 향상도는 0.1 ÷ (0.4×0.2) = 1.25이에요. 향상도는 1보다 크면 두 항목이 우연보다 더 자주 같이 구매된다는 뜻이에요.

Q4. 다음은 거래 데이터에서 도출된 연관규칙 {와인} → {꽃}의 지지도 10%, 신뢰도 20%, 향상도 0.67일 때, 이 규칙에 대한 가장 적절한 해석은?

A: 와인 구매 시 꽃 구매 확률이 평소보다 크게 증가하므로 양의 관계이다.

B: 지지도와 신뢰도가 낮으므로 이 규칙은 항상 무의미하다.

C: 와인과 꽃의 구매는 서로 독립적이다.

D: 와인 구매는 꽃 구매의 발생 가능성을 낮추는 음의 관계를 가진다.

정답이에요!

D. 향상도가 1보다 작기 때문에 이 규칙은 조건품목(와인)이 있을 때 결과품목(꽃)의 상대적 발생빈도가 감소함을 의미해요. 향상도는 P(B|A)/P(B)로 계산하여 1을 기준으로 양·독립·음의 관계를 판단한다는 점을 기억하세요.

Q5. 연관성 분석에서 규칙 {와인, 치즈} -> {꽃}과 {꽃} -> {와인, 치즈}가 서로 다른 규칙으로 취급되는 주된 이유는 무엇인가?

A: 연관성 분석은 항상 항목을 쌍(pair)으로만 다루므로 항목집합의 크기에 따라 규칙이 자동으로 분리되기 때문에.

B: 규칙은 방향성을 가지므로 전건과 후건이 바뀌면 신뢰도(confidence)와 해석이 달라지기 때문에.

C: 전건과 후건의 위치가 바뀌면 지지도(support) 값이 달라지기 때문에.

D: 같은 항목들이 포함되어 있으면 전건·후건의 순서와 상관없이 동일한 규칙으로 본다.

정답이에요!

B. 연관 규칙은 방향성을 가지기 때문에 전건과 후건이 바뀌면 조건부 확률인 신뢰도 값과 규칙의 의미가 달라집니다. 지지도는 항목들의 동시 발생 빈도로 동일하지만 신뢰도는 전건을 기준으로 한 조건부 확률이라는 점을 기억하세요.

Q2.[오답 퀴즈] 다음 네 개의 연관규칙 후보 중 소매업자가 마케팅용 번들(프로모션)로 우선 적용하는 것이 가장 타당한 규칙은 무엇인가? 각 규칙은 (지지도, 신뢰도, 향상도) 순이다.

A: {텀블러}→{종이컵}: (0.15, 0.10, 0.90)

B: {간식}→{음료}: (0.08, 0.30, 1.20)

C: {분유}→{기저귀}: (0.02, 0.80, 1.50)

D: {와인}→{꽃}: (0.10, 0.20, 0.67)

아쉬워요.C

B. 지지도 8%, 신뢰도 30%, 향상도 1.2인 규칙은 향상도가 1보다 커서 두 항목 간에 양의 관계를 보이고 지지도도 충분히 있어 실제 프로모션 적용이 현실적이에요. 향상도는 항목 간의 우연 여부를 판단하는 척도이고 지지도는 그 규칙의 적용 가능 범위를 알려준다는 점을 기억하세요.

Q3.[오답 퀴즈] 온라인 소매업체가 거래별 구매상품 목록과 고객 속성(연속·범주형)을 보유하고 있으며, 목표는 (1) 연관상품 규칙 발굴과 (2) 해당 규칙을 활용한 개인화된 구매 예측 기반 마케팅이다. 이 목적에 가장 타당한 분석 전략은 무엇인가?

A: 연관성 분석으로 상품 간 규칙을 발굴하고, 발굴된 규칙(혹은 규칙 기반 특징)을 예측모형의 입력으로 사용해 개인화 타게팅용 구매 예측모형을 구축한다.

B: 로지스틱 회귀 등 분류모형만 사용해 고객 속성과 과거 구매를 바탕으로 구매 확률을 예측한다.

C: 먼저 군집분석으로 고객군을 나눈 뒤 각 군집별로 연관성 분석을 수행하여 군집 특화 규칙을 도출한다.

D: 거래 데이터에 대해 연관성 분석만 단독 수행하여 규칙을 도출하고, 도출된 규칙을 그대로 마케팅에 적용한다.

정답이에요!

A. 연관성 분석으로 공통 구매 패턴을 찾아 이를 특징으로 변환해 예측모형에 결합하면 규칙 발굴과 개인화 타게팅을 동시에 충족할 수 있어요. 연관성 분석은 대량 데이터에서 항목 간의 연관규칙을 찾아내는 기법이라는 점을 기억하세요.

이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.

[20260407] 빅데이터분석기사 필기 9일차_서포트 벡터 머신

dvlpsy — Tue, 7 Apr 2026 00:43:23 +0900

번호	핵심 키워드	상세 설명
1	서포트 벡터 머신 (SVM)	데이터를 분류하는 지도 학습 모델로, 최적의 분리 초평면을 찾아 마진을 최대화하여 분류 정확도와 일반화 성능이 뛰어남.
2	초평면 (Hyperplane)	N차원 공간에서 N-1차원의 결정 경계선으로, 데이터를 분류하는 기준이 되는 선 또는 면.
3	서포트 벡터 (Support Vector)	결정 경계와 가장 가까이 있는 데이터들로, 결정 경계를 정의하는 데 핵심적인 역할을 하며 여러 개일 수 있음.
4	마진 (Margin)	결정 경계와 서포트 벡터 사이의 거리로, SVM의 목표는 이 마진을 최대화하여 모델의 일반화 성능을 높이는 것임.
5	커널 트릭 (Kernel Trick)	선형적으로 분리 불가능한 데이터를 고차원으로 매핑하여 선형 분리가 가능하도록 하는 기법으로, 실제 차원을 높이지 않고 고차원 공간에서의 내적 값을 계산하여 연산량을 줄임.

Q1. 두 클래스로 선형 분리가 가능한 데이터에서 SVM의 결정경계에 대한 가장 적절한 설명은?

A: 결정경계는 두 클래스 사이의 마진을 최대화하는 초평면이며, 경계는 서포트벡터에 의해 결정된다.

B: SVM은 항상 비선형 커널을 사용해야만 올바르게 동작한다.

C: 모든 학습 데이터 포인트가 결정경계의 위치를 결정한다.

D: 결정경계는 두 클래스의 중심(평균)을 연결한 선에 의해 정해진다.

정답이에요!

A. SVM은 경계에 근접한 소수의 학습점(서포트벡터)을 이용해 클래스 간 마진을 최대화하는 초평면을 찾으므로 결정경계는 이 서포트벡터들에 의해 결정돼요. 핵심은 마진 최대화와 서포트벡터의 역할입니다.

Q2. 일부 학습 데이터가 겹쳐 완벽한 선형 분리가 불가능한 3차원 데이터에서, SVM이 일부 오분류를 허용하면서도 마진을 최대화하려면 어떤 접근을 사용하는가?

A: 하드마진 SVM을 사용해 서포트벡터를 제거하고 마진을 확장한다.

B: RBF 같은 커널 트릭으로 데이터를 고차원으로 매핑해 선형으로 분리되게 한다.

C: 소프트마진 SVM을 도입하고 슬랙 변수를 사용해 일부 오분류를 허용한다.

D: 특징 수를 줄여 차원 축소를 수행해 오분류 문제를 해결한다.

정답이에요!

C. 소프트마진은 슬랙 변수를 도입해 일부 학습점의 마진 위반(오분류)을 허용하면서 마진 최대화를 가능하게 해요. 슬랙 변수는 완전 분리가 불가능한 경우 모델의 견고성과 오류 허용도를 조절하는 핵심 개념입니다.

Q3. 서포트벡터머신(SVM)에서 결정경계와 서포트벡터의 관계로 가장 적절한 설명은 무엇인가?

A: 결정경계는 n차원 공간에서 n-1차원의 초평면이고 양쪽 서포트벡터들 사이 거리를 반으로 나눕니다.

B: 결정경계는 항상 각 데이터 군집의 중심을 지나며 서포트벡터들은 그 중심으로부터 같은 거리에 분포합니다.

C: 서포트벡터는 결정경계로부터 가장 먼 데이터 포인트로 마진을 최대화하기 위해 선택됩니다.

D: SVM의 마진은 결정경계 자체의 '두께'를 의미하며, 마진이 클수록 결정경계는 더 복잡해집니다.

정답이에요!

A. 결정경계는 양쪽 마진을 가르는 초평면이므로 서포트벡터들 사이 거리를 반으로 나누는 중심선입니다. 서포트벡터는 결정경계와 가장 가까운 데이터 포인트라는 것을 기억하세요.

Q4. 클래스가 일부 겹쳐 일부 오분류가 불가피한 데이터에 SVM을 적용할 때 가장 적절한 선택은 무엇인가요?

A: 하드 마진 SVM을 사용해 모든 훈련 데이터를 완전 분리하도록 한다.

B: 선형 SVM에 RBF 커널을 적용하면 오분류 문제도 자동으로 해결된다.

C: 슬랙변수를 도입한 소프트 마진 SVM을 사용해 일부 오분류를 허용하면서 마진을 최대화한다.

D: 차수가 높은 다항 커널로 모델 복잡도를 높여 훈련 데이터에 완벽히 맞춘다.

정답이에요!

C. 겹침이 있는 데이터에는 소프트 마진을 사용해 슬랙변수로 일부 오분류를 허용하면서 마진을 최대화하는 방식이 적절해요. 슬랙변수는 허용 오차를 조절해 모델의 견고성과 과적합 간 균형을 맞추는 역할을 합니다.

Q5. SVM에서 최적의 결정경계를 찾을 때 마진을 직접 결정하는 학습 데이터 포인트 집합은 무엇인가?

A: 슬랙 변수(Slack Variables)

B: 서포트벡터(Support Vectors)

C: 결정경계에서 가장 먼 학습 데이터

D: 초평면(Hyperplane)

정답이에요!

B. 서포트벡터는 결정경계와 가장 가까이 있는 학습 데이터들이어서 이들이 마진을 결정하므로 정답이에요. 마진은 결정경계에서 서포트벡터까지의 거리이고 SVM은 이 거리를 최대화하는 초평면을 찾습니다.

이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.

[20260407] 빅데이터분석기사 필기 9일차_인공 신경망

dvlpsy — Tue, 7 Apr 2026 00:39:11 +0900

번호	핵심 키워드	상세 설명
1	인공신경망 (ANN)	인간의 신경세포인 뉴런을 모방하여 만든 기계 학습 모델로, 딥러닝의 기본 개념이며 입력층, 은닉층, 출력층으로 구성됩니다.
2	퍼셉트론	인공신경망의 가장 기본적인 모델로, 입력층과 출력층으로 구성되며, 단층 퍼셉트론은 선형 분리만 가능하고 다층 퍼셉트론은 은닉층을 추가하여 비선형 분리가 가능합니다.
3	활성화 함수	순 입력 함수로부터 받은 값을 특정 기준에 따라 판단하여 출력 값을 내는 역할을 하며, 시그모이드, 계단 함수, 부호 함수, ReLU 등 다양한 종류가 있습니다.
4	손실 함수 (비용 함수)	예측값과 실제값의 차이인 오차를 수치화하는 함수로, 이 값을 최소화하는 방향으로 모델을 학습시키며, MSE, MAE, 교차 엔트로피 등이 있습니다.
5	경사 하강법	손실 함수 값을 최소화하는 가중치를 찾기 위한 최적화 알고리즘으로, 임의의 초기 가중치에서 시작하여 기울기를 따라 손실이 가장 낮은 지점으로 이동하며 가중치를 업데이트합니다.

Q1. 왜 단층 퍼셉트론은 XOR 문제를 해결할 수 없는가?

A: 경사하강법이 XOR의 손실함수에 적용될 수 없기 때문에.

B: 가중치 초기화가 무작위라서 XOR 패턴을 안정적으로 학습할 수 없기 때문에.

C: 입력의 가중치 선형결합과 단일 활성화만으로는 XOR의 비선형 결정경계를 표현할 수 없기 때문에.

D: 퍼셉트론의 활성화함수가 항상 연속 함수여서 이진 출력으로 수렴하지 않기 때문에.

정답이에요!

C. 단층 퍼셉트론은 입력의 선형결합과 하나의 활성화로만 결정경계를 만들 수 있어 XOR처럼 선형분리가 불가능한 문제는 풀 수 없어요. 은닉층이나 비선형 변환을 추가하면 비선형 경계를 형성해 XOR을 해결할 수 있다는 점을 기억하세요.

Q2. 단층 퍼셉트론이 XOR 문제를 해결하지 못해 다층 퍼셉트론(MLP)을 도입한 이유로 가장 적절한 설명은?

A: 출력층의 뉴런 수를 늘리면 XOR 같은 비선형 문제를 선형적으로 해결할 수 있기 때문이다.

B: 단층 퍼셉트론의 학습 횟수(에폭)를 늘리면 XOR 문제를 해결할 수 없지만 MLP는 학습률을 높여 해결하기 때문이다.

C: 은닉층과 비선형 활성화함수를 통해 입력을 비선형적으로 변환해 선형 분리가 가능하게 만들기 때문이다.

D: 은닉층을 추가하면 가중치 초기값이 자동으로 최적화되어 학습 수렴이 빨라지기 때문이다.

정답이에요!

C. 은닉층에 비선형 활성화함수를 적용하면 입력을 비선형적으로 변환해 선형 분리가 가능한 특징공간으로 매핑할 수 있어서 MLP가 XOR을 해결할 수 있어요. 즉 은닉층과 활성화함수의 비선형성이 비선형 문제 해결의 핵심입니다.

Q3. XOR 문제를 학습하려는 단층 퍼셉트론이 반복 학습해도 오류를 줄이지 못할 때 가장 적절한 해결책은 무엇인가?

A: 출력층의 활성함수를 ReLU로 변경한다.

B: 드롭아웃을 적용하여 과적합을 줄인다.

C: 은닉층을 추가하여 다층 퍼셉트론(MLP/DNN)으로 확장한다.

D: 합성곱 신경망(CNN)을 적용한다.

정답이에요!

C. 은닉층을 추가하면 네트워크가 비선형 결정을 표현할 수 있어 XOR 같은 비선형 문제를 해결할 수 있어요. 단층 퍼셉트론은 선형 분류만 가능하지만 MLP/DNN은 은닉층의 비선형 변환으로 비선형 문제를 처리할 수 있다는 점을 기억하세요.

Q4. 딥러닝에서 시그모이드 함수보다 ReLU 활성화함수를 선호하는 주된 이유는 무엇인가?

A: 입력이 양수일 때 출력이 입력에 비례하여 기울기가 유지되므로 역전파 시 기울기 소실을 완화하기 때문이다.

B: 출력이 -1에서 1 사이로 대칭적이어서 편향 보정에 유리하기 때문이다.

C: 음수 입력에 대해 항상 1을 출력하여 뉴런이 과대적합되는 것을 방지하기 때문이다.

D: 출력이 항상 0과 1 사이로 정규화되어 학습이 안정적이기 때문이다.

정답이에요!

A. ReLU는 양수 영역에서 출력이 입력에 비례하므로 역전파할 때 기울기가 0이 아니어서 기울기 소실 문제를 완화해요. 활성화 함수 선택은 깊은 신경망에서 기울기 보존 여부와 밀접하게 관련되어 있다는 점을 기억하세요.

Q5. 이미지 분류용 심층 신경망을 학습할 때 학습 손실은 줄지만 검증 손실은 증가하고(과대적합), 초기 층의 기울기가 매우 작게 관측됩니다(기울기 소실). 강의 내용에 따라 이 두 문제를 동시에 완화하기 위한 가장 적절한 조치는 무엇인가요?

A: 모델의 은닉층을 제거하거나 파라미터 수를 크게 줄여 단순화한다.

B: 은닉층 활성화를 시그모이드 대신 ReLU 또는 Leaky ReLU로 변경하고 드롭아웃 및 데이터 증강을 적용한다.

C: 활성함수는 유지한 채 은닉층을 더 깊게 늘려 표현력을 키운다.

D: 모델을 CNN 구조로만 전환하고 학습/정규화 기법은 그대로 둔다.

정답이에요!

B. ReLU나 Leaky ReLU는 심층망에서 기울기 소실을 완화하고, 드롭아웃과 데이터 증강은 모델의 과대적합을 줄여 검증 성능을 개선해요. 따라서 활성화 함수를 변경하고 정규화 및 데이터 증강을 병행하는 것이 문제 해결에 적절해요.

Q6. 단층 퍼셉트론이 XOR 문제를 해결하지 못하는 주된 이유는 무엇인가?

A: 합성곱 연산을 사용하지 않아 이미지의 공간적 특징을 추출할 수 없기 때문에.

B: 학습에 필요한 데이터가 너무 많아 과대적합이 발생하기 때문에.

C: 활성화 함수(예: ReLU)가 없어 기울기 소실로 학습이 불가능하기 때문에.

D: 입력의 가중치 선형결합만으로 선형 결정 경계만 만들 수 있어 XOR의 비선형 분리를 표현하지 못하기 때문에.

정답이에요!

D. 단층 퍼셉트론은 입력의 선형결합으로만 결정 경계를 만들 수 있어 XOR 같은 비선형 문제를 분리하지 못해요. 은닉층을 추가하면 비선형 변환이 가능해져 MLP·DNN이 XOR을 해결할 수 있다는 점을 기억하세요.

Q7. 시그모이드의 기울기 소실을 개선하려 ReLU를 도입했더니 음수 입력에서 일부 뉴런이 완전히 출력 0이 되어 학습에 기여하지 못하는 문제가 발생했다. 강의에서 이 문제를 완화하는 활성화 함수는 무엇인가?

A: ReLU 함수

B: 하이퍼볼릭 탄젠트 함수(tanh)

C: 시그모이드 함수

D: Leaky ReLU 함수

정답이에요!

D. Leaky ReLU는 음의 입력 영역에 작은 기울기를 두어 뉴런이 완전히 죽는 현상을 방지하므로 해당 문제를 완화합니다. 활성화 함수는 기울기 소실과 음수 영역의 기울기 유무를 함께 고려해 선택해야 합니다.

Q8. 깊은 신경망에서 기울기 소실이 발생하고 일부 뉴런이 '죽는'(출력이 0으로 고정되는) 현상도 관찰될 때 이를 모두 완화하는 활성화 함수는 무엇인가요?

A: 계단 함수 (Step function)

B: 시그모이드 함수 (Sigmoid)

C: ReLU 함수

D: Leaky ReLU 함수

정답이에요!

D. Leaky ReLU는 양수 영역에서 선형적으로 증가해 기울기 소실을 완화하고 음수 영역에서는 작은 기울기를 유지해 뉴런이 완전히 죽는 것을 방지해요. 따라서 기울기 소실과 죽은 뉴런 문제를 동시에 완화하려면 Leaky ReLU가 적절합니다.

Q9. 다층 퍼셉트론(MLP)에서 기울기 소실과 과대적합 문제를 각각 완화하기 위한 적절한 기법의 조합은?

A: 시그모이드 활성화 함수와 드롭아웃 사용

B: ReLU 활성화 함수와 드롭아웃 사용

C: ReLU 활성화 함수와 L2 정규화

D: 시그모이드 활성화 함수와 데이터 증강

정답이에요!

B. ReLU는 시그모이드보다 도함수가 0으로 수렴하지 않아 기울기 소실을 완화하고, 드롭아웃은 학습 중 일부 뉴런을 무작위로 생략해 특정 학습 데이터에 대한 과대적합을 줄여요. 따라서 MLP에서는 ReLU와 드롭아웃을 함께 사용하는 것이 두 문제를 완화하는데 효과적입니다.

Q10. 단층 퍼셉트론이 XOR 문제를 해결하지 못하는 주된 이유와 이를 해결하는 핵심 방법은 무엇인가?

A: 가중치 초기화나 학습률 조정만으로 단층 퍼셉트론이 XOR을 해결할 수 있다.

B: 활성화 함수를 시그모이드 대신 ReLU로 바꾸면 단층 퍼셉트론도 XOR을 해결할 수 있다.

C: 단층 퍼셉트론은 입력의 선형 결합만으로 결정 경계를 만들기 때문에 XOR 같은 비선형 문제를 풀지 못하며, 은닉층과 비선형 활성화 함수를 추가한 다층 퍼셉트론이 해결한다.

D: 단층 퍼셉트론의 한계는 과대적합 때문이며, 드롭아웃을 쓰면 XOR 문제도 해결된다.

정답이에요!

C. 단층 퍼셉트론은 단일 선형 결정 경계를 학습하므로 XOR처럼 서로 다른 클래스가 선형으로 분리되지 않는 문제를 풀 수 없어요. 따라서 은닉층과 비선형 활성화 함수를 가진 다층 퍼셉트론(MLP)이 비선형 경계를 학습해 XOR 문제를 해결합니다.

이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.

[20260407] 빅데이터분석기사 필기 9일차_의사결정나무

dvlpsy — Tue, 7 Apr 2026 00:26:52 +0900

번호	핵심 키워드	상세 설명
1	의사결정나무 (Decision Tree)	데이터를 분류하거나 예측하기 위해 스무고개 게임처럼 질문을 통해 데이터를 분할해 나가는 나무 형태의 모델.
2	불순도 (Impurity)	데이터가 얼마나 섞여 있는지를 나타내는 지표로, 불순도가 낮을수록 데이터의 순수도가 높음을 의미하며, 지니 지수, 엔트로피 지수, 카이제곱 통계량 등으로 측정한다.
3	가지치기 (Pruning)	과대적합을 방지하고 모델을 단순화하기 위해 생성된 의사결정나무의 불필요한 가지를 잘라내는 과정.
4	정보 획득 (Information Gain)	데이터를 분할했을 때 불순도가 감소하는 정도를 나타내는 지표로, 불순도 감소량이 클수록 좋은 분할이다.
5	의사결정나무 알고리즘	데이터를 분할하는 기준과 방법을 정의하는 알고리즘으로, CART, C4.5, C5.0, CHAID 등이 있으며 각각 분류/예측 가능 여부, 예측 변수 유형, 불순도 측정 방식, 분할 방식, 가지치기 시점 등에서 차이를 보인다.

Q1. 한 노드에 노란색 5개와 초록색 5개가 있을 때, 이 노드의 지니 불순도(Gini impurity)는 얼마인가?

A: 0.25

B: 1.0

C: 0.5

D: 0.0

정답이에요!

C. 지니 불순도는 1 - (p1^2 + p2^2)이고, 두 클래스의 확률이 각각 0.5이므로 1 - (0.25 + 0.25) = 0.5가 정답이에요. 지니 불순도는 클래스가 균등하게 섞일수록 값이 커진다는 점을 기억하세요.

Q2. 초기 분할에서 'Outlook'으로 나눈 결과 순도가 낮아 추가로 'Humidity'를 70을 기준으로 분할했더니 자식노드들이 모두 한 클래스로 나왔습니다. 이 결과를 가장 잘 설명하는 개념은 무엇인가?

A: 연속 변수를 원-핫 인코딩으로 변환하여 분할한 결과로 순도가 높아졌다.

B: 분할이 정보획득(information gain)을 최대화하여 불순도(지니·엔트로피)가 크게 감소했기 때문이다.

C: 이 분할은 가지치기(pruning)를 통해 과적합을 제거한 후의 결과이다.

D: 이 분할은 모델의 해석성을 떨어뜨려 변수 중요도 계산이 불가능해졌기 때문이다.

정답이에요!

B. 분할이 정보획득을 높여 불순도(예: 지니, 엔트로피)가 감소하자 자식노드들이 순수해진 거예요. 의사결정나무는 각 분할에서 불순도 감소를 최대화하는 기준을 선택한다는 점을 기억하세요.

Q3. 다수의 범주를 갖는 명목형 설명변수가 많고 한 번의 분할에서 여러 범주로 나누는 방식이 바람직한 상황에서 가장 적합한 의사결정나무 알고리즘은?

A: 랜덤포레스트: 여러 결정트리를 앙상블하므로 단일 분할 방식 선택과 무관하다.

B: CHAID: 카이제곱 기반으로 범주형 변수에 대해 다중(여러 가지) 분할을 수행한다.

C: CART: 지니 지수를 사용하고 이진 분할을 수행한다.

D: C4.5/C5.0: 엔트로피(정보획득)를 기준으로 연속·범주형을 처리하지만 주로 이진 분할을 선호한다.

정답이에요!

B. CHAID는 카이제곱 통계량을 이용해 범주형 변수의 집단 간 차이를 검정하고 한 단계에서 여러 범주로 분할할 수 있어서 이런 상황에 적합해요. 즉, 범주형 다중분할이 필요할 때 CHAID를 고려하면 됩니다.

Q4. 다음 의사결정나무 예시에서 '발이 있나요?' 같은 질문의 역할은 무엇인가?

A: 과적합을 방지하기 위한 가지치기 여부를 결정하는 기준

B: 트리 전체의 시작점으로서 전체 데이터를 대표하는 루트 노드

C: 최종 예측 결과를 나타내는 단말(잎) 노드

D: 특정 속성 값을 기준으로 데이터를 분할하는 내부(분기) 노드

아쉬워요. B

정답이에요!

D. 이 질문은 객체의 속성(발 여부)에 따라 데이터를 서로 다른 가지로 나누는 내부 분기 노드의 역할을 하므로 정답이에요. 의사결정나무는 내부 노드의 질문으로 분기하고 잎 노드에서 최종 예측을 제공합니다.

Q5. 데이터가 제한적이고 과적합이 우려되는 상황에서 의사결정나무 모델을 개발할 때, 강의에서 권장하는 알고리즘·절차 조합으로 가장 적절한 것은?

A: C4.5를 사용하여 학습 데이터만으로 가지치기하여 최종 모형을 결정한다.

B: CART로 완전한 나무를 생성한 뒤 학습 데이터와 검증 데이터를 사용해 가지치기한다.

C: 어떤 알고리즘을 쓰든 테스트 데이터를 이용해 가지치기하여 성능을 최적화한다.

D: CHAID로 다중분할을 적용하고 가지치기는 생략한다.

정답이에요!

B. CART는 완전 모형 생성 후 학습·검증 데이터를 이용한 가지치기로 과적합을 줄이는 방식이어서 이 상황에 적합해요. 가지치기와 검증 데이터 사용은 모델이 학습 데이터에만 과적합되는 것을 방지하는 기본 방법입니다.

Q6. 지니 계수를 사용하면서 항상 이진 분할을 수행하는 의사결정나무 알고리즘은 무엇인가?

A: CART(지니 지표·이진분할)

B: CHAID(엔트로피·이진분할)

C: C5.0(지니 지표·이진분할)

D: C4.5(카이제곱 검사·다중분할)

정답이에요!

A. CART는 지니 지수를 사용해 노드를 분할하며 기본적으로 이진분할을 수행하므로 정답이에요. 알고리즘별로 순도지표와 분할 방식이 달라 CART(지니·이진), C4.5·C5.0(엔트로피 계열), CHAID(카이제곱)로 구분된다는 점을 기억하세요.

Q7. 의사결정나무 그림에서 '고양이보다 큰가요?' 마디에 대한 가장 적절한 설명은?

A: 이 노드는 뿌리 마디로서 최상위 노드이다.

B: 이 항목은 노드가 아니라 가지(branch)에 해당한다.

C: 상위 노드의 자식이자 하위 노드의 부모인, 즉 부모 마디이자 자식 마디이다.

D: 이 노드는 더 이상 분할하지 않는 끝 마디(terminal node)이다.

아쉬워요.D

정답이에요!

C. 해당 마디는 위의 분기에서 내려온 자식 노드이면서 아래로 호랑이 끝 마디로 연결되는 부모 역할을 하므로 부모이자 자식이에요. 뿌리 마디는 최상위, 끝 마디는 더 이상 분기하지 않는 노드라는 점을 기억하세요.

Q8. 의사결정나무에서 과적합을 효과적으로 제어하기 위해 일반적으로 학습 후에 수행되는 절차는 무엇인가요?

A: 학습 후 가지치기(pruning)를 수행하고 검증 데이터로 최종 모델을 평가한다.

B: 연속 변수를 모두 범주형으로 변환하지 않고 그대로 사용한다.

C: 분할 기준을 모두 지니계수로 통일하여 분할을 단순화한다.

D: 학습 단계에서만 트리의 최대 깊이를 강하게 제한한다.

정답이에요!

A. 학습 후 가지치기와 검증을 통해 불필요한 분할을 제거하고 모델의 일반화 성능을 확인하니까요. 의사결정나무는 깊이 제한과 가지치기·검증 과정을 거쳐 최종 모델을 선택합니다.

Q9. 학습 데이터에 매우 복잡한 결정나무가 학습집합에는 높은 성능을 보이나 검증집합에서 성능이 크게 떨어질 때 강의에서 권장하는 적절한 조치는 무엇인가요?

A: 나무의 최대 깊이를 제한하거나 학습 후 가지치기를 수행하고 교차타당성으로 최적의 나무 크기를 선택한다.

B: 더 많은 독립변수를 추가하여 모델의 복잡도를 증가시킨다.

C: 끝 노드의 예측값을 학습 데이터의 평균 대신 중앙값으로 바꾼다.

D: 분할 기준을 엔트로피에서 지니 계수로 바꿔서 분할을 더 엄격하게 만든다.

정답이에요!

A. 과적합된 결정나무는 최대 깊이 제한이나 학습 후 가지치기를 통해 복잡도를 낮추고 교차타당성으로 최적 나무 크기를 선택하는 것이 적절해요. 결정나무에서는 일반적으로 가지치기와 검증을 통해 과적합을 제어합니다.

Q10. 다음 중 나무 모양의 구조로 데이터를 분류하거나 예측하는 모델은 무엇인가?

A: 인공신경망

B: 의사결정나무

C: 로지스틱 회귀분석

D: 회귀분석

정답이에요!

B. 의사결정나무는 나무 모양 구조를 통해 데이터를 분류하거나 예측하는 모델이라 정답이에요. 강의에서 의사결정나무를 분류 및 예측을 위한 나무 모양 모델로 설명한 점을 기억하세요.

Q4.[오답 퀴즈] 의사결정나무에서 특정 목표(예: ‘호랑이’)를 빠르게 식별하기 위해 루트 분할 변수로 선택하면 전체 트리의 일반화 능력을 가장 저해하고 과적합 위험을 높일 가능성이 큰 분할 변수는 무엇인가?

A: 고양이보다 큰가요? (상대적 크기 기반의 특성)

B: 동물인가요? (일반적이고 포괄적인 특성)

C: 발이 있나요? (범주를 넓게 나누는 중간 수준 특성)

D: 줄무늬가 있나요? (특정 클래스에 매우 특이적인 특성)

정답이에요!

D. 줄무늬처럼 특정 클래스에만 거의 해당되는 특성은 그 클래스를 빠르게 구분하게 해도 학습 데이터에 치우친 분할을 만들어 다른 사례에 일반화되지 못해 과적합을 유발할 수 있어요. 분할 변수는 가능한 한 다양한 사례를 구분할 수 있는 보다 일반적이고 설명력이 있는 특성을 선택하는 것이 중요합니다.

Q7.[오답 퀴즈] 훈련 데이터에서는 거의 완벽한 예측을 보이지만 검증 데이터 성능은 급격히 떨어지는 결정나무 모델의 과적합을 완화하면서도 중요한 분할 기준은 최대한 보존하려면 어떤 조치를 우선 적용해야 하는가?

A: 뿌리 마디에서 더 많은 분할을 수행해 다양한 가지를 생성한다.

B: 가지치기를 적용하여 생성된 가지를 잘라 모형을 단순화한다.

C: 모든 중간 마디를 제거해 부모–자식 구조를 단순화한다.

D: 최대 깊이를 낮춰 뿌리부터 끝마디까지의 중간 마디 수를 줄인다.

정답이에요!

B. 가지치기는 과적합을 유발하는 불필요한 분기를 제거해 검증 성능을 개선하는 방법이라 정답이에요. 나무의 최대 깊이 제한도 도움이 되지만 가지치기는 학습된 중요한 분할은 유지하면서 과도한 복잡성만 줄일 수 있다는 점이 핵심이에요.

이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.

[20260406] 빅데이터분석기사 필기 8일차_로지스틱 회귀분석

dvlpsy — Mon, 6 Apr 2026 23:13:01 +0900

번호	핵심 키워드	상세 설명
1	로지스틱 회귀 분석	종속 변수가 범주형 데이터(예: 0 또는 1)일 때 사용하는 분류 기법으로, 기존 회귀 분석으로는 해결하기 어려운 문제에 적용됩니다.
2	로지스틱 함수 (시그모이드 함수)	S자 형태의 곡선 함수로, 입력값의 범위가 무한대여도 출력값을 0과 1 사이의 확률로 변환하여 예측하는 데 사용됩니다. 인공 신경망에서도 활용됩니다.
3	오즈 (Odds)	성공 확률(p)을 실패 확률(1-p)로 나눈 값(p / (1-p))으로, 특정 사건이 발생할 가능성을 나타냅니다.
4	로짓 변환 (Logit Transformation)	오즈 값에 로그를 취하는 변환으로, 오즈의 범위(0에서 무한대)를 마이너스 무한대에서 플러스 무한대로 확장하여 선형 회귀 모델에 적용 가능하게 만듭니다.
5	임계점 (Threshold)	로지스틱 회귀 분석에서 예측된 확률 값을 0 또는 1로 분류하기 위한 기준점으로, 일반적으로 0.5를 사용하지만 상황에 따라 조정될 수 있습니다.

Q1. 로지스틱 회귀분석에서 출력층에 시그모이드 함수를 사용하는 주된 이유는 무엇인가?

A: 입력 변수들의 스케일을 자동으로 정규화하기 위해

B: 선형 결합 값을 0~1 범위로 변환하여 확률로 해석하기 위해

C: 항상 직선 형태의 결정경계를 보장하기 위해

D: 모델의 계산 속도를 크게 향상시키기 위해

정답이에요!

B. 시그모이드 함수는 선형 결합 결과를 0과 1 사이로 압축하므로 예측값을 확률로 해석할 수 있어요. 로지스틱 회귀는 이 확률을 바탕으로 분류 결정을 하기 때문에 시그모이드가 중요합니다.

Q2. 로지스틱 회귀에서 오즈(odds)가 4로 추정되었다면 이에 대응하는 예측 확률은?

A: 0.2

B: 0.4

C: 0.8

D: 0.25

정답이에요!

C. 오즈는 p/(1−p) 이므로 p = 오즈/(1+오즈) 입니다. 오즈가 4이면 p = 4/(1+4) = 0.8이므로 답은 0.8이에요.

Q3. 주어진 나이(연속변수)와 질병유무(이진결과)의 산점도를 모델링할 때 로지스틱 회귀를 선호하는 주된 이유는 무엇인가요?

A: 연령 관련 건강 결과는 항상 생존분석을 사용해야 하므로 Kaplan–Meier 방법이 더 적절하다.

B: 로지스틱 회귀는 로그오즈를 선형으로 모델링하고 예측값을 0과 1 사이로 제한하므로 이진 결과의 확률 추정에 적합하다.

C: 포아송 회귀는 이진 결과에 특화되어 있어 로지스틱 회귀보다 더 정확한 확률을 제공한다.

D: 선형회귀는 이상치에 민감하고 연속형 설명변수를 처리할 수 없기 때문에 로지스틱 회귀를 사용해야 한다.

정답이에요!

B. 로지스틱 회귀는 이진 결과의 확률을 0과 1 사이로 제한하는 시그모이드(로지스틱) 함수를 사용해 로그오즈를 선형으로 모델링하므로 적합해요. 선형회귀는 확률을 벗어난 값을 예측할 수 있고 정규성·등분산성 가정을 필요로 하므로 이 경우 부적절합니다.

Q4. 로지스틱 회귀에서 오즈(odds)와 로짓(logit)의 올바른 관계는 무엇인가?

A: 로짓 = 1/(1+e^{-x}), 오즈 = p/(1-p) — 왼쪽은 로짓이 아니라 로지스틱(시그모이드) 함수이다.

B: 로짓 = p/(1-p), 오즈 = log(p/(1-p)) — 로짓과 오즈의 정의를 뒤바꾼 형태이다.

C: 오즈 = log(p/(1-p)), 로짓 = p — 오즈와 로짓의 정의가 혼동된 표현이다.

D: 로짓 = log(p/(1-p)), 오즈 = p/(1-p) — 로짓은 오즈에 로그를 취한 값이다.

정답이에요!

D. 로짓은 오즈에 로그를 취한 값으로 log(p/(1-p))이 맞습니다. 오즈는 p/(1-p)이고 로지스틱 함수는 1/(1+e^{-x})로 확률값을 만드는 함수라는 점을 기억하세요.

Q5. 로지스틱 회귀분석의 핵심 개념으로 가장 적절한 설명은?

A: 다항 로지스틱 회귀는 독립변수가 명목형일 때만 적용된다.

B: 종속변수가 연속형일 때 사용하며 회귀식의 예측값을 그대로 확률로 해석한다.

C: 종속변수가 범주형일 때 사용하며 오즈의 로그(로짓)를 선형결합으로 모델링하고 시그모이드 함수로 확률을 예측한다.

D: 출력값이 항상 0 또는 1이어서 확률 추정이 불가능하다.

정답이에요!

C. 로지스틱 회귀는 종속변수가 범주형일 때 오즈의 로그(로짓)를 선형결합으로 모델링하고 시그모이드 함수를 통해 해당 범주에 속할 확률을 예측하므로 설명이 맞아요. 즉, 이 모델은 이항 또는 다항 분류 문제에서 확률을 추정하기 위해 로짓 변환과 시그모이드를 사용합니다.

이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.

[20260406] 빅데이터분석기사 필기 8일차_회귀분석2

dvlpsy — Mon, 6 Apr 2026 23:07:22 +0900

번호	핵심 키워드	상세 설명
1	회귀 분석 가정	회귀 분석 모델이 유효하기 위해 충족해야 하는 전제 조건으로, 선형성, 정규성, 독립성, 등분산성이 있습니다.
2	오차 검정 지표 (MAE, MSE, RMSE)	회귀 모델의 예측 오차를 정량화하는 지표로, MAE(평균 절대 오차), MSE(평균 제곱 오차), RMSE(평균 제곱근 오차)가 있으며 값이 낮을수록 좋은 모델입니다.
3	결정 계수 (R-squared)	회귀 모델이 종속 변수의 분산을 얼마나 잘 설명하는지 나타내는 지표로, 0에서 1 사이의 값을 가지며 1에 가까울수록 설명력이 높습니다.
4	수정된 결정 계수 (Adjusted R-squared)	다중 선형 회귀 분석에서 독립 변수의 개수 증가에 따른 결정 계수의 과대평가를 보정하는 지표로, 설명력이 낮은 변수 추가 시 값이 감소합니다.
5	다중 공선성 (Multicollinearity)	다중 선형 회귀 분석에서 독립 변수들 간에 높은 상관관계가 존재하는 현상으로, VIF(분산 팽창 요인) 지수를 통해 진단하며, 10 이상일 경우 문제가 있다고 판단합니다.

Q1. 실제값이 20일 때 네 모형의 예측값 중 MAE 기준으로 가장 좋은 모형은?

A: 모형 4 (예측값 30)

B: 모형 2 (예측값 17)

C: 모형 3 (예측값 25)

D: 모형 1 (예측값 13)

정답이에요!

B. 모형2는 오차가 |20-17|=3으로 네 모형 중 가장 작으므로 MAE 기준에서 최적인 모형이에요. MAE는 관측값과 예측값 간 절대차의 평균을 나타내며 값이 작을수록 모형 성능이 좋아요.

Q2. 잔차의 Q‑Q 플롯은 직선에 가깝게 정규성을 만족하지만, 잔차가 특정 구간에서 점점 퍼져 '깔때기' 모양을 보일 때 위배된 회귀모형 가정은 무엇인가요?

A: 등분산성(잔차의 분산이 모든 구간에서 일정해야 함)

B: 정규성(오차항이 정규분포를 따라야 함)

C: 선형성(독립변수와 종속변수 간의 관계가 선형이어야 함)

D: 독립성(오차항들이 서로 독립이어야 함)

정답이에요!

A. 잔차가 특정 구간에서 퍼지는 '깔때기' 형태는 잔차 분산이 일정하지 않다는 뜻으로 등분산성 가정이 위배된 경우예요. 등분산성은 모든 관측치에서 오차의 분산이 동일해야 한다는 가정이에요.

Q3. 독립변수가 하나이고 종속변수가 두 범주(예: 성공/실패)를 가지는 자료를 분석할 때 적절한 회귀분석 방법은?

A: 로지스틱회귀

B: 다중선형회귀

C: 단순선형회귀

D: 다항회귀

정답이에요!

A. 종속변수가 범주형(특히 이진)이면 로지스틱회귀가 적절해요. 로지스틱회귀는 범주형 종속변수를 설명하기 위해 사용하는 회귀방법이라는 점을 기억하세요.

Q4. 회귀분석에서 오차항의 정규성(정상성)을 검정하는 데 적합하지 않은 방법은 무엇인가?

A: 콜모고로프‑스미르노프(KS) 검정

B: Durbin‑Watson 검정

C: QQ 플롯

D: Shapiro‑Wilk 검정

아쉬워요. C

정답이에요!

B. Durbin‑Watson 검정은 잔차의 자기상관(독립성)을 검사하는 도구라서 정규성 검정이 아니에요. 정규성은 QQ플롯이나 Shapiro‑Wilk, Kolmogorov‑Smirnov 같은 방법으로 확인합니다.

Q5. 실제값이 20일 때 네 모형의 예측값이 각각 13, 17, 25, 30일 때, 잔차의 절댓값이 작다는 기준으로 가장 좋은 모형은 무엇인가?

A: 모형 4 (예측값 30)

B: 모형 3 (예측값 25)

C: 모형 2 (예측값 17)

D: 모형 1 (예측값 13)

정답이에요!

C. 예측값 17의 잔차는 3으로 네 모형 중 절댓값이 가장 작아서 좋은 모형이에요. 잔차의 절댓값이 작을수록 실제값과 예측값의 차이가 작아 예측 성능이 좋다는 점을 기억하세요.

Q6. 다중선형회귀에서 일부 설명변수의 VIF가 12로 높고 모델에 불필요한 변수가 포함된 것으로 보일 때, 모델을 개선하기 위해 가장 적절한 조치는 무엇인가?

A: 예측력을 높이기 위해 가능한 모든 변수를 남겨둔 채 MSE를 최소화하도록 회귀계수를 재추정한다.

B: VIF가 높은 변수를 제거하거나 전진·후진·단계적 변수선택을 적용하고 AIC/BIC로 후보 모형을 비교하여 더 간결한 모형을 선택한다.

C: 잔차 정규성 여부를 Durbin‑Watson 검정으로 먼저 확인한다.

D: 종속변수를 로그 변환하여 모델을 추정한다.

정답이에요!

B. VIF가 12이면 다중공선성을 의심해야 하므로 높은 VIF 변수를 제거하거나 변수선택 기법으로 불필요한 변수를 제거하고 정보기준으로 모형을 비교하는 것이 적절해요. 다중공선성은 회귀계수의 분산을 키워 추정의 불안정성을 초래하니 더 간결한 모형을 선택하는 것이 좋습니다.

Q7. 선형 회귀식 y_i = α + β x_i + ε_i에서 회귀계수를 최소제곱법으로 추정하는 주된 이유는 무엇인가요?

A: 잔차(residual)의 제곱합을 최소화하여 관측값과 예측값 간의 전체 오차를 가장 작게 만들기 위해

B: 오차항의 분산을 최대화하여 모델의 설명력을 높이기 위해

C: 잔차의 절대값 합을 최소화하여 이상치의 영향을 완전히 제거하기 위해

D: 독립변수와 종속변수의 상관계수를 1로 만들기 위해

정답이에요!

A. 회귀계수는 관측값과 회귀선으로 예측된 값의 차이인 잔차들의 제곱합을 최소화하도록 추정되기 때문에 최소제곱법을 사용합니다. 잔차는 관측값과 예측값의 차이이고, 최소제곱법은 이 차이들의 제곱합을 가장 작게 만드는 추세선을 찾는 방법이에요.

Q8. 다수의 설명변수를 추가했더니 R²는 증가했으나 Adjusted R²가 감소했습니다. 이 결과의 가장 적절한 해석은?

A: 모형의 RMSE가 반드시 증가했음을 의미합니다.

B: 추가한 변수가 잔차의 정규성을 깨뜨렸음을 의미합니다.

C: 추가한 변수들로 인해 다중공선성이 반드시 심해졌다는 신호입니다.

D: 추가한 변수가 모형의 설명력을 충분히 개선하지 못해 불필요한 변수일 가능성이 큽니다.

정답이에요!

D. Adjusted R²는 변수 추가에 대한 페널티를 적용하기 때문에 값이 감소하면 새 변수가 설명력을 충분히 개선하지 못했다는 뜻이에요. 불필요한 변수는 제거하거나 변수선택 기준(AIC/BIC 등)으로 재검토하세요.

Q9. 한 단순선형회귀모형에서 잔차 제곱합(∑(y_i−ŷ_i)^2)이 100이고 관측치 수가 25일 때, 이 모형의 MSE와 RMSE는 각각 얼마인가?

A: MSE = 25, RMSE = 5

B: MSE = 4, RMSE = 2

C: MSE = 100, RMSE = 10

D: MSE = 2, RMSE = 4

아쉬워요. D

정답이에요!

B. MSE는 100을 25로 나눈 4이고 RMSE는 그 제곱근인 2이므로 해당 값이 맞아요. MSE는 평균 제곱 오차이고 RMSE는 그 평균 제곱근으로 예측오차의 크기를 나타냅니다.

Q10. 선형회귀 모형에서 특정 설명변수의 VIF가 12로 관측될 때 강의 내용에 따라 가장 적절한 다음 조치는 무엇인가?

A: 해당 변수의 제거 또는 전진·후진·단계적 변수선택을 통해 모델을 재구성하고 AIC/BIC로 비교한다.

B: VIF가 높더라도 그대로 두고 모델을 유지한다.

C: 모형을 이진종속 문제로 간주하여 로지스틱 회귀로 전환한다.

D: 종속변수에 로그 변환을 적용하여 다중공선성을 해소한다.

정답이에요!

A. VIF가 12이면 다중공선성이 의심되어 관련 변수를 제거하거나 전진·후진·단계적 선택으로 불필요한 변수를 정리하는 것이 적절해요. 강의에서는 VIF 확인과 함께 전진·후진·단계적 방법 및 AIC/BIC로 변수선택을 진행하라고 설명했음을 기억하세요.

Q4.[오답 퀴즈] 예측 정확도를 목표로 회귀모형을 구축했더니 일부 설명변수의 VIF가 15 이상으로 높고, 잔차가 비정규·이분산·양의 자기상관(Durbin‑Watson≈1.2)을 보이며, 변수 제거 시 AIC가 악화됩니다. 예측 성능을 최적화하기 위해 가장 적절한 전략은 무엇인가?

A: 교차검증을 통해 규제(릿지/LASSO)나 차원축소(주성분회귀)를 적용해 다중공선성과 과적합을 완화하고, 잔차의 자기상관은 적절한 표준오차 보정이나 시계열적 모델링으로 처리한다.

B: 회귀계수의 해석성을 위해 VIF가 큰 변수를 제거한 뒤 표준 OLS로 모델을 확정한다.

C: AIC가 낮아지는 소수 변수 모델을 무조건 선택하고 잔차의 분포·상관 문제는 예측에 큰 영향이 없으므로 무시한다.

D: 종속변수를 로그 등으로 변환하여 잔차의 정규성만 맞춘 후 기존 OLS 절차를 그대로 따른다.

정답이에요!

A. 규제 기법과 교차검증은 다중공선성과 과적합을 줄여 외부 데이터에 대한 예측력을 개선하고, 자기상관은 표준오차 보정이나 시계열적 모델링으로 처리해야 예측치 신뢰성이 확보됩니다. 예측 목적이면 규제와 검증을 통해 모델의 일반화 능력을 우선 확보하세요.

Q9.[오답 퀴즈] Galton의 관찰(매우 큰/작은 부모의 자손이 모집단 평균에 더 가까워지는 경향)을 가장 타당하게 설명하는 해석은 무엇인가?

A: 부모의 키가 자손에게 부분적으로 유전되지만 유전력이 1보다 작아 무작위 변동 때문에 극단값은 평균으로 회귀한다.

B: 세대를 거치며 자연선택이 작용해 극단적 키가 점진적으로 모집단 평균으로 수렴한다.

C: 부모의 키는 전혀 유전되지 않아 자손의 키는 항상 모집단 평균으로 수렴한다.

D: 관측된 경향은 주로 표본오차나 측정오류의 결과이며 유전적 영향은 무시할 수 없다.

정답이에요!

A. 부모의 형질이 부분적으로만 유전되면 극단적인 부모일수록 자손은 평균 쪽으로 되돌아오는 경향이 생기므로 회귀 효과가 설명됩니다. 이를 회귀(regression to the mean)라고 하며 유전력<1과 환경적·무작위 변동이 원인이라는 점을 기억하세요.

이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.

[20260406] 빅데이터분석기사 필기 8일차_회귀분석1

dvlpsy — Mon, 6 Apr 2026 22:57:16 +0900

번호	핵심 키워드	상세 설명
1	회귀 분석	하나 이상의 독립 변수가 종속 변수에 미치는 영향을 추정하고 예측하는 통계 기법. 변수 간의 관계성을 밝히고 새로운 데이터에 대한 예측을 가능하게 함.
2	종속 변수와 독립 변수	종속 변수(Y)는 예측하고자 하는 대상이며, 독립 변수(X)는 종속 변수에 영향을 미치는 요인.
3	오차와 잔차	오차는 모집단에서의 예측값과 실제 값의 차이를 의미하며, 잔차는 표본 데이터에서 실제 값과 모델의 예측값 간의 차이를 의미함. 잔차는 오차의 실제 구현된 값으로 볼 수 있음.
4	회귀 계수 (파라미터)	회귀 모델에서 독립 변수가 종속 변수에 미치는 영향의 크기와 방향을 나타내는 값(기울기)과 Y절편을 의미하며, 모델의 핵심적인 요소로 예측의 정확도를 결정함.
5	최소 제곱법	회귀 계수를 찾는 알고리즘으로, 잔차(실제 값과 예측 값의 차이)의 제곱합을 최소화하는 직선(회귀선)을 찾아 가장 합리적인 모델을 구축하는 방법.

Q1. 회귀선이 그려진 산점도에서 강조된 점과 회귀선 사이의 수직거리는 무엇을 의미하나요?

A: 모형이 설명한 전체 분산

B: 회귀계수(기울기)

C: 두 변수 간의 상관계수

D: 관측값과 예측값의 차이(잔차)

아쉬워요. C

정답이에요!

D. 그 수직거리는 관측값과 회귀선이 예측한 값의 차이인 잔차를 나타내요. 잔차는 각 관측치에 대한 모델의 예측 오차라는 점을 기억하세요.

Q2. 학습 데이터에서는 오차가 매우 작고 새로운(테스트) 데이터에서는 오차가 큰 모델의 문제 원인은 무엇인가요?

A: 데이터 누락에 따른 무작위 오차 증가(결측 혹은 측정오류에 기인한 문제)

B: 이상적인 모형(편향과 분산이 모두 낮아 학습·테스트 오차가 모두 낮음)

C: 과대적합(모델이 학습 데이터의 잡음까지 학습하여 일반화 성능이 저하됨)

D: 과소적합(모델이 학습 데이터의 구조를 충분히 학습하지 못함)

아쉬워요. D

정답이에요!

C. 학습 데이터에서는 오차가 작고 테스트 데이터에서 오차가 큰 경우는 모델이 학습 데이터의 잡음까지 학습해 새로운 데이터에 일반화하지 못하는 과대적합의 전형적 특징이에요. 과대적합은 편향은 낮고 분산이 큰 모형이라는 점을 기억하세요.

Q3. 단순 선형회귀식 y = ax + b에서, 자식의 키(y)와 부모의 키(x)를 관계로 모델링할 때 매개변수 a의 의미는 무엇인가요?

A: 부모의 키가 0일 때 예측되는 자식의 키(절편)

B: 부모의 키가 한 단위 증가할 때 자식의 키가 기대적으로 변하는 평균량

C: 특정 관측값과 회귀직선 사이의 수직거리(잔차)

D: 모델이 데이터의 변동을 설명하는 정도(결정계수)

아쉬워요. A

정답이에요!

B. 기울기 a는 독립변수가 한 단위 증가할 때 종속변수의 평균적 변화량을 나타내요. 절편 b는 부모 키가 0일 때 회귀식으로 예측되는 자식 키를 의미한다는 점도 기억하세요.

Q4. 표본에서 x̄ = 170이고 ȳ = 160일 때, 최소제곱법으로 추정한 회귀직선의 예측값 ŷ(170)은 무엇인가?

A: β0 (절편값)

B: 표본의 중앙값 (median)

C: 160 (표본평균 ȳ)

D: 0

아쉬워요.A

정답이에요!

C. 최소제곱법으로 추정된 회귀직선은 표본의 평균 좌표 (x̄, ȳ)를 지나므로 ŷ(170)은 ȳ인 160이 됩니다. 이 성질은 최소제곱 추정의 기본적인 대수적 결과이니 기억하세요.

Q5. 다중선형회귀식 y = β₀ + β₁x₁ + β₂x₂ + ε에서 x₁은 부모의 키, x₂는 지역(도시=1, 농촌=0)일 때 β₂의 가장 적절한 해석은?

A: 부모의 키가 같을 때 도시 출신인 자녀의 평균 키가 농촌 출신보다 β₂만큼 더 크다.

B: β₂는 부모의 키와 자녀의 키 사이의 인과관계를 나타낸다.

C: 모든 관측치에서 자녀의 키는 β₂로 일정하게 증가한다.

D: 부모의 키가 β₂만큼 증가하면 자녀의 키가 한 단위 증가한다.

아쉬워요. C

정답이에요!

A. β₂는 부모의 키(x₁)를 고정했을 때 도시(1)와 농촌(0) 간의 평균 자녀 키 차이를 나타내므로 정답이에요. 회귀계수는 다른 변수들을 통제한 조건부 평균 차이를 의미한다.

Q6. 종속변수가 0/1의 이진값일 때 선형회귀 대신 로지스틱 회귀를 사용하는 주된 이유는 무엇인가?

A: 선형회귀는 회귀계수를 최소제곱법으로 추정하지만 로지스틱회귀는 최대우도법을 사용하므로 정밀도가 높다.

B: 로지스틱회귀는 오차항이 정규분포를 따른다는 가정이 필요 없어 항상 더 안정적인 예측을 제공한다.

C: 로지스틱회귀는 결과를 확률로 모델링하여 예측값을 0과 1 사이로 제한하므로 이진 분류에 적합하다.

D: 선형회귀는 변수 선택을 자동으로 수행하지 못하지만 로지스틱회귀는 자동으로 중요 변수를 가려낸다.

정답이에요!

C. 로지스틱회귀는 종속변수를 확률로 모델링하여 예측값을 0과 1 사이로 제한하므로 이진 결과를 다루기에 적합해요. 선형회귀는 연속형 값 예측에 적합하며 예측값이 확률 범위 밖으로 벗어날 수 있다는 점을 기억하세요.

Q7. 다음 산점도에서 부모 키(x)에 대한 자식 키(y)의 단순선형회귀모형에서 기울기(slope)의 가장 적절한 해석은?

A: 기울기는 부모와 자식 키 사이의 인과관계의 강도를 직접적으로 나타낸다.

B: 기울기가 양수이면 부모 키가 1단위(예: 1cm) 증가할 때 자식 키의 기대 평균이 기울기만큼 증가한다.

C: 기울기는 회귀직선과 y축의 교점으로, 부모 키가 0일 때의 자식 키를 항상 의미 있게 설명한다.

D: 기울기는 관측값들의 퍼짐(분산) 정도를 직접적으로 나타내는 지표이다.

정답이에요!

B. 기울기는 부모 키가 한 단위 증가할 때 자식 키의 기대 평균 변화량을 추정하므로 첫 설명이 맞습니다. 회귀기울기는 변수들 간의 평균적 선형관계를 나타낸다는 점을 기억하세요.

Q8. 선형회귀식 y = β0 + β1 x + ε에서 '잔차(residual)'와 '오차(error)'의 차이에 대한 설명으로 가장 적절한 것은?

A: 잔차는 관측값 y와 회귀식에 의한 예측값 ŷ의 차이(yi - ŷi)이고, 오차는 모집단 수준에서의 이론적 편차(ε)로서 관측 불가능하다.

B: 잔차는 회귀계수 β0와 β1의 추정값을 의미하고, 오차는 잔차를 제곱해 더한 값이다.

C: 잔차와 오차는 같은 개념으로 둘 다 관측값과 예측값의 차이를 뜻한다.

D: 잔차는 모집단의 무작위 오차항 ε를 정확히 나타내며, 오차는 관측값과 예측값의 차이를 말한다.

정답이에요!

A. 잔차는 실제 데이터에서 계산되는 yi - ŷi로 관측 가능한 값이고, 오차항은 모델 식에 포함된 이론적 편차 ε로 실제로는 관측할 수 없어요. 따라서 잔차는 오차를 추정하기 위해 표본에서 사용하는 값이라는 점을 기억하세요.

Q9. 회귀모형 y = β1 x + β0 + ε(여기서 y는 자식의 키, x는 부모의 키)에서 β1이 의미하는 것은 무엇인가?

A: 자료 전체의 평균 자녀 키를 나타내는 값

B: 부모의 키가 1단위 증가할 때 자식의 키의 평균적인 변화량

C: 부모의 키가 0일 때 자식의 예측 키(절편)

D: 각 관측치의 예측값과 실제값의 차이인 오차(ε)

정답이에요!

B. β1은 부모의 키가 한 단위 증가할 때 자식의 키가 평균적으로 얼마나 변하는지를 나타내므로 정답이에요. 회귀계수는 x와 y 사이의 선형관계의 방향과 크기를 설명한다는 점을 기억하세요.

Q10. 최소제곱법(OLS)에서 잔차를 제곱하여 합하는 주된 이유는 무엇인가?

A: 회귀계수가 항상 양수가 되도록 보장하기 위해서이다.

B: 잔차를 제곱하면 잔차 분포가 정규분포에 가까워지기 때문이다.

C: 잔차의 절댓값을 합하는 것보다 제곱합이 계산적으로 항상 더 간단하기 때문이다.

D: 잔차를 단순 합하면 양수와 음수가 상쇄되어 전체 오차를 측정할 수 없기 때문이다.

정답이에요!

D. 잔차를 단순히 더하면 양수와 음수가 합쳐져서 총합이 0에 가까워질 수 있으니 부호 상쇄를 방지하기 위해 제곱을 씁니다. 최소제곱법은 이렇게 제곱합을 최소화하는 회귀계수를 찾아 데이터를 가장 잘 설명하는 직선을 구하는 방법이에요.

Q1.[오답 퀴즈] 산점도에서 x 값이 극단적이고 해당 점이 회귀선에서 크게 벗어나 보입니다. 이 점이 회귀 계수 추정에 미치는 영향을 종합적으로 평가하려면 어떤 방법이 가장 적절한가요?

A: 변수에 로그 변환을 적용해 본다.

B: 해당 점의 잔차만 확인하여 크면 제거한다.

C: Cook의 거리(Cook's distance)를 계산해 영향력을 평가한다.

D: 선형성 검정을 먼저 시행해 모델 자체를 기각한다.

정답이에요!

C. Cook의 거리는 각 관측치가 회귀계수와 예측값에 미치는 전반적 영향력을 종합적으로 보여주므로 영향 평가에 적합합니다. 회귀 분석에서는 이상치·레버리지 관측치가 전체 추정에 미치는 영향력을 진단하는 절차를 반드시 확인하세요.

Q2.[오답 퀴즈] 작은 데이터셋에서 고차항을 포함한 복잡한 회귀모형이 학습 데이터에서는 오차가 거의 없지만 검증 데이터에서 성능이 급락할 때, 모형의 일반화 성능을 실용적이고 이론적으로 가장 신뢰성 있게 개선하려면 어떤 조치를 우선 취해야 하는가?

A: 잔차 제곱합을 최소화하는 기존의 최소제곱법만으로 고차항 모형을 그대로 유지한 채 파라미터를 재추정한다.

B: 학습오차가 낮다는 이유로 현재의 복잡한 모형을 유지하고 테스트 성능 저하는 무시한다.

C: k-겹 교차검증으로 모델 복잡도와(또는) 정규화 강도를 비교해 검증오차가 낮은 단순화된 모형을 선택한다.

D: 가능한 한 많은 추가 데이터를 수집해 모형을 재학습한다.

정답이에요!

C. k-겹 교차검증으로 모델 복잡도나 정규화 강도를 비교하면 검증오차 기준으로 일반화 성능이 우수한 모형을 선택할 수 있어 신뢰성이 높습니다. 특히 데이터가 적을 때 교차검증은 과대적합을 식별하고 모델 선택을 돕는 핵심 기법이에요.

Q3.[오답 퀴즈] 부모 키(x)로 자식 키(y)를 설명하는 단순선형회귀를 적합했더니 잔차가 x에 따라 곡선형 패턴을 보입니다. 잔차를 최소화하고 설명력을 높이면서 부모-자식 키의 해석 가능성을 크게 훼손하지 않는 전략으로 가장 타당한 것은?

A: 잔차가 큰 일부 관측치를 제거한 뒤 단순선형회귀를 다시 적합한다.

B: 반응변수 y에 로그 변환을 적용하여 선형 관계를 유도한다.

C: 설명변수 x의 제곱항을 포함한 2차 다항회귀를 도입한다.

D: x 값에 따라 가중치를 달리하는 가중최소제곱법을 사용한다.

아쉬워요. B

정답이에요!

C. 설명변수의 제곱항을 추가하면 비선형(곡선) 관계를 직접 모형에 반영하므로 체계적 잔차를 줄일 수 있어요. 잔차 패턴은 함수적 형태의 오적합 신호이므로 다항항 도입을 통해 선형성 가정을 완화하는 것을 먼저 고려하세요.

Q4.[오답 퀴즈] 부모 키와 지역 등 여러 설명변수가 서로 강하게 상관되어 있고 일부 극단값이 존재하는 데이터로 자녀 키(연속)를 예측할 때, 예측 정확도를 최대화하면서 해석 가능성도 유지하려면 어떤 모델링 전략이 가장 적절한가?

A: 아웃라이어에 강한 손실(예: Huber)과 L2 규제(Ridge)를 결합한 강건한 릿지 회귀를 사용한다.

B: 모든 설명변수를 포함한 일반최소제곱(OLS) 선형회귀 모델을 사용한다.

C: L1 규제(라쏘)를 적용한 선형회귀로 변수 선택을 수행한다.

D: 이진 분류용 로지스틱 회귀 모델을 사용한다.

정답이에요!

A. 강건한 릿지 회귀는 L2 규제로 상관된 설명변수로 인한 분산을 줄이고 강건한 손실로 극단값의 영향을 완화해 예측 성능을 높여줍니다. 라쏘는 변수 선택에 유리하지만 설명변수 간 강한 상관관계에서는 불안정할 수 있다는 점을 기억하세요.

Q5.[오답 퀴즈] 부모 키(x)로 자식 키(y)를 설명하는 단순선형회귀를 적합했더니 잔차가 x에 따라 곡선형 패턴을 보입니다. 잔차를 최소화하고 설명력을 높이면서 부모-자식 키의 해석 가능성을 크게 훼손하지 않는 전략으로 가장 타당한 것은?

A: 매우 크거나 작은 부모 관측치를 극단값으로 보고 데이터에서 제거한다.

B: x의 제곱항 등 비선형 항을 포함해 모델을 확장하여 비선형 관계를 반영한다.

C: 현재의 단순 선형 회귀 모델을 그대로 유지한다.

D: 중간 범위의 자료에 더 큰 가중치를 주는 가중회귀를 적용한다.

정답이에요!

B. 큰 부모에서 위, 작은 부모에서 아래로 편향된 잔차 패턴은 비선형 관계를 시사하므로 비선형 항을 추가해 모델을 확장하는 것이 적절해요. 선형 회귀는 모든 x에서 동일한 기울기를 가정하니 이런 패턴이 남으면 모델 형태를 바꿔야 합니다.

이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.

[20260406] 빅데이터분석기사 필기 8일차_분석 모형 구축 절차

dvlpsy — Mon, 6 Apr 2026 22:29:27 +0900

번호	핵심 키워드	상세 설명
1	분석 모형 구축 절차	요구사항 정의, 모형 설계 및 구축(모델링), 검증 및 테스트, 시스템 통합 및 유지보수의 4단계로 구성된 데이터 분석 모형 개발 과정
2	분석 환경 구축	데이터 분석을 위한 도구(R, Python 등) 선정 및 활용, 통합 개발 환경(IDE) 구축을 포함하는 과정
3	R	통계 분석에 특화된 오픈소스 프로그래밍 언어로, 다양한 패키지와 RStudio와 같은 통합 개발 환경을 제공하며 시각화에 강점
4	Python	범용 프로그래밍 언어로, 데이터 분석을 위한 다양한 패키지(Pandas, NumPy 등)를 제공하며 직관적인 문법으로 비전공자도 쉽게 접근 가능
5	데이터 분할	모형이 특정 데이터에만 높은 성능을 보이는 과적합을 방지하기 위해 데이터를 학습 데이터, 검증 데이터, 평가 데이터로 나누는 기법

Q1. 분석 모형 구축 절차에서 분석 모형을 실제 업무 환경에 적용하고 주기적 모니터링과 재조정을 수행하는 단계는 무엇인가?

A: 모형 구축(모델링)

B: 검증 및 테스트

C: 요구사항 정의

D: 운영 및 유지보수

정답이에요!

D. 운영 및 유지보수 단계에서는 모형을 실제 업무 환경에 적용하고 모니터링 및 필요 시 재조정을 수행하므로 정답이에요. 이 단계는 모형의 지속적인 성능 유지와 최적화를 담당합니다.

Q2. 프로젝트 초기에 가설 수립과 분석 가능성 검토를 마치고 시스템 환경 및 WBS를 산출한 다음, 분석 모형 구축 절차에서 다음으로 수행해야 할 단계는 무엇인가?

A: 요구사항 정의(최종 요구사항 확정 및 정의)

B: 검증 및 테스트

C: 모형 구축(모델링)

D: 운영 및 유지보수

정답이에요!

A. 가설 검토와 WBS 산출 후에는 모형 설계에 앞서 최종 요구사항을 확정·정의해야 하므로 요구사항 정의 단계가 다음입니다. 분석 모형 구축 절차는 요구사항 정의→모형 구축→검증 및 테스트→운영·유지보수 순으로 진행됩니다.

Q3. 분석 모형 성능 평가에서 올바른 절차 순서는 무엇인가요?

A: 훈련 데이터 → 모형(학습) → 검증(평가) 데이터

B: 모형 → 훈련 데이터 → 검증 데이터

C: 검증 데이터 → 모형 → 훈련 데이터

D: 훈련 데이터 → 검증 데이터 → 모형

정답이에요!

A. 모형은 먼저 훈련 데이터로 학습시키고, 그 결과를 별도의 검증(평가) 데이터로 확인하여 성능을 판단하므로 해당 순서가 맞습니다. 일반적으로 평가 데이터는 전체의 20~40%를 할당해 모형 검증과 성능 최적화를 수행합니다.

Q4. 복잡한 예측모형 개발과 대시보드 제공을 병행해야 하고 인력·시간이 제한된 상황에서, 강의에서 제시한 '분석절차 수립 → 분석환경 구축(도구선정·데이터분할)' 원칙을 가장 잘 따르는 전략은 무엇인가?

A: 분석 목표·평가지표·절차를 먼저 확정한 뒤, 각 역할에 적합한 도구를 조합(예: 통계용·시각화용 분리)하고 데이터 분할 전략을 설계하여 환경을 구축한다.

B: 외부 벤더가 제공하는 템플릿과 도구를 즉시 도입해 환경을 구성하고 내부 분석절차 수립은 후속으로 위임한다.

C: 시간 절감을 위해 익숙한 단일 도구(SPSS 등)를 우선 선정해 환경을 구축하고, 이후에 세부 분석절차를 수립한다.

D: 우선 데이터를 훈련/검증/테스트로 분할한 뒤 필요에 따라 도구를 선택하고, 분석절차는 작업 중에 보완한다.

정답이에요!

A. 강의에서는 먼저 분석 목표와 절차를 명확히 수립한 뒤 그에 맞춰 도구를 선정하고 데이터 분할을 설계하라고 했기 때문에 절차 우선 접근이 타당해요. 분석 목표와 평가기준을 먼저 정하면 도구 선택과 데이터 분할이 일관되게 이루어집니다.

Q5. 대규모 데이터 전처리와 모델 학습 후 웹서비스 배포, 그리고 다양한 프로그래밍 배경을 가진 팀과의 협업이 모두 요구되는 프로젝트에서, 강의 내용에 근거해 가장 적절한 분석 도구 선택 이유는 무엇인가?

A: Python을 선택한다 — 범용 프로그래밍 언어로서 대규모 전처리, 서비스 배포, 다양한 개발환경에서의 협업을 한 도구로 처리하기에 적합하다.

B: R을 선택한다 — 통계분석 특화와 강력한 시각화 기능으로 복잡한 통계모델 탐색에 유리하다.

C: R과 RStudio로만 작업한다 — RStudio의 통합 환경을 중심으로 모든 과정을 수행하면 작업이 통일되어 효율적이다.

D: R과 Python을 병행 사용한다 — 통계분석은 R, 배포·엔지니어링은 Python으로 역할을 분리하여 병행한다.

정답이에요!

A. 프로젝트 요구에는 대규모 전처리·배포·다양한 개발환경 대응이 포함되어 있어 범용 프로그래밍 언어인 Python이 더 적합합니다. 강의에서는 R이 통계분석과 시각화에 특화되어 있고 Python은 범용성과 다양한 데이터 분석 패키지를 가진 언어로 소개되었어요.

이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.

[20260406] 빅데이터분석기사 필기 8일차_분석 모형 선정

dvlpsy — Mon, 6 Apr 2026 22:01:12 +0900

번호	핵심 키워드	상세 설명
1	빅데이터 모델링	빅데이터 분석에서 인공지능, 딥러닝 등 다양한 분석 기법을 활용하여 모형을 구축하는 과정.
2	분석 모형	현실 세계의 문제를 단순화하고 변수 간의 관계를 정의하여 미래를 예측하거나 분류하는 등 특정 목적을 달성하기 위한 도구.
3	매개변수 (Parameter)	모형 내부에서 데이터로부터 학습되어 모형의 성능을 결정하는 변수 (예: 가중치, 회귀 계수).
4	초매개변수 (Hyperparameter)	모형 외부에서 연구자가 직접 설정하여 모형의 학습 과정에 영향을 미치는 변수 (예: K-NN의 K 개수, 의사결정 나무의 깊이).
5	과대적합 (Overfitting) 및 과소적합 (Underfitting)	과대적합은 훈련 데이터에 지나치게 맞춰져 새로운 데이터에 대한 일반화 성능이 떨어지는 현상이며, 과소적합은 모형이 데이터의 특성을 제대로 반영하지 못해 성능이 낮은 현상이다. 좋은 모형은 새로운 데이터에 일반화되어야 한다.

Q1. 두 개 이상의 알려진 그룹이 있고, 그룹 간 분리를 최대화하는 축을 찾아 분류 성능을 높이려 할 때 가장 적절한 분석 모형은 무엇인가?

A: 주성분분석

B: 판별분석

C: 분산분석

D: 기술통계

아쉬워요. A

정답이에요!

B. 판별분석은 알려진 그룹 정보를 사용해 그룹 간 분리를 최대화하는 축을 찾는 방법이라 정답이에요. 주성분분석은 전체 분산을 최대화하는 비지도 차원축소 기법이라는 점을 기억하세요.

Q2. 다음 중 'Ch01. 분석 모형 설계'에서 주로 다루는 활동은 무엇인가?

A: 모델을 운영 환경에 배포하고 실시간으로 모니터링하는 활동

B: 분석 기법의 알고리즘을 실제로 구현하여 코드화하는 활동

C: 모델 목적 정의, 변수(특성) 선정 및 모형 구조를 설계하는 활동

D: 대규모 데이터셋에 선택된 기법을 적용하여 예측을 수행하는 활동

아쉬워요. D

정답이에요!

C. 분석 모형 설계는 모델의 목적과 사용할 특성, 구조를 정하는 단계라 정답이에요. 모형 설계 단계에서 목표 정의와 변수 선택을 명확히 해 두면 다음 단계인 기법 적용이 더 수월해집니다.

Q3. 분석 목적이 다양하고 변수 특성이 서로 다른 데이터에서 예측 성능을 높이려면 어떤 모형 선택 전략이 가장 적절한가?

A: 변수를 단순화하여 단일 선형 모형만 적용하는 것

B: 단일 고성능의 복잡한 모형 하나를 적용하는 것

C: 전처리에만 집중하고 모형은 변경하지 않는 것

D: 여러 모형을 결합한 앙상블 기법을 사용하는 것

정답이에요!

D. 여러 모형을 결합한 앙상블은 각 모형의 약점을 보완해 전반적인 예측 성능을 높일 수 있어요. 모형 선정은 분석 목적과 변수의 특성을 고려해 단일 모형 또는 앙상블 중에서 결정해야 합니다.

Q4. 쇼핑몰에서 고객 구매 패턴을 바탕으로 유사한 고객군을 찾아 마케팅 전략을 수립하려 한다. 레이블(정답)이 없고 고객을 유사성에 따라 묶는 데 가장 적절한 데이터마이닝 모형과 머신러닝 패러다임의 조합은?

A: 분류(Classification) + 지도학습(Supervised learning)

B: 예측(Predictive) + 준지도학습(Semi-supervised learning)

C: 연관(Association) + 강화학습(Reinforcement learning)

D: 군집(Clustering) + 비지도학습(Unsupervised learning)

정답이에요!

D. 레이블 없이 유사성을 기준으로 데이터를 묶는 기법은 군집화이며 이는 비지도학습의 전형적인 적용 사례예요. 군집은 고객 세분화처럼 정답이 없는 데이터에서 패턴을 찾아내는 데 쓰입니다.

Q5. 문제의 핵심 변수들과 그들 간의 관계를 단순화하여 명시하는 활동은 분석 절차의 어느 단계에 해당하는가?

A: 분석 모형 구축 절차 수립

B: 분석 환경 구축

C: 분석 모형 선정

D: 분석 모형 정의

정답이에요!

D. 문제의 핵심 변수와 그들 간의 관계를 단순화하여 명시하는 활동은 강의에서 '분석 모형 정의' 단계로 설명되었기 때문에 정답이에요. 데이터 분석 모형은 본질적으로 문제를 단순화해 변수들 간의 관계로 정의하는 것이 핵심입니다.

Q6. 기업이 고객 이탈 원인을 규명해 현황을 진단한 뒤 이탈률을 줄이기 위한 개입을 설계하려 한다면 어떤 분석 모형의 순서가 가장 적절한가?

A: 예측 → 현황 진단

B: 예측 → 최적화

C: 최적화 → 예측

D: 현황 진단 → 최적화

정답이에요!

D. 먼저 현황 진단으로 원인과 주요 요인을 파악한 다음, 그 분석 결과를 바탕으로 최적화 모형을 적용해 개입을 설계하는 것이 적절합니다. 분석 모형은 현황 진단·예측·최적화로 구분되며 목적에 따라 순차적으로 활용할 수 있어요

Q7. 매개변수가 많은 신경망을 소량의 데이터로 학습시켰더니 훈련 손실은 매우 낮지만 검증 손실이 크게 높은 경우(과대적합)를 가장 효과적으로 완화할 단일 대책은 무엇인가?

A: 데이터 증강을 적용하고 가중치 규제(L2 등)를 도입해 일반화 성능을 높인다.

B: 모델을 크게 단순화하여 층과 파라미터 수를 대폭 줄인다.

C: 모델의 깊이와 매개변수 수를 늘려 표현력을 더 키운다.

D: 단순히 총 학습 에폭을 절반으로 줄여 과적합을 방지한다.

정답이에요!

A. 데이터 증강은 유효한 학습 표본을 늘려 과대적합을 완화하고, 가중치 규제는 과도한 매개변수 값의 영향을 줄여 모델의 일반화 능력을 개선하므로 정답이에요. 과대적합 상황에서는 단순히 학습 시간을 줄이기보다 데이터 다양성 확대와 규제를 통해 본질적 패턴을 학습하도록 하는 것이 중요합니다.

Q8. 복잡한 모델에서 과대적합 징후(학습 성능은 높으나 검증 성능이 낮음)가 관찰될 때, 매개변수와 초매개변수의 역할을 고려하여 일반화 성능을 가장 효과적으로 개선할 전략은 무엇인가?

A: 모델 복잡도를 낮추고 규제(regularization)를 적용한 뒤 교차검증으로 초매개변수를 튜닝하여 일반화 성능을 개선한다.

B: 데이터 증강 없이 더 많은 매개변수를 학습시키기 위해 학습률을 높이고 에포크 수를 증가시킨다.

C: 모델 표현력을 높이기 위해 은닉층을 늘리고 학습을 더 오래 진행하여 매개변수를 더 최적화한다.

D: 초매개변수를 무작위로 크게 늘려 다양한 모델을 생성한 다음 단순히 학습 성능이 가장 높은 모델을 선택한다.

정답이에요!

A. 모델 복잡도를 줄이고 규제와 교차검증으로 초매개변수를 체계적으로 조정하면 과대적합을 억제하고 검증 성능을 개선할 수 있어요. 매개변수는 학습을 통해 결정되고 초매개변수는 연구자가 설정해 모델 성능에 영향을 준다는 점을 기억하세요.

Q9. 고객 이탈 예측을 위해 로그·거래·설문으로 구성된 대규모 데이터가 주어지고 이해관계자는 높은 예측력, 모델 해석성, 실시간 적용을 모두 요구하며 계산자원과 개인정보 보호 제약이 있는 상황에서 분석 모형 설계에 가장 타당한 전략은 무엇인가?

A: 데이터 소스별로 개별 고성능 모델을 구축해 출력들을 앙상블하되 계산자원 증가와 해석성 저하는 감수한다.

B: 특성 공학과 개인정보 비식별화 기법을 적용한 해석 가능한 분류모형을 설계해 실시간 배포를 우선하고, 필요 시 제한적으로 복합 기법을 보완적으로 활용한다.

C: 모든 원시 변수를 활용해 복합 앙상블(딥러닝 포함)을 학습해 성능을 극대화하고, 실시간 적용은 별도 경량 근사 모델로 보완한다.

D: 비지도 표현학습(예: 오토인코더)으로 차원 축소 후 블랙박스 분류기를 적용해 예측력을 우선하고 해석성은 사후 설명기법에 맡긴다.

정답이에요!

B. 해석 가능하고 실시간 적용이 용이한 간단한 분류모형에 특성공학과 개인정보 보호 처리를 결합하면 주어진 제약 속에서 요구사항을 균형 있게 충족할 수 있어요. 복잡한 앙상블이나 딥러닝은 정확도에서 유리할 수 있지만 해석성·자원·프라이버시 제약에서 불리하다는 점을 기억하세요.

Q10. 훈련오류는 낮고 테스트오류는 낮은 모델(Optimum), 훈련오류는 높고 테스트오류도 높은 모델(Underfit), 훈련오류는 낮지만 테스트오류는 높은 모델(Overfit)이 있을 때, 강의에서 정의한 '좋은 모형'의 기준에 가장 부합하는 선택과 그 이유로 가장 타당한 것은?

A: Overfit 모델을 선택하되 테스트오류가 높으므로 추가 학습(에폭 증가 등)으로 문제를 해결해야 한다.

B: Underfit 모델을 선택한다. 높은 훈련오류와 높은 테스트오류는 과소적합을 의미하지만, 단순한 모델은 새로운 변동에 더 견고할 수 있다.

C: Optimum 모델을 선택한다. 훈련오류와 테스트오류가 모두 낮아 과대적합·과소적합이 없고 새로운 데이터에 잘 일반화될 가능성이 가장 크다.

D: Overfit 모델을 선택한다. 훈련데이터에서 낮은 오류를 보이므로 실전에서도 성능이 좋을 것이다.

정답이에요!

C. 훈련오류와 테스트오류가 모두 낮은 모델이 과대적합·과소적합이 없어 새로운 데이터에 잘 일반화되므로 정답이에요. 좋은 모형은 훈련에서 잘 맞으면서도 실전 데이터에 대해 낮은 오류를 유지하는 모델임을 기억하세요.

Q1.[오답 퀴즈] 학습 오류는 매우 낮은데 검증 오류가 훨씬 높은 모델이 있습니다. 매개변수와 초매개변수의 역할을 고려할 때 과대적합을 줄이고 일반화 성능을 개선하기 위해 가장 적절한 초매개변수 조정은 무엇인가요?

A: 규제 강도 증가(페널티 항 계수 증가, 드롭아웃 확률 증가 등)

B: 규제 완화 및 더 많은 에포크로 장시간 학습

C: 모델 용량을 늘리기(은닉층 추가, 트리 수 증가 등)

D: 초매개변수는 고정한 채 매개변수만 더 최적으로 학습되도록 반복 횟수만 늘리기

아쉬워요. D

정답이에요!

A. 규제 강도를 높이면 모델의 표현력을 사실상 제한해 학습 데이터에 대한 과대적합을 완화해 검증 성능을 개선할 수 있어요. 매개변수는 데이터로 학습되고 초매개변수는 연구자가 설정해 모델 복잡성이나 학습 방식을 조절한다는 점을 기억하세요.

Q2.[오답 퀴즈] 레이블이 있는 고차원 데이터에서 분류 성능 향상을 위해 '클래스 간 분리'를 최대화하는 차원 축소 기법으로 가장 적절한 것은 무엇인가요?

A: 분산분석(ANOVA): 집단 간 평균 차이의 유의성을 검정하는 방법으로 차원 축소 기법은 아님.

B: 주성분분석(PCA): 전체 분산 보존을 목표로 하는 비지도 차원 축소로 레이블 정보를 사용하지 않음.

C: 판별분석(LDA): 클래스 간 분산 대비 클래스 내 분산의 비율을 최대화하는 지도 차원 축소로 레이블을 활용해 분리성을 높임.

D: 회귀분석: 독립변수가 종속변수에 미치는 영향을 추정하는 모형으로 차원 축소 목적에는 적합하지 않음.

정답이에요!

C. 레이블이 있을 때는 판별분석이 클래스 간 분산을 키우고 클래스 내 분산을 줄이는 축을 찾아 분리성을 직접 향상시키기 때문에 적절해요. 판별분석은 차원 축소와 동시에 분류 성능 개선을 목표로 하는 지도적 기법이라는 점을 기억하세요.

이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.

[20260321] 빅데이터분석기사 필기 7일차_가설검증

dvlpsy — Mon, 6 Apr 2026 21:56:12 +0900

번호	핵심 키워드	상세 설명
1	가설 검정	모집단에 대한 통계적 가설을 세우고, 표본을 추출하여 통계량을 통해 가설의 진위를 판단하는 과정.
2	귀무가설 (H0)	기존 사실이나 차이가 없음을 가정하는 가설로, 과학자의 신중함에 따라 일단 관계가 없다고 시작하는 가설.
3	대립가설 (H1)	귀무가설에 대립하여 연구자가 입증하고자 하는 가설로, 변수 간에 관계나 차이가 있음을 주장.
4	유의 수준 (α)	귀무가설을 기각할지 채택할지 결정하는 기준이 되는 확률 값으로, 일반적으로 0.05(5%)를 사용.
5	P-값 (P-value)	귀무가설이 옳다는 전제하에, 관측된 결과 또는 그보다 극단적인 결과가 나타날 확률. P-값이 유의수준보다 작으면 귀무가설을 기각하고 대립가설을 채택.
6	1종 오류 (Type I Error)	사실은 귀무가설이 맞는데 대립가설을 채택하는 오류. '호들갑을 떠는' 오류로, 2종 오류보다 더 위험하게 간주.
7	2종 오류 (Type II Error)	사실은 대립가설이 맞는데 귀무가설을 채택하는 오류.

Q1. 강의에서 제시한 '가설을 세워야 하는 이유'로 가장 적절한 것은?

A: 무작위 사건을 패턴으로 오해해 잘못된 결정을 내리는 것을 방지하기 위해

B: 모든 변수 간의 인과관계를 확실히 밝히기 위해

C: 연구 결과를 미리 확정하기 위해

D: 데이터 수집 전에 통계적 검정을 피하기 위해

정답이에요!

A. 강의에서 가설은 우연을 패턴으로 오해해 잘못된 의사결정을 하는 것을 막기 위해 설정한다고 설명했어요. 가설은 변수 간 관계에 대한 예측을 명확히 하고 이를 검증하도록 도와줍니다.

Q2. 가설검정에서 유의수준 α를 낮추면 제1종 오류와 제2종 오류에 어떤 영향이 있으며, 표본 크기를 늘리면 오류 위험은 어떻게 변하나요?

A: α를 낮추면 제1종 오류와 제2종 오류가 둘 다 감소하고, 표본 크기는 오류에 영향을 미치지 않는다.

B: α를 낮추면 제1종 오류는 변하지 않고 제2종 오류만 감소하며, 표본 크기를 늘리면 제1종 오류만 줄어든다.

C: α를 낮추면 제1종 오류는 증가하고 제2종 오류는 감소하며, 표본 크기를 늘리면 두 오류 모두 증가한다.

D: α를 낮추면 제1종 오류는 감소하고 제2종 오류는 증가하며, 표본 크기를 늘리면 두 오류 모두 줄어든다.

정답이에요!

D. 유의수준을 낮추면 귀무가설을 기각하기 더 어려워져 제1종 오류 확률은 줄어들지만 그 대신 제2종 오류 확률은 증가합니다. 표본 크기를 늘리면 모수 추정의 불확실성이 줄어들어 두 오류 모두 감소하는 경향이 있어요.

Q3. 판교 지점에서 A 제품이 여성에게 더 인기가 있는지 검정하려 한다. 대립가설로 가장 적절한 것은?

A: 여성의 평균 판매량이 남성보다 크거나 같다 (μ여성 ≥ μ남성).

B: 여성과 남성의 평균 판매량은 같다 (μ여성 = μ남성).

C: 여성의 평균 판매량이 남성보다 작다 (μ여성 < μ남성).

D: 여성의 평균 판매량이 남성보다 크다 (μ여성 > μ남성).

정답이에요!

D. 대립가설은 '여성이 더 인기가 있다'는 주장을 나타내므로 여성의 평균 판매량이 남성보다 크다는 부등식 형태가 정답이에요. 대립가설은 검정에서 검증하려는 방향(단측 또는 양측)을 명확히 표시해야 합니다.

Q4. 표본 수를 늘리면 가설검정에서 주로 어느 오류의 위험이 감소하나요?

A: 1종 오류(귀무가설이 참인데 이를 기각하는 오류)

B: p값이 항상 작아지는 오류

C: 유의수준(α)이 자동으로 낮아지는 오류

D: 2종 오류(귀무가설이 거짓인데 이를 기각하지 못하는 오류)

아쉬워요. C

정답이에요!

D. 표본을 늘리면 검정력이 증가하여 실질적 차이를 놓치는 2종 오류의 위험이 줄어듭니다. 유의수준 α는 연구자가 정하는 기준이라 표본 크기 자체로 바뀌지 않아요.

Q5. 회사에서 '성별과 A제품의 판매량은 관계가 있다'를 검증하려 한다. 이 경우 적절한 귀무가설(H0)과 대립가설(H1)의 관계는?

A: H0: 성별에 따른 차이가 존재한다. / H1: 성별에 따른 차이가 더 크다.

B: H0: 성별과 A제품의 판매량은 관계가 없다. / H1: 성별과 A제품의 판매량은 관계가 있다.

C: H0: 표본을 통해 입증 가능한 주장만 채택한다. / H1: 기존과 비교하여 변화가 없다.

D: H0: 성별과 A제품의 판매량은 관계가 있다. / H1: 성별과 A제품의 판매량은 관계가 없다.

정답이에요!

B. 귀무가설은 기존과 차이가 없음을 전제로 하므로 성별과 판매량 사이에 관계가 없다는 형태가 맞습니다. 표본분석은 대립가설을 지지할 증거를 찾기 위해 귀무가설을 기각하는 방식으로 진행된다는 점을 기억하세요.

Q6. 판교 신제품 사례에서 남성 3,000명·여성 3,500명의 차이가 우연인지 검정하려 할 때 귀무가설의 역할과 의사결정 절차로 가장 적절한 설명은 무엇인가?

A: 귀무가설은 초기 가정으로서 기각되지 않으면 모집단에 차이가 없다는 사실이 확정된다.

B: 귀무가설은 단지 단측·양측 검정의 선택만 결정하므로 표본 크기와 제1종·제2종 오류의 트레이드오프는 고려하지 않아도 된다.

C: 귀무가설은 '실제 차이 존재'를 전제로 하며, p > α일 때 귀무가설을 기각한다.

D: 귀무가설은 '성별 차이 없음'을 전제로 하고, 표본에서 계산한 p값을 유의수준 α와 비교해 p < α이면 귀무가설을 기각하여 관찰된 차이가 우연일 가능성이 낮다고 판단한다.

정답이에요!

D. 귀무가설은 '차이 없음'을 전제로 하고 표본으로부터 계산한 p값을 미리 정한 유의수준과 비교해 기각 여부를 결정하므로 설명이 옳습니다. p값이 유의수준보다 작을 때 귀무가설을 기각한다는 점을 기억하세요.

Q7. 연구자가 남성과 여성의 A제품 판매량에서 총합 500의 차이를 관찰했다. 이 차이가 우연에 의한 것인지 검정하려 할 때, 귀무가설로 가장 적절한 진술은?

A: 성별과 A제품의 판매량은 관계가 있다.

B: 관찰된 500의 차이는 통계적으로 유의하다.

C: 귀무가설은 연구자가 반드시 입증하려는 주장이다.

D: 성별과 A제품의 판매량은 관계가 없다.

정답이에요!

D. 귀무가설은 일반적으로 '차이가 없다'는 가정이므로 '성별과 판매량은 관계가 없다'가 정답이에요. 가설검정은 이 귀무가설이 우연으로 설명될 수 있는지를 검증하는 과정이에요.

Q8. 판교 신제품 사례에서 남성 3,000명·여성 3,500명 관찰로 검정한 결과 p = 0.03이고 유의수준 α = 0.05일 때 올바른 결론은?

A: 귀무가설을 채택한다.

B: 귀무가설을 기각하고 성별에 따른 차이가 통계적으로 유의하다고 결론낸다.

C: 1종 오류 확률이 3%이므로 결과는 확실하다.

D: 표본을 더 늘려야만 결론을 내릴 수 있다.

정답이에요!

B. p값이 유의수준보다 작으므로 귀무가설을 기각하고 성별에 따른 차이가 통계적으로 유의하다고 결론낼 수 있어요. 가설검정에서는 항상 p값과 α를 비교해 기각 여부를 결정한다는 점을 기억하세요.

Q9. 회사에서 평균 스마트폰 사용 시간이 하루 5시간 이하라고 주장할 때, '실제로 더 길다'를 검증하려면 귀무가설·대립가설의 올바른 표기와 검정 종류는 무엇인가?

A: H0: μ < 5, H1: μ ≥ 5. 양측검정

B: H0: μ ≤ 5, H1: μ > 5. 단측검정(우측검정)

C: H0: μ = 5, H1: μ ≠ 5. 양측검정

D: H0: μ ≥ 5, H1: μ < 5. 단측검정(좌측검정)

정답이에요!

B. 회사의 주장은 귀무가설로 두고 '더 길다'는 주장은 대립가설이므로 귀무가설을 μ ≤ 5, 대립가설을 μ > 5로 세워 우측 단측검정을 사용합니다. '크다' 또는 '작다'를 검증할 때는 단측검정과 함께 귀무가설을 불등식 형태로 설정하는 점을 기억하세요.

Q10. 표본 크기를 늘리면 가설검정에서 제1종 오류와 제2종 오류의 위험은 어떻게 변하는가?

A: 제1종 오류와 제2종 오류가 모두 감소한다.

B: 제1종 오류와 제2종 오류가 모두 증가한다.

C: 제1종 오류는 감소하고 제2종 오류는 증가한다.

D: 제1종 오류는 증가하고 제2종 오류는 감소한다.

정답이에요!

A. 표본을 늘리면 표본통계량의 분산이 줄어들어 검정의 정밀도가 높아지고 오류 발생 확률이 낮아져요. 따라서 제1종 오류와 제2종 오류 모두 줄어듭니다.

Q4.[오답 퀴즈] 남성 3,000명·여성 3,500명 관찰에서 판매량 차이가 관찰되었을 때, 강의에서 말한 '1종 오류를 더 위험하게 보는 관점'과 오류의 트레이드를 고려하여 회사가 취해야 할 가장 적절한 통계적 전략은 무엇인가?

A: 유의수준을 0.05로 유지하되 단측검정을 선택해 빠르게 유의미성을 확보한다.

B: 유의수준을 극히 작게(예: 0.001)로 설정하고 현재 표본으로 바로 검정하여 보수적으로 판단한다.

C: 유의수준을 0.01처럼 더 엄격하게 설정하고 양측 검정을 실시하되, 추가 표본을 확보해 검정력을 높인다.

D: 표본을 늘리지 않고 관찰된 p값이 0.05 미만이면 곧바로 대립가설을 채택한다.

정답이에요!

C. 유의수준을 낮추면 거짓 긍정 확률을 줄일 수 있고, 표본을 늘리면 검정력(2종 오류 감소)을 확보할 수 있어요. 강의에서 1종 오류를 더 위험하게 봤으니 보수적인 α와 표본 확대를 함께 고려하는 것이 중요합니다.

이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.