내가 볼려고 만든 방송대 기말 예상 문제 (컴퓨터과학과 머신러닝)

제미나이로 공부필기본 요약해서 올립니다

Part 1: 핵심 내용 상세 요약


1. 머신러닝 개요 (Introduction to ML)
* 정의: 명시적으로 프로그래밍하지 않고도 컴퓨터가 데이터로부터 학습하여 결정을 내리거나 예측을 수행할 수 있게 하는 기술.
* 학습의 종류:
   * 지도 학습 (Supervised Learning): 입력(X)과 정답(y, 레이블)이 주어진 상태에서 학습. (예: 분류, 회귀)
   * 비지도 학습 (Unsupervised Learning): 정답(y) 없이 데이터의 패턴이나 구조를 학습. (예: 군집화, 차원 축소)
   * 강화 학습 (Reinforcement Learning): 에이전트가 환경과 상호작용하며 보상을 최대화하는 방향으로 학습.
* 일반화 (Generalization): 훈련 데이터뿐만 아니라 새로운(보지 못한) 데이터에 대해서도 잘 동작하는 능력.
2. 데이터 전처리 및 모델 평가
* 데이터 분할:
   * Training Set: 모델 학습용.
   * Validation Set: 하이퍼파라미터 튜닝 및 모델 선택용.
   * Test Set: 최종 모델 성능 평가용.
* 과적합 vs 과소적합:
   * 과적합 (Overfitting): 모델이 훈련 데이터에 너무 복잡하게 맞춰져, 일반화 성능이 떨어지는 상태. (높은 Variance)
   * 과소적합 (Underfitting): 모델이 너무 단순하여 훈련 데이터의 패턴조차 제대로 학습하지 못한 상태. (높은 Bias)
   * 해결책: 더 많은 데이터 확보, 특성(Feature) 축소, 규제(Regularization) 적용.
* 평가 지표 (Metrics):
   * 회귀: MSE (Mean Squared Error), MAE, R^2 Score.
   * 분류: 정확도(Accuracy), 정밀도(Precision), 재현율(Recall), F1-Score, 혼동 행렬(Confusion Matrix).
3. 지도 학습 알고리즘 (Supervised Learning)
* 선형 회귀 (Linear Regression): 데이터를 가장 잘 설명하는 직선(또는 평면)을 찾는 회귀 모델.
   * 손실 함수: 평균 제곱 오차 (MSE).
   * 최적화: 경사 하강법 (Gradient Descent) - 비용 함수의 기울기를 따라 최솟값을 찾아가는 방법.
* 로지스틱 회귀 (Logistic Regression): 이름은 회귀지만 실제로는 분류 모델. 시그모이드 함수를 사용하여 출력값을 0~1 사이의 확률로 변환.
* 결정 트리 (Decision Tree): 스무고개처럼 데이터를 특정 기준에 따라 분기하여 학습. 해석이 쉽지만 과적합되기 쉬움.
* SVM (Support Vector Machine): 클래스 간의 **마진(Margin)**을 최대화하는 결정 경계(초평면)를 찾는 모델. 커널 기법을 이용해 비선형 문제도 해결 가능.
* KNN (K-Nearest Neighbors): 새로운 데이터가 들어오면 가장 가까운 k개의 이웃을 찾아 다수결로 분류. (게으른 학습, Lazy Learning).
4. 앙상블 학습 (Ensemble Learning)
* 개념: 여러 개의 약한 모델(Weak Learner)을 결합하여 강력한 모델을 만드는 기법.
* 배깅 (Bagging): 데이터를 복원 추출(Bootstrap)하여 여러 모델을 병렬로 학습시키고 결과를 합침. (대표 모델: 랜덤 포레스트)
* 부스팅 (Boosting): 이전 모델이 틀린 오답에 가중치를 두어 순차적으로 학습. (대표 모델: Gradient Boosting, XGBoost, LightGBM)
5. 비지도 학습 (Unsupervised Learning)
* 군집화 (Clustering):
   * K-Means: 데이터를 k개의 클러스터로 묶는 알고리즘. 중심점(Centroid)과의 거리를 최소화.
   * DBSCAN: 밀도 기반 군집화. 노이즈 데이터 처리에 강함.
* 차원 축소 (Dimensionality Reduction):
   * PCA (주성분 분석): 데이터의 분산(Variance)을 최대한 보존하는 축으로 데이터를 투영하여 차원을 줄임.


Part 2: 기말고사 예상 문제 50선 (정답 포함)

[기초 개념 및 프로세스]

* [단답형] 정답(Label)이 있는 데이터를 사용하여 모델을 학습시키는 머신러닝의 종류는?
   > 정답: 지도 학습 (Supervised Learning)
   >
* [O/X] 머신러닝의 목표는 훈련 데이터에 대한 오차를 0으로 만드는 것이다.
   > 정답: X (일반화 성능을 높이는 것이 목표이며, 오차가 0이면 과적합일 가능성이 높음)
   >
* [단답형] 모델 학습 시 데이터 전체를 사용하지 않고 훈련/검증/테스트 세트로 나누는 주된 이유는?
   > 정답: 과적합 방지 및 모델의 일반화 성능 평가
   >
* [객관식] 다음 중 지도 학습에 해당하지 않는 알고리즘은?
   (1) 선형 회귀 (2) 로지스틱 회귀 (3) K-Means (4) SVM
   > 정답: (3) K-Means (비지도 학습 - 군집화)
   >
* [단답형] 데이터의 특성(Feature) 개수가 너무 많아 모델이 복잡해지고 성능이 저하되는 현상을 무엇이라 하는가?
   > 정답: 차원의 저주 (Curse of Dimensionality)
   >
* [단답형] 편향(Bias)이 높고 분산(Variance)이 낮은 모델에서 주로 발생하는 문제는?
   > 정답: 과소적합 (Underfitting)
   >
* [O/X] 과적합(Overfitting)을 해결하기 위해 모델의 파라미터 수를 늘려야 한다.
   > 정답: X (파라미터 수를 줄이거나 규제를 적용해야 함)
   >
* [단답형] 모델이 학습 데이터의 노이즈까지 암기하여 새로운 데이터에 대한 성능이 떨어지는 현상은?
   > 정답: 과적합 (Overfitting)
   >
* [단답형] 훈련 데이터셋에서 중복을 허용하여 무작위로 샘플을 추출하는 방식을 무엇이라 하는가?
   > 정답: 부트스트랩 (Bootstrap)
   >
* [객관식] 머신러닝의 일반적인 프로세스 순서로 옳은 것은?
   (1) 데이터 수집 -> 모델 학습 -> 전처리 -> 평가
   (2) 데이터 수집 -> 전처리 -> 모델 학습 -> 평가
   (3) 모델 학습 -> 데이터 수집 -> 평가 -> 전처리
   > 정답: (2)
   >

[회귀 및 최적화]

* [단답형] 선형 회귀에서 실제값과 예측값의 차이의 제곱의 평균을 구하는 손실 함수는?
   > 정답: MSE (Mean Squared Error, 평균 제곱 오차)
   >
* [단답형] 손실 함수의 값을 최소화하기 위해 기울기(Gradient)의 반대 방향으로 파라미터를 업데이트하는 최적화 알고리즘은?
   > 정답: 경사 하강법 (Gradient Descent)
   >
* [O/X] 경사 하강법에서 학습률(Learning Rate)이 너무 크면 최솟값에 수렴하지 못하고 발산할 수 있다.
   > 정답: O
   >
* [단답형] 선형 회귀 모델에 규제항(L2 Norm)을 추가하여 과적합을 방지하는 모델은?
   > 정답: 릿지 회귀 (Ridge Regression)
   >
* [단답형] 선형 회귀 모델에 규제항(L1 Norm)을 추가하여 불필요한 특성의 가중치를 0으로 만드는 모델은?
   > 정답: 라쏘 회귀 (Lasso Regression)
   >
* [객관식] 경사 하강법의 종류 중, 한 번의 업데이트에 전체 훈련 데이터를 사용하는 방식은?
   (1) 배치 경사 하강법 (2) 확률적 경사 하강법 (3) 미니배치 경사 하강법
   > 정답: (1) 배치 경사 하강법 (Batch Gradient Descent)
   >
* [단답형] 로지스틱 회귀는 회귀 알고리즘인가, 분류 알고리즘인가?
   > 정답: 분류 알고리즘 (주로 이진 분류에 사용)
   >
* [단답형] 로지스틱 회귀에서 입력값을 0과 1 사이의 확률값으로 변환해주는 함수는?
   > 정답: 시그모이드 함수 (Sigmoid Function)
   >
* [O/X] 선형 회귀는 종속 변수가 범주형(Categorical) 데이터일 때 적합하다.
   > 정답: X (연속형 데이터 예측에 적합)
   >
* [단답형] 데이터의 스케일(단위)이 다를 때, 이를 통일시켜주는 전처리 과정을 무엇이라 하는가?
   > 정답: 정규화 (Normalization) 또는 표준화 (Standardization)
   >

[분류 알고리즘]

* [단답형] 결정 트리(Decision Tree)에서 노드를 분할할 때 정보의 불순도를 측정하는 지표 두 가지는?
   > 정답: 지니 불순도(Gini Impurity), 엔트로피(Entropy)
   >
* [O/X] 결정 트리는 깊이(Depth)가 깊어질수록 과소적합될 가능성이 높다.
   > 정답: X (과적합될 가능성이 높아짐)
   >
* [단답형] SVM에서 서로 다른 클래스의 데이터들을 가장 멀리 떨어뜨려 놓는 경계선을 무엇이라 하는가?
   > 정답: 결정 초평면 (Decision Hyperplane) 또는 결정 경계
   >
* [단답형] SVM에서 결정 경계와 가장 가까이 있는 데이터 포인트들을 무엇이라 하는가?
   > 정답: 서포트 벡터 (Support Vector)
   >
* [객관식] KNN 알고리즘에서 k값이 작을수록 모델의 결정 경계는 어떻게 되는가?
   (1) 단순해진다 (2) 복잡해진다 (3) 변하지 않는다
   > 정답: (2) 복잡해진다 (과적합 위험 증가)
   >
* [단답형] 나이브 베이즈 분류기는 특성들 간에 어떤 관계가 있다고 가정하는가?
   > 정답: 독립 (Independence)
   >
* [단답형] 여러 개의 결정 트리를 만들고 그 결과의 평균이나 다수결을 따르는 앙상블 모델은?
   > 정답: 랜덤 포레스트 (Random Forest)
   >
* [단답형] 이전 모델이 예측에 실패한 데이터에 가중치를 주어 다음 모델을 학습시키는 앙상블 기법은?
   > 정답: 부스팅 (Boosting)
   >
* [O/X] 랜덤 포레스트는 배깅(Bagging) 방식을 사용한다.
   > 정답: O
   >
* [단답형] 비선형 데이터를 선형으로 분리하기 위해 데이터를 고차원으로 매핑하는 SVM의 기법은?
   > 정답: 커널 트릭 (Kernel Trick)
   >

[평가 및 성능 향상]

* [단답형] 이진 분류에서 실제 Positive인 것을 Positive로 맞춘 비율을 의미하는 지표는? (TP / (TP+FN))
   > 정답: 재현율 (Recall) 또는 민감도 (Sensitivity)
   >
* [단답형] 모델이 Positive라고 예측한 것 중 실제 Positive의 비율은? (TP / (TP+FP))
   > 정답: 정밀도 (Precision)
   >
* [단답형] 정밀도와 재현율의 조화 평균으로, 데이터 불균형이 있을 때 유용한 지표는?
   > 정답: F1-Score
   >
* [객관식] 암 환자 진단 모델(암을 놓치면 안 됨)에서 가장 중요하게 고려해야 할 지표는?
   (1) 정밀도 (2) 재현율 (3) 정확도
   > 정답: (2) 재현율 (실제 암 환자를 놓치지 않는 것이 중요하므로)
   >
* [단답형] FPR(False Positive Rate)이 변할 때 TPR(True Positive Rate)의 변화를 나타낸 곡선은?
   > 정답: ROC 곡선
   >
* [단답형] 교차 검증(Cross-Validation) 중 데이터를 k개의 폴드로 나누어 검증하는 방식은?
   > 정답: K-Fold 교차 검증
   >
* [O/X] 데이터 불균형(Imbalanced Data)이 심할 때는 정확도(Accuracy)가 가장 신뢰할 수 있는 지표이다.
   > 정답: X (F1-Score나 AUC 등을 사용해야 함)
   >
* [단답형] 분류 모델의 성능을 행렬 형태로 시각화하여 TP, TN, FP, FN을 확인하는 도구는?
   > 정답: 혼동 행렬 (Confusion Matrix)
   >
* [단답형] 모델 훈련 전에 사용자가 직접 설정해 주어야 하는 파라미터(예: KNN의 k, 숲의 트리 개수)는?
   > 정답: 하이퍼파라미터 (Hyperparameter)
   >
* [단답형] 최적의 하이퍼파라미터를 찾기 위해 가능한 모든 조합을 시도해보는 방법은?
   > 정답: 그리드 서치 (Grid Search)
   >
[비지도 학습 및 기타]
* [단답형] K-Means 클러스터링에서 최적의 클러스터 개수(k)를 찾기 위해 사용하는 시각화 방법은?
   > 정답: 엘보우 기법 (Elbow Method)
   >
* [O/X] K-Means 알고리즘은 초기 중심점(Centroid) 위치에 따라 결과가 달라질 수 있다.
   > 정답: O
   >
* [단답형] 데이터의 분산(Variance)을 최대한 보존하는 새로운 축을 찾아 차원을 축소하는 기법은?
   > 정답: 주성분 분석 (PCA)
   >
* [단답형] 레이블이 없는 데이터에서 데이터 간의 유사성을 측정하여 그룹으로 묶는 기법은?
   > 정답: 군집화 (Clustering)
   >
* [객관식] 다음 중 차원 축소의 목적이 아닌 것은?
   (1) 데이터 시각화 (2) 노이즈 제거 (3) 데이터 레이블 생성 (4) 학습 속도 향상
   > 정답: (3) (차원 축소가 레이블을 자동으로 만들어주진 않음)
   >
* [단답형] 밀도 기반 군집화 알고리즘으로, 원형이 아닌 클러스터도 잘 찾아내는 알고리즘은?
   > 정답: DBSCAN
   >
* [단답형] PCA는 (지도 학습 / 비지도 학습) 중 어디에 속하는가?
   > 정답: 비지도 학습
   >
* [O/X] 차원 축소를 하면 원본 데이터의 정보 손실이 전혀 발생하지 않는다.
   > 정답: X (어느 정도의 정보 손실은 감수해야 함)
   >
* [단답형] 지도 학습에서 입력 데이터(X)를 정규화(Standardization)할 때, 테스트 데이터는 어떤 데이터의 평균과 표준편차를 기준으로 변환해야 하는가?
   > 정답: 훈련 데이터 (Training Set)
   >
* [단답형] K-Means와 달리 계층적 구조를 만들며 군집화를 수행하는 알고리즘은?
   > 정답: 계층적 군집화 (Hierarchical Clustering)
   >


시험 화이팅입니다

#방송대기말 #방송대기출문제 #컴퓨터과학과 #머신러닝

반응형