[ADsP] 제 26회 데이터 분석 준전문가 기출 오답

2021. 5. 20. 10:56카테고리 없음

 

 

■ 다음 중 마스터 플랜을 수립할 때 우선순위 고려요소로 가장 적절하지 않은 것?

(1) 전략적 중요도

(2) 데이터 우선순위

(3) 실행 용이성

(4) 비지니스 성과/ROI

 

답 : (2)

 


 

■ 다음 중 빅데이터 분석 방법론 중 시스템 구현에 대한 설명 중 가장 부적절한 것은?

(1) 시스템 구현단계에는 설계 및 구현, 시스템 테스트 및 운영으로 이루어져 있다.

(2) 시스템 설계서를 바탕으로 BI 패키지를 활용하거나 새롭게 프로그램 코딩을 통하여 시스템을 구축한다.

(3) 정보 보호 및 시스템 성능은 시스템 구현 단계에 해당되지 않는다.

(4) 정보보안영역과 코딩은 시스템 구현 단계에서 주요 고려사항이다.

 

답 (4)

 시스템 구현은 시스템 설계 및 구현, 테스트 및 운영이 주 고려사항임 


■ A,B로 구성된 데이터 1,000개 중 결측치 비율이 5%라고 한다. 결측값을 제거한다고 할 때 삭제되는 데이터 비율로 가장 알맞은 것은?

 

 

문제 자체가 이해가 안될 뿐더러, 뭔 소린지 몰라서 데이터 포럼에서 찾아본 바

A 에서 5% 데이터 삭제, B 에서 5% 데이터 삭제 

A와 B가 독립이라는 가정하에 A,B 모두가 결측치여서 제거하는 데이터 때문에 10% 모두 차지하지 못하고

 0.05 X 0.05 = 0.0025 만큼은 더 지워지는 것이 아니다.

 

그래서 이 부분을 

-> P(A) + P(B) -P(A ∩ B) = 5% + 5%  - 0.25% = 9.75% 인데

어거지도 이런어거지가 아닐 수 없다 ;;

 그래서 답은 9.75% 


■ 아래는 최적 회귀방정식을 도출하기 위해 관련된 변수들을 사용하여 얻은 결과이다. 아래의 결과들에 대한 설명으로 가장 부적절한 것 

 

 step(lm(Y~x1+x2+x3+x4+x5, data),direction='both')

 - direction='both' : 단계적 방법

 - 하나의 변수가 제거되었을 경우의 AIC 값이,

제거되기 이전의 AIC값보다 낮아지면 해당 변수를 제거하는 방식 

 


 

■ 로지스틱 회귀모형은 독립변수(x)와 종속변수(y) 사이의 관계를 설명하는 모형으로서 종속변수가 범주형(y=0 또는 y=1)값을 가즌 경우에 사용되는 방법이다. 다음 중 로지스틱 회귀모형에 대한 설명으로 가장 부적절한 것은?

 (1) 이러한 데이터에 대해 선형회귀모형을 적용하는 것이 기술적으로 가능하지만,

선형회귀의 문제점은 0이하의 값이나 1이상의 값을 예측값으로 줄 수 있다는 것이며 따라서 이를 확률값으로 직접 해석할 수 없다.

 (2) 로지스틱 회귀모형은 클래스가 알려진 데이터에서 설명변수들의 관점에서 각 클래스 내의 관측치들에 대한 유사성을 찾는데 사용할 수 있다.

(3) 종속변수 y 대신 로짓(logit)을 사용하여 설명변수들의 선형함수로 모형화하기 때문에 이 모형을 로지스틱 회귀모형이라 한다.

(4) Odds(오즈)란 클래스 0에 속할 확률 (1-p)이 클래스 1에 속할 확률인 p의비로 나타낸다.

 즉 Odds=p/(1-p)로 나타낸다. 

 

답 (2) 

종속 변수 Y대신 로짓(logit)이라는 상수를 사용하는 것이 아니라, y의 범위를 [0.1]로 조정하는 것이 로짓 변환 

 


■ 다음 중 누적분포함수에 대한 설명 중 가장 부적절한 것은?

 (1) a<x<=b 라는 구간사건의 확률을 누적분포함수로 표현하면 P(a,b) = F(b)-F(a)이다.

 (2) 누적분포함수는 non-decreasing function이며, 우측 연속이다.

 (3) 모든 확률변수에 대해 확률밀도(질량)함수는 존재하지만, 누적분포함수가 존재하지 않는 확률변수가 잇다.

 (4) 확률변수의 X의 누적분포 함수 중, 연속형 확률 변수는 적분을 통해 구할 수 있다.

 

 

답 (3) 

 모든 확률변수에 대해 누적분포함수는 존재하지만, 확률밀도(질량)함수가 존재하지 않는 확률변수도 있다. 

누적분포함수 관련 참고 사이트 :  https://elementary-physics.tistory.com/127

 

 

   * 확률질량함수 : 이산확률변수의 확률분포를 나타내는 함수. 확률변수가 취할 수 있는 값이 유한개이거나, 자연수와 같이 셀 수 있는 이산확률변수일때 그 불연속한 값에 대한 확률을 나타내는 함수 

  * 확률밀도함수 : 연속확률변수의 경우 확률변수가 취할 수 있는 값이 연속적이며 무한하기 때문에 분포를 표현하는 것이 불가능함. 연속형 확률변수의 이러한 난점을 돌파하기 위해 확률밀도 함수가 필요하게 되었음.


 

 

 

■ 아래에 설명한 빅데이터 활용테크닉은 무엇인가?

"데이터의 가공 및 상관관계간 이해를 통한 패턴을 인식하고 그 의미를 부여한 데이터로 지식을 추출하기 위한 것이다" 

 : 정보