디지털마케팅 교육, 이패스비즈

기출문제복원홈>커뮤니티>커뮤니티>기출문제복원

제목

[2022년 8월 22일 시행] 제34회 ADsP 기출 복원 문제(1과목 / 2과목 / 3과목)

등록일

2022-08-28

안녕하세요 epassbiz입니다.

회원 여러분의 도움으로 기출문제 복원을 마무리할 수 있었습니다.

복원된 문제와 정답을 오픈해드립니다!

1과목

1. 다음 중 빅데이터 분석의 특성에 대한 설명으로 옳지 않은것은?

정답

④ 데이터 크기가 커질수록 더 많은 분석을 수행하는것이 경쟁우위 확보의 원천이다.

해설

데이터의 크기가 커진다고 분석을 많이 사용하는 것이 중요해지는 것은 아니다. 문제는 분석을 많이 사용하는 것이 아니라, 데이터의 성격과 데이터에서 얻고자 하는 가치에 적합한 분석을 많이 사용하는 것이다.

2. 다음 중 빅데이터의 가치측정이 어려운 이유가 아닌것은?

정답

④ 데이터분석 전문 인력의 증가로 다양한 분야에서 빅데이터가 활용되고 있다

해설

빅데이터의 가치산정이 어려운 이유는 첫째로 데이터의 활용방식, 둘째로 새로운 가치창출, 셋째로 분석기술발전이다.

3. 다음 중 분석과제 정의서에 필수적으로 포함되야할 항목이 아닌 것은?

정답

④ 상세 분석 알고리즘

해설

분석과제 정의서를 통해 분석별로 소스데이터, 분석방법, 데이터입수 및 분석난이도, 분석수행주기, 분석결과에 대한 검증오너십, 상세분석과정 등을 정의한다.

4. 다음 중 데이터 사이언스에 대한 설명으로 틀린것은?

정답

② 주로 분석 정확성에 초점을 맞춰 수행한다.

해설

②는 데이터마이닝에 대한 설명이다.

5. 다음 중 빅데이터시대의 위기요인과 사례연결이 올바르지 않은 것은?

정답

④ 데이터 오용-상업적목적으로 데이터 크롤링하여 개인정보 수집

해설

④는 사생활 침해에 대한 위기요인이다.

6. 데이터베이스 관리시스템에 대한 설명으로 옳지 않은 것은?

정답

① 데이터베이스 관리로 모든 데이터 문제를 완전히 해결할 수 있다.

해설

데이터베이스는 데이터의 양이 많아 구조가 복잡하고, 여러 사용자의 동시공유를 지원하므로 장애가 발생했을 때 원인과 상태를 정확히 파악하기 어렵다. 또한 모든 데이터가 데이터베이스에 통합되어있어 이에 대한 관리책임이 데이터베이스관리시스템에 집중되어, 데이터베이스나 데이터베이스 관리시스템에 장애가 발생하면 전체시스템의 업무처리가 중단되는 단점을 가지고 있다.

7. 데이터베이스 활용에 대한 설명 중 틀린 것은?

정답

② 데이터마트는 조직이나 부서 뿐만아니라 모든 모든 사람이 볼 수 있고 사용할 수 있다.

해설

데이터마트(Data Mart, DM)는 데이터웨어하우스(Data Warehouse, DW) 환경에서 정의된 접근계층으로 데이터웨어하우스에서 데이터를 꺼내 사용자에게 제공하는 역할을 한다. 데이터마트는 데이터웨어하우스의 일부분이며, 대게 특정한 조직, 혹은 팀 등 제한된 사용자그룹에 서비스를 제공한다.

8. 빅데이터 전략으로 옳지 않은 것은?

정답

① 1차분석으로는 해당 부서 및 업무에 효과가 없다.

해설

1차적인 분석을 통해서도 해당부서와 업무영역에서 상당한 효과를 얻을 수 있다.

9. 데이터의 가공 및 상관관계 간 이해를 통해 패턴을 인식하고 그 의미를 부여한 데이터를 무엇이라 하는가?

정답 : 정보

10. 인터넷으로 연결된 기계마다 통신 장치를 갖추고 있는 환경에서 사람 또는 기계끼리 자동으로 통신하는 기술로써 사물과 사람, 사물과 사물간의 정보를 상호 소통하는 방식을 무엇이라 하는가?

정답 : IOT

2과목

11. 분석 프로젝트 관리 설명 중 적절하지 않은 것은?

정답

① 데이터분석은 전문가의 상상력을 요구하므로 일정 및 시간을 제한하지 않는다.

해설

분석결과에 대한 품질이 보장된다는 전제로 타임박싱(Time Boxing) 기법으로 일정관리를 진행하는 것이 필요하다.

12. 분석준비도의 분석업무영역이 아닌 것은?

정답

① 직무별 적합한 분석기법 사용

해설

①은 분석준비도의 분석기법영역에 대한 설명이다.

13. 분석 마스터플랜에 관한 설명 중 적절하지 않은 것은?

정답

① 모든 과정은 순환적이고 반복적인 단계로 작성된다.

해설

반복적인 분석체계는 모든 단계를 반복하기보다 데이터수집 및 확보와 분석데이터를 준비하는 단계를 순차적으로 진행하고, 모델링 단계는 반복적으로 수행하는 혼합형을 많이 적용하며, 이러한 특성을 고려하여 세부적인 일정계획도 수립해야 한다.

14. 하향식 접근방법 설명 중 적절하지 않은 것은?

정답

① 분석유스케이스보다 새로운 문제를 탐색한다.

해설

하향식 접근방법은 새로운 문제탐색에 적합하지 않다.

15. CRISP-DM에 대한 아래 설명 중 옳은 것은?

정답

(라) 평가단계에서 모델이 정해지면 분석이 완료될때까지 유효하다.

항목을 제외하면 정답

해설

평가단계에서 모델이 비즈니스 목표를 충족시키는 정도를 파악하고, 이 모델이 불완전한 사업적 이유가 있는지 확인해야한다. 특히 데이터마이닝 결과가 비즈니스 성공기준을 충족하는지 여부의 평가내용을 문서화해야한다. 비즈니스 목적에 부합하지 않으면 다시 비즈니스이해단계로 되돌아간다.

16. 빅데이터 분석방법론의 시스템구현단계의 태스크는 무엇인가?

정답

① 설계 및 구현, 시스템 테스트 및 운영

17. 하향식 접근방법에 대한 설명 중 옳은 것은?

정답

④ 타당성검토단계에서는 다양한 인력과 협업이 수반되어야 한다.

해설

문제탐색단계에서는 문제를 해결함으로써 발생하는 가치에 중점을 둔다. 문제정의단계에서는 당사자뿐만아니라 최종사용자관점에서도 이루어져야한다. 또한 해결방안탐색단계에서는 시스템 및 인력에 대해서도 사전검토를 수행해야한다.

18. 분석 프로젝트의 관리방안에 대한 설명 중 적절하지 않은 것은?

정답

② 정확도는 모델을 지속적으로 반복했을 때 동일한 결과를 얻는 것을 의미한다.

해설

정밀도(precision)에 대한 설명이다.

19. 식별된 비즈니스 문제를 데이터의 문제로 변환하여 정의 하는 단계는?

정답 : 문제 정의 (Problem Definition)

20. 전사 차원의 모든 데이터에 대하여 정책 및 지침, 표준화, 운영조직 및 책임 등의 표준화된 관리체계를 수립하고 운영을 위한 프레임워크(Framework) 및 저장소(Repository)를 구축하는 것을 말한다.

- 마스터 데이터(Master Data), 메타 데이터(Meta Data), 데이터 사전(Data Dictionary)은 ( )의 중요한 관리 대상이다.

정답 : 데이터 거버넌스

3과목

21. boxplot에 대한 설명으로 적절하지 않은 것은?

정답

④ 이상치를 확인하는데는 부적절하다.

해설

상자그림에 표현되는 수치나 시각화를 통해 데이터 내에 이상치(Outlier)여부를 확인할 수 있다.

22. 다음은 A, B, C 품목에 대한 구매이력이다. 지지도와 신뢰도가 50% 이상인 항목으로 구성된 것은?

정답

지지도가 50% 이상인 보기가 없었음. 복원문제로는 정답이 없음

23. 군집결과 분석에 대한 설명으로 적절하지 않은 것은?

정답

① 형성된 군집에 대해서는 논리성보다 안정성이 중요하다.

해설

클러스터링의 목적은 비슷한 개체끼리 한 그룹으로 다른 개체는 다른 그룹으로 묶는 것이다. 이를 표현하면 군집간 분산(Inter Cluster Variance) 최대화, 군집내 분산(Inner Cluster Variance)을 최소화한다. 군집분석은 비지도학습이지만 군집분석 결과에 대한 해석이 논리적으로 맞는지는 검토해야 한다. 예를들어 성별, 연령, 지역 등 군집의 특성을 통해 군집이 잘 되었는지를 논리적으로 확인할 수 있으며, 군집의 안정성이란 일부 입력값들이 조금만 달라지면 군집의 변화가 유의하게 변화하는지에 대한 개념이다. 군집분석은 비지도학습이기때문에 군집의 타당성검증을 하기 위한 논리성과 안정성 확보가 중요하다.

24. 카탈로그 배열, 교차판매 등의 마케팅을 계획할 때 적절한 데이터마이닝 기법은?

정답

① 연관규칙학습

해설

연관규칙이란 항목들 간의 '조건-결과'식으로 표현되는 유용한 패턴을 말한다. 이러한 패턴, 규칙을 발견해내는 것을 연관규칙이라 하며, 흔히 장바구니 분석이라고 불린다.

25. 연관규칙학습의 apriori 알고리즘의 분석절차로 맞는 것은?

(가) 최소 지지도를 설정한다.

(나) 개별 품목들 중에서 최소 지지도를 넘는 모든 품목들을 찾는다.

(다) 이전 단계에서 찾은 개별 품목만을 이용하여 최소 지지도를 넘는 두가지 품목을 찾는다

(라) 이전 단계에서 찾은 품목의 집합을 결합하여 최소 지지도를 세가지 품목의 집합을 찾는다.

(마) 반복적으로 수행하여 최소 지지도가 넘는 반발품목을 찾는다.

정답

② (가)-(나)-(다)-(라)-(마)

해설

apriori 알고리즘은 최소지지도보다 큰 집합만을 대상으로 높은 지지도를 갖는 품목집합을 찾는 것이다.

26. 재현율을 구하시오.

		예측값
		TRUE	FALSE	합계
실제값	TRUE	200	300	500
	FALSE	300	200	500
	합계	500	500	1,000

정답

③ 0.4

해설

민감도 = 재현율은 실제값이 TRUE 관측치 중 예측치가 TRUE 정도를 나타낸다.

200 / 500 = 0.4

27. 연관규칙학습에 대해 잘못 설명한 것은?

정답

④ 세분화된 품목이 많아져도 계산은 복잡해지지 않는다.

해설

품목수가 증가하면 분석에 필요한 계산은 기하급수적으로 늘어난다.

28. 잔차의 정규성 검토에 대한 설명 중 옳지 않은 것은?

정답

④ 정규성을 만족하지 못할 때 상관계수가 가장 큰 값을 제거한다.

해설

정규성을 만족하지 못하는 경우 변수변환을 통해 해결방안을 고려해볼 수 있다.

29. 777개 대학을 대상으로 졸업률(Grad.Rat)과 관련된 회귀분석 결과 해석으로 적절하지 않은 것은?

정답

④ 등록금, 기숙사비, 개인지출과 졸업률의 인과관계를 알 수 있다.

해설

어떤 임의의 두 변수 중 하나를 독립변수, 다른 하나를 종속변수로 설정하여, 회귀분석 결과가 독립변수의 계수와 통계적으로 유의하지 않더라도 두 변수간에 인과관계가 있다고 주장할 수는 없는 것이다.

30. 의사결정 나무에 대한 설명 중 적절하지 않은 것은?

정답

① 비지도학습 방법으로 상향식 접근방법을 이용한다.

해설

의사결정나무는 지도학습이다.

31. 아래 인공신경망 활성함수식은 무엇을 의미하는가?

정답

③ 시그모이드

해설

시그모이드 함수는 Logistic 함수라고도 불리며, x의 값에 따라 0 ~ 1의 값을 출력하는 S자형 함수이다.

32. 표본에 담긴 정보를 이용하여 가설의 옳고 그름을 통계적인 방법으로 판정하는 과정을 무엇이라 하는가?

정답

③ 가설검정

해설

가설은 모집단의 특성을 나타내는 예상이나 주장을 의미하고, 가설검정(Testing Hypothesis)은 표본에 담긴 정보를 이용하여 가설의 옳고 그름을 통계적인 방법으로 판정하는 과정을 의미한다.

33. ROC(Reciver Operating Characteristic) 그래프의 이상적 완벽 분류모형의 X축과 Y축으로 가장 적절한 값은? 단(X값, Y값)

정답

② (0,1)

해설

이상적으로 완벽한 분류모형의 경우 X축은 0, Y축은 1의 값을 보여 AUC가 1로 도출된다. 모형의 AUC가 1에 가까울수록 좋은 모형으로 평가된다.

34. 회귀분석 설명 중 가장 적절하지 못한 것은?

정답

③ 설명계수가 유의미한가

해설

설명계수 => 회귀계수

35. 회귀분석에 대한 설명 중 가장 적절하지 못한 것은?

정답

② 성별과 같이 두집단으로 분류된 명목형자료는 회귀분석에서 독립변수로 사용할 수 없다.

해설

독립변수가 범주형변수일때 독립변수를 더미변수(Dummy Variable)로 변환하여 회귀분석을 수행한다. 더미변수란 어떤 속성이 존재할 경우 그 값을 1로, 존재하지 않을 경우 그 값을 0으로 코딩한 인위적 변수를 의미한다. 성별처럼 2개의 더미일 경우 여성 = 0, 남성 = 1이다.

36. 주성분분석의 내용 중 가장 적절하지 않은 것은?

정답

④ 원래 변수를 선형결합할때 목표변수를 고려할 필요는 없다.

해설

주성분분석은 비지도학습으로 데이터의 구조와 패턴을 통해 이상치를 탐색 및 탐지에 사용된다. 주성분분석은 목표변수를 고려하여 목표변수를 잘 예측 또는 분류할 수 있는 선형결합으로 이루어진 몇 개의 주성분을 찾아내기 위함이다. 따라서 주성분분석 자체가 취종목적이 아니라 다른 통계적분석을 하기위한 사전 기초분석에 사용한다.

37. ARIMA 모형에 대한 설명 중 적절하지 않은 것은?

정답

③ ARIMA(p,d,q) 모형의 차수에서 p=0이면 IMA(d,p)모형이라 한다.

해설

ARIMA(p,d,q) 모형의 차수 p, d, q의 값에 따라 모형의 이름이 달라지게 된다. 차수 p는 AR모형과 관련있고, q는 MA모형과 관련있는 차수이다. P=0이면 IMA(d,q) 모형이라 부르고 이 모형을 d번 차분하면 MA(q) 모형이 된다.

38. 다음 중 공분산과 상관계수에 대한 설명 중 올바르지 않는 것은?

정답

③ 공분산은 측정단위에 영향을 받지 않는다.

해설

공분산은 상관관계의 상승 혹은 하강하는 경향을 이해할 수 있으나 2개 변수의 측정단위의 크기에 따라 값이 달라지므로 상관분석을 통해 정도를 파악하기에는 부적절하다.

39. Credit 데이터는 400명의 신용카드 고객에 대한 신용카드와 관련된 변수들이 포함되어 있다. 아래 변수간의 산점도와 피어슨 상관계수를 나타내고 있다. 아래 그림에 대한 설명 중 가장 부적절한 것은?

정답

③ Balance와 가장 상관관계가 높은 변수는 Income이다.

해설

Balance와 가장 상관관계가 높은 변수는 Limit와 Rating 이다.

40. 앙상블 모형에 대한 설명으로 적절한 것은?

정답

② 앙상블 모형의 대표적인 방법으로 배깅, 부스팅이 있다.

해설

보팅의 경우 일반적으로 서로 다른 알고리즘을 가진 분류기를 결합하는 앙상블 방법이다. 배깅의 경우 각각의 분류기가 모두 같은 유형의 알고리즘 기반이지만, 데이터 샘플링을 서로 다르게 가져가면서 학습을 수행해 보팅을 수행하는 것이다. 대표적인 배깅방식이 랜덤포레스트 알고리즘이다. 보기 ④는 소프트보팅에 대한 설명이다. 하드보팅은 다수결의 원칙에 따라 분류한다.

41. KNN 알고리즘에 대한 설명으로 적절하지 않은 것은?

정답

④ K가 클수록 과대적합이 발생한다.

해설

K가 커지면 커질수록 안정적으로 분류하는 모형으로 만들고(과소적합), K가 작으면 작을수록 세부적으로 분류할 수 있는 모형(과대적합)을 만들 수 있다. K가 1에 가까울수록 모델이 복잡해지고 K가 커질수록 모델이 단순해진다.

42. 64개 변수에 대한 주성분분석의 Scree Plot 결과로 옳은 해석이 아닌 것은?

정답

③ 두개의 주성분으로 7% 분산을 설명한다.

해설

Scree Plot은 x축을 주성분개수, y축을 고윳값(설명가능한 분산값)으로 하는 Line Graph를 의미한다. 두개의 주성분으로 분석설명력은 각 주성분의 누적분산(17%)으로 ③보기가 잘못된 해석이다.

43. 상관분석에 대한 설명으로 옳은 것은?

정답

④ 피어슨 상관계수가 0일때 서로 선형관계가 없다.

해설

비율척도일때 피어슨의 상관계수를 사용한다. 스피어만상관계수는 비선형관계 파악이 가능하다.

44. 정상성에 대한 설명 중 적절하지 않는 것은?

정답

④ 지수평활법은 최근 시계열에 평균을 구해 미래를 예측하는 방법이다.

해설

지수평활법은 전체 시계열자료를 이용하여 평균을 구하고 최근 시계열자료에 더 큰 가중치를 부여하는 방법이다.

45. 데이터 집합으로부터 크기가 같은 표본를 여러번 단순 임의 복원 추출하여 각 표본에 대해 분류기를 생성한 후 그 결과를 앙상블 하는 방법은 무엇이라 하는가?

정답 : 랜덤포레스트

46. 원 데이터 집합으로부터 크기가 같은 표본을 여러 번 단순 임의 복원추출하여 부트스트랩 표본을 구성하는 과정에서 분류가 잘못된 데이터에 더 큰 가중을 주어 표본을 추출하는 방법은 무엇인가 ?

정답 : 부스팅

47.

정답 : 실루엣 계수

48.

정답 : 역전파 알고리즘

49. 모집단에서 표본을 추출하여 모집단의 모수를 추측하는 과정에서 범위가 아니라 가장 참값이라고 여겨지는 하나의 모수를 택하는 것은?

정답 : 점추정

50.

정답 : 지니지수

* 최종 가답은 문구 수험생에 기억에 의존했기 때문에 정답이 최종 정답이 아닙니다

* 수정사항이나 궁금한 사항이 있으시다면 언제든지 댓글 남겨주세요^^

나도한마디(100자이내)(0/100)

등록

추천하기
★★★★★
★★★★☆
★★★☆☆
★★☆☆☆
★☆☆☆☆
☆☆☆☆☆

[2023년 10월 1일 시행] 제5회 빅데이터분석기사 필기 복원문제

[2023년 5월 21일 시행] 제33회 ADsP 기출 복원 문제(1과목 / 2과목 / 3과목)