9급 국가직 공무원 통계학개론 필기 기출문제복원 (2022-04-02)

1과목: 과목 구분 없음

1. 두 지역 A, B의 소득에 대한 상자 그림(box plot)은 다음과 같다. 이에 대한 설명으로 옳은 것만을 모두 고르면?

ㄱ, ㄴ
ㄱ, ㄷ
ㄴ, ㄷ
ㄱ, ㄴ, ㄷ

(정답률: 72%)

30 CBT문제은행AI
2023-04-12 00:25

- A 지역의 중위수는 B 지역의 중위수보다 높다. (ㄱ)
- A 지역의 이상치는 B 지역의 이상치보다 많다. (ㄴ)

ㄱ: 중위수는 데이터의 중앙값을 의미하며, A 지역의 중위수가 B 지역의 중위수보다 높다는 것은 A 지역의 소득 분포가 전반적으로 높은 쪽에 위치한다는 것을 의미합니다.

ㄴ: 이상치는 대부분의 데이터와는 동떨어진 극단적인 값으로, 상자 그림에서는 상자 밖에 위치한 점들을 의미합니다. A 지역의 이상치가 B 지역의 이상치보다 많다는 것은 A 지역의 소득 분포가 B 지역에 비해 더 넓게 퍼져 있다는 것을 의미합니다.

2. 다음 제시된 두 변수 X와 Y에 대한 산점도 중 X와 Y의 표본상관계수(피어슨의 표본상관계수)가 가장 큰 것은?

(정답률: 42%)

3. 통계적 가설검정에서 제1종 오류확률에 대한 설명으로 옳은 것은?

귀무가설이 참일 때 귀무가설을 기각할 확률
귀무가설이 참일 때 귀무가설을 기각하지 않을 확률
귀무가설이 거짓일 때 귀무가설을 기각할 확률
귀무가설이 거짓일 때 귀무가설을 기각하지 않을 확률

(정답률: 70%)

30 CBT문제은행AI
2023-04-12 00:25

정답은 "귀무가설이 참일 때 귀무가설을 기각할 확률"입니다. 이는 제1종 오류가 발생할 확률을 의미합니다. 즉, 귀무가설이 참인데도 불구하고 우연히 귀무가설을 기각하는 오류가 발생할 확률을 말합니다. 이는 보통 유의수준으로 설정되는데, 유의수준이 0.05라면 귀무가설이 참일 때 5%의 확률로 오류가 발생할 수 있습니다.

4. 단순선형회귀모형 Y_i = β₀ + β₁x₁ + ε_i, (i = 1, 2, …, 22) 에서 최소제곱법으로 회귀식을 추정한 후 잔차제곱합을 구하였더니 2,100이었다. 이때 오차항 분산(σ²)의 불편추정값은? (단, ε_i는 N(0, σ²)를 따르고 서로 독립이다)

(정답률: 38%)

30 CBT문제은행AI
2023-04-12 00:25

잔차제곱합은 SSE = Σ(y_i - ŷ_i)² = Σε_i² 이므로, 이 문제에서는 SSE = 2,100 이다.

오차항 분산의 불편추정값은 MSE = SSE / (n - 2) 이다. 여기서 n은 샘플의 수이며, 이 문제에서는 n = 22 이다.

따라서 MSE = 2,100 / 20 = 105 이므로, 정답은 "105"이다.

5. 코로나바이러스 감염 상황과 진단키트의 진단 확률이 다음과 같을 때, 한 사람의 진단키트 결과가 음성이라면 이 사람이 실제 음성일 확률은?

13/15
9/10
14/15
29/30

(정답률: 53%)

30 CBT문제은행AI
2023-04-12 00:25

문제에서 주어진 확률은 다음과 같다.

- P(양성|감염) = 0.99
- P(음성|비감염) = 0.98

따라서, 한 사람이 음성이라는 결과를 보였을 때, 이 사람이 실제로 음성일 확률은 다음과 같이 계산할 수 있다.

P(비감염|음성) = P(음성|비감염) * P(비감염) / P(음성)

여기서 P(음성)은 모든 경우에서 음성이라는 결과를 보일 확률의 합이므로 다음과 같이 계산할 수 있다.

P(음성) = P(음성|감염) * P(감염) + P(음성|비감염) * P(비감염)
= 0.01 * 0.02 + 0.98 * 0.98
= 0.9606

따라서,

P(비감염|음성) = 0.98 * 0.98 / 0.9606
= 0.9994

즉, 한 사람의 진단키트 결과가 음성이라면 이 사람이 실제 음성일 확률은 14/15 (약 0.9333) 이다.

6. 두 연속형 확률변수 X와 Y가 독립일 때, 이에 대한 설명으로 옳지 않은 것은?

X와 Y의 공분산은 0이다.
X와 Y의 합에 대한 분산은 X와 Y의 분산의 합이다.
X와 Y의 곱에 대한 기댓값은 X와 Y의 기댓값의 곱이다.
X가 주어졌을 때 Y의 조건부확률밀도함수는 X의 주변확률밀도함수와 같다.

(정답률: 34%)

30 CBT문제은행AI
2023-04-12 00:25

"X가 주어졌을 때 Y의 조건부확률밀도함수는 X의 주변확률밀도함수와 같다."는 옳은 설명이다. 이는 독립적인 두 확률변수의 경우, 하나의 변수가 다른 변수에 대한 정보를 제공하지 않기 때문이다. 따라서 X가 주어졌을 때 Y의 조건부확률밀도함수는 X와 상관없이 Y의 주변확률밀도함수와 같다.

따라서 옳지 않은 설명은 "X와 Y의 합에 대한 분산은 X와 Y의 분산의 합이다."이다. 이는 일반적으로 독립적인 두 확률변수의 경우에는 성립하지만, 일반적인 경우에는 성립하지 않는다.

7. 다음은 단순선형회귀모형을 적합하여 얻은 분산분석표이다.

이에 대한 설명으로 옳지 않은 것은?

(가)의 값은 540이다.
(나)의 값은 20이다.
(다)의 값은 27이다.
모형의 결정계수는 200/740 이다.

(정답률: 60%)

30 CBT문제은행AI
2023-04-12 00:25

정답은 "(가)의 값은 540이다."이다.

분산분석표에서 (가)는 회귀제곱합(SSR)이다. 따라서 SSR의 값은 200이다.

모형의 결정계수는 $R^2 = frac{SSR}{SST}$ 이다. 여기서 SST는 총제곱합으로, SST = SSR + SSE 이다. 따라서 SSE = 740 - 200 = 540 이다.

따라서 모형의 결정계수는 $R^2 = frac{200}{740}$ 이다.

즉, 모형이 설명하는 데이터의 변동성은 전체 변동성 중 약 27%를 설명할 수 있다는 것을 의미한다.

8. 다음은 시장조사에서 세탁기 색에 대한 선호도를 알아보기 위해 최근 판매된 세탁기의 색을 조사한 결과이다.

선호하는 색이 4:4:1:1의 비율로 분포한다는 가설을 검정하려 할 때, 이에 대한 설명으로 옳은 것만을 모두 고르면?

ㄱ, ㄴ
ㄱ, ㄷ
ㄴ, ㄷ
ㄱ, ㄴ, ㄷ

(정답률: 38%)

30 CBT문제은행AI
2023-04-12 00:32

선호하는 색이 4:4:1:1의 비율로 분포한다는 가설을 검정하기 위해 카이제곱 검정을 사용할 수 있다. 이때, 검정통계량은 6.4이고, 자유도는 3이다. 유의수준을 0.05로 설정하면, 임계값은 7.815이다. 따라서, 검정통계량이 임계값보다 작으므로 귀무가설을 기각할 수 없다. 따라서, 세탁기 색에 대한 선호도가 4:4:1:1의 비율로 분포한다는 가설은 채택될 수 있다.

ㄱ. 검정통계량이 임계값보다 작으므로 귀무가설을 기각할 수 없다.
ㄷ. 세탁기 색에 대한 선호도가 4:4:1:1의 비율로 분포한다는 가설은 채택될 수 있다.

9. 분포에 대한 설명으로 옳지 않은 것은?

확률변수 F가 자유도(df₁, df₂)인 F분포를 따를 때, 1/F은 자유도(df₂, df₁)인 F분포를 따른다.
평균이 μ이고 분산이 σ²인 정규모집단에서 임의로 추출한 n개의 확률변수에 대한 표본평균 는 를 따른다.
확률변수 X₁, X₂, …, X_n이 서로 독립이며 표준정규분포를 따르면 X₁² + X₂² + … + X_n²은 자유도가 n인 카이제곱분포를 따른다.
평균이 μ이고 분산이 σ²인 모집단에서 임의로 추출한 5개의 확률변수에 대한 표본평균이 일 때, 는 근사적으로 표준정규분포를 따른다.

(정답률: 32%)

30 CBT문제은행AI
2023-04-12 00:24

"확률변수 F가 자유도(df₁, df₂)인 F분포를 따를 때, 1/F은 자유도(df₂, df₁)인 F분포를 따른다."는 분포에 대한 설명으로 옳지 않은 것이다. 나머지 보기들은 모두 옳은 설명이다.

10. 세 가지 필터의 성능을 비교하기 위해 일원배치 분산분석법(one-way analysis of variance)을 실시하여 얻은 분산분석표의 일부가 다음과 같을 때 (가)의 값은?

2.5
5.0
7.5
15.0

(정답률: 48%)

30 CBT문제은행AI
2023-04-12 00:25

일원배치 분산분석에서는 처리 간의 평균 차이가 있는지를 검정하는데 F-검정을 사용한다. F-검정은 처리 간의 평균 제곱과 오차 제곱의 비율을 계산하여 검정한다.

분산분석표에서 MS(처리)는 처리 간의 평균 제곱, MS(오차)는 오차 제곱을 의미한다.

F-검정 통계량은 MS(처리) / MS(오차) 이므로, (가)의 값은 MS(처리) / MS(오차) = 30 / 4 = 7.5 이다.

따라서 정답은 "7.5"이다.

11. 다음은 어느 확률변수의 확률밀도함수이다. 이에 대한 설명으로 옳은 것만을 모두 고르면? (단, 함수는 0을 기준으로 좌우 대칭이다)

ㄱ
ㄱ, ㄴ
ㄴ, ㄷ
ㄱ, ㄴ, ㄷ

(정답률: 69%)

30 CBT문제은행AI
2023-04-12 00:24

- ㄱ. 확률밀도함수의 총적분값이 1이므로, 이 함수는 확률밀도함수의 조건을 만족한다.
- ㄴ. 함수가 0을 기준으로 좌우 대칭이므로, 확률변수의 기댓값은 0이다. 또한, 함수가 좌우 대칭이므로, 확률변수의 분산은 좌우 대칭인 구간에서의 분산을 2배로 계산하면 된다. 따라서, 확률변수의 분산은 2이다.
- ㄷ. 함수가 0을 기준으로 좌우 대칭이므로, 확률변수의 중앙값은 0이다. 또한, 함수가 좌우 대칭이므로, 확률변수의 사분위수는 -1과 1이다.

12. 어느 지역에서 20대 남자의 몸무게는 평균이 μ이고 표준편차가 8인 정규분포를 따른다고 한다. 이 지역에서 임의추출한 20대 남자 64명의 평균 몸무게가 66일 때, 모평균 μ에 대한 95% 신뢰구간은? (단, 단위는 kg이며, 표준정규분포를 따르는 확률변수 Z에 대하여 P(Z≥1.96) = 0.025, P(Z≥1.645) = 0.05 이다)

(64.040, 67.960)
(64.355, 67.645)
(65.755, 66.245)
(65.794, 66.206)

(정답률: 59%)

30 CBT문제은행AI
2023-04-12 00:25

표본의 크기가 64이므로, 중심극한정리에 의해 표본평균은 대략적으로 정규분포를 따른다. 따라서, 표본평균의 표준오차는 다음과 같이 계산할 수 있다.

표준오차 = 표준편차 / √n = 8 / √64 = 1

또한, 95% 신뢰구간을 구하기 위해서는 표준정규분포에서의 95%에 해당하는 Z값을 찾아야 한다. 이때, 양쪽 꼬리의 확률을 고려해야 하므로, Z값은 1.96이 된다.

따라서, 신뢰구간은 다음과 같이 계산할 수 있다.

신뢰구간 = 표본평균 ± (표준오차 × Z값) = 66 ± (1 × 1.96) = (64.040, 67.960)

따라서, 정답은 "(64.040, 67.960)"이다.

13. 다중선형회귀모형 Y_i = β₀ + β₁x_i1 + β₂x_i2 + ε_i, (i = 1, 2, …,n) 에서 최소제곱법으로 구한 분산분석표의 F－값에 대한 p－값(유의확률)이 0.05보다 작다. 유의수준 5%에서 내릴 수 있는 결론으로 옳은 것은? (단, ε_i는 N(0, σ²)를 따르고 서로 독립이다)

β₁≠0 이고 β₂≠0
β₁≠0 또는 β₂≠0
β₀≠0 이고 β₁≠0 이고 β₂≠0
β₀≠0 또는 β₁≠0 또는 β₂≠0

(정답률: 50%)

30 CBT문제은행AI
2023-04-12 00:24

유의확률이 0.05보다 작으므로 귀무가설 "β₁=0 and β₂=0"을 기각할 수 있다. 따라서, 최소한 β₁ 또는 β₂ 중 하나는 0이 아니라는 결론을 내릴 수 있다. 즉, "β₁≠0 또는 β₂≠0"이 옳은 결론이다.

14. 확률변수 X에 대하여 Var(3X+9) = 36, E(X(X+1)) = 10 을 만족할 때, E(X)의 값은? (단, E(X) ＞ 0 이다)

(정답률: 50%)

30 CBT문제은행AI
2023-04-12 00:24

Var(3X+9) = 36 이므로, Var(3X) = 36이고, Var(X) = 4가 된다. 또한, E(X(X+1)) = 10 이므로, Cov(X,X+1) + E(X) = 10이다. Cov(X,X+1) = E(X(X+1)) - E(X)E(X+1) = 10 - E(X)^2 - E(X) 이므로, E(X) = (10 - Cov(X,X+1)) / (1+E(X+1)) = (10 - E(X)^2 - E(X)) / (1+E(X+1)) 이다. 이를 정리하면, E(X)^2 + 2E(X) - 10 = 0 이 되고, E(X) > 0 이므로, E(X) = 2가 된다. 따라서, 정답은 "2"이다.

15. 독립인 두 모집단 1과 2에 대한 확률분포는 각각 다음과 같다.

모집단 i에서 임의로 추출한 100개의 확률변수의 평균을 라 할 때, 의 근사분포는?

(정답률: 46%)

16. 모평균과 모분산이 알려지지 않고 서로 독립인 두 개의 정규모집단에서 각각 25개씩 표본을 임의추출한 후, 두 모집단의 모분산을 비교할 때 사용하는 분포는?

표준정규분포
자유도가 24인 t분포
자유도가 24인 카이제곱분포
자유도가 (24, 24)인 F분포

(정답률: 46%)

30 CBT문제은행AI
2023-04-12 00:24

두 개의 정규모집단에서 각각 25개씩 표본을 추출하여 모분산을 비교하는 경우, 두 모집단의 모평균은 알 수 없으므로, 각 표본의 평균을 이용하여 두 모집단의 분산을 추정해야 합니다. 이때, 두 표본의 분산을 이용하여 모분산의 비율을 검정하는 것이 적절합니다. 이러한 경우, 분모와 분자의 표본분산 비율을 이용하여 검정통계량을 계산하면, 이 검정통계량은 자유도가 (24, 24)인 F분포를 따릅니다. 이는 두 모집단의 분산이 같은 경우에도, 다른 경우에도 적용 가능한 검정 방법입니다. 따라서, 정답은 "자유도가 (24, 24)인 F분포"입니다.

17. 성별과 와인 생산지의 선호도가 관련이 있는지를 알아보기 위해 100명을 임의추출한 후 성별과 와인 생산지 선호도를 조사하여 작성한 분할표가 다음과 같다.

성별과 와인 생산지 선호도가 관련이 있는지를 검정하는 카이제곱검정통계량의 값은?

(정답률: 45%)

18. 다음은 서로 독립인 두 지역 A와 B에서 실시하는 복지 프로그램 수혜자의 평균연령을 비교하기 위하여 두 지역의 복지 프로그램 수혜자 중에서 A지역에서 100명, B지역에서 200명을 임의추출하여 연령을 조사한 결과이다.

A지역에서 복지 혜택을 받는 사람의 평균 연령을 μ_A라고 하고, B지역에서 복지 혜택을 받는 사람의 평균 연령을 μ_B라고 할 때, 가설 H₀ : μ_A = μ_B 대 H₁ : μ_A ≠ μ_B를 검정하기 위한 p－값(유의확률)은? (단, Z는 표준정규분포를 따르는 확률변수이다)