본문 바로가기
해설과 단상/아리가람의 인공지능 용어 해설

'데이터점', '관측치', '사례', '예측치', '실측치', '오차', MSE, RMSE

by 아리가람 아리가람1 2020. 2. 2.

인공지능, 머신러닝, 딥러닝 분야 및 데이터과학 분야의 기술을 익힐 때 기본 중의 기본이 되는 용어들 몇 가지를 소개해 보겠습니다.

 

이를 쉽게 이해할 수 있게 어떤 성적을 예측하는 인공지능 시스템을 만든다고 생각해 보겠습니다. 그리고 학생들의 성적 기록부가 다음과 같이 되어 있다고 해 보겠습니다.

 

줄번호  구분           콩쥐   팥쥐

1         1학기 점수   3.4     3.1

2         2학기 점수   3.2     3.3

3         3학기 점수   3.7     2.9

 

위 예에서 3.4, 3.1, 3.2, 3.3, 3.7, 2.9는 각기 데이터 점(data points)'에 해당합니다. 참고로 이 데이터 점을 '데이터 포인트'라고 부르는 경우도 있는데, 이는 지양하는 게 좋습니다. 데이터 점은 통계학 등에서 쓰이는 전문 용어이기 때문입니다.

 

그리고 위 예에서 1번 줄 전체, 2번 줄 전체, 3번 줄 전체는 보기(examples) 또는 사례(instances)에 해당합니다. 다만 '보기'라는 말을 데이터과학이나 인공지능 분야에서는 거의 안 쓰고 examples도 그냥 사례라고 부르기도 합니다. 이 사례는 엑셀 같은 스프레드시트로 따지자면 1개 행(row) 전체라고 보면 됩니다. 

 

이와 같은 사례 중에서도 어떤 수치가 들어가 있는 부분이 관측치(observations)에 해당합니다. 1번 줄 사례의 경우에는 3.4와 3.1이 관측치에 해당하고, 2번 줄 사례의 경우에는 3.2와 3.3이 해당하고, 3번 줄 사례의 경우에는 3.7과 2.9가 이에 해당합니다. 참고로 , '구분' 열(column)에 들어 있는 내용까지도 관측치로 여기는 사람도 있습니다만, 대체로 어떤 수치만을 관측치로 여기는 게 일반적입니다. 

 

이와 같은 표(table)가 있으면 인공지능이 머신러닝 방식이나 딥러닝 방식으로 학습을 할 수가 있습니다. 물론, 여기서 예로 든 표에는 데이터가 너무 작아 훈련에 쓰기에는 부적합니다만 일단은 이런 데이터만으로도 훈련할 수 있었다고 해 봅시다. 그래서 4학기 점수를 다음처럼 인공지능이 예측했다고 해 봅시다. 그리고 실제로 시험을 치뤄서 4학기 실제 점수도 나왔다고 해 봅시다.  

 

줄번호  구분                  콩쥐   팥쥐

1         1학기 점수           3.4     3.1

2         2학기 점수           3.2     3.3

3         3학기 점수           3.7     2.9

(4         4학기 (예측) 점수   3.5     3.0)

4         4학기 점수            3.6     2.8

 

이런 경우에 예측 점수인 3.5와 3.0이 예측치(predictions)가 되고, 실제 점수인 3.6과 2.8은 실측치(ground truth)에 해당합니다. 

 

그리고 실측치에서 예측치를 뺀 점수인 0.1과 -0.2는 오차(error)라고 부릅니다.

 

그런데 예측치에서 실측치를 빼면 -0.1과 0.2가 되므로 기준이 들쭉날쭉한 것처럼 보일 수 있습니다. 그래서 보통 오차를 절댓값으로 표현합니다. 이럴 때는 오차를 절대오차(absolute error) 또는 절댓값오차라고 부릅니다.

 

한편으로 오차를 제곱하기도 합니다. 그러면 각기 0.01과 0.04가 되겠지요? 이걸 제곱오차(square(d) error)라고 부릅니다. 그러면 음수이든 양수이든 상관 없이 일관되게 표현할 수 있을 것입니다. 그리고 이걸 평균을 낸 값을 평균제곱오차(mean square(d) error, MSE)라고 부르며, 이 값은 머신러닝이나 딥러닝 시에 인공지능이 제대로 예측하는지를 따져 볼 때 계량기준(metrics)으로 가장 널리 쓰는 값입니다. 

 

그런데 값이 제곱이 되면서 원래 값보다 커져 버렸습니다. 그래서 한 번 제곱한 오차에 다시 제곱근을 합니다. 이게 제곱근제곱오차(root square(d) error)입니다. 그러면 다시 0.1과 0.2가 되겠지요? 그런데 오차가 여러 개이므로 이것을 평균하면 좋겠습니다. 이게 제곱근평균제곱오차(root mean square(d) error, RMSE)입니다. 이것을 '평균제곱근제곱오차'라고 부르는 사람도 있습니다. 이것 또한 머신러닝이나 딥러닝 시에 인공지능이 제대로 예측하는지를 따져 볼 때 계량기준으로 자주 쓰이는 값입니다. 

 

 

   

 

 

댓글0