목록컴퓨터공학/인공지능 (2)
이것저것 잡동사니
1. 결정 트리란? 결정 트리(decision tree)는 학습된 규칙에 따라 데이터를 분류(classification)하거나 회귀(regression)하는 지도학습(supervised learning)모델 중 하나다. 예를 들어, 다음의 결정 트리는 타이타닉호 탑승객의 생존 여부를 예측한다. 여러 입력 데이터에 대해 위의 결정 트리는 다음과 같은 예측을 할 것이다. 결정 트리가 예측을 수행할 때 입력 데이터의 모든 feature를 사용할 필요는 없다. ※ feature : 성별, 나이, 객실 등급 등... , threshold : 분류 시 사용하는 경계값 (9.5세, 2.5명 등...) 2. 기본적인 트리 생성 원리 각 분류 규칙에 사용되는 feature와 임계치(threshold)는 가장 불순도(im..
1. 수치형 데이터 (Numerical Data) 1.1 히스토그램 (Histogram) 하나의 수치형 데이터 feature에 대해 데이터의 구간별 빈도수를 나타내는 그래프다. 가변 구간 너비(varying-width bins)를 사용하는 히스토그램도 있다. 즉, 하나의 히스토그램 내에서 구간의 너비가 일정하지 않을 수 있다. 데이터의 밀도가 높은 곳에는 좁은 구간을 사용해 밀도 추정의 정확도를 높이고 데이터의 밀도가 낮은 곳에서는 넓은 구간을 사용해 무작위 추출에 의한 노이즈를 줄일 수 있다 (밀도가 너무 낮으면 무작위로 표본을 추출할 시 대부분의 경우 해당 구간에는 데이터가 없는 것으로 간주 될 것이다). 하지만 구간의 너비를 일정하게 하는 것(equal-width bins)이 일반적이다. 이때, 구..