[인공지능] 주요 데이터 시각화 그래프

Recent Posts

Recent Comments

Archives

Tags more

Today

Total

05-21 05:17

관리 메뉴

이것저것 잡동사니

[인공지능] 주요 데이터 시각화 그래프 본문

컴퓨터공학/인공지능

[인공지능] 주요 데이터 시각화 그래프

Park Siyoung 2022. 7. 5. 17:16

1. 수치형 데이터 (Numerical Data)

1.1 히스토그램 (Histogram)

하나의 수치형 데이터 feature에 대해 데이터의 구간별 빈도수를 나타내는 그래프다.

가변 구간 너비(varying-width bins)를 사용하는 히스토그램도 있다. 즉, 하나의 히스토그램 내에서 구간의 너비가 일정하지 않을 수 있다. 데이터의 밀도가 높은 곳에는 좁은 구간을 사용해 밀도 추정의 정확도를 높이고 데이터의 밀도가 낮은 곳에서는 넓은 구간을 사용해 무작위 추출에 의한 노이즈를 줄일 수 있다 (밀도가 너무 낮으면 무작위로 표본을 추출할 시 대부분의 경우 해당 구간에는 데이터가 없는 것으로 간주 될 것이다).

하지만 구간의 너비를 일정하게 하는 것(equal-width bins)이 일반적이다. 이때, 구간의 너비는 다양한 값을 시도해 해당 데이터 분포와 분석 목적에 적절한 값을 찾아야 한다. 물론 다음의 경험적 방법들을 사용해볼 수도 있다. 여기서, $n$은 데이터의 개수이며 구간의 개수 $k$와 구간의 너비 $h$는 다음의 관계를 갖는다.

$$k=\left\lceil{\frac{\max x-\min x}{h}}\right\rceil$$

1) Square-root choice : $k=\left\lceil\sqrt{n}\right\rceil$

2) Sturges' formula : $k=\left\lceil\log_2n\right\rceil+1$

3) Rice Rule : $k=\left\lceil2\sqrt[3]{n}\right\rceil$

4) Shimazaki and Shinomoto's choice :

$$k=\underset{h}{\text{argmin}}\frac{2\bar{m}-v}{h^2}$$

$\bar{m}$ : 구간 내 데이터의 평균, $v$ : 구간 내 데이터의 분산

1.2 커널밀도추정 (Kernel Density Estimation, KDE)

간단히 설명하면 히스토그램을 매끄러운 곡선으로 근사한 그래프를 만드는 것이다. 히스토그램과 같은 값(데이터) 분포에서 랜덤한 값을 뽑아냈을 때, 특정 값이 나올 확률을 추정한 것이다. 히스토그램과 형태는 비슷하지만 $y$축 스케일이 다른 것을 확인할 수 있다. (확률은 0~1 사이의 값이기 때문)

곡선을 생성하는 상세한 과정은 아래의 포스트를 참고하길 바란다.

[수학] 커널 밀도 추정(Kernel Density Estimation, KDE)

커널밀도추정(KDE)은 이산적인 데이터를 사용해 연속적인 밀도함수(density function)를 추정하는 것이다. 간단하게는 히스토그램을 매끄러운 곡선으로 근사한 그래프를 만드는 것이다. 신호 처리

easyselfstudy.tistory.com

1.3 러그플롯 (Rug Plot)

러그 플롯은 축 위에 작은 선분을 그어 데이터의 분포를 나타내는 그래프다. 선분의 밀도가 높으면 데이터 밀도가 높은 영역이다. Zero-width bins histogram 또는 one-dimensional scatter plot이라고도 부른다. 주로 다른 그래프와 함께 사용된다.