CS 공부/Data Visualization
-
EDA (Exploratory Data Analysis)CS 공부/Data Visualization 2023. 4. 11. 18:15
데이터 분석 데이터를 이해하기 위한 여러가지 방법 EDA 과정을 거치면서 계속해서 생기는 의문들을 해결해나가는 것이 목적 의문 해결 = 데이터 분석 Image Classification 이미지: 시각적 인식을 표현한 인공물 shape - (width, height, channel) Input과 Output 파악이 중요 Input ( image, text, sound, tabular) + model = Output ( categorical class, probability, position..) Image + Classification Model = Class 이미지를 어떤 형식으로 모델로 넣을까
-
비정형 데이터셋 시각화CS 공부/Data Visualization 2023. 4. 9. 04:10
1. dataset meta data visualization target값의 분포, target값 간의 관계 시각화 훈련 상에서 발생할 수 있는 문제점 예측 2. dataset listup only dataset: 데이터셋의 일부를 단순하게 나열 datset-target: bounding box 등의 gt, prediction 등을 정답 데이터와 비교하여 문제점 발견 가능 3. visual analytics 데이터가 고차원일 경우 관계를 쉽게 파악하기 힘들어 차원을 축소하게됨 dimension reduction(pca, lda, tsne, umap) + scatter plot (2d, 3d) 텍스트의 경우에는 word2vec등 전처리 과정을 거쳐야함 data-data relation network vi..
-
Plotly Express (Interative Visualization)CS 공부/Data Visualization 2023. 4. 2. 20:47
Interative을 사용하는 이유? 정적 시각화에는 단점이 있다. 예를 들어 Feature가 10개 있다면 각각의 관계를 살펴보는데 45개의 plot이 필요하다는 것이다 이것은 공간적 낭비가 크다 사용자마다 원하는 인사이트가 다르기 때문에 원하는 정보를 압축해서 담으려면 정적시각화가 나음 Interative Viz 라이브러리 대표적인 라이브러리 3개: Plotly , Bokeh, Altair Matplotlib 인터렉티브 제공 주피터나 local에서만 실행할 수 있어서 비추! Plotly (추천!) 인터랙티브 시각화에 가장 많이 사용됨 python 뿐만아니라 R, JS에서도 제공 예시 + 문서화가 잘되어 있음, 다양한 시각화 기능도 제공 Plotly Express plotly를 seaborn과 유사하게..
-
대표적인 Matplot 시각화 라이브러리CS 공부/Data Visualization 2023. 3. 31. 23:12
Missingno 결측치를 체크하는 시각화 라이브러리 빠르게 결측치의 분포 확인하고 싶을 때 pip install missingno import missingno as msno titanic = sns.load_dataset('titanic') msno.matrix(titanic) #msno.bar(titanic) bar형태로 출력 Treemap 계층적 데이터를 직사각형을 사용하여 포함 관계를 표현 사각형을 분할하는 타일링 알고리즘에 따라 형태가 다양해짐 큰 사각형을 분할하여 전체를 나타내는 모자이크 플롯과 유사 pip install squarify 또는 Plotly의 treemap import squarify values = [100, 200, 300, 400] # 각 사각형 넓이 (비율) label ..
-
Pie Chart ➰CS 공부/Data Visualization 2023. 3. 31. 01:26
Pie Chart 원을 부채꼴로 분할하여 표현하는 통계 차트 가장 많이 사용하는 차트지만 지양하자..!! Why? 비교하기 어렵고 유용성이 떨어짐 오히려 bar plot이 유용하다! Pie Chart vs Bar chart 장점: 비율정보에 대한 정보를 제공 단점: 구체적인 양의 비교가 어려움 labels = ['A', 'B', 'C', 'D','E'] data = np.array([60, 90, 45, 85,80]) # 총합 360 fig, ax = plt.subplots(1, 1, figsize=(7, 7)) ax.pie(data,labels=labels, #startangle=90 x축 기준 90도(y축)에서부터 그래프 시작 #explode = [0, 0, 0.2, 0] 세번째 값만 20% 튀어나오..
-
Polar Plot, Radar Plot (극좌표계)CS 공부/Data Visualization 2023. 3. 31. 01:01
Polar Plot 극 좌표계를 사용하는 시각 (거리, 각도 사용) 회전, 주기성 등을 표현하기에 적합 주로 scatter 그래프 (Line, Bar도 가능) projection = polar을 추가하여 사용 fig = plt.figure() ax = fig.add_subplot(111, projection='polar') #fig.add_subplot(111, polar=True) 해도됨 ax.set_rmax(2) 반지름 max값 2로 조정 # ax.set_rmin() 반지름 min값 ax.set_rticks([0.5, 1, 1.5, 2]) 원하는 위치에 값 표시 plt.show() #set_rlabel_position: 반지름 label이 적히는 위치의 각도 조정 #부채꼴로도 표현 가능 #set_th..
-
SeabornCS 공부/Data Visualization 2023. 3. 27. 23:35
Seaborn Matplotlib을 기반으로 다양한 색상 테마와 통계용 차트 등의 기능을 추가한 시각화 라이브러리 Matplotlib으로 커스텀 가능 (디테일한 커스텀보다는 새로운 방법론을 위주로) 쉬운 문법과 깔끔한 디자인 pip install seaborn==0.11 import seaborn as sns categorical API Categorical estimate plots countplot: 범주를 이산적으로 세서 막대 그래프로 그려주는 함수 # ordered로 순서 명시 # hue: 데이터의 구분 기준을 정하여 색상을 통해 내용을 구분 # saturation: 탁한 정도 # palette로 색 변경 sns.countplot(x='race/ethnicity',data=student,hue='..