본문 바로가기
인공지능과정 이론 수업

생성형 AI Day7_데이터 시각화 / 데이터 시각화란?, 시각적 인지의 기초, 기본 차트 유형

by eun5098 2024. 7. 10.
728x90
<목차>
1. 데이터 시각화란?
2. 시각적 인지의 기초
3. 기본 차트 유형

1. 데이터 시각화란?

 

데이터시각화란?

: 데이터를 그래픽적 요소로 변환하여 시각적으로 표현하는 과정

 

[데이터 시각화의 구성요소]

기본요소 : 점, 선, 막대, 색상, 크기, 원 등

시각화 도구 : Excel, Tableau, Power BI, Python(matplotlib, seaborn)

 

  Excel Tableau Power BI Python (matplotlib, seaborn)
  - Microsoft의 스프레드시트 프로그램, 데이터 관리와 기본적인 시각화 기능 제공
- 대중적으로 사용되고 있어 접근성과 사용 용이
- 강력한 데이터 시각화 도구, 다양한 데이터 소스와의 통합 및 인터랙티브 시각화 기능 제공
- 다양한 데이터 소스 결합한 시각화와 실시간 대시보드, 보고서 작성 등에 사용
- Microsoft의 비즈니스 분석 서비스, 데이터 분석 및 시각화 기능 제공
- 기업의 KPI 모니터링 및 보고서 작성, 실시간 데이터의 시각화 등에 사용
- Python 데이터 시각화 라이브러리
- matplotlib은 기본적인 시각화 도구, seaborn은 통계적 시각화 강화
- 복잡한 데이터셋, 머신러닝 모델 결과의 시각화
장점 - 사용 용이성
- 광범위한 사용
- 기본 통계 기능
- 인터랙티브 시각화
- 사용자 친화적
- 다양한 데이터 소스 통합
- Microsoft 생태계 통합
- 사용자 친화적
- 실시간 데이터
- 고급 시각화
- 오픈 소스
- 통합 분석
단점 - 복잡한 시각화 제한
- 확장성 부족
- 비용
- 복잡한 기능 학습 필요
- 제한된 고급 분석 기능
-데이터 처리 한계
- 코딩 필요
- 학습 곡선
선택
이유
- 사용 간편
- 빠른 데이터 시각화 필요시
- 복잡한 시각화와 실시간 모니터링 필요 시
- 대화형 시각화 및 사용자 정의 - 대시보드 작성 필요 시
- Microsoft 환경과 통합 및 실시간 비즈니스 분석 필요 시
- 쉬운 데이터 시각화와 빠른 배포 필요 시
- 복잡한 시각화와 데이터 분석을 통합하여 수행 필요 시
- 커스터마이징이 필요한 고급 시각화 필요 시

 

1. Excel
: Microsoft의 스프레드시트 프로그램, 데이터 관리와 기본적인 시각화 기능 제공
  대중적으로 사용되고 있어 접근성과 사용 용이
[장점]
○ 사용 용이성 : 직관적인 인터페이스, 드래그 앤 드롭으로 차트 생성 가능
○ 광범위한 사용 : 대부분의 비즈니스 환경에서 이미 사용 중
○ 기본 통계 기능 : 기본적인 통계 분석 및 피벗 테이블 기능 포함
[단점]
○ 복잡한 시각화 제한 : 고급 시각화 및 대규모 데이터 처리 한계
○ 확장성 부족 : 대용량 데이터 처리 및 실시간 데이터 시각화 제약
[선택 이유]
○ 사용 간편
○ 빠른 데이터 시각화가 필요한 경우

2. Tableau
: 강력한 데이터 시각화 도구, 다양한 데이터 소스와의 통합 및 인터랙티브 시각화 기능 제공
  다양한 데이터 소스 결합한 시각화와 실시간 대시보드, 보고서 작성 등에 사용
[장점]
○ 인터랙티브 시각화 : 대화형 대시보드와 실시간 데이터 업데이트 가능
○ 사용자 친화적 : 드래그 앤 드롭 인터페이스로 쉽게 시각화 가능
○ 다양한 데이터 소스 통합 : 여러 데이터베이스와 파일 포맷 연결 가능
[단점]
○ 비용: 라이선스 비용이 높은 편
○ 복잡한 기능 학습 필요: 고급 기능 사용을 위해 추가 학습 필요
[선택 이유]
○ 복잡한 데이터 시각화 및 실시간 데이터 모니터링 필요 시
○ 대화형 시각화 및 사용자 정의 대시보드 작성 필요 시

3. Power BI
: Microsoft의 비즈니스 분석 서비스, 데이터 분석 및 시각화 기능 제공
기업의 KPI 모니터링 및 보고서 작성, 실시간 데이터의 시각화 등에 사용기업의 KPI 모니터링 및 보고서 작성, 실시간 데이터의 시각화 등에 사용
[장점]
○ Microsoft 생태계 통합 : Excel, Azure 등과 원활한 통합
○ 사용자 친화적 : 친숙한 인터페이스와 쉬운 학습 곡선
○ 실시간 데이터 : 실시간 데이터 피드와 자동 업데이트 기능
[단점]
○ 제한된 고급 분석 기능 : 일부 고급 시각화 기능 제한적
○ 데이터 처리 한계 : 대규모 데이터 처리 시 성능 저하 가능
[선택 이유]
○ Microsoft 환경과의 통합 및 실시간 비즈니스 분석 필요 시
○ 쉬운 데이터 시각화와 빠른 배포 필요 시

4. Python (matplotlib, seaborn)
: Python 사용 데이터 시각화 라이브러리
  matplotlib은 기본적인 시각화 도구, seaborn은 통계적 시각화 강화
  복잡한 데이터셋, 머신러닝 모델 결과의 시각화
[장점]
○ 고급 시각화: 복잡한 데이터 시각화 및 커스터마이징 가능
○ 오픈 소스: 무료로 사용 가능, 커뮤니티 지원
○ 통합 분석: 데이터 분석, 처리 및 시각화를 하나의 환경에서 수행
[단점]
○ 코딩 필요: 프로그래밍 지식 필요
○ 학습 곡선: 초보자에게는 학습이 다소 어려울 수 있음
[선택 이유]
○ 복잡한 시각화와 데이터 분석을 통합하여 수행할 필요 시
○ 커스터마이징이 필요한 고급 시각화 필요 시

 

#시각화를 왜 하는 건가요?

데이터 패턴 인식 : 데이터의 패턴과 트렌드 쉽게 식별

 통찰력 제공 : 데이터에서 의미 있는 인사이트 도출

의사결정 지원 : 데이터 기반의 전략적 의사결정에 기여

 정보 전달 : 복잡한 정보를 명확하고 간결하게 전달

 

#시각화를 왜 중요한가요?

 복잡한 데이터 이해도 향상 : 복잡한 데이터 세트 직관적 이해

 효율적인 커뮤니케이션 : 시각적 자료 통해 정보 전달의 효율성 증대

 데이터 기반 의사결정 : 데이터에 기반한 신뢰성 높은 결정

 심리적 효과 : 사람들은 시각적 정보 더 빠르고 정확 처리


2. 시각적 인지의 기초

 

시각적 인지 정의란?

: 인간이 시각적 자극을 통해 정보 처리, 해석하는 과정

  빠르고 효율적인 정보 처리 가능하게 함

[시각적 인지와 데이터 시각화의 관계]

효율적 정보 전달 : 시각적 인지를 활용하여 데이터를 효과적으로 전달

의사결정 지원 : 시각적 인지를 통해 데이터 기반 의사결정의 신뢰성 향상

[인간의 시각적 인지 능력]

패턴 인식

시각적 데이터를 통해 빠르게 패턴과 트렌드 식별

정보 우선순위

시각적 요소를 통해 중요한 정보 강조

크기, 색상, 위치 등의 요소 활용하여 주의 끌 수 있음

 

[정보처리과정에서 시각적 요소의 역할]

1. 초기 시각 처리 단계

    색상, 형태, 크기 등 기본 시각적 요소 빠르게 인식

    기본적인 시각적 특징을 통해 정보의 우선순위 정함

2. 중간 시각 처리 단계

    패턴과 그룹화 인식

    데이터의 연관성과 관계 파악

    시각적 요소의 통합

3. 통합 과정

    다양한 시각적 요소 통합하여 전체적인 의미 파악

    시각적 데이터 종합적으로 해석하여 인사이트 도출

 

[색상의 영향력]

심리적 반응

     감정적 반응 유발

     빨간색: 경고, 위험 / 녹색: 안전, 긍정

정보 전달

     

색상을 통해 데이터의 중요한 부분 강조

     ex.

 차트에서 중요한 데이터 포인트를 강조하는 색상 사용

[형태의 영향력]

 데이터 구분과 그룹화

      다양한 형태를 사용하여 데이터 구분하고 그룹화

 의미 전달

      원, 사각형, 삼각형 등의 기본 도형을 사용하여 데이터 시각적으로 표현 가능

      각 도형의 특성을 통해 데이터 직관적으로 이해 가능

 

[크기의 중요성]

크기 차이의 비율 통해 데이터의 상대적 중요성 전달 가능

ex. 큰 요소 -> 중요한 데이터, 작은 요소 -> 덜 중요한 데이터

 


3. 기본 차트 유형

 

1. 막대 그래프 (Bar Chart)

: '범주형 데이터의 빈도나 값' 시각화

   

데이터 값은 수평 또는 수직 막대로 표현되며, 각 막대의 길이는 해당 범주의 크기나 빈도 표시

ex. 월별 매출 비교를 통해 성과 분석, 학년별 성적 비교, 병원별 환자 수 비교

 

2. 히스토그램 (Histogram)

: ‘연속형 데이터의 분포’ 시각화

 

데이터 범위 여러 구간(bin)으로 나누고, 각 구간의 데이터 빈도 막대로 표시

ex. 제품 가격대별 판매량 분포, 시험 점수 분포, 나이대별 환자 수 분포

 

3. 선그래프 (Line Chart)

: 시간에 따른 데이터 변화 시각화

 

데이터 포인트 선으로 연결되어 시간 경과에 따른 추세 표현

ex. 주간 매출 트렌드 분석, 학기별 학생 출석률 변화, 일별 혈압 수치 변화

 

4. 파이차트 (Pie Chart)

: 전체에서 각 부분의 비율 시각화

ex. 예산 분배, 시장 점유율 비교, 학과별 학생 비율, 병원 내 각 부서별 환자 비율

 

 

5. 산점도 (Scatter Plot)

: 두 변수 간의 관계 시각화

 

각 데이터 포인트는 두 변수 값의 교차점에 위치

ex. 광고비와 매출 간의 상관관계 분석, 공부 시간과 성적 간의 관계, 체중과 혈압 간의 관계

6. 박스플롯 (Box Plot)

: 데이터의 분포와 이상치 시각화

  중앙값, 사분위수, 최소값, 최대값 및 이상치 표시

ex. 직원 연봉 분포 분석, 시험 점수 분포와 이상치 분석, 체질량지수(BMI) 분포