인공지능(AI)

데이터 분석 라이브러리의 개요-1

Lifesoft Python 데이터 분석 강의(26~27강) 요약
주요 데이터 분석 라이브러리

(1) Numpy
  - Python 데이터 분석의 기본적인 기능(벡터 및 행렬 연산 관련 기능 제공)
  - 벡터와 행렬 연산에 특화된 라이브러리
  - array 단위로 데이터를 관리함. 행렬(matrix)와 비슷함

(2) Pandas
  - Series, DataFrame 등의, 자료구조에 사용(Excel, csv 파일을 다룰 때 많이 사용함)
  - 대용량 데이터 처리에 성능이 좋음

(3) Matplotlib
  - 데이터 분석 결과 시각화 도구

매직코드

- 파이선 노트북에서만 사용함.
- %기호를 사용함
- ex) %mapplotlib inline

numpy 랜덤 생성
  • np.random.rand(난수갯수)
  • 0.0~1.0 사이의 float형 숫자 생성
  • np.random.rand(행,열)

    =>난수 행렬 생성

  • np.random.randn(행,열)

    => 정규분포 난수(중심값을 기준으로 골고루 분포한 난수) 생성

  • np.random.seed(seed값) 함수

    => seed값을 설정하면 일정한 순서대로 난수가 생성된다.

  • sum, mean, sort

    =>sum : 전체합계
      arr.sum()
    =>sum(axis=0) : 각 열의 합계
    =>sum(axis=1) : 각 행의 합계
    =>mean : 평균

  • 정렬 sort

    np.sort(arr) : 오름차순 정렬
    np.sort(arr, axis=0)[::-1] : 열을 기준으로 내림차순 정렬

  • 중복값 제거후 출력 unique

    np.unique(names)

  • numpy 행렬

    type : numpy.ndarray
      type(data_set)
    shape : 행렬의 차원 확인
      data_set.shape  =>(2,3) : 2행 3열 사칙연산 : 동일한 행, 동일한 열의 값끼리 연산함.

  • loadtxt/savetxt

    loadtxt : 텍스트 파일 로딩
    사용법 : np.loadtxt(경로, delemiter, 데이터타입)
    사용예 : data = np.loadtxt("d:/data/movielens/ratings.dat", delimiter="::", dtype=np.int64)
    savetxt : 파일로 저장
    사용법 : np.savetxt(경로, 데이터(numpy array), fmt, delimiter)
    사용예 : np.savetxt("d:/data/movielens/result.csv", \mean_array, fmt="%.1f", delimiter=",")

pandas
  • series

    인덱스와 데이터로 구성됨.
    pd.series(data)

  • DataFrame

    numpy 행렬(array) 데이터를 데이터 프레임으로 변환
      데이터프레임 : 행과 열로 데이터를 조회
      df = pd.DataFrame(data_set, columns=["A", "B", "C"])
    ploat 함수
    데이터프레임의 자료를 그래프로 출력
    데이터를 그래프로 확인할 때 사용
    X축 : 행
    Y축 : 열
    df.plot(kind="graph type name", option)
    graph type name : bar(세로바), barh(가로바), area(누적그래프), pie(파이) 등