[데이터 분석 라이브러리] 데이터 분석 라이브러리의 개요-1


Lifesoft Python 데이터 분석 강의(26~27강) 요약


주요 데이터 분석 라이브러리

(1) Numpy

- Python 데이터 분석의 기본적인 기능(벡터 및 행렬 연산 관련 기능 제공)

- 벡터와 행렬 연산에 특화된 라이브러리

- array 단위로 데이터를 관리함. 행렬(matrix)와 비슷함

(2) Pandas

- Series, DataFrame 등의, 자료구조에 사용(Excel, csv 파일을 다룰 때 많이 사용함)

- 대용량 데이터 처리에 성능이 좋음

(3) Matplotlib

- 데이터 분석 결과 시각화 도구


* 매직코드

 - 파이선 노트북에서만 사용함.

 - % 기호를 사용함

 - ex ) %mapplotlib inline


numpy 랜덤 생성

 -  np.random.rand(난수갯수)

 - 0.0~1.0 사이의 float형 숫자 생성

 - np.random.rand(행,열)

   => 난수 행렬 생성

  - np.random.randn(행,열)

    => 정규분포 난수(중심값을 기준으로 골고루 분포한 난수) 생성

 - np.random.seed(seed값) 함수

   =>  seed값을 설정하면 일정한 순서대로 난수가 생성된다.

 - sum, mean, sort

   => sum : 전체합계

        arr.sum()

   => sum(axis=0) : 각 열의 합계

   => sum(axis=1) : 각 행의 합계

   => mean : 평균

 - 정렬 sort

   np.sort(arr) : 오름차순 정렬

   np.sort(arr, axis=0)[::-1] : 열을 기준으로 내림차순 정렬

 - 중복값 제거후 출력 unique

   np.unique(names)

- numpy 행렬

   type : numpy.ndarray

        type(data_set)

   shape : 행렬의 차원 확인

        data_set.shape

        => (2, 3) : 2행 3열

   사칙연산 : 동일한 행, 동일한 열의 값끼리 연삼함.

- loadtxt / savetxt

  loadtxt : 텍스트 파일 로딩

  사용법 : np.loadtxt(경로, delemiter, 데이터타입)

  사용예 : data = np.loadtxt("d:/data/movielens/ratings.dat", delimiter="::", dtype=np.int64)

   savetxt : 파일로 저장

   사용법 : np.savetxt(경로, 데이터(numpy array), fmt, delimiter)

   사용예 : np.savetxt("d:/data/movielens/result.csv", \mean_array, fmt="%.1f", delimiter=",")


pandas

- series

  인덱스와 데이터로 구성됨.

  pd.series(data)

- DataFrame

  numpy 행렬(array) 데이터를 데이터 프레임으로 변환

    데이터프레임 : 행과 열로 데이터를 조회

    df = pd.DataFrame(data_set, columns=["A", "B", "C"])

  plot 함수

    데이터프레임의 자료를 그래프로 출력

    데이터를 그래프로 확인할 때 사용

    X축 : 행

    Y축 : 열

    df.plot(kind="graph type name", option)

    graph type name : bar(세로바), barh(가로바), area(누적그래프), pie(파이) 등