파이썬을 이용한 데이터 분석의 정석 pdf 다운로드를 무료로 제공합니다 데이터 분석을 다룬 많은 책 중 나에게 맞는 책을 찾는 건 매우 어렵다. 이론 위주의 책을 선택하면 이해하기 어렵고, 응용 위주의 책을 선택하면 기본 개념이 부족하다.
관련 책 pdf 모음
책 소개
이 책은 이론을 쉽게 설명하고 예제로 응용해 보도록 구성하여 자연스럽게 데이터 분석 과정을 익힐 수 있다. 파이썬 데이터 분석에 필수로 사용되는 라이브러리를 단계적으로 다루어 데이터를 전처리하고 분석하는 능력을 갖춘다. 이 과정에서 넘파이, 판다스, 맷플롯립은 물론 연관 라이브러리까지 상세히 소개한다. 그리고 소개한 라이브러리를 종합하여 활용할 수 있는 세 가지 실전 예제를 담았다. -데이터 분석의 이론과 응용을 모두 다룹니다. 데이터 분석을 다룬 많은 책 중 나에게 맞는 책을 찾는 건 매우 어렵습니다. 이론 위주의 책을 선택하면 이해하기 어렵고, 응용 위주의 책을 선택하면 기본 개념이 부족합니다. 이 책은 이론을 쉽게 설명하고 예제로 응용해 보도록 구성하여 자연스럽게 데이터 분석 과정을 익힐 수 있습니다. -필수 라이브러리를 상세히 소개합니다. 바쁜 독자들을 위해 여러 책을 뒤적이지 않아도 되도록 기술하였습니다. 라이브러리별로 나누어 장을 구성하였고, 속성과 함수, 기능을 상세히 수록하여 필요한 내용을 사전처럼 찾아 쓸 수 있습니다. 데이터 분석의 입문자에게는 다양한 사용법을 습득할 수 있는 지침서가, 실무자에게는 새로운 응용을 위한 참고서가 될 것입니다. -2,000여 개의 기초 예제와 3가지 실전 예제를 실습합니다. 학습자가 데이터 분석을 숙달할 수 있도록 다양한 예제를 담았습니다. 예제 코드와 결과를 바로바로 확인하여 쉽고 빠르게 이해할 수 있습니다. 또한 범죄율, 주식, 축구 경기 결과 데이터를 담은 실습 파일을 불러와 분석해 봄으로써 고도의 응용력을 키우게 됩니다.
파이썬을 이용 데이터 분석의 정석
01장 개발 환경 구축
_1.1 아나콘다 설치
___환경 변수 설정
___파이썬 가상 환경 설정
___conda와 pip 명령어
_1.2 주피터 노트북
__1.2.1 주피터 노트북의 주요 기능
___주피터 노트북 애플리케이션
__1.2.2 주피터 노트북 설치
__1.2.3 주피터 노트북 사용
__1.2.4 노트북 생성
__1.2.5 노트북을 이용한 프로그래밍
02장 파이썬 빅데이터 프로그래밍
_2.1 파이썬과 R
__2.1.1 파이썬과 R의 특징 및 성능 비교
__2.1.2 파이썬과 R의 글로벌 선호도
_2.2 파이썬 언어의 기본 개념
__2.2.1 객체 지향 언어
__2.2.2 파이썬 빅데이터 분석
___빅데이터 분석을 위한 파이썬 라이브러리
___넘파이와 사이파이
___객체와 클래스
___인스턴싱
___모듈
___함수와 메소드
_2.3 대화형 컴퓨팅 IPython
__2.3.1 IPython의 기능
__2.3.2 IPyhon 설치
___노트북
__2.3.3 IPython의 주요 명령어
___도움 및 찾기 명령어
___탭 자동 완성
___객체 탐색
___셸 커맨드
___매직 함수
___실행 및 편집
___디버깅
__2.3.4 IPython QtConsole
03장 넘파이
_3.1 넘파이 배열
__3.1.1 넘파이 모듈 임포트
__3.1.2 넘파이 배열 생성
___파이썬 유사 배열 객체를 넘파이 배열로 변환
___넘파이 배열 생성 함수
___배열 생성 함수 numpy.arange( )
___디스크에서 읽어서 배열 생성
__3.1.2 넘파이 ndarray 클래스
___ndarray 객체 구조
__3.1.3 넘파이 배열의 데이터 타입
___numpy.dtype 적용
_3.2 구조화된 배열
__3.2.1 구조화된 데이터 타입
___구조화된 데이터 타입 생성
___구조화된 데이터 타입 조작 및 표시
___자동 바이트 오프셋 및 정렬
___필드 제목
__3.2.2 구조화된 배열 인덱싱 및 할당
___파이썬 고유 타입인 튜플로 할당
___스칼라 값으로 할당
___다른 구조화된 배열로 할당
__3.2.2 인덱싱과 슬라이싱
___기본 인덱싱 구문
___배열 객체 요소 선택
___기본 인덱싱과 슬라이싱
___고급 인덱싱
___불리언 배열로 인덱싱
___슬라이싱과 인덱스 배열 처리
___인덱스를 반환하는 numpy.nonzero( ), numpy.transpose( ) 함수
___다차원 배열 전치
__3.2.4 유니버설 함수
___class numpy.ufunc
___유용한 유니버설 함수
_3.3 배열 객체 관리와 연산
__3.3.1 뷰와 복사
___뷰
___복사
__3.3.2 브로드캐스팅
___브로드캐스팅 규칙
___numpy.newaxis 적용
___broadcast 클래스
___브로드캐스팅 연산
___수능 성적 분석 예시
__3.3.3 배열 조작과 정렬
___C 우선 배치와 F 우선 배치
___배열을 이어 붙이고 스택으로 배치
___배열 순서 정렬
___히스토그램 함수
__3.3.4 배열 연산
___다차원 배열 연산
___배열 반복
___임의의 수 생성
___선형 대수
_3.4 넘파이 적용
__3.4.1 데이터 파일 입력과 출력
___넘파이 이진 파일
___텍스트 파일
___원시 이진 파일
___메모리 맵 파일
__3.4.2 이미지 처리
___넘파이와 matplotlib 활용
___사이파이 모듈 적용
04장 판다스
_4.1 판다스 데이터 구조
__4.1.1 시리즈
___시리즈 객체 생성 방법
___ndarray와의 유사성
___딕셔너리와의 유사성
___넘파이와의 유사성
___시리즈 이름 설정과 변경
__4.1.2 데이터프레임
___딕셔너리에서 데이터프레임 객체 생성
___ndarrays나 리스트의 딕셔너리에서 데이터프레임 객체 생성
___구조화된 배열 또는 레코드 배열에서 데이터프레임 객체 생성
___딕셔너리의 리스트에서 데이터프레임 객체 생성
___튜플의 딕셔너리에서 데이터프레임 객체 생성
___데이터프레임 생성자
__4.1.3 행과 열의 기본 처리
___행 또는 열 선택, 추가, 삭제
___인덱싱과 선택
___pandas.DataFrame.loc와 pandas.DataFrame.iloc
___데이터 정렬 및 산술 연산
___전치
___넘파이 함수들과 데이터프레임 연동
__4.1.4 인덱스 관련 객체
___pandas.Index 클래스
___pandas.RangeIndex 클래스
___Int64Index, Uint64Index, Float64Index 클래스
___pandas.CategoricalIndex 클래스
___pandas.Categorical 클래스
___pandas.MultiIndex 클래스
_4.2 판다스의 주요 기능
__4.2.1 판다스 객체 이진 연산
__4.2.2 요약과 통계 연산
__4.2.3 함수 적용
___테이블 형태의 함수 적용
___행 또는 열 단위의 함수 적용
__4.2.4 Aggregation API 함수 적용
___요소 단위로 함수들을 적용
_4.3 데이터 처리
__4.3.1 데이터 선택
___라벨로 데이터 선택
___위치로 데이터 선택
___호출 함수로 데이터 선택
__4.3.2 데이터 설정과 검색
___데이터 확장 및 변경
___불리언 벡터로 데이터 필터링
___take( ) 메소드로 검색
__4.3.3 손실 데이터 처리
___손실 데이터 계산
___손실 데이터 채우기
__4.3.4 멀티인덱스
___멀티인덱스 객체 생성
___멀티인덱스 인덱싱
___멀티인덱스 순서 정렬
_4.4 데이터 타입과 입출력
__4.4.1 텍스트 파일
___CSV 파일
___JSON 파일
___HTML 파일
___클립보드
__4.4.2 이진 데이터
___엑셀 파일
___HDF5 파일
__4.4.3 SQL 데이터베이스
___SQLAlchemy의 엔진 구성
___판다스 SQL 관련 함수 적용
___sqlite3
__4.4.4 기상청 대용량 데이터 세트의 처리
05장 판다스 고급
_5.1 데이터 가공
__5.1.1 데이터 이어 붙이기
___축의 로직 설정과 append를 사용하는 이어 붙이기
___차원이 다른 시리즈와 데이터프레임 이어 붙이기
___그룹 키로 이어 붙이기
__5.1.2 데이터베이스 타입의 데이터프레임 또는 시리즈를 합치기
___merge( ) 함수로 합치기
___join( ) 메소드로 합치기
___멀티인덱스 객체 합치기
___열과 인덱스 레벨을 조합해 합치기
___중복되는 열 처리하기
___시리즈나 데이터프레임의 열 안에서 값을 합치기
__5.1.3 데이터 재형성하기
___데이터프레임 객체 피벗
___피벗 테이블
___교차표
___더미 변수 계산
___stack( )과 unstack( ) 메소드로 재형성
___melt( ) 메소드로 재형성
__5.1.4 파이썬 정규 표현식 사용하기
___정규 표현식 구문
___re 모듈
___정규 표현식 객체
___Match 객체
__5.1.5 텍스트 데이터 가공하기
___문자열을 분할하고 대체하기
___텍스트 이어 붙이기
___str로 인덱스 변경하기
___일기 형식의 텍스트 데이터 가공
_5.2 데이터의 그룹 연산
__5.2.1 데이터 객체를 그룹 연산
___GroupBy 객체 속성
___GroupBy 순서 정렬
___멀티인덱스가 있는 객체를 그룹 연산
___그룹 객체의 반복 처리
__5.2.2 GroupBy 객체를 그룹별 연산 및 변환
___데이터 집계하기
___한 번에 여러 함수 적용하기
___데이터프레임 열들에 각각 다른 함수 적용하기
___자동차 판매 대리점별 영업 현황 데이터 연산과 변환
__5.2.3 GroupBy 객체를 이용한 분할, 적용, 통합
___학교별 수학 성적에 분할, 적용, 통합 연산 실행
___apply( ) 메소드 적용
__5.2.4 기타 그룹 연산
___불필요한 부분을 자동으로 제거
___순서가 정렬된 요소를 그룹화
___각 그룹의 행 확인하기
_5.3 수학 계산
__5.3.1 통계 함수
___퍼센트 변화율
___공분산
___상관관계
___데이터 순위
__5.3.2 윈도우 함수
___시간 인식 이동
___이진 윈도우 함수
___쌍 단위의 공분산과 상관관계를 이동 윈도우로 계산하기
__5.3.3 집계 연산
___복수의 함수를 적용하기
___데이터프레임 열들에 여러 함수를 적용하기
__5.3.4 기타 윈도우 적용
___확장 윈도우
___지수 가중 윈도우
06장 matplotlib
_6.1 matplotlib 기본
__6.1.1 figure 구성
___Axes, Axis, Artist
___matplotlib과 pyplot
__6.1.2 pyplot 모듈
_6.2 matplotlib API
__6.2.1 그래프 그리기
___그래프 스타일 꾸미기
___범주형 변수로 서브플롯 생성
___Figure 객체로 서브플롯 생성
__6.2.2 라벨, 범례, 주석 추가
___add_subplot( )과 add_axes( ) 함수로 그래프를 그리고 라벨 붙이기
___스타일시트와 rcParams로 matplotlib 실행하기
___matplotlib.pyplot.legend 함수로 범례 설정하기
___범례 위치 정하기
___주석 달기
__6.2.3 텍스트 추가
___텍스트 생성 명령어
___matplotlib.axis 모듈
___눈금 위치와 형식 정하기
___눈금과 눈금 라벨
__6.2.4 기타 그래프
___막대그래프
___원그래프
_6.3 seaborn 라이브러리
__6.3.1 seaborn
___단변량 데이터 세트 분포를 시각화
___이변량 데이터 세트 분포를 시각화
___regplot으로 회귀 모델을 시각화
___figure 레벨과 axes 레벨의 함수들
___산점도
___선 그래프
__6.3.2 범주형 데이터 시각화
___범주형 산점도
___범주 내에서 관찰치 분포
__6.3.3 선형 관계 시각화
___선형 회귀 모델을 시각화하는 함수들
___다른 변수들에 조건 부여
___그래프 크기와 모양 수정
___컨텍스트에서 회귀 그래프 그리기
__6.3.4 멀티플롯 그리드 시각화
___스몰 멀티플스
_6.4 판다스 시각화
__6.4.1 그래프 종류
___기본 그래프
___막대그래프
___히스토그램
___상자 그림
___면적그래프
___산점도
___육각 산점도
___원그래프
___그래프별 손실 값 처리
__6.4.2 그래프 설정
___범례와 스케일 설정
___보조 축 설정
___서브플롯 및 멀티 axes 설정
___오차 막대 추가
___테이블 설정
07장 시계열
_7.1 파이썬의 날짜 및 시간 관련 객체
__7.1.1 datetime 객체
__7.1.2 시간대 객체
___tzinfo 객체
___timezone 객체
__7.1.3 timedelta 클래스
__7.1.4 Olson tz 데이터베이스
_7.2 판다스 시계열 기초
__7.2.1 판다스의 시계열 지원
__7.2.2 판다스의 datetime 객체
__7.2.3 시계열 인덱싱
___DatetimeIndex 객체
___TimedeltaIndex 객체
___PeriodIndex 객체
___시계열 인덱싱
___부분 문자열 인덱싱
___슬라이싱과 고급 인덱싱
__7.2.4 리샘플링
___resample 메소드 적용
___데이터프레임 리샘플링과 종합 연산
___Resampler 객체로 그룹화하고 반복
_7.3 타임스탬프
__7.3.1 타임스탬프와 시간
__7.3.2 타임스탬프로 변환하기
___format 인수 적용
___데이터프레임 열을 이용해 datetime 조합
___유닉스 에포크 시간과 타임스탬프
___origin 매개 변수 사용하기
__7.3.3 타임스탬프 생성 범위
__7.3.4 날짜 오프셋과 이동 객체
___오프셋 매개 변수 사용
___사용자 정의 영업일
___영업 시간
___오프셋 약칭 사용
___시계열 관련 인스턴스 메소드
_7.4 시간 범위와 시간대 처리
__7.4.1 기간과 연산
___PeriodIndex와 period_range( ) 함수
___PeriodIndex의 도수 변환 및 리샘플링
___PeriodIndex 데이터와 Timestamp 데이터 간 변환
__7.4.2 시간대 처리
___시간대 설정 및 제거
___시간대 Series 연산
___.dt 접근자
08장 빅데이터 분석
_8.1 서울시 구별 CCTV 설치 대비 범죄율 분석
__8.1.1 서울시 인구, CCTV 설치 및 범죄 데이터
__8.1.2 구별 CCTV 설치 및 인구 현황 분석
___read_excel( ) 함수로 열 선택
___iloc( ) 함수로 열 선택
___Index 객체로 열 라벨 이름 변경
___rename( ) 함수로 열 라벨 이름 변경
__8.1.3 구별 CCTV 설치 대비 범죄율 상관관계 분석
_8.2 삼성전자, SK하이닉스, LG전자 주식 데이터 분석
__8.2.1 주식 데이터 획득
__8.2.2 주가 현황 그래프 그리기
__8.2.3 주가 변동 연관성 분석
_8.3 국제 축구 경기 결과 분석
__8.3.1 데이터 전처리
__8.3.2 경기 결과 분석 및 그래프 그리기
__8.3.3 대한민국 축구 국가대표팀 경기 결과 분석