안녕하세요.

예지우랑입니다. 

오늘 리뷰할 도서는 "파이썬 라이브러리를 활용한 머신러닝" 입니다. 

전통의 명가 한빛미디어에서 또다른 전통의 명가 오라일리에서 나온 Introduction to Machine Learning with Python( 파이썬 라이브러리를 활용한 머신러닝)의 번역개정판을 출판하였습니다. 이번 버전은 사이킷런 최신버전을 반영한 풀컬러번역 개정판입니다. 

또 운좋게도 리뷰 이벤트에 당첨되어 책을 읽고 리뷰를 할 수 있는 기회를 얻었습니다.

항상 좋은 책을 출판해주시는 전통의 명가, 개발자들의 친구 한빛 미디어에 감사의 말씀 드립니다.

파이썬 라이브러리를 활용한 머신러닝[번역개정판]


책옆의 테드폴 올챙이의 다크가 제 눈의 다크랑 비슷하네요. 너도힘들구나 나도 힘들다.

저는 작은 회사에서일하는 보잘것없는 웹개발자지만 이것저것 관심은 많습니다. 그 많은 관심중 하나가 바로 머신러닝이었죠 회사에서 커머스 도메인과 물류 도메인을 개발하고있기때문에 '머신러닝을 이용하면 출고량을 예측할수 있지 않을까? 판매량을 예측할 수 있지않을까?" 뭐 이런생각을 해보면서 성킴님의 머신러닝책을 보고 앞쪽을 잠시 보고 수학공식만 보다가 마음을 접었죠. 많은 개발자분들 저랑 비슷할거같습니다. 

그러다가 텐서플로우르 쓰면 머신러닝이 편하다더라! 하는 카더라를 듣고 파이썬을 공부하기 시작했는데 여느 개발자들과 마찬가지로 실제 업무에서 파이썬을 쓰지 않다보니 공부 속도는 너무나도 더뎠죠. 결국 텐서플로우는 만져보지도못하구요 그러던 와중에 전통의 명가 한빛미디어에서 이런 좋은 리뷰 기회를 주셔서 감사합니다. 

먼저 목차부터 살펴보기로하지요 


목차

  1. 소개
    1. 왜 머신러닝인가?
    2. 왜 파이썬인가?
    3. scikit-learn
    4. 필ㅅ 라이브러리와 도구들
    5. 파이썬2 vs 파이썬3
    6. 이책에서 사용하는 소프트웨어 버전
    7. 첫번째 매플리케이션: 붓꽃의 품종 분류
    8. 요약 및 정리
  2. 지도학습
    1. 분류와 회귀
    2. 일반화, 과대적합, 과소적합
    3. 지도학습알고리즘
    4. 분류 예측의 불확실성 추정
    5. 요약 및 정리
  3. 비지도 학습과 데이터 전처리
    1. 비지도학습의 종류
    2. 비지도 학습의 도전과제
    3. 데이터 전처리와 스케일 조정
    4. 차원 축소, 틍성 추출, 매니폴드 학습
    5. 군집
    6. 요약 및 정리
  4. 데이터의 표현과 특성 공학
    1. 번주형 변수
    2. oneHotEncoder와 Columntransformer: scikit-learn으로 범주형 변수 다루기
    3. make_column_transformer로 간편하게 ColumnTransformer만들기
    4. 구간 분할, 이산화 그리고 선형모델, 트리모델
    5. 상호작용과 다항식
    6. 일변량 비선형 변환
    7. 특성 자동 선택
    8. 전문가 지식 활용
    9. 요약 및 정리
  5. 모델 평가와 성능 향상
    1. 교차검증
    2. 그리드 서치
    3. 평가 지표와 측정
    4. 요약 및 정리
  6. 알고리즘 체인과 파이프라인
    1. 데이터 전처리와 매개변수 선택
    2. 파이프라인 구축하기
    3. 그리드 서치에 파이프라인 적용하기
    4. 파이프라인 인터페이스
    5. 전처리와 모델의 매개변수를 위한 그리드 서치
    6. 모델선택을 위한 그리드 서치
    7. 요약 및 정리
  7. 텍스트 데이터 다루기
    1. 문자열 데이터 타입
    2. 예제 애플리케이션: 영화 리뷴 감성 분석
    3. 텍스트 데이터를 BOW로 펴현하기
    4. 불용어
    5. tf-idf로 데이터 스케일 변경하기
    6. 모델 계수 조사
    7. 여러 단아로 만든 BOW(n-그램)
    8. 고급 토큰화, 어간 추출, 표제어 추출
    9. 토픽 모델링과 문서 군집화
    10. 요약 및 정리
  8. 마무리
    1. 머신러닝 문제 접근 방법
    2. 프로토타입에서 제품까지
    3. 제품 시스템 테스트
    4. 나만의 추정기 만들기
    5. 더 배울것들
    6. 마치며

목차는 위와 같았습니다. 

서두에 말씀드렸던것처럼 머신러닝을 공부해야지 하고 생각했지만 시간이없고 막연하고 해서 못하시던 분들이 보시기 좋을거같습니다. 목차를 보시면서 그동안 컨퍼런스, 세미나, 유투브, 마이크로스프트웨어같은 잡지 에서 보던 많은 용어들이 보이시죠? 

각가에 대한 설명과 예제 까지 있어서 보기 좋았습니다. 

결론부터 말씀드리자면 책에서 말하길 '복잡한 이론을 알 필요없이 파이썬의 강력한 기능을 활용만하여 머신러닝을 배우고 써먹을 수 있다' 라고하지만 사실 이말은 반만 맞습니다. 책은 그래프와 소스코드를 동원하여 쉽게 설명을해주지만 쉽지는 않습니다. 정확히 알고 사용하려면 이론도 잘 알아야 겠지요. 하지만 책에서 말한거처럼 책을 읽으면서 이해하고 소스코드를 따라해보면 정말 머신러닝이 됩니다! 머신러닝이란 막연한 터널에서 갑자기 끝을 알리는 빛이 보이기 시작한거같은 느낌이 들죠 

약 2주간의 기간동안 리뷰를 해야했기에 책의 모든부분을 보지는 못하였고, 빠르게 속독 후 예제들을 따라해가며 책을 읽었습니다. 속독할때는 당연히 이게 무슨소리인가 하면서 읽었고, 2회독 할때부터는 소스코드를 직접 구현해보면서 아~ 하는 감탄사를 내뱉게 되었죠. 

지금 리뷰를 작성한 이후부터 또 다음 부분들을 실습할 것이고, 책을 마무리하면 앞서 말씀드렸던것처럼 주문량 / 출고량 예측을 시도해볼 수 있을거같네요 

아주 유익한 시간이었습니다. 

이상으로 예지우랑읜 파이썬 라이브러리를 활용한 머신러닝 리뷰를 마치겠습니다. 

 

 

+ Recent posts