파이썬으로 배우는 자연어 처리 인액션

https://www.amazon.com/ Natural-Language-Processing-Action-Understanding/dp/1617294632Summary Natural Language Processing in Action is your guide to creating machines that understand human language using the power of Python with its ecosystem of packages dedicated to NLP and AI. Purchase of the print book includes a free eBook in PDF, Kindle, and ePub formats from Manning Publica…www.amazon.com

책 소개 사람의 언어를 읽고 해석할 수 있는 프로그램을 만들려는 모든 개발자를 위한 지침서다. 바로 사용할 수 있는 파이썬 패키지를 이용하여 텍스트의 의미를 포착하고 그가 반응하는 치에쯔봇을 구축한다. 또 전통적인 NLP접근 방식은 물론 더 최근의 심화 학습 알고리즘과 텍스트 생성 방법을 동원하고 날짜와 이름의 추출, 텍스트 작성, 비정형 질문에 대답 같은 다양한 실질적인 NLP문제를 해결한다.목차 PART I말 많은 컴퓨터:NLP의 기초 1CHAPTER 1사고의 단위:NLP의 개요 31.1자연 언어-프로그래밍 언어 41.2마법 51.2.1대화하는 기계 61.2.2수학 71.3, 실제 응용들 91.4컴퓨터’눈’에서 본 언어 111.4.1키 언어 121.4.2정규 표현식 131.4.3 간단한 치에쯔봇 141.4.4또 다른 방법 191.5 짧은 쵸콤강 탐험 231.6단어의 순서와 문법 251.7치에쯔봇의 자연 언어 처리 파이프 라인 271.8, 더 깊은 처리 301.9자연 언어 IQ 32요약 35

CHAPTER 2나만의 어휘의 구축:단어 토큰화 372.1문제:어간 추출의 개요 392.2토큰 생성기를 이용한 어휘의 구축 402.2.1내적 502.2.2두 단어 집의 중복 측정 512.2.3토큰의 개선 522.2.4 n-그램을 이용한 어휘 확장 582.2.5어휘 정상화 662.3감정 분석 762.3.1 VADER― 규칙 기반 감정 분석기 782.3.2단순 베이스 모델 80요약 84

CHAPTER 3말 잘하는 수학:TF-IDF벡터 853.1단어 집 863.2벡터화 923.2.1벡터 공간 953.3지프의 법칙 1013.4주제의 모형화 1043.4.1 돌아온 지프 1083.4.2관련성 순위 1103.4.3주요 도구:scikit-learn 1123.4.4여러 TF-IDF정규화 방법 1133.4.5 Okapi BM25 1153.4.6차 단계 116요약 116

CHAPTER 4단어의 빈도로 의미를 찾는다:의미 분석 1174.1단어의 빈도에서 주제의 점수로 1194.1.1 TF-IDF벡터와 표제어 추출 1194.1.2주제 벡터 1204.1.3사고 실험 1224.1.4주제의 점수를 매기는 알고리즘 1274.1.5 LDA분류기 1294.2잠재 의미 해석(LSA)1344.2.1사고 실험의 실현 1374.3투 크잇가프 분해 1404.3.1왼쪽 특이 벡터 행렬 U 1424.3.2투 크잇가프 행렬 S 1434.3.3오른쪽 특이 벡터 행렬 VT 1454.3.4 SVD의 행렬의 방향 1454.3.5주제 절단 1464.4 주성분 분석(PCA)1484.4.1 3차원 벡터에 대한 PCA 1504.4.2화에서 멀어졌다가 다시 NLP에 와서 1524.4.3 PCA을 이용한 문자 메시지잠재 의미 분석 1544.4.4에 절단된 SVD를 이용한 문자 메시지의 잠재적 의미 분석 1574.4.5스팸 분류에 관한 LSA의 정확도 1584.5잠재 디리클레 할당(LDiA)1614.5.1 LDiA의 기초 1624.5.2문자 메시지 코퍼스에 대한 LDiA주제의 모형 1654.5.3 LDiA+LDA=스팸 분류기 1684.5.4더 공정한 비교:테마가 32개인 LDiA 1714.6거리와 유사도 1734.7피드백에 기초한 방향 조정 1764.7.1선형 판별 분석(LDA)1774.8테마 벡터의 위력 1794.8.1의미 기반 검색 1814.8.2의 개선 방안 184요약 184

PART II보다 깊은 학습:신경망 적용 185CHAPTER 5신경망 첫걸음:퍼셉트론과 욕쵸은파 1875.1신경망의 구성 요소 1885.1.1퍼셉트론 1895.1.2데지탈파ー세프토롱 1905.1.3편향 단위 1915.1.4오차 곡면을 돌며 2075.1.5경사로를 따라서 활강 2085.1.6 흔들고 탈출 2105.1.7케라스:신경망 파이썬 구현 2115.1.8보다 깊이 배우고 싶다면 2155.1.9규격화:스타일 있는 입력 215요약 216

CHAPTER 6단어 벡터를 이용한 추론:word2vec활용 2176.1의미 기반의 질의와 비유 2186.1.1비유 질문 2196.2단어 벡터 2216.2.1벡터 지향적 추론 2256.2.2 word2vec의 단어 표현 계산 2286.2.3 gensim.word2vec모듈의 사용법 2386.2.4나만의 단어 벡터 모형 만들기 2416.2.5 word2vec-GloVe 2446.2.6 fastText 2456.2.7 word2vec-LSA 2466.2.8단어의 관계의 시각화 2476.2.9, 인위적인 단어 2546.2.10 doc2vec을 이용한 문서 유사도 추정 256요약 258

CHAPTER 7의 단어의 순서를 고려한 의미 분석:합성곱 신경망 2597.1의미의 학습 2617.2메뉴 바 2627.3합성곱 신경망 2647.3.1상승 신경망 구조 2647.3.2단계 크기(보폭)2667.3.3필터의 구성 2667.3.4의 여백 2687.3.5훈련(학습)2707.4또 텍스트에 2717.4.1땅 강아지 중에 새기다 신경망 실장:자료 준비 2737.4.2상승 신경망 구조 2797.4.3풀링 2807.4.4탈락 2837.4.5마지막 층 추가 2847.4.6모델의 보존 및 시험 2867.4.7의 모형을 NLP파이프 라인에 도입 2897.4.8, 나머지 이야기 290요약 292

CHAPTER 8 대한 신경망:순환 신경망 2938.1과거를 알고 있는 순환 신경망 2968.1.1시간에 욕쵸은파 3018.1.2무엇을 언제 갱신하는가? 3038.1.3정리 3068.1.4여느 때처럼 함정이 있다 3078.1.5케라 소스를 이용한 순환 신경망 구현 3078.2모델의 컴파일 3128.3모델 훈련 3158.4초 매개 변수 조정 3168.5예측 3198.5.1상태 유지 3208.5.2두 방향 처리 3218.5.3순환층 출력의 의미 323요약 323

CHAPTER 9장단기 기억망(LSTM망)을 이용한 기억 유지 개선 3259.1장단기 기억망(LSTM망)3279.1.1시간에 대한 역전파 3369.1.2예문에서 모형을 시험 339.1.3 더러운 자료 3409.1.4다시 더러운 자료에 돌아가3449.1.5단어보다 글씨가 쉽다 3459.1.6말 문이 열린 신경망 3529.1.7구체적인 사례 하나 3549.1.8무엇을 말하는 거냐? 3639.1.9 다른 종류의 기억 수단 3639.1.10더 깊이 들어가364요약 366

CHAPTER10순차적으로 열 대 차례차례 줄 모델과 주의 메커니즘 36710.1부호기-복호화기 구조 36810.1.1사고 벡터의 복호화 36910.1.2유사 구조 37110.1.3대화 생성을 위한 순차적으로 열 대 차례차례 줄 모델 37310.1.4LSTM복습 37410.2차례차례 줄-차례차례 줄 NLP파이프 라인 구축 37510.2.1차례로 줄-차례차례 줄 훈련을 위한 자료 세트 준비 37510.2.2각질 스의 순차열-차례차례 줄 모델 37610.2.3차례 열벡터 조립식 신경망 벡터 110.4차례로 줄-차례차례 줄 뉴럴 네트워크를 이용한 채팅 봇 구축 38310.4.1훈련 자료 준비 38310.4.2문자 사전 구축 38410.4.3한 핫 부호화 훈련 세트 생성 38510.4.4차례로 줄-차례차례 줄 채팅 봇의 훈련 38610.4.5점차열 생성때문에 모델 설정 38710.4.6차례차례열 생성(예측)3810.4.8채팅 봇과 대화 38910.5개선 방안 39010.1방망이 키팅을 이용한 학습 복잡도 감소 39010.5주로 차례차례 줄 메커니즘의 실제 시퀀스

PART III응용:실제의 NLP문제 397CHAPTER 11정보 추출:개체나 인식과 질의 응답 39911.1개체 이름과 개체 관계 39911.1.1지식 베이스 40011.2정보 추출 40311.2정규 패턴 40411.2.1정규 표현식 40511.2기계 학습 특징 추출한 정보 추출 40611.3추출해야 할 정보 40811.3.1 GPS좌표 추출 40811.3날짜 추출 40911.4개체 관계의 추출 41511.1정규화 4.4.1정규화이어서는 안 되는 이유 42411.4.7정규 표현식을 이용한 문장 분할 42611.5실제 용도 428요약 429

CHAPTER12 챗봇(대화엔진) 작성 43112.1 대화능력 4322.1.1 현대적 접근법 43412.1.2 혼합 접근법 44112.2 패턴적합 접근법 44112.1 IML을 이용한 패턴적합 그래프 시각화 45012.3 근거화 45112.4 정보검색 45412.4.1 문맥관리의 어려움 45412.2 정보검색 기반 챗봇 예 45612.3 Chatterbot 소개 462 생성모델 462

책에서 P.45 단어의 이러한 벡터 표현과 문서 테이블 표현이 갖는 하나의 장점은 어떠한 정보도 소실되지 않는다는 점이다. 각 열이 어떤 단어에 대응하는지에 대한 정보만 유지하면 이러한 원핫 벡터 테이블에 원래 문서를 복원할 수 있다. 그리고 이런 복원 과정은 100% 정확하다. 비록 현재 토큰 제너레이터가 우리가 유용하다고 생각한다…더 보기

P. 109 간단한 검색엔진은 바로 이 TF-IDF 수치 하나를 기반으로 한다. 이 수치를 통해 우리는 텍스트(문자열) 처리의 세계에서 수치 연산의 세계로 확실히 이행하게 되었다. 다음 절부터는 이 수치로 할 수 있는 계산을 살펴본다. 사실 여러분이 TF-IDF 계산을 구현하는 코드를 실제로 작성하는 경우는 거의 없을 것이다. 선형대수를 몰라도…더 보기

P. 130LDA 모델의 훈련에 필요한 것은 이진 부류의 두 중심을 잇는 직선을 찾는 것이다. 이번 예의 분류기는 주어진 단문문자(SMS) 메시지의 스팸 여부를 분류한다. 즉, 이진 부류는 「스팸」 대 「비스팜」이다. LDA는 지도학습에 속하기 때문에 훈련용 문자(SMS) 메시지에 분류명(class label)을 붙여두면…더 보기

P. 153 이런 과대적합은 NLP의 고질적인 문제다. 사람들의 다양한 어법과 어휘를 포함해 응용 분야에 맞는 적절한 분류명이 붙은 자연어 자료 세트를 찾기는 쉽지 않다. 사실 나는 스패머가 고안할 수 있는 모든 스팸 단어와 비스팜 단어를 포함하는 거대한 문자 메시지 데이터베이스를 구할 수 없었다. 그런 자료 집합을 만들어 낼 수 있는…더 보기

P. 293 합성곱 필터는 인접한 단어에서 특정 패턴을 검출한다. 그리고 단어의 위치가 조금 바뀌어도 합성곱 신경망의 출력은 크게 영향을 받지 않는다. 중요한 점은 서로 가까이 있는 개념이 합성곱 신경망에 큰 영향을 준다는 것이다. 하지만 더 넓은 시야에서 텍스트를 바라보고 더 긴 시간 구간에서 단어 간의 관계를 파악하고 싶다. 더 보기

추천문 NLP 시스템의 내부 작동 방식을 이해하는 것은 물론, 여러분 스스로 알고리즘과 모델을 만드는 데 필요한 이론과 실무 지식도 배운다. – Dr. 아원 그리피온

최근 사용되고 있는 파이썬 NLP 툴을 자주 개괄한다. 내 NLP 프로젝트마다 이 책을 달고 다닐 거야. 강력 추천한다! – 토니 멀린 (노스이스턴 대학교 (시애틀))

NLP를 처음 시작하는 사람들을 위한 직관적인 지침서! NLP를 매우 실용적으로 배울 수 있는 프로그래밍 예시들로 가득하다. – 토마소 테오필리(Adobe Systems))

저자 및 역자소개 홉슨 레인(Hobson Lane)(저자) 파일 최고의 작품투표 신간통지 신청인을 대신해 중요한 결정을 내리는 자율시스템을 구축하는 분야에서 20년의 경험을 쌓았다. 그는 Keras, Scikit-learn, PyBrain과 같은 다양한 오픈소스 프로젝트에 적극 기여했으며 현재 Total Good에서 오픈소스 인지조교(cognitive assistant) 구축을 비롯한 개방형 과학 연구 및 교육 프로젝트에 힘쓰고 있다. 또한 AIAA, PyCon, IEEE 등에 논문을 게재하거나 강연하고 있으며 로봇공학과 자동화에 관한 다양한 특허도 가지고 있다.최신작: <파이슨으로 배우는 자연어 처리 인액션>… 총 2종(모두 보기) 하네스 맥스 하프케(Hannes Max Hapk)(저자)의 파일 최고 작품 투표 신간 알림 신청 전기공학자가 머신러닝 공학자로 변신한 사례다. 대학에서는 신경망 개념을 재생에너지 발전소를 효과적으로 제어하는 데 적용했다. 구인·구직, 보건 응용 프로그램을 위한 심층 학습 모델과 머신러닝 파이프라인을 개발하는 프로젝트에 참여했으며 OSCON, OpenSourceBridge, HackUniversity 등 다양한 컨퍼런스에서 머신러닝을 주제로 강연했다.최신작 : <파이슨으로 배우는 자연어 처리 인 액션> … 총 3종 (모두 보기) 콜 하워드 (Cole Howard) (저자) 파일 최고의 작품 투표 신간 알림 신청 기계학습 공학자이자 NLP 실무자이자 작가다. 대규모 전자상거래 추천 엔진과 고차원 기계지능 시스템을 위한 최신 심층학습 신경망을 개발했고, 그의 모델은 카글 공모전에서 상위권에 랭크됐다. 또한 OpenSource Bridge Conference와 Hack University에서 합성곱 신경망과 순환 신경망에 관해, 그리고 그러한 신경망이 자연어 처리에서 차지하는 역할에 대해 강연하였다.최신작 : <파이슨으로 배우는 자연어 처리 인액션>… 총 2종(모두 보기) 류광(번역자) 저자 파일 최고의 작품투표 신간통지 신청 25년여의 번역 경력을 가진 전문 번역가로, 카누스 교수의 <컴퓨터 프로그래밍의 예술>(The Art of Computer Programming) 시리즈와 스티븐스의 <UNIX 고급 프로그래밍>(Advanced Programming in UNIX Environment) 2판 및 3판을 포함해 60여 권의 다양한 IT 전문서를 번역했다. 본서와 관련된 역서로는 『클라우드 시스템을 관리하는 기술』, 『처음 배우는 암호화』, 『Beginning Linux Programming 제4판』 등이 있다.번역과 프로그래밍 외에…더 보기

최근작 : <Core PHP Program ming > … 총 92종 (모두 보기) 출판사 제공책 소개

파이썬과 다양한 AI 패키지로 만드는 수준 높은 예! 최신 NLP 제품과 서비스 개발을 위한 실용주의적 가이드!

최근 심층학습(딥러닝) 기술이 발전하면서 애플리케이션이 매우 정확하게 텍스트와 음성을 인식하게 됐다. 또 새로운 기술과 Keras나 TensorFlow와 같은 사용하기 쉬운 툴 덕분에 이제는 고품질의 NLP(자연어 처리) 애플리케이션을 이전보다 쉽게 만들어낼 수 있다.

이 책은 사람의 언어를 읽고 해석할 수 있는 프로그램을 만들고자 하는 모든 개발자를 위한 지침서다. 본서에서는, 바로 사용할 수 있는 파이썬 패키지를 이용해 텍스트의 의미를 파악하고, 그에 따라 반응하는 챗봇을 구축한다. 또 전통적인 NLP접근 방식은 물론 더 최근의 심화 학습 알고리즘과 텍스트 생성 방법을 동원하고 날짜와 이름의 추출, 텍스트 작성, 비정형 질문에 대답 같은 다양한 실질적인 NLP문제를 해결한다.

이 책의 주요 내용 ■ Keras, TensorFlow, gensim, scikit-learn의 사용법 ■ NLP의 규칙 기반 접근법과 자료 기반 접근법 ■ 규모 확장이 용이한 NLP 파이프라인