Skip to content
/ nip Public

2019년 2학기 소프트웨어 종합설계. NiP은 Namgyu is Pig

Notifications You must be signed in to change notification settings

Jjungs7/nip

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

46 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

nip

2019년 2학기 소프트웨어 종합설계. NiP은 Namgyu is Pig

dataset

Yelp 2014
(http://www.thunlp.org/~chm/data/data.zip)
nip/data 폴더 만들고 그 안에 dataset 저장

preprocessing

  1. dataset 변환 (기존 .txt 파일을 리뷰 + 평점만 남긴 .txt 파일로 변환)
    python3 convert.py
  2. vocab 파일 생성
    python3 vocab_generate.py
  3. 리뷰 텍스트 토큰화 + int 값으로 인코딩
    python3 encode.py
  4. dataloader 생성
    • dataset.py의 NIPDataset 클래스를 import하여 dataset 생성
    • 생성한 dataset에 맞게 dataloader 생성

2, 3번 과정에서 stanford nlp tokenizer를 다운 받고 서버를 연 상태에서 진행해야 함.
Tokenizer 설치 및 사용법은 다음 링크 참고.
https://stackoverflow.com/questions/47624742/how-to-use-stanford-word-tokenizer-in-nltk

만일 사용이 어려울 경우 preprocessing 과정을 거친 데이터셋을 구글 드라이브에 올려놓았으니 참고.
data 폴더 채로 받아서 사용하면 됨

About

2019년 2학기 소프트웨어 종합설계. NiP은 Namgyu is Pig

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published