Exemplo n.º 1
0
from keras import layers
import numpy as np
import pickle
import os.path

# 전체적인 코드의 내용은 github의 코드와 유사하지만
# 하나의 파일을 여러개의 파일로 분리해서 사용하기 때문에
# 객체를 사용하는 부분들이 조금씩 변경되었습니다.

if __name__ == '__main__':
    # 전처리 객체 선언
    # 전처리와 관련된 부분을 다른 파일로 구성했기 때문에 가져오는 작업입니다.
    preprocessor = Preprocessor()

    # 데이터 불러오기
    question, answer = preprocessor.load_data('./dataset/ChatbotData.csv')

    # 데이터의 일부만 학습에 사용
    # 전체 데이터, 5000개, 4000개, 3000개에 대한 학습 시간이 너무 길어서 2000개로 하였습니다.
    question = question[:2000]
    answer = answer[:2000]

    # 데이터에 토큰화 함수 적용
    # 다른 파일에 토큰화 함수가 있기에 조금 변경
    # 수행하는 결과는 github 코드와 동일합니다.
    question = preprocessor.tokenize_ko(question)
    answer = preprocessor.tokenize_ko(answer)

    # sentences 리스트 = 질문과 대답 리스트를 합친 것
    sentences = []
    sentences.extend(question)