GitHub

数据获取

首先需要获取大量的对话数据，数据可以使用网上公开的数据集，也可以自己爬取。你也可以抽取电影里的对话字幕，途径很多。

本项目中的 dgk_shooter_min.conv 文件是事先按某种格式处理好的问答数据集。得到预处理数据集后，还需根据每个问答句子的长度，将数据划分为不同的bucket。比如bucket_5_15.db这个文件存储的问答内容，question的长度小于等于5，answer的长度小于等于15。至于为什么要划分为不同的bucket，可以参考下面这个链接，其实就是为了节省空间。

项目文件简介

decode_conv.py 读取预处理好的问答数据文件 dgk_shooter_min.conv，存放到 ./bd 目录下的conversation.db文件中
data_utils 读取conversation.db文件，按问答的不同长度，划分为不同的bucket。最终在./bucket_dbs目录下会生成bucket_5_15.db、bucket_10_20.db、bucket_15_25.db和bucket_20_30.db四个文件。
s2s.py 读取./bucket_dbs下的db数据进行训练与测试

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
New Project #2.wpr		New Project #2.wpr
New Project #2.wpu		New Project #2.wpu
README.md		README.md
config.json		config.json
data_utils.py		data_utils.py
decode_conv.py		decode_conv.py
s2s.py		s2s.py
s2s_model.py		s2s_model.py
train_model.sh		train_model.sh
train_model2.sh		train_model2.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

New Project #2.wpr

New Project #2.wpr

New Project #2.wpu

New Project #2.wpu

README.md

README.md

config.json

config.json

data_utils.py

data_utils.py

decode_conv.py

decode_conv.py

s2s.py

s2s.py

s2s_model.py

s2s_model.py

train_model.sh

train_model.sh

train_model2.sh

train_model2.sh

Repository files navigation

数据获取

项目文件简介

About

Releases

Packages

Languages

Wasim37/Seq2Seq_Chatbot

Folders and files

Latest commit

History

Repository files navigation

数据获取

项目文件简介

About

Topics

Resources

Stars

Watchers

Forks

Languages