Python getDataset示例

编程语言: Python

命名空间/包名称: dataloader

方法/功能: getDataset

hotexamples.com的示例: 4

Python getDataset - 已找到4个示例。这些是从开源项目中提取的最受好评的dataloader.getDataset现实Python示例。您可以评价示例，以帮助我们提高示例质量。

示例#1

显示文件

文件： dataHelper.py 项目： OsbornC/TextClassification

def getDataSet(opt):
    import dataloader
    dataset = dataloader.getDataset(opt)
    #    files=[os.path.join(data_dir,data_name)   for data_name in ['train.txt','test.txt','dev.txt']]

    # return dataset.getFormatedData(opt)
    return dataset.process()

示例#2

显示文件

文件： dataprecess.py 项目： pangbochen/TextClf

def getDataset(opt):
    # use dataloader part
    import dataloader
    dataset = dataloader.getDataset(opt)
    # return the processed file name: text and label
    # by dataset.process() funtion
    return dataset.getFormatedData()

示例#3

显示文件

    opt.alphabet=alphabet

#    alphabet.dump(opt.dataset+".alphabet")
    for data in datas:
        if "bert" not in opt.model.lower():
            data["text"]= data["text"].apply(lambda text: [alphabet.get(word,alphabet.unknow_token)  for word in text[:opt.max_seq_len]] + [alphabet.padding_token] *int(opt.max_seq_len-len(text)) )
        else :
            data["text"]= data["text"].apply(process_with_bert,tokenizer=tokenizer,max_seq_len = opt.max_seq_len)
        data["label"]=data["label"].apply(lambda text: label_alphabet.get(text))

    return map(lambda x:BucketIterator(x,opt),datas)#map(BucketIterator,datas)  #

def loadDataWithoutEmbedding(opt):
    datas=[]
    for filename in getDataSet(opt):
        df = pd.read_csv(filename,header = None,sep="\t",names=["text","label"]).fillna('0')
        df["text"]= df["text"].str.lower()
        datas.append((df["text"],df["label"]))
    return datas

if __name__ =="__main__":
    import opts
    opt = opts.parse_opt()
    opt.max_seq_len=-1
    import dataloader
    dataset= dataloader.getDataset(opt)
    datas=loadData(opt)

示例#4

显示文件

文件： datahelper.py 项目： pangbochen/TextSentimentClassification

def getDataSet(opt):
    import dataloader
    dataset = dataloader.getDataset(opt)
    return dataset.getFormatedData()