gokart

A wrapper of the data pipeline library "luigi".

How to Use

Please use gokart.TaskOnKart instead of luigi.Task to define your tasks.

Basic Task with M3Task

import gokart

class BasicTask(gokart.TaskOnKart):
    def requires(self):
        return TaskA()

    def output(self):
        # please use TaskOnKart.make_target to make Target.
        return self.make_target('basic_task.csv')

    def run(self):
        # load data which TaskA output
        texts = self.load()
        
        # do something with texts, and make results.
        
        # save results with the file path {self.workspace_directory}/basic_task_{unique_id}.csv
        self.dump(results)

Details of base functions

Make Target with TaskOnKart

TaskOnKart.make_target judge Target type by the passed path extension. The following extensions are supported.

pkl
txt
csv
tsv
gz

Make Target for models which generate multiple files in saving.

TaskOnKart.make_model_target and TaskOnKart.dump are designed to save and load models like gensim.model.Word2vec.

class TrainWord2Vec(TaskOnKart):
    def output(self):
        # please use 'zip'.
        return self.make_model_target(
            'model.zip', 
            save_function=gensim.model.Word2Vec.save,
            load_function=gensim.model.Word2Vec.load)

    def run(self):
        # make word2vec
        self.dump(word2vec)

Load input data

Pattern 1: Load input data individually.

def requires(self):
    return dict(data=LoadItemData(), model=LoadModel())

def run(self):
    # pass a key in the dictionary `self.requires()`
    data = self.load('data')  
    model = self.load('model')

Pattern 2: Load input data at once

def run(self):
    input_data = self.load()
    """
    The above line is equivalent to the following:
    input_data = dict(data=self.load('data'), model=self.load('model'))
    """

Load input data as pd.DataFrame

def requires(self):
    return LoadDataFrame()

def run(self):
    data = self.load_data_frame(required_columns={'id', 'name'})

Name		Name	Last commit message	Last commit date
Latest commit History 34 Commits
docs		docs
gokart		gokart
test		test
.gitignore		.gitignore
.travis.yml		.travis.yml
LICENSE		LICENSE
README.md		README.md
setup.py		setup.py
yapf.ini		yapf.ini

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

docs

docs

gokart

gokart

test

test

.gitignore

.gitignore

.travis.yml

.travis.yml

LICENSE

LICENSE

README.md

README.md

setup.py

setup.py

yapf.ini

yapf.ini

Repository files navigation

gokart

How to Use

Basic Task with M3Task

Details of base functions

Make Target with TaskOnKart

Make Target for models which generate multiple files in saving.

Load input data

Pattern 1: Load input data individually.

Pattern 2: Load input data at once

Load input data as pd.DataFrame

About

Releases

Packages

Languages

License

ma2gedev/gokart

Folders and files

Latest commit

History

Repository files navigation

gokart

How to Use

Basic Task with M3Task

Details of base functions

Make Target with TaskOnKart

Make Target for models which generate multiple files in saving.

Load input data

Pattern 1: Load input data individually.

Pattern 2: Load input data at once

Load input data as pd.DataFrame

About

Resources

License

Stars

Watchers

Forks

Languages