Esempi in Python per Hadoop.map_reduce

Linguaggio di programmazione: Python

Spazio dei nomi/nome del pacchetto: hadoop

Classe/tipologia: Hadoop

Metodo/funzione: map_reduce

Esempi su hotexamples.com: 1

Hadoop.map_reduce in Python: 1 esempio trovato. Questo è il miglior esempio reale in Python per hadoop.Hadoop.map_reduce, estratto da progetti open source. Lo puoi valutare, per aiutarci a migliorare la qualità dei nostri esempi.

Metodi utilizzati di frequente

Mostra Nascondi

Hadoop(2)

configure(1)

init(1)

install(1)

isEncrypted(1)

map_reduce(1)

modifyConfig(1)

put_file(1)

start(1)

stop(1)

Esempio n. 1

Mostra file

def main():
    #engine = Hadoop('bin/hadoop','/usr/local/hadoop-2.7.0/share/hadoop/tools/lib/hadoop-streaming-2.7.0.jar')

    engine = Hadoop(config.HADOOP_PATH, config.HADOOP_STREAMING_PATH)

    # Put files into Hadoop
    file_path = 'h1b_kaggle_1.csv'
    file_name = os.path.basename(file_path)

    engine.put_file(local_src=file_path, hadoop_dest=file_name, override=False)

    # Map-Reduce Tasks: default output_dir is 'output'

    result = engine.map_reduce(data_src=file_path,
                               mapper='group_by_mapper.py',
                               mapper_arguments=[3, 6],
                               reducer='value_summation_reducer.py')

    print('output is', result)
    """
    mapper arguments in case of group_by_mapper in bellow example is 
    groupby = 5th column
    aggretate = 6th column
    """

    result = engine.map_reduce(data_src=file_path,
                               mapper='group_by_mapper.py',
                               mapper_arguments=[5, 6],
                               reducer='value_summation_reducer.py')

    print('output is', result)

    cache[(3, 6)] = result

    with open('sample_output.txt', 'w') as file:
        file.write(str(cache))