コード例 #1
0
'''
Viktor Jacynycz García y Miguel del Andrés Herrero declaramos que esta solución es fruto
exclusivamente de nuestro trabajo personal. No hemos sido ayudados por ninguna otra persona
ni hemos obtenido la solución de fuentes externas, y tampoco hemos compartido nuestra solución
con nadie. Declaramos además que no hemos realizado de manera deshonesta ninguna otra actividad
que pueda mejorar nuestros resultados ni perjudicar los resultados de los demás.
'''

if len(sys.argv) != 3:
    print "Falta el fichero!"
    exit(-1)

sc = Context()
files = sys.argv[1] + "," + sys.argv[2]
lines = sc.textFile(files)
p = re.compile('(\d{4}\/\d{2})')


def find_values(set):
    len = 0
    min = 0
    avg = 0
    max = 0
    value = set[1]
    key = set[0]
    for i in value:
        curr_num = float(i)

        if len == 0:
            min = curr_num
コード例 #2
0
ファイル: apartado2.py プロジェクト: SGDI-ucm/Practica1
import re
import sys

from pysparkling import Context
'''
Viktor Jacynycz García y Miguel del Andrés Herrero declaramos que esta solución es fruto
exclusivamente de nuestro trabajo personal. No hemos sido ayudados por ninguna otra persona
ni hemos obtenido la solución de fuentes externas, y tampoco hemos compartido nuestra solución
con nadie. Declaramos además que no hemos realizado de manera deshonesta ninguna otra actividad
que pueda mejorar nuestros resultados ni perjudicar los resultados de los demás.
'''

sc = Context()

file1 = sys.argv[1]
lines = sc.textFile(file1)

rdd_part_1 = (lines.flatMap(lambda x: re.sub("[^\w]", " ", x).split()).map(
    lambda x: (x.lower(), 1)).reduceByKey(lambda x, y: x + y).filter(
        lambda x: x[1] >= 20).map(lambda x: (x[0], (x[1], file1))))

file2 = sys.argv[2]
lines = sc.textFile(file2)

rdd_part_2 = (lines.flatMap(lambda x: re.sub("[^\w]", " ", x).split()).map(
    lambda x: (x.lower(), 1)).reduceByKey(lambda x, y: x + y).filter(
        lambda x: x[1] >= 20).map(lambda x: (x[0], (x[1], file2))))

file3 = sys.argv[3]
lines = sc.textFile(file3)
コード例 #3
0
# coding=utf-8
import sys

from pysparkling import Context
'''
Viktor Jacynycz García y Miguel del Andrés Herrero declaramos que esta solución es fruto
exclusivamente de nuestro trabajo personal. No hemos sido ayudados por ninguna otra persona
ni hemos obtenido la solución de fuentes externas, y tampoco hemos compartido nuestra solución
con nadie. Declaramos además que no hemos realizado de manera deshonesta ninguna otra actividad
que pueda mejorar nuestros resultados ni perjudicar los resultados de los demás.
'''

if len(sys.argv) != 2:
    print "Falta el fichero!"
    exit(-1)

sc = Context()
lines = sc.textFile(sys.argv[1])

counts = (lines.filter(lambda x: float(x.split()[2]) < 2).filter(
    lambda x: x.split()[4] != "--").map(
        lambda x: (float(x.split()[2]), x.split()[0])).sortByKey(False))

output = counts.take(5)

for val in output:
    print val