Пример #1
0
'''
Viktor Jacynycz García y Miguel del Andrés Herrero declaramos que esta solución es fruto
exclusivamente de nuestro trabajo personal. No hemos sido ayudados por ninguna otra persona
ni hemos obtenido la solución de fuentes externas, y tampoco hemos compartido nuestra solución
con nadie. Declaramos además que no hemos realizado de manera deshonesta ninguna otra actividad
que pueda mejorar nuestros resultados ni perjudicar los resultados de los demás.
'''

if len(sys.argv) != 3:
    print "Falta el fichero!"
    exit(-1)

sc = Context()
files = sys.argv[1] + "," + sys.argv[2]
lines = sc.textFile(files)
p = re.compile('(\d{4}\/\d{2})')


def find_values(set):
    len = 0
    min = 0
    avg = 0
    max = 0
    value = set[1]
    key = set[0]
    for i in value:
        curr_num = float(i)

        if len == 0:
            min = curr_num
Пример #2
0
import re
import sys

from pysparkling import Context
'''
Viktor Jacynycz García y Miguel del Andrés Herrero declaramos que esta solución es fruto
exclusivamente de nuestro trabajo personal. No hemos sido ayudados por ninguna otra persona
ni hemos obtenido la solución de fuentes externas, y tampoco hemos compartido nuestra solución
con nadie. Declaramos además que no hemos realizado de manera deshonesta ninguna otra actividad
que pueda mejorar nuestros resultados ni perjudicar los resultados de los demás.
'''

sc = Context()

file1 = sys.argv[1]
lines = sc.textFile(file1)

rdd_part_1 = (lines.flatMap(lambda x: re.sub("[^\w]", " ", x).split()).map(
    lambda x: (x.lower(), 1)).reduceByKey(lambda x, y: x + y).filter(
        lambda x: x[1] >= 20).map(lambda x: (x[0], (x[1], file1))))

file2 = sys.argv[2]
lines = sc.textFile(file2)

rdd_part_2 = (lines.flatMap(lambda x: re.sub("[^\w]", " ", x).split()).map(
    lambda x: (x.lower(), 1)).reduceByKey(lambda x, y: x + y).filter(
        lambda x: x[1] >= 20).map(lambda x: (x[0], (x[1], file2))))

file3 = sys.argv[3]
lines = sc.textFile(file3)
Пример #3
0
# coding=utf-8
import sys

from pysparkling import Context
'''
Viktor Jacynycz García y Miguel del Andrés Herrero declaramos que esta solución es fruto
exclusivamente de nuestro trabajo personal. No hemos sido ayudados por ninguna otra persona
ni hemos obtenido la solución de fuentes externas, y tampoco hemos compartido nuestra solución
con nadie. Declaramos además que no hemos realizado de manera deshonesta ninguna otra actividad
que pueda mejorar nuestros resultados ni perjudicar los resultados de los demás.
'''

if len(sys.argv) != 2:
    print "Falta el fichero!"
    exit(-1)

sc = Context()
lines = sc.textFile(sys.argv[1])

counts = (lines.filter(lambda x: float(x.split()[2]) < 2).filter(
    lambda x: x.split()[4] != "--").map(
        lambda x: (float(x.split()[2]), x.split()[0])).sortByKey(False))

output = counts.take(5)

for val in output:
    print val