Python train_split 예제들, language_model.preprocessing.train_split Python 예제들

예제 #1

0

파일 보기

파일: api.py 프로젝트: liamattard/Language_model-1.0.

def interpolationLaplaceCalc():

    train, y = preprocessing.train_split(
        'text_files/outputs/preprocessing.txt')
    del y

    trainCount = Counter(train)
    unigramCount = models.laplaceUnigram(train)
    bigramCounts = Counter([(word, train[i + 1])
                            for i, word in enumerate(train[:-1])])
    trigramCounts = Counter([(word, train[i + 1], train[i + 2])
                             for i, word in enumerate(train[:-2])])

    first, last = endpoint.tools.stringParserNoCount(
        request.args.get('firstword'), request.args.get('lastword'))
    if first == "" and last == "":
        probability = 0
    else:
        probability = pc.calculateProbabilityLaplaceInterpolation(
            trainCount, unigramCount, bigramCounts, trigramCounts, first, last)

    return render_template('%s.html' % "probabilityCalcInt",
                           value=str(probability),
                           type="laplaceInt",
                           flavour="laplace",
                           back="probCalcInt")

예제 #2

0

파일 보기

파일: api.py 프로젝트: liamattard/Language_model-1.0.

def interpolationUnkGen():

    train, y = preprocessing.train_split(
        'text_files/outputs/preprocessing.txt')
    del y

    unkUnigram = models.unkUnigram(train)
    unkBigram = models.unkBigram(train)
    unkTrigram = models.unkTrigram(train)

    first, last, count = endpoint.tools.stringParser(
        request.args.get('firstword'), request.args.get('lastword'),
        request.args.get('count'))

    sentence = tg.generateTextInterpolation(unkUnigram,
                                            unkBigram,
                                            unkTrigram,
                                            first,
                                            lastWord=last,
                                            count=count)

    fullSentence = ""
    for word in sentence:
        fullSentence += " " + word

    return render_template('%s.html' % "textGenInt",
                           value=fullSentence,
                           type="unkInt",
                           flavour="unk",
                           back="testGenInt")

예제 #3

0

파일 보기

파일: api.py 프로젝트: liamattard/Language_model-1.0.

def laplaceTrigramGenerator():
    train, y = preprocessing.train_split(
        'text_files/outputs/preprocessing.txt')
    del y
    bigramCounts = Counter([(word, train[i + 1])
                            for i, word in enumerate(train[:-1])])
    trigramCounts = Counter([(word, train[i + 1], train[i + 2])
                             for i, word in enumerate(train[:-2])])

    first, last, count = endpoint.tools.stringParser(
        request.args.get('firstword'), request.args.get('lastword'),
        request.args.get('count'))

    sentence = tg.generateTextFromLaplaceTrigram(train,
                                                 bigramCounts,
                                                 trigramCounts,
                                                 first,
                                                 lastWord=last,
                                                 count=count)

    fullSentence = ""
    for word in sentence:
        fullSentence += " " + word
    return render_template('%s.html' % "textGen",
                           value=fullSentence,
                           type="laplaceTrigram",
                           flavour="laplace",
                           back="testGen")

예제 #4

0

파일 보기

파일: api.py 프로젝트: liamattard/Language_model-1.0.

def vanillaTrigramGenerator():
    train, y = preprocessing.train_split(
        'text_files/outputs/preprocessing.txt')
    del y

    vanillaBigram = models.vanillaBigram(train)
    vanillaTrigram = models.vanillaTrigram(train)

    first, last, count = endpoint.tools.stringParser(
        request.args.get('firstword'), request.args.get('lastword'),
        request.args.get('count'))

    sentence = tg.generateTextFromTrigram(vanillaBigram,
                                          vanillaTrigram,
                                          first,
                                          lastWord=last,
                                          count=count)

    fullSentence = ""
    for word in sentence:
        fullSentence += " " + word
    return render_template('%s.html' % "textGen",
                           value=fullSentence,
                           type="vanillaTrigram",
                           flavour="vanilla",
                           back="testGen")

예제 #5

0

파일 보기

파일: api.py 프로젝트: liamattard/Language_model-1.0.

def unkBigramCalc():

    train, y = preprocessing.train_split(
        'text_files/outputs/preprocessing.txt')
    del y

    unkBigram = models.unkBigram(train)
    print(request.args.get('count'))
    first, last = endpoint.tools.stringParserNoCount(
        request.args.get('firstword'), request.args.get('lastword'))
    if first == "" and last == "":
        probability = 0
    else:
        probability = pc.calculateProbabilityFromBigram(unkBigram, first, last)

    return render_template('%s.html' % "probabilityCalc",
                           value=str(probability),
                           type="unkBigram",
                           flavour="unk",
                           back="probCalc")

예제 #6

0

파일 보기

파일: api.py 프로젝트: liamattard/Language_model-1.0.

def interpolationVanillaCalc():

    train, y = preprocessing.train_split(
        'text_files/outputs/preprocessing.txt')
    del y

    vanillaUnigram = models.vanillaUnigram(train)
    vanillaBigram = models.vanillaBigram(train)
    vanillaTrigram = models.vanillaTrigram(train)

    first, last = endpoint.tools.stringParserNoCount(
        request.args.get('firstword'), request.args.get('lastword'))
    if first == "" and last == "":
        probability = 0
    else:
        probability = pc.calculateProbabilityInterpolation(
            vanillaUnigram, vanillaBigram, vanillaTrigram, first, last)

    return render_template('%s.html' % "probabilityCalcInt",
                           value=str(probability),
                           type="vanillaInt",
                           flavour="vanilla",
                           back="probCalcInt")

예제 #7

0

파일 보기

파일: api.py 프로젝트: liamattard/Language_model-1.0.

def interpolationlaplaceGen():

    train, y = preprocessing.train_split(
        'text_files/outputs/preprocessing.txt')
    del y

    vanillaBigram = models.vanillaBigram(train)

    trainCount = Counter(train)
    unigramCount = models.laplaceUnigram(train)
    bigramCounts = Counter([(word, train[i + 1])
                            for i, word in enumerate(train[:-1])])
    trigramCounts = Counter([(word, train[i + 1], train[i + 2])
                             for i, word in enumerate(train[:-2])])

    first, last, count = endpoint.tools.stringParser(
        request.args.get('firstword'), request.args.get('lastword'),
        request.args.get('count'))

    sentence = tg.generateTextLaplaceInterpolation(trainCount,
                                                   unigramCount,
                                                   bigramCounts,
                                                   vanillaBigram,
                                                   trigramCounts,
                                                   first,
                                                   lastWord=last,
                                                   count=count)

    fullSentence = ""
    for word in sentence:
        fullSentence += " " + word

    return render_template('%s.html' % "textGenInt",
                           value=fullSentence,
                           type="laplaceInt",
                           flavour="laplace",
                           back="testGenInt")

예제 #8

0

파일 보기

def main():
    print("Started API")

    x, y = preprocessing.train_split('text_files/outputs/preprocessing.txt')