Python TextParser.addAllTextsFromDirectoryToDatabase 예제들

프로그래밍 언어: Python

클래스/타입: TextParser

메소드/함수: addAllTextsFromDirectoryToDatabase

hotexamples.com에서의 예제들: 2

Python TextParser.addAllTextsFromDirectoryToDatabase - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 TextParser.addAllTextsFromDirectoryToDatabase 패키지로부터 dash-subtitle-extractor에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

TextParser(22)

JumpStr(2)

addAllTextsFromDirectoryToDatabase(2)

currentNode(1)

count_punct(1)

count_reference_line(1)

count_unknown_word(1)

count_url(1)

createInstance(1)

createLeaf(1)

ChatHandler(1)

deleteInstance(1)

count_plus_one(1)

expandRange(1)

find_name(1)

format_name(1)

get_drug_data(1)

parseInput(1)

deleteLeaf(1)

count_non_alpha_in_middle(1)

count_one_letter(1)

count_modal_word(1)

count_mention(1)

count_insult_word(1)

count_emoji(1)

count_captial(1)

count_QEMark(1)

contain_non_english(1)

cleanse(1)

changeNode(1)

VoteCounter(1)

Process(1)

Poll(1)

Parser(1)

MakeIndividualSentences(1)

parse_file(1)

예제 #1

파일 보기

def learnLemmasByOrderOfScore(getSentenceScore):
    # Scheme: Learn words as they become possible to learn, in terms of sentences, in order of score

    # Initialize: Load all texts in Texts folder:
    TextParser.addAllTextsFromDirectoryToDatabase("Texts")

    # Will only contain sentences with fewer than or equal to one missing word, marked in order of the missing words frequency
    directlyUnlockableLemmasScore, sentencePairsBySentenceScore, directlyUnlockableLemmas = getPriorityQueueOfDirectlyLearnableSentencesByLemmaFrequency(getSentenceScore)
    lemmasByFrequency = getPriorityQueueOfLemmasByFrequency()

    # Find which words one is forced to learn, without being able to isolate it to one sentence:
    forcedToLearn = []
    notForcedToLearn = []
    orderedLearningList = []
    #First we remove all words that are not true "words", for example names, by learning the NotAWordLemma lemma:
    learnLemmaAndHandleSentencesWithLemmaFrequency(TextParser.NotAWordLemma, notForcedToLearn, sentencePairsBySentenceScore, lemmasByFrequency, directlyUnlockableLemmasScore, directlyUnlockableLemmas, getSentenceScore)

    i = 0
    numberOfLemmas = len(lemmasByFrequency)
    print("Start learning lemmas: " + str(len(lemmasByFrequency)))

    highestScoringDirectlyLearnableSentencePair = None
    highestScoringDirectlyLearnableSentencePairScore = None
    while not hasLearnedAllLemmas(lemmasByFrequency):
        (highestScoringDirectlyLearnableSentencePair, highestScoringDirectlyLearnableSentencePairScore) = getHighestScoringDirectlyLearnablePair(directlyUnlockableLemmasScore, sentencePairsBySentenceScore)

        while hasDirectlyLearnableSentence(directlyUnlockableLemmas):
            currentSentencePair = getHighestScoringUnforcedSentencePair(sentencePairsBySentenceScore, highestScoringDirectlyLearnableSentencePair, highestScoringDirectlyLearnableSentencePairScore)
            
            assert i + len(lemmasByFrequency) == numberOfLemmas

            # No new word in the sentence:
            if hasNoNewLemmas(currentSentencePair):
                continue
            
            assert i + len(lemmasByFrequency) == numberOfLemmas

            # A new pair of words to learn: lets do it!
            kage = 1
            #TODO (*) Der mangler at blive fjernet en fejl i forbindelse med at opdaterer sætninger, hvis sentence score afhænger af andre sætninger.
            for sentence in currentSentencePair:
                if sentence == None:
                    continue
                if sentence.associatedLearnableSentence != None:
                    sentence.associatedLearnableSentence.scoreDependentSentences.remove(sentence)

                newLemma = sentence.getOnlyUncoveredLemma()
                orderedLearningList.append((newLemma, sentence))
                learnLemmaAndHandleSentencesWithLemmaFrequency(newLemma, notForcedToLearn, sentencePairsBySentenceScore, lemmasByFrequency, directlyUnlockableLemmasScore, directlyUnlockableLemmas, getSentenceScore)            
                if i % 1 == 0 or i < 4000:
                    print(str(i) + ", " + newLemma.getRawLemma() + ", " + str(newLemma.getFrequency()) + " -> " + sentence.rawSentence)
                i += 1  
                
                assert i + len(lemmasByFrequency) == numberOfLemmas
                
            (highestScoringDirectlyLearnableSentencePair, highestScoringDirectlyLearnableSentencePairScore) = getHighestScoringDirectlyLearnablePair(directlyUnlockableLemmasScore, sentencePairsBySentenceScore)
            

        if hasLearnedAllLemmas(lemmasByFrequency):  # When all words have been learned in the loop above
            break

        # There are no more free words: time to learn a frequent word:
        newLemma = getHighestScoringLemma(lemmasByFrequency)
        orderedLearningList.append((newLemma, "NONE"))
        learnLemmaAndHandleSentencesWithLemmaFrequency(newLemma, forcedToLearn, sentencePairsBySentenceScore, lemmasByFrequency, directlyUnlockableLemmasScore, directlyUnlockableLemmas, getSentenceScore)            
        if i < 6000:
            print(str(i) + ", " + newLemma.getRawLemma() + ", " + str(newLemma.getFrequency()) + " -> " + "NONE")
        i += 1
        assert i + len(lemmasByFrequency) == numberOfLemmas

    print("Learned directly " + str(len(orderedLearningList)) + " of " + str(numberOfLemmas) + " lemmas.")
    return orderedLearningList

예제 #2

파일 보기

            listOfWordStems.add(wordStem)
        else:
            wordToWordStem[wordConjugation] = {wordStem}

def hasLearnedAllLemmas(lemmasByFrequency):
    return len(lemmasByFrequency) == 0


def hasDirectlyLearnableSentence(directlyUnlockableLemmas):
    can = len(directlyUnlockableLemmas) != 0
    return can
                        
if __name__ == '__main__':
    shouldResetSaveData = False
    if shouldResetSaveData:
        TextParser.addAllTextsFromDirectoryToDatabase("Texts")
        TextParser.saveProcessedData(TextParser.everything, "everything")
    else: 
        test = TextParser.loadProcessedData("everything")
        #numberOfConjugatedVerbs = 0
        #for lemma in TextParser.allLemmas:
        #    if lemma.endswith("ed"):
        #        numberOfConjugatedVerbs += 1
        learningList = learnLemmasByOrderOfScore(getSentenceScoreByNextUnlockableLemma)
        print(len(learningList))

    #Mulige forbedringer:
        #Bedre lemma classefier. Der er f.eks. mange -ed bøjninger der bliver klassificeret som sit eget ord. Kan nok fjerne 1/10 til 1/20 af alle lemaer.
        #Fjern navne og lignende.
        #Hastighedsforbedinger. 
        #Fjern meget korte sætninger, og meget lange sætninger.