示例#1
0
文件: main.py 项目: Tadej0/Seminarska
def obdelavaDrugegaBesedila():
    trenutniSeznamOznak = []

#   Seznam dokumentov drzi imena vseh dokumentov, ki jih mora kasneje BowClassify obdelati...
#   Ko sm tolk butast resno :/ sam se eno dodatno txt datoteko ustvarjej za info shranjevat, pol pa po sami informaciji skač
    global seznamDokumentov
    seznamDokumentov = []
    oznake = []
    print("Obdelava dokumenta v postopku....\nLahko traja nekaj sekund...")
    ucnoBesedilo = open(zbirkaBesedilPreverjanja,"r")
    for vrsta in iter(ucnoBesedilo):
        info, clanek = knjiznica.izlusciPosameznaDela(vrsta)
        trenutniSeznamOznak, stevilkaClanka = knjiznica.infoObdelava(info)
        seznamDokumentov.append(stevilkaClanka)
        #   Prehod skozi oznake, še vedno ista vrstica
        for oz in trenutniSeznamOznak:
            tmp = oznaka(oz,stevilkaClanka)
            #   Zacnem polniti ali pa preverjam ali je ze notri nek element in inkrementiram njegovo vrednost
            oznake = knjiznica.dodajOznakoVBazo(oznake,tmp)
        # hashtag:PonosnNaIdejo :P
        knjiznica.shraniPosamezenClanek(stevilkaClanka,clanek,razbitiClanki,0)
        knjiznica.shraniPosamezenClanek(stevilkaClanka,info,kcah,1)
    ucnoBesedilo.close()
    oznake = knjiznica.sortiranje(oznake)
    knjiznica.shraniStatistiko(oznake, statistikaMapa,"Statistika_Oznak_2")

    global seznamKategorijDrugegaBesedila
    seznamKategorijDrugegaBesedila = oznake
    knjiznica.izpis(N)
    '''
    seznamKategorijDrugegaBesedila je seznam vseh objektov, ki so sestavljeni iz imena,
    pogostosti pojavitve in seznamu dokumentov v katerem se nahajajo.
    To uporabiš kasneje pri preverjanju ali nek dokument res je označen pod neko kategorijo ali ne...
    '''
    uporabaKlasifikatorjev()
示例#2
0
def obdelavaDrugegaBesedila():
    trenutniSeznamOznak = []
    oznake = []
    print("Obdelava dokumenta v postopku....\nLahko traja nekaj sekund...")
    ucnoBesedilo = open(zbirkaBesedilPreverjanja,"r")
    for vrsta in iter(ucnoBesedilo):
        info, clanek = knjiznica.izlusciPosameznaDela(vrsta)
        trenutniSeznamOznak, stevilkaClanka = knjiznica.infoObdelava(info)
        #   Prehod skozi oznake, še vedno ista vrstica
        for oz in trenutniSeznamOznak:
            tmp = oznaka(oz,stevilkaClanka)
            #   Zacnem polniti ali pa preverjam ali je ze notri nek element in inkrementiram njegovo vrednost
            oznake = knjiznica.dodajOznakoVBazo(oznake,tmp)
        knjiznica.shraniPosamezenClanek(stevilkaClanka,clanek,razbitiClanki)
    ucnoBesedilo.close()
    oznake = knjiznica.sortiranje(oznake)
    knjiznica.shraniStatistiko(oznake, statistikaMapa,"Statistika_Oznak_2")

    global seznamKategorijDrugegaBesedila
    seznamKategorijDrugegaBesedila = oznake
    knjiznica.izpis(N)
    '''
    seznamKategorijDrugegaBesedila je seznam vseh objektov, ki so sestavljeni iz imena,
    pogostosti pojavitve in seznamu dokumentov v katerem se nahajajo.
    To uporabiš kasneje pri preverjanju ali nek dokument res je označen pod neko kategorijo ali ne...

    '''
    uporabaKlasifikatorjev()
示例#3
0
def obdelavaPrvegaBesedila():
    trenutniSeznamOznak = []
    oznake = []
    print("Obdelava dokumenta v postopku....\nLahko traja nekaj sekund...")
    ucnoBesedilo = open(ucnaZbirkaBesedil, "r")
    for vrsta in iter(ucnoBesedilo):
        #   Bedarija da posebej shranjujem oba dela... zna pridit kasneje prav
        info, clanek = knjiznica.izlusciPosameznaDela(vrsta)
        trenutniSeznamOznak, stevilkaClanka = knjiznica.infoObdelava(info)
        #   Prehod skozi oznake, še vedno ista vrstica
        for oz in trenutniSeznamOznak:
            tmp = oznaka(oz, stevilkaClanka)
            #   Zacnem polniti ali pa preverjam ali je ze notri nek element in inkrementiram njegovo vrednost
            oznake = knjiznica.dodajOznakoVBazo(oznake, tmp)
    ucnoBesedilo.close()
    oznake = knjiznica.sortiranje(oznake)
    knjiznica.shraniStatistiko(oznake, statistikaMapa, "Statistika_Oznak_1")
    knjiznica.izpis(N)
示例#4
0
文件: main.py 项目: Tadej0/Seminarska
def obdelavaPrvegaBesedila():
    trenutniSeznamOznak = []
    oznake = []
    print("Obdelava dokumenta v postopku....\nLahko traja nekaj sekund...")
    ucnoBesedilo = open(ucnaZbirkaBesedil,"r")
    for vrsta in iter(ucnoBesedilo):
        #   Bedarija da posebej shranjujem oba dela... zna pridit kasneje prav
        info, clanek = knjiznica.izlusciPosameznaDela(vrsta)
        trenutniSeznamOznak, stevilkaClanka = knjiznica.infoObdelava(info)
        #   Prehod skozi oznake, še vedno ista vrstica
        for oz in trenutniSeznamOznak:
            tmp = oznaka(oz,stevilkaClanka)
            #   Zacnem polniti ali pa preverjam ali je ze notri nek element in inkrementiram njegovo vrednost
            oznake = knjiznica.dodajOznakoVBazo(oznake,tmp)
    ucnoBesedilo.close()
    oznake = knjiznica.sortiranje(oznake)
    knjiznica.shraniStatistiko(oznake, statistikaMapa,"Statistika_Oznak_1")
    knjiznica.izpis(N)
示例#5
0
def obdelavaDrugegaBesedila():
    trenutniSeznamOznak = []

    #   Seznam dokumentov drzi imena vseh dokumentov, ki jih mora kasneje BowClassify obdelati...
    #   Ko sm tolk butast resno :/ sam se eno dodatno txt datoteko ustvarjej za info shranjevat, pol pa po sami informaciji skač
    global seznamDokumentov
    seznamDokumentov = []
    oznake = []
    print("Obdelava dokumenta v postopku....\nLahko traja nekaj sekund...")
    ucnoBesedilo = open(zbirkaBesedilPreverjanja, "r")
    for vrsta in iter(ucnoBesedilo):
        info, clanek = knjiznica.izlusciPosameznaDela(vrsta)
        trenutniSeznamOznak, stevilkaClanka = knjiznica.infoObdelava(info)
        seznamDokumentov.append(stevilkaClanka)
        #   Prehod skozi oznake, še vedno ista vrstica
        for oz in trenutniSeznamOznak:
            tmp = oznaka(oz, stevilkaClanka)
            #   Zacnem polniti ali pa preverjam ali je ze notri nek element in inkrementiram njegovo vrednost
            oznake = knjiznica.dodajOznakoVBazo(oznake, tmp)
        # hashtag:PonosnNaIdejo :P
        knjiznica.shraniPosamezenClanek(stevilkaClanka, clanek, razbitiClanki,
                                        0)
        knjiznica.shraniPosamezenClanek(stevilkaClanka, info, kcah, 1)
    ucnoBesedilo.close()
    oznake = knjiznica.sortiranje(oznake)
    knjiznica.shraniStatistiko(oznake, statistikaMapa, "Statistika_Oznak_2")

    global seznamKategorijDrugegaBesedila
    seznamKategorijDrugegaBesedila = oznake
    knjiznica.izpis(N)
    '''
    seznamKategorijDrugegaBesedila je seznam vseh objektov, ki so sestavljeni iz imena,
    pogostosti pojavitve in seznamu dokumentov v katerem se nahajajo.
    To uporabiš kasneje pri preverjanju ali nek dokument res je označen pod neko kategorijo ali ne...
    '''
    uporabaKlasifikatorjev()