Exemplo n.º 1
@author: praktikan
# Import file python pada file yang berbeda
import preprocessing

path = 'F:/Kuliah/STKI/22-9-2017 representasi/text files/bk.txt'

dokumen = ["en.txt", "en_2.txt", "en_3.txt", "en_4.txt", "en_5.txt"]
articles = {
}  # membuat dictionary kosong untuk menyimpan hasil path + file yang dipilih

for item in dokumen:  # untuk setiap file di dalam list files
    with open(path + item, 'r',
              encoding="utf-8") as file:  # path lengkap dengan nama file
        articles[item] = preprocessing.preprotext(
            file.read())  # nama file sebagai key
# print (articles)

# with open (path, 'r') as file:
# text = file.read()
# print (text)

def bow(list_token):
    vocab = list(set(list_token))  # mengembalikan kata yang unik
    bow_dict = {
    }  # membuat dictionary kosong untuk diisi nilai kata, jumlah kemunculan
Exemplo n.º 2
    ## python 2
    # key = dic.keys()
    # key = dic.values()
    # python 3
    key = list(dic.keys())
    val = list(dic.values())
    key_ordered = [x for _, x in sorted(zip(val, key), reverse=descending)][:n]
    val_ordered = sorted(val, reverse=descending)[:n]
    ## python 2
    # return list(zip(key_ordered, val_ordered))

    # python 3
    return list(zip(key_ordered, val_ordered))

# membuat representasi bag of words dari teks
list_token = preprocessing.preprotext(text).split() # memanggil function preprotext dari file preprocessing.py
dic = bow(list_token)

#print (sortdic(dic, n=10))
#print ("\n")

# menggunakan library counter untuk membuat bow, sudah ada fungsi untuk sorting
#from collections import Counter
#dic2 = Counter(list_token)
#print (dic2)
#print ("\n")
#print (dic2.most_common(10))
Exemplo n.º 3
@author: praktikan
import matrix
import bow
import preprocessing
import os
import euclidean

path = 'F:/Kuliah/STKI/3-11-2017 kuis/text files/'

articles = {}

for item in os.listdir(path):
    if item.endswith(".txt"):
        with open(path + "/" + item, 'r',encoding='utf-8') as file:
            articles[item] = preprocessing.preprotext(file.read())

#representasi bow
list_of_bow = []

for key, value in articles.items():

#membuat matrix
matrix_akhir = matrix.matrix(list_of_bow)

dokumen= ['bk.txt', 'ed.txt', 'ot.txt', 'en.txt', 'lf.txt', 'bl.txt', 'tk.txt']
dokumens = {}

Exemplo n.º 4
# -*- coding: utf-8 -*-
Created on Fri Sep  8 08:37:51 2017

@author: praktikan

import preprocessing

path = 'F:/Kuliah/STKI/27-9-2017 latihan/text files/'

dokumen = ["en.txt", "en_2.txt", "en_3.txt", "en_4.txt", "en_5.txt"]
articles = {
}  # membuat dictionary kosong untuk menyimpan hasil path + file yang dipilih

for item in dokumen:  # untuk setiap file di dalam list files
    with open(path + item, 'r',
              encoding="utf-8") as file:  # path lengkap dengan nama file
        articles[item] = preprocessing.preprotext(
            file.read())  # nama file sebagai key