Exemplo n.º 1
0
 def test_add_too_big(self):
     Corpus.create('/tmp/TEST_CORPUS', chunk_size=12)
     c = Corpus('/tmp/TEST_CORPUS')
     with self.assertRaises(Corpus.ExceptionTooBig):
         c.add(u'12345', 1)
     del c
     shutil.rmtree('/tmp/TEST_CORPUS')
Exemplo n.º 2
0
 def test_add_too_big(self):
     Corpus.create('/tmp/TEST_CORPUS', chunk_size=12)
     c = Corpus('/tmp/TEST_CORPUS')
     with self.assertRaises(Corpus.ExceptionTooBig):
         c.add(u'12345', 1)
     del c
     shutil.rmtree('/tmp/TEST_CORPUS')           
Exemplo n.º 3
0
 def test_add_get(self):
     Corpus.create('/tmp/TEST_CORPUS')
     c = Corpus('/tmp/TEST_CORPUS')
     c.add(u'Gżegżółką jaźń', 1, p1=1, p2="2", p3=[1, 2, 3, u'ą'])
     c.add(u'Chrząszcz brzmi w czcinie',
           2,
           p1=1,
           p2="2",
           p3=[1, 2, 3, u'ą'])
     c.add(u'Żółte źrebie', 3, p1=1, p2="2", p3=[1, 2, 3, u'ą'])
     c.save_indexes()
     d = Corpus('/tmp/TEST_CORPUS')
     self.assertEqual(d.get(3), ({
         'p1': 1,
         'p2': "2",
         'p3': [1, 2, 3, u'ą'],
         'id': 3
     }, u'Żółte źrebie'))
     self.assertEqual(d.get(1), ({
         'p1': 1,
         'p2': "2",
         'p3': [1, 2, 3, u'ą'],
         'id': 1
     }, u'Gżegżółką jaźń'))
     self.assertEqual(d.get(2), ({
         'p1': 1,
         'p2': "2",
         'p3': [1, 2, 3, u'ą'],
         'id': 2
     }, u'Chrząszcz brzmi w czcinie'))
     del c, d
     shutil.rmtree('/tmp/TEST_CORPUS')
Exemplo n.º 4
0
 def test_add_get_duplicate(self):
     Corpus.create('/tmp/TEST_CORPUS')
     c = Corpus('/tmp/TEST_CORPUS')
     with self.assertRaises(Corpus.ExceptionDuplicate):
         c.add(u'Gżegżółką jaźń', 1, p1=1, p2="2", p3=[1, 2, 3, u'ą'])
         c.add(u'Gżegżółką jaźń', 1, p1=1, p2="2", p3=[1, 2, 3, u'ą'])
     del c
     shutil.rmtree('/tmp/TEST_CORPUS')
Exemplo n.º 5
0
 def test_add_get_duplicate(self):
     Corpus.create('/tmp/TEST_CORPUS')
     c = Corpus('/tmp/TEST_CORPUS')
     with self.assertRaises(Corpus.ExceptionDuplicate):
         c.add(u'Gżegżółką jaźń', 1, p1=1, p2="2", p3=[1,2,3,u'ą'])
         c.add(u'Gżegżółką jaźń', 1, p1=1, p2="2", p3=[1,2,3,u'ą'])
     del c
     shutil.rmtree('/tmp/TEST_CORPUS')
Exemplo n.º 6
0
 def test_create(self):
     Corpus.create('/tmp/TEST_CORPUS', name=u"Fancy name")
     c = Corpus('/tmp/TEST_CORPUS')
     self.assertEqual(c.get_property('name'), u'Fancy name')
     self.assertEqual(c.get_property('current_chunk'), 0)
     self.assertTrue(os.path.isfile(os.path.join('/tmp/TEST_CORPUS/' , Corpus.CONFIG_FILE)))
     self.assertTrue(os.path.isfile(os.path.join('/tmp/TEST_CORPUS/' , Corpus.CHUNK_PREFIX + '0')))
     del c
     shutil.rmtree('/tmp/TEST_CORPUS')
Exemplo n.º 7
0
 def test_save_config(self):
     Corpus.create('/tmp/TEST_CORPUS', name=u"Fancy name")
     c = Corpus('/tmp/TEST_CORPUS')    
     c.set_property('name', u"Not fancy")
     c.save_config()
     d = Corpus('/tmp/TEST_CORPUS')  
     self.assertEqual(d.get_property('name'), u"Not fancy")
     del c, d
     shutil.rmtree('/tmp/TEST_CORPUS')
Exemplo n.º 8
0
 def test_save_config(self):
     Corpus.create('/tmp/TEST_CORPUS', name=u"Fancy name")
     c = Corpus('/tmp/TEST_CORPUS')
     c.set_property('name', u"Not fancy")
     c.save_config()
     d = Corpus('/tmp/TEST_CORPUS')
     self.assertEqual(d.get_property('name'), u"Not fancy")
     del c, d
     shutil.rmtree('/tmp/TEST_CORPUS')
Exemplo n.º 9
0
 def test_len(self):
     Corpus.create('/tmp/TEST_CORPUS')
     c = Corpus('/tmp/TEST_CORPUS')
     c.add(u'Gżegżółką jaźń', 1, p1=1, p2="2", p3=[1,2,3,u'ą'])
     c.add(u'Chrząszcz brzmi w czcinie', 2, p1=1, p2="2", p3=[1,2,3,u'ą'])                
     c.add(u'Żółte źrebie', 3, p1=1, p2="2", p3=[1,2,3,u'ą'])            
     self.assertEqual(len(c), 3)
     del c
     shutil.rmtree('/tmp/TEST_CORPUS')        
Exemplo n.º 10
0
    def test_test_chunk_size(self):
        Corpus.create('/tmp/TEST_CORPUS', chunk_size=10)
        c = Corpus('/tmp/TEST_CORPUS')

        self.assertTrue(c.test_chunk_size(5))
        self.assertTrue(c.test_chunk_size(10))
        with self.assertRaises(Corpus.ExceptionTooBig):
            c.test_chunk_size(11)
        del c
        shutil.rmtree('/tmp/TEST_CORPUS')
Exemplo n.º 11
0
 def test_test_chunk_size(self):
     Corpus.create('/tmp/TEST_CORPUS', chunk_size=10)
     c = Corpus('/tmp/TEST_CORPUS')
     
     self.assertTrue(c.test_chunk_size(5))
     self.assertTrue(c.test_chunk_size(10))
     with self.assertRaises(Corpus.ExceptionTooBig):
         c.test_chunk_size(11)
     del c
     shutil.rmtree('/tmp/TEST_CORPUS')
Exemplo n.º 12
0
 def test_chunking(self):
     Corpus.create('/tmp/TEST_CORPUS', chunk_size=13)
     c = Corpus('/tmp/TEST_CORPUS')
     c.add(u'12345', 1)
     c.add(u'12345', 2)
     
     (chunk_number, offset, head_len, text_len) = c.get_idx(c.get_ridx(2))
     self.assertEqual(chunk_number, 1)
     
     del c
     shutil.rmtree('/tmp/TEST_CORPUS')           
Exemplo n.º 13
0
    def test_chunking(self):
        Corpus.create('/tmp/TEST_CORPUS', chunk_size=13)
        c = Corpus('/tmp/TEST_CORPUS')
        c.add(u'12345', 1)
        c.add(u'12345', 2)

        (chunk_number, offset, head_len, text_len) = c.get_idx(c.get_ridx(2))
        self.assertEqual(chunk_number, 1)

        del c
        shutil.rmtree('/tmp/TEST_CORPUS')
Exemplo n.º 14
0
 def test_make_new_chunk(self):
     Corpus.create('/tmp/TEST_CORPUS', name=u"Fancy name")
     c = Corpus('/tmp/TEST_CORPUS')
     c.make_new_chunk()
     d = Corpus('/tmp/TEST_CORPUS')
     
     self.assertEqual(d.get_property('current_chunk'), 1)
     self.assertTrue(os.path.isfile(os.path.join('/tmp/TEST_CORPUS/' , Corpus.CHUNK_PREFIX + '1')))
     
     del c, d
     shutil.rmtree('/tmp/TEST_CORPUS')
Exemplo n.º 15
0
 def test_add_get(self):
     Corpus.create('/tmp/TEST_CORPUS')
     c = Corpus('/tmp/TEST_CORPUS')
     c.add(u'Gżegżółką jaźń', 1, p1=1, p2="2", p3=[1,2,3,u'ą'])
     c.add(u'Chrząszcz brzmi w czcinie', 2, p1=1, p2="2", p3=[1,2,3,u'ą'])                
     c.add(u'Żółte źrebie', 3, p1=1, p2="2", p3=[1,2,3,u'ą'])  
     c.save_indexes()      
     d = Corpus('/tmp/TEST_CORPUS')
     self.assertEqual(d.get(3), (  { 'p1':1, 'p2':"2", 'p3':[1,2,3,u'ą'], 'id':3},  u'Żółte źrebie'   ) )
     self.assertEqual(d.get(1), (  { 'p1':1, 'p2':"2", 'p3':[1,2,3,u'ą'], 'id':1},  u'Gżegżółką jaźń'   ) )
     self.assertEqual(d.get(2), (  { 'p1':1, 'p2':"2", 'p3':[1,2,3,u'ą'], 'id':2},  u'Chrząszcz brzmi w czcinie'  ) )
     del c, d
     shutil.rmtree('/tmp/TEST_CORPUS')         
Exemplo n.º 16
0
 def test_create(self):
     Corpus.create('/tmp/TEST_CORPUS', name=u"Fancy name")
     c = Corpus('/tmp/TEST_CORPUS')
     self.assertEqual(c.get_property('name'), u'Fancy name')
     self.assertEqual(c.get_property('current_chunk'), 0)
     self.assertTrue(
         os.path.isfile(
             os.path.join('/tmp/TEST_CORPUS/', Corpus.CONFIG_FILE)))
     self.assertTrue(
         os.path.isfile(
             os.path.join('/tmp/TEST_CORPUS/', Corpus.CHUNK_PREFIX + '0')))
     del c
     shutil.rmtree('/tmp/TEST_CORPUS')
Exemplo n.º 17
0
    def test_make_new_chunk(self):
        Corpus.create('/tmp/TEST_CORPUS', name=u"Fancy name")
        c = Corpus('/tmp/TEST_CORPUS')
        c.make_new_chunk()
        d = Corpus('/tmp/TEST_CORPUS')

        self.assertEqual(d.get_property('current_chunk'), 1)
        self.assertTrue(
            os.path.isfile(
                os.path.join('/tmp/TEST_CORPUS/', Corpus.CHUNK_PREFIX + '1')))

        del c, d
        shutil.rmtree('/tmp/TEST_CORPUS')
Exemplo n.º 18
0
 def test_len(self):
     Corpus.create('/tmp/TEST_CORPUS')
     c = Corpus('/tmp/TEST_CORPUS')
     c.add(u'Gżegżółką jaźń', 1, p1=1, p2="2", p3=[1, 2, 3, u'ą'])
     c.add(u'Chrząszcz brzmi w czcinie',
           2,
           p1=1,
           p2="2",
           p3=[1, 2, 3, u'ą'])
     c.add(u'Żółte źrebie', 3, p1=1, p2="2", p3=[1, 2, 3, u'ą'])
     self.assertEqual(len(c), 3)
     del c
     shutil.rmtree('/tmp/TEST_CORPUS')
Exemplo n.º 19
0
 def test_iter(self):
     Corpus.create('/tmp/TEST_CORPUS')
     c = Corpus('/tmp/TEST_CORPUS')
     c.add(u'Gżegżółką jaźń', 3, p1=1, p2="2", p3=[1,2,3,u'ą'])
     c.add(u'Chrząszcz brzmi w czcinie', 1, p1=1, p2="2", p3=[1,2,3,u'ą'])                
     c.add(u'Żółte źrebie', 2, p1=1, p2="2", p3=[1,2,3,u'ą'])  
     c.save_indexes()      
     d = Corpus('/tmp/TEST_CORPUS')
     l = []
     for t in d:
         l.append(t[0]['id'])
     self.assertEqual(l, [3,1,2])
     del c, d
     shutil.rmtree('/tmp/TEST_CORPUS')                 
Exemplo n.º 20
0
 def test_iter(self):
     Corpus.create('/tmp/TEST_CORPUS')
     c = Corpus('/tmp/TEST_CORPUS')
     c.add(u'Gżegżółką jaźń', 3, p1=1, p2="2", p3=[1, 2, 3, u'ą'])
     c.add(u'Chrząszcz brzmi w czcinie',
           1,
           p1=1,
           p2="2",
           p3=[1, 2, 3, u'ą'])
     c.add(u'Żółte źrebie', 2, p1=1, p2="2", p3=[1, 2, 3, u'ą'])
     c.save_indexes()
     d = Corpus('/tmp/TEST_CORPUS')
     l = []
     for t in d:
         l.append(t[0]['id'])
     self.assertEqual(l, [3, 1, 2])
     del c, d
     shutil.rmtree('/tmp/TEST_CORPUS')
Exemplo n.º 21
0
"""

"""

from corpora import Corpus
from nltk.corpus import PlaintextCorpusReader
import csv

corpus_path = '/home/mayank/IdeaProjects/Lab_Machine_Learning/src/Text_Analytics/test'
Corpus.create(corpus_path)
corpus = Corpus(corpus_path)

training_file_path = "/home/mayank/IdeaProjects/Lab_Machine_Learning/src/resources/TrainingData.csv"
reader = csv.reader(open(training_file_path, 'r'))

for (i, row) in enumerate(reader, 1):
    print i
    corpus.add(row[6].decode('utf-8'), i)
    if i == 10: break

print len(corpus)
print corpus.get()
Exemplo n.º 22
0
 def test_get_chunk(self):
     Corpus.create('/tmp/TEST_CORPUS', chunk_size=10)
     c = Corpus('/tmp/TEST_CORPUS')
     self.assertIsNotNone(c.get_chunk())
     del c
     shutil.rmtree('/tmp/TEST_CORPUS')
Exemplo n.º 23
0
 def test_get_chunk(self):
     Corpus.create('/tmp/TEST_CORPUS', chunk_size=10)
     c = Corpus('/tmp/TEST_CORPUS')
     self.assertIsNotNone(c.get_chunk())
     del c
     shutil.rmtree('/tmp/TEST_CORPUS')