Kod programu na którym opiera się projekt.
Rok akademicki 2014/2015
Semestr zimowy
Śr. 13:15
- Jacek Miszczak (179158)
- Filip Malczak (179326)
Zawartość tego i kolejnych rozdziałów nie powinna być brana pod uwagę przy ocenie; są to jedynie prywatne notatki.
- Tym razem w komentarzach i dokumentach używajmy j. polskiego. Jakby nie patrzeć, nim się zajmujemy... Klasy i zmienne - klasycznie, po angielsku ~F
- Dla ujednolicenia używajmy terminów "question class" (qc) i "expected answer type" (eat) zamiast "klasa pytania" i "oczekiwany typ odpowiedzi" (OTO) ~F
- Proszę o dodawanie takiej formułki na górę każdego modułu, na rzecz wygody na linuksie:
#!/usr/bin/python2
# -- coding: UTF-8 --
-
w module main jedyne co się zmienia to moduł z pakietu question_classification. Jeśli piszemy skrypty, to wystawiamy z nich funkcję main przyjmującą sys.argv która zostanie tam (w main.py) wywołana. ~F
-
Pliki z danymi wrzucamy na repo, nie są aż tak duże. Wyjątkiem od tego, póki co, jest leksykon nazw własnych - on ma 60 MB, tym nie będziemy gita katować. Nalezy go dociągnąć z http://nlp.pwr.wroc.pl/download/ner/nelexicon-v1.7z rozpakować i wrzucić do <repo_root>/data
-
Od danych surowych do policzonych TF: a. Normalizacja danych - skrypt normalize_data.py b. Utworzenie plików plaintext, prostych tekstowych korpusów dla każdej z klas z osobna, na obu poziomach ziarnistości, oraz dla wszystkich pytań - skrypt gather_plaintext.py c. Otagowanie korpusów celem uzyskania lematów - skrypt tag_data.py. On chwilę sie mieli d. Policzenie TF - skrypt count_TF.py
-
wcrft_wrapper does weird things with lematization, check it out