Skip to content

Inżynieria języka naturalnego (2014/2015, sem. zim.) śr. 13:15

Notifications You must be signed in to change notification settings

PWr-Projects-For-Courses/NLP

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

40 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Inżynieria języka naturalnego

Kod programu na którym opiera się projekt.

Grupa zajęciowa

Rok akademicki 2014/2015

Semestr zimowy

Śr. 13:15

Autorzy

  • Jacek Miszczak (179158)
  • Filip Malczak (179326)

Dev Notes

Zawartość tego i kolejnych rozdziałów nie powinna być brana pod uwagę przy ocenie; są to jedynie prywatne notatki.

  1. Tym razem w komentarzach i dokumentach używajmy j. polskiego. Jakby nie patrzeć, nim się zajmujemy... Klasy i zmienne - klasycznie, po angielsku ~F
  2. Dla ujednolicenia używajmy terminów "question class" (qc) i "expected answer type" (eat) zamiast "klasa pytania" i "oczekiwany typ odpowiedzi" (OTO) ~F
  3. Proszę o dodawanie takiej formułki na górę każdego modułu, na rzecz wygody na linuksie:

#!/usr/bin/python2

# -- coding: UTF-8 --

  1. w module main jedyne co się zmienia to moduł z pakietu question_classification. Jeśli piszemy skrypty, to wystawiamy z nich funkcję main przyjmującą sys.argv która zostanie tam (w main.py) wywołana. ~F

  2. Pliki z danymi wrzucamy na repo, nie są aż tak duże. Wyjątkiem od tego, póki co, jest leksykon nazw własnych - on ma 60 MB, tym nie będziemy gita katować. Nalezy go dociągnąć z http://nlp.pwr.wroc.pl/download/ner/nelexicon-v1.7z rozpakować i wrzucić do <repo_root>/data

  3. Od danych surowych do policzonych TF: a. Normalizacja danych - skrypt normalize_data.py b. Utworzenie plików plaintext, prostych tekstowych korpusów dla każdej z klas z osobna, na obu poziomach ziarnistości, oraz dla wszystkich pytań - skrypt gather_plaintext.py c. Otagowanie korpusów celem uzyskania lematów - skrypt tag_data.py. On chwilę sie mieli d. Policzenie TF - skrypt count_TF.py

  4. wcrft_wrapper does weird things with lematization, check it out

About

Inżynieria języka naturalnego (2014/2015, sem. zim.) śr. 13:15

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published