Kode til automatisert innholdsanalyse av nrk.no
Basert på en liste med URLer henter vi ut info om hver tekst. Vi sparer på elementene i kodeboken i en database. Overskfrit, ingress, brødtekst osv, alt lagres som i en rad i en stor tabell. Ved siste korsvei holdt vi alt i en tabell (ingen relasjoner), mens det nok er hensiktsmessig å legge til noen relasjoner her og der.
Hva vi henter ut er basert på kodeboken (som er designet for å besvare et sett forskningsspørsmål). Det er ok å legge til flere variabler der vi ser en gevinst og liten kostnad.
AUTOMATISERT INNHOLDSANALYSE
DATASETT: N=alt
Vi forsøker å gjøre hovedtabellen så semantisk meningsfull som mulig, da denne skal deles med andre forskere som skal kode manuellt. Likevell så trenger vi å beskrive m2n relasjoner på noen variabler: lenker & forfatter. Da trenger vi i alle fall tabellene: 'artikkel_tbl', 'lenker_tbl', 'artikkel_har_lenke_tbl', 'artikkel_har_forfatter_tbl'. (da forfattere kan bytte tittel/stilling har vi ingen egen ren forfattertabell) Høres dette lurt ut, Haakon?
-
fulltekst (hele saken, med unntak av delelemener (tittel, forfatter, etc) som lagres i andre felt.)
-
Publiseringsdato (date)
-
Klokkeslett (datetime)
-
Oppdateringstidspunkt (datetime)
-
Datetime for når vi scrapet documentet (aka date.now())
-
Interaktive element (antall, int)
-
Tekstlengde: Antall ord (all tekst - overskrift, ingress, bildetekster m.m.)
-
Deling facebook "like" (ja/nei)
-
Deling facebook "share" (ja/nei)
-
Deling twitter (ja/nei)
-
Deling g+ (ja/nei)
-
Deling annet (hvordan skal dette operasjonalliseres)
-
Byline (m2n, egen tabell)
- Navn
- tittel
- epost (ikke stress med dette hvis js skaper trøbbel)
-
Målform:
{
NA || nn || nb || annen_språkkode?
}
Bruk denne: https://github.com/saffsd/langid.py funker overraskende bra!
-
LIX Lesbarhetsindex-tall Se https://github.com/eiriks/samstemmer/blob/master/fylkesperspektiv/management/commands/compute_lix.py
-
Nyhetsbyrå
{
0 : NA
1 : NTB
2 : ANB
3 : Reuters
4 : AP
5 : AFP
6 : NRK
7 : Andre byråer
8 : Flere byråer
}
- Faktaboks
{
na || antall
}
-
antall ord i faktaboks(er)
-
Kommentarfelt
{
na || antall
}
-
antall kommentarer (får vi tak i dette, eller lastes det via js?)
-
Spørreundersøkelse
{
na || antall
}
- Spillelement
{
na || antall
}
- Egentesting (poll)
{
na || antall
}
- Videofil
{
0. NA
1. Flashfil
2. Ikke flashfil
3. Flere flashfiler
}
-
Antall videofiler totalt (inkludere vimeo, youtube, osv)
-
Antall videofiler fra NRK (egenproduksjon)
-
Bildekarusell
{
na || antall
}
-
Bilder (antall)
-
bildetekst (konkatinert ved flere bilder, formodentlig)
-
Galleriboks aka. Relaterte saker
{
na || antall
}
- Flashfil
{
na || antall
}
- Andre interaktive element
{
na || antall
}
- Lenkepraksis (oppsummert data i hovedtabbel)
{
0. NA
1. antall interne lenker
2. antall eksterne lenker
3. totalt antall lenker
}
-
m2n lenketabell
- url
- lenke dokumenttyper (html, doc, pdf, etc)
- lenke subdomene (tldextract subdomain) https://pypi.python.org/pypi/tldextract/0.2
- lenke root-domene (bruk f.eks. tldextract domain)
- lenke tdl (slik at vi får landene, tldextract tld)
-
Les/Les også Dette er en kontekstboks i den gamle designmalen (finnes dette i den nye?)
{
0. NA
1. Les/Les også
2. Ikke Les/Les også
}
- Kart (antall)
- antall
- lat/long
- Publiseringssted (disse henter vi ut i fra URL'n)
{
0. NA
1. NRK Riks
2. NRK Hedmark og Oppland
3. NRK Hordaland
4. NRK Møre og Romsdal
5. NRK Nordland
6. NRK Rogaland
7. NRK Sogn og Fjordane
8. NRK Sørlandet
9. NRK Troms og Finnmark
10. NRK Trøndelag
11. NRK Østafjells
12. NRK Østfold
13. NRK Østlandssendingen
14. NRK Samí Radio
}
- Programtilknytning Dette henter vi ut i fra URL'n. Er det flere vi burde se etter?
{
0. NA
1. Puls
2. Forbrukerinspektørene FBI
3. Juntafil
4. Norgesglasset
5. Migrapolis
6. Radiodokumentaren
7. Schrödingers katt
8. Studio Sokrates
9. P2 Akademiet
10. Newton
11. Kurer
12. Kunstreisen
13. Nitimen
14. P3.no (flere programmer)
15. Spiller.no
16. Vær (yr.no/nyhende)
17. Lydverket
18. Valg
19. BarneTV aka nrksuper
Valg13
Viten og teknologi (ev. vitenskap og teknologi)
Fordypning
Fotball
Melodi Grand Prix
Sapmi
Ytring
Yr.no
Ut.no
Dit.no (?)
Nyheter Beta
nrksuper.no
nrk.no/nyheter/klima
nrk.no/kultur
nrk.no/livsstil
nrk.no/migrapolis
}
- NRKs hovedkategorier/nyhetskategorier nyheter Hentes ut i fra URL
{
0. NA
1. Forsiden
2. Norge
3. Verden
4. Økonomi
5. Sport
6. Kultur og underholdning
7. Helse og livsstil (puls)
8. Teknologi og vitenskap (katta)
9. Vær (yr.no)
0. NA
1. Siste nytt
2. Norge
3. Verden
4. Økonomi
5. Nobels fredspris
6. Klima
7. Distrikt
8. Valg 09 / Valg2012?
9. Kultur
10. Sport
}
Skal vi lagre all html noe sted, slik at vi ikke trenger å pinge nrk enda en gang hvis vi finner ut at vi vill hente ut flere eller andre ting, eller hente ut på andre måter?
###1. Publiseringsdato (14 dager) dette var den konstruerte to-ukersperioden
- Mandag 19 januar
- Tirsdag 27 januar
- Onsdag 11 februar
- Torsdag 12 mars
- Fredag 24 april
- Lørdag 16 mai
- Søndag 21 juni
- Mandag 13 juli
- Tirsdag 18 august
- Onsdag 16 september
- Torsdag 15 oktober
- Fredag 13 november
- Lørdag 5 desember
- Søndag 20 desember
- Mandag 14 januar
- Tirsdag 12 februar
- Onsdag 20 mars
- Torsdag 18 april
- Fredag 24 mai
- Lørdag 15 juni
- Søndag 14 juli
- Mandag 5 august
- Tirsdag 17 september
- Onsdag 16 oktober
- Torsdag 14 november
- Fredag 6 desember