Från aspekt till övergripande – en nätbaserad lista över svenskt akademiskt ordförråd Håkan Jansson, Judy Ribeck & Emma Sköldberg Institutionen för svenska språket Göteborgs universitet NFL, Oslo 2013 En svensk akademisk ordlista • • • • Utarbetad vid Institutionen för svenska språket i Göteborg Elektronisk och fritt tillgänglig via Språkbanken Drygt 650 uppslagsord Baserad på publicerade universitetstexter avhandlingar vetenskapliga artiklar 15 olika forskningsämnen • Målgrupper främst universitetsstuderande med olika språklig bakgrund • Funktioner produktion av (svensk akademisk) text reception dokumentation Upplägg • • • • • Om tidigare akademiska ordlistor Vår akademiska korpus Kriterier vid urval av uppslagsord Kort om uppslagsorden Den akademiska ordlistan: information och visningslägen Om tidigare akademiska ordlistor • The University Word List (UWL) (Xue & Nation 1984) • The Academic Word List (AWL) (Coxhead 2000, 2002) • The Louvain EAP Dictionary (LEAD) (Granger & Paquot 2010a, 2010b) • The Academic Keyword List (AKL) (Paquot 2010) • Svenska/nordiska akademiska ordlistor Sköldberg & Johansson Kokkinakis 2012 Jansson et al. 2012 Johansson Kokkinakis et al. 2012 Carlund et al. 2012 Metod: utgångspunkt Inspirerade av metoder hos Coxhead (2000) och Paquot (2010): • sätta samman en akademisk korpus • utifrån korpusen ta fram en akademisk ordlista grupperad i ordfamiljer • ta bort högfrekventa ordfamiljer • välja ut ämnesneutrala ord • ta fram nyckelord genom att jämföra med annan korpus SveAk-korpusen Humaniora Etnologi Filosofi Antal ord Samhällsvetenskap 1 668 691 Ekonomi/näringsliv 853 444 Juridik Antal ord 1 886 324 682 560 Historia 2 704 124 Medie-/kommunikationsvetenskap Konst 1 649 537 Psykologi Litteraturvetenskap 2 358 974 Social/ekonomisk geografi 1 621 081 Religion 2 957 366 Sociologi 1 838 189 Språkvetenskap 2 286 877 Statsvetenskap 1 556 733 Utbildningsvetenskap Totalt (ord) 14 479 013 1 130 813 339 848 1 826 970 10 882 518 Bearbetning av texterna • Tokenisering • Ordklasstaggning • Lemmatisering Kriterier vid urval Identifiering av ord som 1. inte ingår bland de 1000 vanligaste orden i svenska språket (jfr Läsbart-korpusen) 2. är jämnt spridda i de olika ämnestexterna 3. är mer frekventa i de akademiska texterna än i en referenskorpus med skönlitteratur Resultat: 655 ord • 10 i topp: dock, studie, beskriva, social, enligt, innebära, samt, form, betydelse, fall • 10 i botten: indelning, felaktig, skede, granskning, beträffande, dynamisk, inverkan, låg, passiv, intensiv, art ORDKLASS substantiv verb adjektiv adverb övriga AO % 42 26 14 8 10 AKL % 38 25 19 9 9 SO 2009 % 68 14 15 2 1 Täckningsgrad • Hela SveAk: 11,9 % – Litteraturvetenskap: 9,9% – Psykologi: 14,1% • Externa tidskrifter: 10,7% Förekomster, nyckelordsordning 1-100 101-200 201-300 301-400 401-500 501-600 601-700 Listans nuvarande utseende Informationstyper lemma, ordklass, böjning, betydelse , redigerat språkprov, engelsk översättning http://spraakbanken.gu.se/ao/ Tillägg av information • • • • Lemman: ej ordfamiljer Ordklass: automatiskt via taggning Böjning: från Lexins svenska lexikon (2011) Betydelser: samtliga i Lexin svenska lexikon (2011) ex. relation • Språkprov: redigerade, från SveAk, ex. dock • Engelsk översättning: automatiskt från Lexin Visning: alfabetisk ordning Visning: frekvens- och spridningsbaserad Framtiden • Akademiska ord – Utvidgning med fraser – Underlag för ordtester och undervisningsmaterial • Ordlistan – – – – Information på alla uppslagsord Markering av vanligare betydelser Utvärdering av engelska ekvivalenter Etc. Referenser Bauer, Laurie & Paul Nation. 1993. ‘Word families.’ International Journal of Lexicography, 6, s.253-279 Carlund, Carina, Sofie Johansson Kokkinakis, Judy Ribeck, Håkan Jansson & Julia Prentice. 2012. ’An academic word list for Swedish – a support for language learners in higher education.’ I: Proceedings of the SLTC 2012 workshop on NLP for CALL. Linköping Electronic Conference Proceedings 80:20–27. [tillgänglig elektroniskt: http://www.ep.liu.se/ecp/080/003/ecp12080003.pdf]. Coxhead, A. 2000. ‘A New Academic Word List.’ TESOL Quarterly 34:2, 2000, 213-238. Coxhead, A. 2002. ‘The Academic Word List: A Corpus-based Word List for Academic Purposes.’ I: Kettemann, B. and G. Marko (red.), Teaching and Learning by Doing Corpus Analysis. Proceedings of the Fourth International Conference on Teaching and Language Corpora, Graz 19–24 July, 2000. Amsterdam/New York, 73–89. Granger, S. & M. Paquot 2010a. ’Customising a general EAP dictionary to meet learner needs’. In Granger, S. & M. Paquot (eds) (2010) eLexicography in the 21st century: New challenges, new applications. Proceedings of ELEX2009. Cahiers du CENTAL. Louvain-la-Neuve, Presses universitaires de Louvain, 87-96. Granger, S. & M. Paquot . 2010b. ‘The Louvain EAP Dictionary (LEAD).’ I: Dykstra, A. and T. Schoonheim (red.), Proceedings of the XIV Euralex International Congress, Leeuwarden 6–10 July 2010. Ljouwert, 321–326. Jansson, Håkan, Sofie Johansson Kokkinakis, Judy Ribeck & Emma Sköldberg. 2012. ‘A Swedish Academic Word List: Methods and Data.’ I: Fjeld, Ruth Vatvedt & Julie Matilde Torjusen (red.), Proceedings of 15th EURALEX International Congress 7-11 August, 2012,. Oslo: Department of Linguistics and Scandinavian Studies, University of Oslo. s.955-960. [tillgänglig elektroniskt: http://gup.ub.gu.se/publication/162496-a-swedish-academic-word-listmethods-and-data]. Johansson Kokkinakis, Sofie, Emma Sköldberg, Birgit Henriksen, Kari Kinn & Janne Bondi Johannessen. 2012. ‘Developing Academic Word Lists for Swedish, Norwegian and Danish–a joint research project.’ I: Fjeld, Ruth Vatvedt & Julie Matilde Torjusen (red.), Proceedings of the 15th EURALEX International Congress. Oslo: Department of Linguistics and Scandinavian Studies, University of Oslo. s.563-569. [tillgänglig elektroniskt: http://www.euralex.org/elx_proceedings/Euralex2012/pp563-569%20Kokkinakis,%20Skoldberg,%20Henriksen,%20Kinn%20and%20Johannessen.pdf]. Lexins svenska lexikon 2011. <http://lexin2.nada.kth.se/lexin/> Paquot, M. 2010. ‘Academic Vocabulary in Learner Writing: From Extraction to Analysis’. London & New-York: Continuum, 56-58. Sköldberg, E. and S. Johansson Kokkinakis 2012. ’A och O om akademiska ord. Om framtagning av en svensk akademisk ordlista.’ I: Eaker, Birgit, Lennart Larsson & Anki Mattisson (red.), Nordiska studier i lexikografi 11. Rapport från Konferensen om lexikografi i Norden Lund 24−27 maj 2011. Lund, 575-585. Språkbanken: – Akademisk ordlista: <http://spraakbanken.gu.se/ao/> – SveAk: <http://spraakbanken.gu.se/korp/#corpus=sweachum,sweacsam> – Norstedtsromaner 1999: < http://spraakbanken.gu.se/korp/#corpus=rom99> – Läsbart: < http://spraakbanken.gu.se/korp/#corpus=lasbart> Xue, G. &I.S.P. Nation 1984. ‘A University Word List.’ Language Learning and Communication 3, 2, 215-229. West, M. 1953. ’A general service list of English words: with semantic frequencies and a supplementary word-list for the writing of popular science and technology.’ Longman, London. Förekomster i text, nyckelordsordnade 1-100 101-200 201-300 301-400 401-500 501-600 601-655