Hantera synonymer och homonymer i teknisk dokumentation – vad, varför och hur? Magnus Merkel Fodina Language Technology AB/Linköpings universitet magnus.merkel@fodina.se Vem är jag? Grundare och vd för Fodina Language Technology Docent i språkteknologi, Linköpings universitet Forskning: datorstödd terminologi, skriv- och översättningsstöd, maskinöversättning… Fodina Language Technology AB Avknoppning från Institutionen för datavetenskap, Linköpings universitet. Startades 2004 6 anställda Kunder: Saab, Scania, Volvo Lastvagnar, Sony Ericsson, Landstinget i Östergötland, PRV, … Fokus på kvalitetssäkring av processer där språk ingår: Språkprocesser (källspråk till översättningar) Terminologiprocesser och verktyg Kvalitetskontroller av språk och innehåll Terminologitjänster Återförsäljare och implementationspartner med Acrolinx GmbH (Acrolinx) Har utvecklat en svensk modul för Acrolinx Agenda Konsekvens och återanvändning Olika nivåer av konsekvens Finns synonymer egentligen? Homonymer och homografer Hur ser man till att begränsa användning av synonymer och homonymer? Begränsade språk Skrivstödsverktyg Konsekvens och återanvändning Möjlighet till återanvändning ökar vid konsekvent språkanvändning Dagens läge liknar nittiotalets införande av översättningsminnen på lokaliseringssidan Sökbarhet kan minska vid ökad konsekvens Finns det synonymer? ”Riktiga” synonymer ska vara helt utbytbara i alla kontexter, med samma betydelse: Flickan/Tjejen/Tösen/Jäntan började skolan förra veckan. Fakturan/Räkningen/Notan gick på 2.350 kr plus moms. Mora vill vända nedförsbacken/nerförsbacken/nedförslutningen. Bagageluckan/bagagerumsluckan är låst med nyckel. Traditionell semiotisk triangel Abstrakt begrepp ’Däggdjur ur familjen Equidae’ horse Pferd häst Språkligt uttryck Referent Traditionell semiotisk triangel Abstrakt begrepp ’Däggdjur ur familjen Equidae’ pålle ök kuse horse Pferd häst Språkligt uttryck Referent Återanvändning på olika nivåer Dokumentnivå Styckenivå (objekt) Meningsnivå Fras Term Ord (Tecken) Återanvända hela dokument Återanvända textobjekt (stycken) Återanvända meningar 43 synonyma meningar? Please enter an actual start date earlier than the actual end date. The Start Date cannot exceed the End Date. The End Date cannot precede the Start Date. End Date must be Later than Start Date. End date must be equal to or later than the start date. The end date must be later than or the same as the start date. End Time must be later than the Start Time. The valid grade's end date must be Later than or equal to its start date. Please enter an End Date that is later than or the same as the Start Date. Competence end date has to be later than or equal to the start date. The start date cannot be later than the end date. The appraisal end date must be later than or equal to appraisal start date. The Effective start date cannot be Later than the Effective end date. Date from cannot be later than date to. The start date must be on or before the end date. The Start Date cannot be after the End Date. Your end date must be after your start date. The end date cannot be after the start date. Start date must be before end date. Your start date must be before your end date. The Status End Date is either earlier than the Start Date of the Assignment or later than its End Date. Enter a Start date that is before the End date. Please enter an end date that is later than the start date. Date To must be later than or equal to Date From. The Date To must be later than the Date Received. The actual end date must be on or after the actual start date. End date should be greater than start date. End Date cannot be before Start Date. The start date must be prior to the end date. You entered a start date later than tile end date. Ending range must be later or the same as starting range Please enter a new start date later than the original end date. The ending date must be later than or the same as the beginning date. The date to has to be later than or equal to date from. End Date must be gr eater than Start Date. You cannot enter an ”End Date” that is before your “Start Date.” End Date must be greater than or equal to Start Date. Please enter a start date that is before the end date. The end date you enter must be between the grade's start and end dates. The start date you enter must be between the grade's start and end dates. The projected end date must be on or after the projected start date. The Period start date cannot be later than the Period end date Återanvändning (meningsnivå) WARNING: Switch power off only when the fan has stopped Är inte synonym med: WARNING: Switch power on only when the fan has stopped WARNING: Switch power off before the fan has stopped Men borde hitta dessa: WARNING: Disconnect power only when the fan has stopped WARNING: Never switch the power off until the fan has stopped WARNING: Do not power down until the fan has stopped WARNING: You must wait until the fan has stopped before switching off the power Synonymer, olika meningsstrukturer Steve Jobs, Managing Director, Acme Corporation said: Acme Corporation managing director Steve Jobs said: If you want to shut down the computer, press the red button. Press the red button if you want to shut down the computer. Återanvändning (frasnivå) For more information about X see Y. For information on X see Y. For more details about X see Y. For further information about X see Y. Inkonsekvent terminologi Term silencer sound absorber air conditioning airconditioning air-conditioning air distribution system air-distribution system air flow range airflow range air flow air stream airflow air-flow airstream air handling unit air-handling unit air inlet air intake condenser condensor Frequency 49 13 6 1 2 3 1 4 1 115 38 60 2 10 84 14 2 11 4 1 Acronym Full form UTC UTC UTC UTC UTC UTC UTC Coordinated Universal Time Coordinated Universal Time Zone Universal Coordinated Time Universal Time Clock Universal Time Code Universal Time Coordinated Universal Time Coordinates Synonyma ord och stavningsvarianter över huvud taget – överhuvudtaget tidplanering – tidsplanering driftstöd – driftsstöd inter system communication – inter-system communication intersystem communication Synonyma tecken Citattecken: ˝ “„ « » " Gradtecken: ° ˚ ˚ ⁰ Apostrofer: ' ` ´ ΄ ′ ‘ ’ ‛ Inkonsekventa meningar A complete system of round ducting and fittings for which type approval for tightness class D has been granted. A complete system of round ducting for which approval for tightness class D has been granted. A complete system of round ducting for which type approval for tightness class D has been granted. For your next duct application, remember "We make it easy" with Manifolded Duct at SEMCO. For your next duct application, remember “We make it easy” at SEMCO. For your next industrial duct application, remember “We make it easy” at SEMCO. Term/Namn? Slim Line and Slim Line MAX Slim Line and Slim Line Max Group Fan Selector CD Request Form The Group Fan Selector Installation CD Request Form. Energy Efficient EU Units Used in New Broadcasting Studio in Korea Energy efficient EU units used in new Broadcasting Studio in Korea. In addition, surplus heat can be used for heating the water for outdoor pools and bathrooms". In addition, surplus heat can be used for heating the water for outdoor pools and bathrooms”. Mounted diffusers they are for ceiling mounting and normally installed in false ceilings. The diffusers are for ceiling mounting and they are normally installed in false ceilings. Termproblem? This energy is then shifted to the cooler air stream during the second half of the revolution. This energy is then transferred to the cooler air stream during the second half of the revolution. We are certified according to ISO 14000. We are certified according to ISO 14001. Onödigt ord? The efficiency is higher than traditional plate heat exchangers and on the same level as rotary heat exchangers. The efficiency is much higher than traditional plate heat exchangers and on the same level as rotary heat exchangers. Teckenvarianter Examples of inconsistent translations of terms EN SV assembly tool monteringsverktyg assembly tool monteringsvkt assembly tool monterverktyg assembly tool monteringverktyg installation tool inställningsverktyg installation tool verktygsmontage installation tool monteringsverktyg mounting tool monteringsverktyg mounting tool uppspänningsverktyg Synonyma meningar – kännetecken Utbyte av synonyma ord Utbyte av synonyma fraser Ordföljdsskillnader Olika meningsstruktur Frånvaro eller närvaro av betydelsesvaga ord Interpunktionsskillnader Olika teckenvarianter Homonymi/homografi • Ord/fras/term med fler betydelser • Plan (flygplan/nivå/schema/platt…) • Kors (kryss/kor[+genitiv]/ko[+plural+genitiv] • Klots (kloss/klot[+s]) • Cykel (velociped/serie) • Spann (hink/avstånd) • Våg (viktmätare/havsvåg) • Call (samtal/ringa/ropa på/…) • Exit (utgång/utgå…) Homonymi (forts.) Engelska homonymer: Deck, object, boot, case, note, tap, sound, plug, flat, ram, mint, key, spell, mind, light, page, firm, ball, press… Svenska homonymer: Test, lyft, plugg, pris, ända, byte, val, toner, regel, snitt, grund, fil, bo, lår, foder, ark, bok, under… Varför ger homonymer problem? Otydlighet – ger utrymme för flera tolkningar Resulterar i mindre effektiv återvinning Svårare att kvalitetssäkra önskat språkbruk – går inte med enkla strängbaserade kontroller utan kräver lingvistisk analys i kontext Vad går det att göra? Synonymer: Identifiera synonymer i dokumentationen (bör göras med verktyg) Vilken spretighet finns idag? Standardisera Termdatabas (oönskade synonymerönskad synonym) Se över om det går att standardisera frekventa fraser och ord (icke-termer) Homonymer Identifiera homonymer Standardisera (ett uttrycken betydelse) Synonymidentifiering • Synonymresurser (finns en del fritt tillgängliga på nätet, t.ex. WordNet) • Tvåspråkiga lexikon (kan byggas om till synonymlexikon) • Analyser av översättningsminnen (ger även synonyma meningar) • Stavningsvarianter (med och utan bindestreck, med och utan blanksteg, skillnader stor och liten bokstav) • Vektorrymdsmodeller • Semantisk spegling Fodinas synonymklustrare Termstandardisering=välja en synonym Upptäcka homonymer Begränsade språk En delmängd av ett språk, begränsat i vokabulär och i grammatiska uttryckssätt. Från början: specifikation på ”papper”, men efterhand även försök att implementera som integrerat skrivstöd. Mest kända: ASD Simplified Technical English (STE). Syfte: Minska oklarhet och ambiguitet Tydligare tekniska instruktioner Enklare för icke-modersmålstalare Underlätta översättning (både för människor och datorer) STE Exempel på skrivregler: Max tre substantiv i rad i nominalfraser Max sex meningar i ett stycke Max 20 ord i instruktioner och 25 ord i beskrivningar Undvik passiv Skriv stegvisa instruktioner som listor Börja uppmaningar med verbet (utom i de fall när de är villkorade) Lexikonet (grundlexikon plus tekniska verb och tekniska namn) Innehåller både förbjudna och rekommenderade ord (mål: ett ord – en betydelse). T.ex. får ”close” bara användas som verb, inte som adjektiv. Integrerade skrivstöd för begränsade språk Kontroll av Termanvändning Stavning Stil Grammatik Skrivkonventioner i fackspråksområdet/företaget Hjälpa skribenten att vara konsekvent Förslag till konkreta åtgärder Vad bör man uppnå? Ökad kvalitet på skrivet material Enhetligt språkbruk inom organisationen Ökad återanvändningsgrad Minskat behov av manuell granskning Kortare inskolningstid för nya skribenter Sammanställning av fel för fokuserad utbildning Strukturerat, mätbart sätt att genomföra språkliga kvalitetskontroller. Slutord Ökade krav på återvinning och högre kvalitet kräver genomtänkt hantering av synonymi på alla nivåer. Skrivstödsverktyg finns för begränsade språk. En mycket stor del av funktionaliteten bygger på att styra skribenter att undvika synonymer och homonymer. Utmaningar: Identifiera synonymer och homonymer Standardisera Använda och underhålla. Kontakt Magnus Merkel magnus.merkel (at) fodina.se 013-342 01 87 0732-56 11 87