Kapitel 10
Kapitel 12
Miguel Benito
KAPITEL 11
SPRÅKKONTROLL
Varje indexeringssystem kan ha egna regler för hur
man skall använda språket. Indexeringsspråk definieras som samlingen av
alla de ord som används antingen för att beskriva ett specifikt dokument,
eller för att bygga upp en fråga för att återfinna en grupp av dokument.
Indexeringsspråket innehåller regler som beskriver hur termerna skall
användas och vilken relation termerna har med varandra.
Indexeringsspråk kan indelas i många olika
grupper. Den främsta uppdelningen är dock mellan två kategorier av
indexeringssystem:
1) system som enbart använder härledda termer
(derived terms).
Härledda termer, eller utdragna termer, innebär
att man använder de ord som förekommer i publikationen, i första hand ord i
titeln, men också i referat, innehållsförteckning etc. om dessa också
indexeras. Den stora fördelen med härledda termer är att indexeringen kan gå
ganska fort, eftersom den i stort sett kan göras helt mekaniskt genom att
registrera titeln, referaten och innehållsförteckningen såsom de är och
sedan låta en datamaskin göra i ordning indexet.
Ett bra exempel är de indexeringssystem som bygger
på KWIC. Vissa regler måste dock iakttas. En nackdel med dessa system är att man är helt beroende
av de termer som författaren använt, vilket betyder att litteratur indexerad på
samma ord inte nödvändigtvis behöver handla om samma ämne eller att litteratur
i ett och samma ämne kan finnas under olika termer. Ex.
"Städning av offentliga lokaler"
sökes
under termen "städning"
"Lokalvård på offentliga lokaler"
sökes
under termen "lokalvård".
"Städning pågår bland chefer inom förvaltningen"
sökes
under termen "städning", fast med annan betydelse än den man i
första hand tänker sig.
En annan nackdel med termer hämtade ur titeln är
att viss litteratur inte går att indexera överhuvudtaget. Som exempel titeln:
"Hur var det förr?"
Generellt kan man säga att härledda termer används
mest inom teknik och naturvetenskap. Där återspeglar titlarna ofta
innehållet i publikationen ganska exakt, medan man använder systemet mycket
mindre inom humaniora och samhällsvetenskap. Där kan titlarna vara ganska fantasifulla och ha en
svag anknytning till bokens innehåll. Det andra användningsområdet är när
man indexerar hela texten, som i TTs nyhetsbank.
2) system som använder tilldelade termer (assigned
terms).
Tilldelade termer innebär att indexeraren själv
analyserar vilket eller vilka ämnen som publikationen handlar om och
bestämmer vilken eller vilka termer som publikationen skall indexeras på.
Indexeraren har i det här fallet större möjlighet att fastställa dokumentets
innehåll, eftersom han eller hon inte är bunden till dokumentets titel,
innehållsförteckning, abstract, utan själv kan bedöma innehållet genom att
läsa förordet, sammanfattningen, recensioner, bläddra i publikationen eller
rådfråga specialister. Tilldelade termer kan hämtas på två olika sätt:
a) genom fri vokabulär.
Fri vokabulär innebär att indexeraren väljer den
för tillfället mest lämpliga termen utan att man i förväg gjort upp vilka
termer som skall användas. En fördel med systemet är att man snabbt kan fånga
in nya begrepp. Nackdelen är att man vid sökning måste söka på olika termer
för att vara säker på att man fått all litteratur. Ex. från ovan om städning
och lokalvård. En indexerare registrerar t.ex. 5 publikationer under termen
"städning", en annan indexerare registrerar ytterligare 5 publikationer
under termen "lokalvård", en tredje kanske väljer termen
"rengöring" o.s.v. När man sedan skall söka i systemet är risken
stor att man bara kan återfinna en del av litteraturen. Vet man att systemet
bygger på fri vokabulär, så vet man att man måste söka på alla möjliga termer
som betyder samma sak. På det viset eliminerar man den risk som nämns ovan.
Skillnaden mellan användningen av fri vokabulär och härledda termer behöver
inte vara särskilt stor.
b) genom kontrollerad vokabulär.
Kontrollerad vokabulär innebär att man i förväg
har bestämt sig för vilka termer man skall få använda vid indexeringen. I
sådana fall har man ett register över de termer som gäller. Den största
fördelen är att alla indexerare i princip använder sig av samma term för att
indexera publikationer med ett visst innehåll. Detta underlättar vid
sökningen, eftersom den kan göras effektiv. Listan måste naturligtvis från
tid till annan revideras och kompletteras. En vanlig sådan är den som kallas
"tesaurus". För att riktigt kunna kalla en lista för tesaurus måste
dock vissa villkor uppfyllas. Hur en tesaurus ser ut skall vi titta på litet
längre fram.
Några regler att tänka på:
Kontrollerad vokabulär kan åstadkommas med
relativt enkla regler. Några av reglerna gäller även för index som bygger på
fri vokabulär. De viktigaste är:
1) Konsekvens vid användningen av singularis och
pluralis. Huvudregeln är att konkreta föremål söks med ord i pluralis medan
discipliner, abstrakta begrepp, verksamheter och processer söks i singularis,
t.ex.
bilar,
möbler, filosofi, städning, jäsning.
Om namnet på konkreta föremål eller material
svarar på frågan "hur mycket?" och inte "hur många?"
använder man sig av singularis. Ex.
ånga,
bensin, olja, tyg
När ordet uttrycker flera olika sorter ("hur
många?") blir det pluralis:
oljor, tyger,
metaller
Ett ord kan också ha olika betydelser i singularis
och pluralis. Ex.
religion
(ämnet som sådant)
religioner
(de olika religionerna)
Likaså kan pluralis användas i de fall där
abstrakta begrepp representerar en kategori som består av flera enheter. Ex.
kemiska
reaktioner, sociala frågor
2) Använd obestämd form som regel. Om termen
uttrycker något unikt som det bara finns ett av den sorten, kan bestämd form
förekomma. Ex. "solen". Även abstrakta begrepp kan uttryckas i
bestämd form. Ex. "förnuftet".
3) I större indexeringssystem förekommer termer
som skrivs likadant men som har olika betydelse, "homografer",
också kallade homonymer. I sådana fall måste man komplettera termerna
med en precisering om vilken betydelse de har, inom parentes, eller på annat
sätt. Ex.
Ben
(skelett)
Ben
(extremiteter)
Även ord som har samma grundbetydelse, men får
olika innebörd beroende på vilket ämnesområde de används i, behandlas på
samma sätt:
Fält
(data)
Fält
(elektricitet)
Fält
(lantbruk)
4) När det gäller synonymer måste man
bestämma sig för vilken term som skall gälla som sökterm. Man skall försöka
välja den term som används mest, och som de flesta är förtrogna med. Övriga
termer skall också finnas med, men med hänvisning till den använda termen.
T.ex.
Städning
se Lokalvård
Det finns olika typer av synonymer.
Ord som har olika ursprung, t.ex.
lantbruk
vs. jordbruk
Äldre och nyare termer
blinda
vs. synskadade
städare
vs. lokalvårdare
Vetenskapliga och icke-vetenskapliga termer
zoologi vs. djurlära
fonogram
vs. musikskiva
Låneord och översättning på det egna språket
diskett
vs. skiva
En produkt och ett företagsnamn
fotokopia
vs. xerox
I fall det är fråga om fri vokabulär kan man också
ha nytta av korshänvisningar:
Städning
se även Lokalvård,
Lokalvård
se även Städning o.s.v.
5) Antonymer är termer som står för motsatt
betydelse. I vissa fall kan det vara lämpligt att ha dem tillsammans och
bilda en indexeringsterm. T.ex.
Inflation
och deflation
Ebb och
flod
Arbete
och arbetslöshet
6) Akronymer är förkortningar som används
som riktiga namn, efter vilka institutioner och verksamheter är kända,
t.ex. Unesco, Nordinfo. En hänvisning från det riktiga namnet görs. När det
gäller vanliga förkortningar rekommenderas att använda det riktiga namnet som
sökterm och hänvisning från förkortningen. Ex.:
United
Nations Educational, Scientific and Cultural Organisation
Se Unesco
men
SJ se
Statens Järnvägar
Det finns förkortningar som inte längre uppfattas
som sådana, utan har inkorporerats i språket, t.ex.
radar,
aids, laser
7) På svenska synes det inte behövligt att
särskilt fundera över termer som kan stavas olika, eftersom det finns ganska
få sådana. På andra språk däremot kan det vara viktigare. Exempel från
engelska och amerikanska: Centre och Center. Samma sorts stavning bör
användas över hela systemet.
kafé
eller café
8) Det är viktigt att använda så specifika
termer som möjligt, t.ex.
ångpannor
och inte pannor
9) Det är som regel bättre att välja vardagliga
uttryck och termer framför vetenskapliga, om inte systemet används
enbart av specialister, t.ex.
djurlära
i stället för zoologi
10) Använd inverterad ordning mellan ord
som ingår i ett sammansatt begrepp om de andra orden förutsätts vara
intressantare. T.ex.
sociologi,
marxistisk
indexering,
koordinerad
11) När två termer förbinds med "och"
och det markerar en viss relation mellan dem, behåller man samma ordning, t.ex.
kristendom
och politik
vetenskap
och historia
12) Använd substantiv. Adjektiv- och
verbform kan förekomma vid indexering, men då med substantiviserad betydelse:
kollektivanslutna
13) Personnamn skrivs ut enligt samma
regler som gäller för personnamn som uppslag i katalogen:
Homeros
Cicero,
Marcus Tullius
Cervantes
Saavedra, Miguel de
14) Institutions- och kongressnamn skrivs
ut enligt samma regler som gäller för katalogisering:
Arbetsmarknadsdepartementet
Statens
industriverk
Lunds
universitet. Pedagogiska institutionen
Nordiska
biblioteksmötet (6 : 1950 : Uppsala)
15) Geografiska namn skrivs ut i enlighet
med reglerna för katalogisering:
Cambridge,
Mass.
Santo
Domingo de Silos (Spanien)
Enkla och sammansatta begrepp
Enkla begrepp kan uttryckas med ett ord, som
bibliotek, lantbruk, men de kan också bestå av två eller flera ord, som
Teknisk
fysik, Ren luft
Sammansatta begrepp kan även de uttryckas med ett
eller flera ord. Skillnaden är dock att de enkla begreppen som ingår i de
sammansatta begreppen var för sig och i någon form av kombination kan vara
sökbara. T.ex.
Biblioteksutlåning
Man kan skriva som det står, men man kan också
skriva
Bibliotek
- utlåning
eller
Utlåning.
Bibliotek
Eller
Utlåning
på bibliotek
som en fras
Viktigast är att man väljer en teknik som sedan
används inom hela systemet.
Bindestreck uttrycker ofta en precisering eller avgränsning
av den föregående termen. När man bygger upp ett indexeringssystem väljer man
samtidigt på vilket sätt de sammansatta begreppen skall skrivas ut.
Att bygga upp en termlista
Så länge man bygger upp ett system kan behovet av
en kontrollerad vokabulär synas vara litet. Allteftersom det växer kan dock
svagheterna komma fram. Vad det handlar om är att man aldrig är säker på
termernas betydelse om man inte har en fastställd termlista. Men eftersom fördelarna
med fri vokabulär också är stora, framförallt snabbheten vid indexeringstillfället,
så arbetar man idag med att hitta former för att förena båda sakerna: fria
termer, men med vissa minimiregler som innebär att det ger nästan samma
resultat som om man använde kontrollerad vokabulär.
Att bygga upp en termlista
Det finns två olika sätt att bygga upp en
termlista. Det ena kallas för "deduktiv metod" och det andra "induktiv metod".
Deduktiv metod innebär att man först samlar in alla tänkbara termer inom det ämnesområde
som indexet skall täcka och sedan ordnar dem i klasser och underklasser.
Detta görs för att man skall kunna överblicka alla indelningsmöjligheter som
kan finnas, oberoende av om det finns dokument som kan indexeras med dessa
termer eller ej (ovanifrån och neråt). UDK som klassifikationssystem är ett
typexempel på deduktiv metod.
Induktiv metod innebär att man utifrån en enkel struktur i klasser och underklasser
sätter in nya termer allt efter som de förekommer i den litteratur man indexerar
(nerifrån och uppåt). Dewey‑systemet och SAB:s ämnesordsregister är
exempel på induktiv metod.
Hur många termer får man använda för att beskriva
ett dokument?
Vissa indexeringssystem är uppbyggda så att man
redan från början bestämt sig för att avgränsa antalet termer till tre, på
samma sätt som det idag gäller för klassifikationssystem som SAB eller UDK.
Andra system begränsar sig till fyra termer. Ytterligare andra, som SCANP,
tillåter upp till 20 olika termer. Verkligheten brukar dock begränsa
möjligheterna. Därför är det bättre att man bygger upp ett system utan
begränsning av antal termer.
För– och nackdelar med kontrollerat språk
Fördelar:
– Kontroll av synonymer
– Man kan ha förklaringar till termerna (SN)
– Man hänvisar till andra överordnade, underordnade
och närbesläktade termer,
om de är
relevanta för sökningen
– Syntaktiska problem kan minimeras, bl.a. genom
att man kan bilda samman-
satta begrepp
– Man kan bestämma graden av precision
Nackdelar:
– Man når ofta mindre specificitet och mindre
uttömmandegrad
– Det kostar mera att indexera
– Inte alltid aktuell, det tar tid för nya begrepp
att komma in i systemet
– Ofta är termerna andra än de som används i ett
annat system, och
forskarna
måste tänka om varje gång de söker
För– och nackdelar med naturligt språk
Fördelar:
– Hög grad av specificitet och precision
– Det är möjligt med högre uttömmandegrad, bl.a.
genom att i princip
hela
boken kan indexeras, inte bara titeln
– Termerna är aktuella, de är desamma som
författarna och även forskarna
själva
använder vid den tidpunkten
– Låg kostnad
– Lätt att flytta informationen mellan databaserna
Nackdelar:
– Forskaren måste jobba mera vid
sökningstillfället för att nå en någorlunda
tillfredsställande återvinningsgrad
– Det kan förekomma syntaktiska problem
– En mycket hög uttömmandegrad kan ändå leda till
brist på precision
LITTERATUR
Austin, Derek, PRECIS : a manual of concept analysis and subject indexing. - 2.
ed. - The British Library, 1984.
Cleveland, Donald B., Introduction to indexing and abstracting / Donald B. Cleveland,
Ana D. Cleveland. - 2. ed. - Libraries Unlimited, 1990.
Indexers on indexing / edited by Leonard Montague Harrod.
- Bowker, 1978.
Ramsden, Michael J., An introduction to index language construction. - Bingley,
1974.
Rowley, Jennifer E., Abstracting and indexing. - Bingley,
1982.
Wellisch, Hans H., Indexing from A to Z. - Wilson, 1991.