Ordlistan är inte riktigt uppbyggt så som man kanske kan tro, vilket gör att olika märkliga ord kan föreslås som korrekta.
"I nummer 33 berättade Henrik Jonshammar att hans mobiltelefon, försedd med textinmatningssystemet T9, vägrade att skriva ordet "schimpans". I stället föreslog systemet "raggnsans". Vem tusan hade lagt in ett sådant ord i telefonens ordlista?
Självklart har läsarna svar.
Svar:
Jag vet inte om Tegic (företaget som ligger bakom snabb*inmatingssystemet, med huvudkontor i Seattle) avslöjar precis hur T9 fungerar, men området stavningskontroll är väl utforskat.
Ett vanligt sätt är att använda så kallade hashfunktioner. Konstruktören väljer ut några funktioner som tar godtyckliga ord och ger ett slumpartat tal tillbaka, dock alltid samma tal för samma ord. Sedan väljs de ord som ska vara med i ordlistan. För varje ord i ordlistan beräknas alla hashfunktionerna och en etta placeras i minnet på de adresser hasharna angav.
När användaren sedan skriver ett ord beräknas samma hashfunktioner igen, och om det finns en etta i minnet för varje hashvärde så har vi ett ord i ordlistan. Troligen. För det kan ju av en slump råka bli ettor på alla platserna på grund av andra ord, vilket leder till en del falska "ord" som raggnsans betraktas som korrekta.
Fördelen med arrangemanget är att minnet som går åt för att lagra ordlistan dels är litet, dels kan hållas konstant oavsett antal ord. Ju fler ord man klämmer i, desto fler falska positiva, dock. Dessutom köps dessa ordlistor ofta av företag som kräver att konstruktören krypterar eller på annat sätt försvårar kopiering av ordlistan. Då passar hashning väl in.
Notera att T9 har mycket fler finesser. T9 kan hantera ordens frekvens i språket och lära sig användarens specifika språkvanor."
Källa: http://www.nyteknik.se/efter_jobbet/teknikfragan/article40581.ece