Allt jag säger hamnar i text
Allt jag säger hamnar i text.
Det påståendet har fått folk att titta konstigt på mig. Några nickar. Ingen har frågat vad jag faktiskt menar med det. Och det är exakt problemet.
Jag pratar om en daglig praktik som förändrat hur jag tänker på information — vad det är, var det uppstår, och vad som egentligen försvinner när vi inte fångar det. Det är inte en feature. Det är inte ett verktyg. Det är ett sätt att se på röst som råmaterial.
Ingen äger den positionen. Och det är konstigt, för det har gått tre år sedan det tekniskt sett blev möjligt.
Bakgrunden jag bär med mig
2011 visste jag att det borde gå att göra. Jag såg hur mycket information som försvann varje dag — i möten, i samtal, i de saker folk faktiskt sa i kontrast till vad som hamnade i protokollet efteråt. Problemet var att tekniken inte höll. Taligenkänning var för ostabil, för kontextokänslig, för opraktisk i verkliga arbetsflöden.
Frustrationen byggdes upp under ett decennium. "Varför kan inte tekniken hänga med visionen?"
2022 kom OpenAI Whisper. Och plötsligt gick det att göra det jag alltid vetat borde gå att göra: göra röst till text, text till sökbar data, data till faktisk kontext för beslut. Det var inte revolution. Det var en lösning på ett problem jag burit sedan 2011.
Hur det faktiskt ser ut
Varje möte spelas in. Varje kundsamtal, varje intern genomgång, varje röstnotat jag pratar in i telefonen — allt hamnar i text. Det är inte ett komplicerat system. Det är en vana, plus rätt verktyg. Och volymen av transkriberat material jag har att jobba med skiljer sig fundamentalt från vad de flesta jobbar med.
Det finns en viktig skillnad som de flesta inte tänker på: det minne vi skapar direkt är inte samma sak som det minne vi skapar i efterhand. Anteckningar skrivna efter ett möte är inte dokumentation av mötet. De är dokumentation av vad vi väljer att minnas. Vad vi lade märke till. Vad som kändes viktigt nog att skriva ner.
Rösttranskription fångar det faktiska utbytet. Det som faktiskt sades, i den ordning det sades, med de pauser och avvikelser och halvfärdiga meningar som faktiskt ingick i konversationen. Det är ett helt annat råmaterial.
Sedan är det jag som bestämmer vad som händer med det. Vad som sammanfattas. Vad som skickas vidare. Vad som används som kontext nästa gång en liknande fråga dyker upp. Det är inte automatik — det är ett system. Och skillnaden är att jag jobbar med vad som faktiskt sades, inte med min rekonstruktion av det.
Varför röst är tätare
Text du skriver är alltid en filtrerad version av vad du tänkte. Du väljer vad som är värt att formulera. I den processen försvinner saker — det som lät konstigt, det som sades med lite för mycket eftertryck, den biinformationen som egentligen berättar mer om situationen än den information du menar dokumentera.
Röst är tätare. En person som säger "det här behöver vara snabbt" med betoning på snabbt kommunicerar något helt annat än samma ord i ett mejl. En kund som svarar på en fråga med en paus innan svaret — det är information. En kollega som förklarar ett problem och viker av halvvägs igenom för att ge ett exempel från förra året — det är information. Ingenting av det hamnar i traditionella mötesanteckningar.
När den informationstätheten blir text som är sökbar, strukturerbar och användbar som AI-kontext förändras spelet. Inte för att AI förstår alla nyanser, utan för att du kan ställa precisa frågor mot ett material som faktiskt speglar vad som hände — inte mot din minnesbild av det.
Det ingen har skrivit om
AI-diskussionen just nu handlar om kontextfönster, om prompting, om agenter och orkestrering. Alla pratar om vad som händer med information när den väl är inne i systemet. Ingen pratar seriöst om hur du fyller systemet med rätt information från början.
Röst är ingångslaget som de flesta ignorerar.
Folk samlar skärmdumpar, klistrar in text, skriver ihop beskrivningar av vad de vill ha. Det är filtrering, inte råmaterial. Och det som försvinner i filtreringen är ofta det som avgör om resultatet blir bra eller mediokert.
Det har gått tre år sedan Whisper gjorde det möjligt. Position "röst som primärt ingångslager för AI-arbete" är fortfarande öppen. Ingen har tagit den. Ingen skriver om det från ett personligt praktikperspektiv — från hur det faktiskt ser ut att köra det varje dag, i verkliga samtal, med verkliga kunder.
Det är märkligt. För det är inte komplicerat. Det är bara en vana de flesta inte har.
Börja fånga det du redan säger
Du pratar redan. Samtal, möten, tankar du formulerar högt. Den informationen försvinner nu. Den spelas inte in, transkriberas inte, hamnar inte som data.
Det är inte ett tekniskt problem. Verktyg finns. De är billiga. Det är ett vanemässigt problem — att faktiskt börja behandla röst som råmaterial istället för som ett temporärt informationsformat du inte kan använda till något.
Du säger redan saker som är värda att fånga. Frågan är om du gör det.
Det enda du förlorar när du inte fångar det är allt du redan säger.