Vad är Irodori-TTS? Guide om funktioner och användning
31 maj 2026

Vilken typ av AI-programvara för röstuppläsning är Irodori-TTS?
Det är förmodligen många som är nyfikna på den nya AI-röstprogramvaran "Irodori-TTS".
I den här artikeln förklarar vi Irodori-TTS egenskaper, vad den kan göra, viktiga punkter och hur man använder den på ett lättförståeligt sätt.
Dessutom, för de som känner att "installationen verkar svår", introducerar vi även en metod för talsyntes som kan användas direkt utan installation.
Detta får du veta i den här artikeln
- Vilken typ av programvara är Irodori-TTS?
- Vad du kan göra med Irodori-TTS och saker att tänka på
- Hur man använder Irodori-TTS (från installation till röstjustering)
- Rekommenderad metod när miljökonfigurationen är svår
Vad är Irodori-TTS? Förklaring av japansk AI-talsyntes

Först och främst förklarar vi kortfattat egenskaperna hos AI-talsyntesprogramvaran Irodori-TTS.
Irodori-TTS är en AI-talsyntesmodell som körs lokalt
Irodori-TTS är en AI-talsyntesprogramvara specialiserad för japanska.
Utvecklaren är Aratako, och den är gratis tillgänglig som öppen källkod (MIT license).
Den största egenskapen är att den kan "köras lokalt", vilket innebär att röstsyntesen sker helt på din egen PC.
Eftersom all bearbetning för att generera rösten sker på din lokala PC, skickas varken text eller genererad röstdata till externa servrar.
Efter den första installationen kan du generera röster utan internetanslutning, och det finns ingen gräns för antalet genereringar.
Installationen kräver dock verktyg för programmering såsom Python och Git.
För att den ska köras snabbt rekommenderas dessutom en högpresterande PC utrustad med GPU (grafikkort).
Vad man kan och inte kan göra med Irodori-TTS

Härnäst förklarar vi vad man kan och inte kan göra med Irodori-TTS.
Vad man kan göra med Irodori-TTS
Eftersom Irodori-TTS körs lokalt kan du generera röster obegränsat antal gånger.
Även i miljöer utan internetanslutning kan du fritt skapa röster när den första installationen är klar.
Det finns flera sätt att instruera vilken typ av röst som ska skapas, och genom att använda caption-funktionen kan du skapa den röstkvalitet du föredrar enbart med textinstruktioner.
Det är också möjligt att återskapa en befintlig röst genom röstkloning eller lägga till känslouttryck med emojis.
Eftersom den har MIT license är det även möjligt att använda den genererade rösten kommersiellt.
Viktiga punkter med Irodori-TTS
Å andra sidan finns det vissa saker man bör känna till innan man använder Irodori-TTS.
Rösten som skapas åt gången är begränsad till cirka 30 sekunder
Vid en enskild generering kan den läsa upp texter i upp till cirka 30 sekunder.
Om du vill läsa upp en lång text måste du dela upp texten och generera den i flera omgångar.
Svårt att få rösten och talstilen precis som man tänkt sig
Eftersom Irodori-TTS har en hög grad av frihet, finns det ingen standardröst (basröst) förinställd.
Därför kommer kön och ålder att ändras slumpmässigt vid varje generering om du inte anger caption eller referensröst.
Om du vill läsa upp med samma röst måste du ladda in en referensröst.
Dessutom finns det ingen funktion för att manuellt justera betoning eller intonation.
Stödjer endast japanska
Språket som stöds är endast japanska, och den stödjer inte främmande språk som engelska.
Man bör också vara uppmärksam på att felaktiga läsningar av kanji kan förekomma.
Högpresterande PC med GPU rekommenderas
Beroende på PC-specifikationerna kan det ta tid att generera rösten.
På en PC utan GPU kan det ta cirka en minut att generera även en kort text.
För CPU i ingångsklassen som Celeron eller N100 känns praktisk användning svår.
Hur man använder Irodori-TTS (Installationsflöde)
Här förklarar vi kortfattat hur man använder Irodori-TTS.
Det övergripande flödet för installationen är som följer:
- Installera nödvändig programvara
- Skapa en arbetsmapp
- Klona Irodori-TTS från GitHub
- Installera nödvändiga paket
- Starta Irodori-TTS
- Ladda AI-modell
- Läs upp text
1. Installera nödvändig programvara för Irodori-TTS
Förberedelser krävs för att installera Irodori-TTS.
Börja med att installera dessa tre typer:
- Python 3.10 eller högre: Programmeringsspråk
- Git: Versionshanteringssystem (behövs för att ladda ner Irodori-TTS)
- uv: Pakethanterare för Python
För att installera Python, Git och uv, högerklicka först på startmenyn och klicka på "Terminal" (du behöver inte starta som administratör).

Då öppnas terminalfönstret (PowerShell).

Skriv in och kör följande kommandon i det här fönstret:
winget install --id Git.Git -e
winget install --id=astral-sh.uv -e

Nu har du installerat det som behövs för att sätta upp Irodori-TTS.
*Eftersom Python hanteras av uv, installeras det automatiskt under installationen.
När installationen är klar, stäng terminalen (PowerShell) och öppna den igen (för att uppdatera Path).
2. Skapa en arbetsmapp
Därefter skapar du en arbetsmapp.
Här kommer Irodori-TTS att installeras.
I det här exemplet skapade vi en mapp med namnet "irodori-tts" direkt under C-enheten.

När mappen är skapad, förflytta dig till den mappen i terminalen.
cd C:\irodori-tts

3. Klona Irodori-TTS från GitHub
Skriv in följande kommando i terminalen för att klona Irodori-TTS-lagret från GitHub.
git clone https://github.com/Aratako/Irodori-TTS.git

Kloningen av lagret går snabbt och är klar på några sekunder.
Skriv in följande kommando för att gå in i den klonade mappen.
cd Irodori-TTS

4. Installera nödvändiga paket
Skriv in och kör följande kommando för att installera de paket som krävs för att köra Irodori-TTS.
uv sync

Det tar tid eftersom en stor mängd paket ska laddas ner och installeras.

Själva Python installeras också här.
Vänta utan att stänga terminalfönstret medan nedladdning och installation pågår.
Eftersom filer på nästan 3 GB laddas ner rekommenderas det att installationen görs på en plats med bra internetuppkoppling.
5. Starta Irodori-TTS
När nedladdning och installation av paketen är klar är installationen färdig.
Starta Irodori-TTS.
Skriv in följande kommando, kör det och vänta en liten stund på uppstarten.
uv run python gradio_app.py --server-name 0.0.0.0 --server-port 7860
När det ser ut som följer i terminalen är uppstarten klar.

Running on local URL: http://0.0.0.0:7860
Öppna en webbläsare och gå till http://localhost:7860.
Då öppnas gränssnittet (WebUI) för Irodori-TTS.

6. Ladda AI-modell
Klicka på "Load Model" för att ladda den AI-modell som ska användas för röstuppläsning.

Första gången du använder den påbörjas nedladdningen av AI-modellen när du trycker på knappen.
När ett meddelande om att det är klart visas i Model Status (platsen inringad i rött i nästa bild), är laddningen av AI-modellen slutförd.

7. Läsa upp text med Irodori-TTS
I Irodori-TTS kan du ge instruktioner om hur uppläsningen ska ske, inklusive känslouttryck, men låt oss börja med att läsa upp utan instruktioner som ett exempel.
Scrolla ner så ser du ett textfält där du kan skriva in den text du vill läsa upp.

Denna gång provar vi att läsa upp "こんにちは、これはイロドリTTSで作成された音声です。" (Hej, detta är en röst skapad med Irodori-TTS).
(Eftersom den inte kunde läsa upp korrekt när det skrevs som "Irodori-TTS" med alfabetet, använde vi katakana "イロドリTTS")
Tryck på knappen "Generate" för att starta röstgenereringen.

Irodori-TTS använder din lokala PC:s CPU eller GPU (grafikkort) för att generera rösten.
Därför varierar tiden det tar för genereringen stort beroende på din PC:s prestanda.
Eftersom vi denna gång genererade på en bärbar PC utan GPU, tog det cirka 1 minut för en kort text.
Referens: Testgenerering utfördes i miljö med CPU: Ryzen 5 4650U, RAM: DDR4 32GB, Windows 11 Pro 24H2.
När genereringen är klar visas ljudvågsformen på detta sätt och du kan spela upp ljudet.

Exempel på uppläsning av "こんにちは、これはイロドリTTSで作成された音声です。"
Om ljudet låter bra, tryck på nedladdningsknappen (ikonen med pil nedåt) för att spara ljudfilen.
Ljudfilen sparas i WAV-format.
Nu har du lyckats syntetisera en röst med Irodori-TTS.
Hur man justerar rösten i Irodori-TTS
I Irodori-TTS kan du justera uttryck som kön och känslor på olika sätt.
Ange känslouttryck med emojis
Om du klickar på "Emoji Palette" under textfältet kan du välja emojis.

Varje emoji är tilldelad ett känslouttryck.
- 😊 Glatt, lyckligt
- 😭 Snyftande, gråtande röst
- 😰 Stressat, upprört
- ⏩ Snabbtal
- 📖 Berättarröst, monolog
Genom att bara lägga till en emoji i textfältet kan du läsa upp texten med det angivna känslouttrycket.
Exempel på uppläsning av "😊 こんにちは、これはイロドリTTSで作成された音声です。"
Exempel på uppläsning av "📖 こんにちは、これはイロドリTTSで作成された音声です。"
Om du bara anger en emoji kan du dock inte specifikt ange kön eller ålder.
Ladda in en referensröst för att läsa upp med samma röst
I Irodori-TTS kan du ladda in en referensljudfil och låta den läsa upp med den rösten som referens.
Referensrösten laddas in där det står "Drop Audio Here - or - Click to Upload".

Förutom att kunna läsa upp med samma röst, kan du få en klarare ljudkvalitet jämfört med om inget anges.
Det är även möjligt att justera lässtilen direkt med caption-funktionen
I Irodori-TTS kan du även direkt ange i text hur rösten ska läsas upp.
För att använda caption-funktionen måste du starta "VoiceDesign-versionen", vilket innebär att kommandot för att starta Irodori-TTS i terminalen ändras.
uv run python gradio_app_voicedesign.py --server-name 0.0.0.0 --server-port 7861

När du kör det här kommandot startar kontrollpanelen för VoiceDesign-versionen.
Eftersom VoiceDesign-versionen använder en annan AI-modell än standardversionen, måste du klicka på "Load Model" första gången du använder den för att ladda ner modellen separat från standardversionen.
AI-modellen är cirka 2 GB stor, så det rekommenderas att ladda ner den på en plats med bra internetuppkoppling.
I VoiceDesign-versionens kontrollpanel finns textrutan "Caption / Style Prompt (optional)".

Här skriver du in en text om hur du vill att rösten ska låta.
- Läs upp med en lugn kvinnoröst, med en nära och mjuk naturlig känsla.
- Tala med en pigg mansröst, ljust och tydligt.
- Läs sakligt som en nyhetsuppläsare med en mörk mansröst.
På så sätt kan du specificera vilken typ av röst som ska läsas upp.
Till exempel, när vi angav "Läs upp med en lugn kvinnoröst, med en nära och mjuk naturlig känsla." (skrivet på japanska i programmet), blev rösten så här:
Exempel där "落ち着いた女性の声で、近い距離感でやわらかく自然に読み上げてください。" angavs
Även här kunde vi få fram en röst med klar ljudkvalitet som var lätt att höra.
Men det finns en viktig punkt med caption-funktionen.
Caption-funktionen tar längre tid att generera rösten jämfört med andra metoder.
När vi genererade på den bärbara datorn denna gång, tog det cirka 5 minuter att generera denna korta text.
För att använda caption-funktionen rekommenderas en högpresterande PC med GPU.
Vad händer om man läser upp en engelsk text?
Irodori-TTS är en röstprogramvara som endast stödjer japanska.
Så vad händer om man försöker läsa upp en engelsk text?
Låt oss prova att skriva in en enkel exempelmening.
Exempel på uppläsning av "Hello, this is a voice recording created using Irodori-TTS."
Som synes blev "Hello" uttalat som katakana-"Haro", och delen "recording" fick ett uttal som var svårt att uppfatta, så den kunde inte läsas upp korrekt.
Om du vill läsa upp engelsk text rekommenderas det att använda en AI-rösttjänst som stödjer främmande språk.
Rekommenderad talsyntesmetod när "installationen är svår"
Efter att ha läst så här långt känner kanske vissa att installationen av Irodori-TTS verkar lite krånglig.
Om man inte är van vid terminalhantering eller att bygga Python-miljöer kan det ta tid bara att följa stegen.
Dessutom, om man inte har en PC med GPU, tar varje röstsyntes för lång tid, vilket gör det svårt att använda för ändamål som berättarröst till videor.
I sådana fall rekommenderas det att använda en AI-röst som varken kräver installation eller inställningar.
"Ondoku" – AI-röst som kan användas utan installation

När du vill göra talsyntes enkelt med den senaste AI:n rekommenderas AI-talsyntestjänsten Ondoku.
Ondoku är en AI-talsyntestjänst där du kan skapa röst genom att bara öppna webbläsaren och klistra in text.
Du kan skapa röster gratis direkt på PC, smartphone eller surfplatta.
Eftersom röstgenereringen sker i molnet (på serversidan) spelar det ingen roll om din PC saknar GPU.
Eftersom det redan finns flera röster förberedda, såsom mansröster, kvinnoröster och barnröster, kan du läsa upp direkt genom att bara välja, utan att behöva förbereda referensröster eller captions.
Långa texter kan också läsas upp precis som de är.
Dessutom stödjer Ondoku engelska!
Den stödjer många språk som franska, spanska, koreanska och kinesiska, så den kan även användas för uppläsning på andra språk än japanska.
Dessutom kan du uppleva ännu mer naturlig uppläsning med nästa generations AI-röst (OndokuBeta).
När du letar efter ett sätt att läsa upp text som ljud, varför inte prova Ondoku som är gratis och enkel att använda?
Jämförelse mellan skillnaderna hos Ondoku och Irodori-TTS
Slutligen jämför vi de främsta skillnaderna mellan Ondoku och Irodori-TTS.
| Kategori | Ondoku | Irodori-TTS |
|---|---|---|
| Driftsätt | Molnbaserat (hanteras i webbläsare) | Lokalt (bearbetas på egen PC) |
| Installation | Behövs ej | Kräver miljökonfiguration av Python, Git etc. |
| Språkstöd | Över 35 språk | Endast japanska |
| Val av röst | Välj bara bland flera röster | Ange via röstkloning, caption, emoji |
| Maxgräns per generering | Stödjer långa texter | Upp till cirka 30 sekunder |
| Kommersiell användning | Möjlig (kreditering krävs vid gratisanvändning) | Möjlig (MIT license) |
| Enheter som stöds | PC, smartphone, surfplatta | PC (GPU rekommenderas) |
| Pris | Gratisplan finns (betalplan för fler tecken) | Gratis (eftersom den körs lokalt) |
Vid en jämförelse kan man säga att Ondoku lämpar sig för enkelhet och omedelbar användning, medan Irodori-TTS passar om du har en högpresterande PC och vill finjustera rösten i detalj.
För dig som vill ha röst direkt, behöver uppläsning på flera språk, eller vill använda den på smartphone eller surfplatta rekommenderas Ondoku.
Den passar även dig som vill läsa upp långa texter direkt, inte vill lägga tid på installation, eller inte har en PC med GPU.
Eftersom du kan generera högkvalitativ röst direkt genom att bara öppna webbläsaren, varför inte börja med att använda Ondoku gratis?
Sammanfattning av Irodori-TTS egenskaper, installation och användning
I den här artikeln har vi förklarat Irodori-TTS, en AI-talsyntesprogramvara för lokal drift specialiserad för japanska.
Irodori-TTS är ett attraktivt verktyg för dem som vill vara kräsna med röstuttryck, tack vare röstkloning, design av röstkvalitet med captions och känslokontroll med emojis.
Men installationsmetoden och användningen är för avancerade användare, och installationen kräver miljökonfiguration av Python och Git.
Dessutom tar röstgenereringen tid på en PC utan GPU.
För de som "vill använda talsyntes enkelt och direkt" rekommenderas Ondoku som kan användas enbart i webbläsaren.
Varför inte prova att skapa högkvalitativ röst med en gratis AI-talsyntes som är enkel att använda?
■ AI-talsyntesprogramvara "Ondoku"
"Ondoku" är ett online-text-till-tal-verktyg som kan användas utan initial kostnad.
- Stöder cirka 50 språk inklusive japanska, engelska, kinesiska, koreanska, spanska, franska och tyska.
- Finns både från PC och smartphone
- Lämplig för affärer, utbildning, underhållning, etc.
- Ingen installation krävs, kan användas direkt från din webbläsare
- Stöder även läsning från bilder
För att använda det, skriv bara in text eller ladda upp en fil från webbplatsen. Generera naturliga ljudfiler på några sekunder. Du kan använda talsyntes för upp till 5 000 tecken gratis, så prova det först.
Email: ondoku3.com@gmail.com
Textläsningsprogramvara Ondoku. Det är en text-till-tal-tjänst som kan användas gratis av alla utan installation. Om du registrerar dig gratis kan du få upp till 5000 tecken gratis varje månad. Registrera dig gratis nu
- Vad är Ondoku?
- Läs texten på Ondoku
- Gratis registrering
- Betygsätt plan
- Lista över artiklar
- Prova även andra gratistjänster