Vad är Irodori-TTS? Guide om funktioner och användning

31 maj 2026

Vad är Irodori-TTS? Guide om funktioner och användning
dog

Vilken typ av AI-programvara för röstuppläsning är Irodori-TTS?

Det är förmodligen många som är nyfikna på den nya AI-röstprogramvaran "Irodori-TTS".

I den här artikeln förklarar vi Irodori-TTS egenskaper, vad den kan göra, viktiga punkter och hur man använder den på ett lättförståeligt sätt.

Dessutom, för de som känner att "installationen verkar svår", introducerar vi även en metod för talsyntes som kan användas direkt utan installation.

Detta får du veta i den här artikeln

  1. Vilken typ av programvara är Irodori-TTS?
  2. Vad du kan göra med Irodori-TTS och saker att tänka på
  3. Hur man använder Irodori-TTS (från installation till röstjustering)
  4. Rekommenderad metod när miljökonfigurationen är svår

Vad är Irodori-TTS? Förklaring av japansk AI-talsyntes

Vad är Irodori-TTS? Förklaring av japansk AI-talsyntes

Först och främst förklarar vi kortfattat egenskaperna hos AI-talsyntesprogramvaran Irodori-TTS.

Irodori-TTS är en AI-talsyntesmodell som körs lokalt

Irodori-TTS är en AI-talsyntesprogramvara specialiserad för japanska.

Utvecklaren är Aratako, och den är gratis tillgänglig som öppen källkod (MIT license).

Den största egenskapen är att den kan "köras lokalt", vilket innebär att röstsyntesen sker helt på din egen PC.

Eftersom all bearbetning för att generera rösten sker på din lokala PC, skickas varken text eller genererad röstdata till externa servrar.

Efter den första installationen kan du generera röster utan internetanslutning, och det finns ingen gräns för antalet genereringar.

Installationen kräver dock verktyg för programmering såsom Python och Git.

För att den ska köras snabbt rekommenderas dessutom en högpresterande PC utrustad med GPU (grafikkort).

Vad man kan och inte kan göra med Irodori-TTS

Vad man kan och inte kan göra med Irodori-TTS

Härnäst förklarar vi vad man kan och inte kan göra med Irodori-TTS.

Vad man kan göra med Irodori-TTS

Eftersom Irodori-TTS körs lokalt kan du generera röster obegränsat antal gånger.

Även i miljöer utan internetanslutning kan du fritt skapa röster när den första installationen är klar.

Det finns flera sätt att instruera vilken typ av röst som ska skapas, och genom att använda caption-funktionen kan du skapa den röstkvalitet du föredrar enbart med textinstruktioner.

Det är också möjligt att återskapa en befintlig röst genom röstkloning eller lägga till känslouttryck med emojis.

Eftersom den har MIT license är det även möjligt att använda den genererade rösten kommersiellt.

Viktiga punkter med Irodori-TTS

Å andra sidan finns det vissa saker man bör känna till innan man använder Irodori-TTS.

Rösten som skapas åt gången är begränsad till cirka 30 sekunder

Vid en enskild generering kan den läsa upp texter i upp till cirka 30 sekunder.

Om du vill läsa upp en lång text måste du dela upp texten och generera den i flera omgångar.

Svårt att få rösten och talstilen precis som man tänkt sig

Eftersom Irodori-TTS har en hög grad av frihet, finns det ingen standardröst (basröst) förinställd.

Därför kommer kön och ålder att ändras slumpmässigt vid varje generering om du inte anger caption eller referensröst.

Om du vill läsa upp med samma röst måste du ladda in en referensröst.

Dessutom finns det ingen funktion för att manuellt justera betoning eller intonation.

Stödjer endast japanska

Språket som stöds är endast japanska, och den stödjer inte främmande språk som engelska.

Man bör också vara uppmärksam på att felaktiga läsningar av kanji kan förekomma.

Högpresterande PC med GPU rekommenderas

Beroende på PC-specifikationerna kan det ta tid att generera rösten.

På en PC utan GPU kan det ta cirka en minut att generera även en kort text.

För CPU i ingångsklassen som Celeron eller N100 känns praktisk användning svår.

Hur man använder Irodori-TTS (Installationsflöde)

Här förklarar vi kortfattat hur man använder Irodori-TTS.

Det övergripande flödet för installationen är som följer:

  1. Installera nödvändig programvara
  2. Skapa en arbetsmapp
  3. Klona Irodori-TTS från GitHub
  4. Installera nödvändiga paket
  5. Starta Irodori-TTS
  6. Ladda AI-modell
  7. Läs upp text

1. Installera nödvändig programvara för Irodori-TTS

Förberedelser krävs för att installera Irodori-TTS.

Börja med att installera dessa tre typer:

  • Python 3.10 eller högre: Programmeringsspråk
  • Git: Versionshanteringssystem (behövs för att ladda ner Irodori-TTS)
  • uv: Pakethanterare för Python

För att installera Python, Git och uv, högerklicka först på startmenyn och klicka på "Terminal" (du behöver inte starta som administratör).

Klicka på Terminal

Då öppnas terminalfönstret (PowerShell).

Terminal (PowerShell)

Skriv in och kör följande kommandon i det här fönstret:

winget install --id Git.Git -e

winget install --id=astral-sh.uv -e

Kommando körs

Nu har du installerat det som behövs för att sätta upp Irodori-TTS.

*Eftersom Python hanteras av uv, installeras det automatiskt under installationen.

När installationen är klar, stäng terminalen (PowerShell) och öppna den igen (för att uppdatera Path).

2. Skapa en arbetsmapp

Därefter skapar du en arbetsmapp.

Här kommer Irodori-TTS att installeras.

I det här exemplet skapade vi en mapp med namnet "irodori-tts" direkt under C-enheten.

Skapa arbetsmapp

När mappen är skapad, förflytta dig till den mappen i terminalen.

cd C:\irodori-tts

Förflytta till arbetsmapp

3. Klona Irodori-TTS från GitHub

Skriv in följande kommando i terminalen för att klona Irodori-TTS-lagret från GitHub.

git clone https://github.com/Aratako/Irodori-TTS.git

Klona lagret från GitHub

Kloningen av lagret går snabbt och är klar på några sekunder.

Skriv in följande kommando för att gå in i den klonade mappen.

cd Irodori-TTS

Gå in i mappen

4. Installera nödvändiga paket

Skriv in och kör följande kommando för att installera de paket som krävs för att köra Irodori-TTS.

uv sync

Installera paket

Det tar tid eftersom en stor mängd paket ska laddas ner och installeras.

Skärm under paketinstallation

Själva Python installeras också här.

Vänta utan att stänga terminalfönstret medan nedladdning och installation pågår.

Eftersom filer på nästan 3 GB laddas ner rekommenderas det att installationen görs på en plats med bra internetuppkoppling.

5. Starta Irodori-TTS

När nedladdning och installation av paketen är klar är installationen färdig.

Starta Irodori-TTS.

Skriv in följande kommando, kör det och vänta en liten stund på uppstarten.

uv run python gradio_app.py --server-name 0.0.0.0 --server-port 7860

När det ser ut som följer i terminalen är uppstarten klar.

Skärm när uppstarten är klar

Running on local URL: http://0.0.0.0:7860

Öppna en webbläsare och gå till http://localhost:7860.

Då öppnas gränssnittet (WebUI) för Irodori-TTS.

Irodori-TTS WebUI

6. Ladda AI-modell

Klicka på "Load Model" för att ladda den AI-modell som ska användas för röstuppläsning.

Load Model

Första gången du använder den påbörjas nedladdningen av AI-modellen när du trycker på knappen.

När ett meddelande om att det är klart visas i Model Status (platsen inringad i rött i nästa bild), är laddningen av AI-modellen slutförd.

Model Status

7. Läsa upp text med Irodori-TTS

I Irodori-TTS kan du ge instruktioner om hur uppläsningen ska ske, inklusive känslouttryck, men låt oss börja med att läsa upp utan instruktioner som ett exempel.

Scrolla ner så ser du ett textfält där du kan skriva in den text du vill läsa upp.

Skriv in text

Denna gång provar vi att läsa upp "こんにちは、これはイロドリTTSで作成された音声です。" (Hej, detta är en röst skapad med Irodori-TTS).

(Eftersom den inte kunde läsa upp korrekt när det skrevs som "Irodori-TTS" med alfabetet, använde vi katakana "イロドリTTS")

Tryck på knappen "Generate" för att starta röstgenereringen.

Starta generering

Irodori-TTS använder din lokala PC:s CPU eller GPU (grafikkort) för att generera rösten.

Därför varierar tiden det tar för genereringen stort beroende på din PC:s prestanda.

Eftersom vi denna gång genererade på en bärbar PC utan GPU, tog det cirka 1 minut för en kort text.

Referens: Testgenerering utfördes i miljö med CPU: Ryzen 5 4650U, RAM: DDR4 32GB, Windows 11 Pro 24H2.

När genereringen är klar visas ljudvågsformen på detta sätt och du kan spela upp ljudet.

Generering klar

Exempel på uppläsning av "こんにちは、これはイロドリTTSで作成された音声です。"

Om ljudet låter bra, tryck på nedladdningsknappen (ikonen med pil nedåt) för att spara ljudfilen.

Ljudfilen sparas i WAV-format.

Nu har du lyckats syntetisera en röst med Irodori-TTS.

Hur man justerar rösten i Irodori-TTS

I Irodori-TTS kan du justera uttryck som kön och känslor på olika sätt.

Ange känslouttryck med emojis

Om du klickar på "Emoji Palette" under textfältet kan du välja emojis.

Emoji Palette

Varje emoji är tilldelad ett känslouttryck.

  • 😊 Glatt, lyckligt
  • 😭 Snyftande, gråtande röst
  • 😰 Stressat, upprört
  • ⏩ Snabbtal
  • 📖 Berättarröst, monolog

Genom att bara lägga till en emoji i textfältet kan du läsa upp texten med det angivna känslouttrycket.

Exempel på uppläsning av "😊 こんにちは、これはイロドリTTSで作成された音声です。"

Exempel på uppläsning av "📖 こんにちは、これはイロドリTTSで作成された音声です。"

Om du bara anger en emoji kan du dock inte specifikt ange kön eller ålder.

Ladda in en referensröst för att läsa upp med samma röst

I Irodori-TTS kan du ladda in en referensljudfil och låta den läsa upp med den rösten som referens.

Referensrösten laddas in där det står "Drop Audio Here - or - Click to Upload".

Ladda in referensröst

Förutom att kunna läsa upp med samma röst, kan du få en klarare ljudkvalitet jämfört med om inget anges.

Det är även möjligt att justera lässtilen direkt med caption-funktionen

I Irodori-TTS kan du även direkt ange i text hur rösten ska läsas upp.

För att använda caption-funktionen måste du starta "VoiceDesign-versionen", vilket innebär att kommandot för att starta Irodori-TTS i terminalen ändras.

uv run python gradio_app_voicedesign.py --server-name 0.0.0.0 --server-port 7861

Starta VoiceDesign-versionen

När du kör det här kommandot startar kontrollpanelen för VoiceDesign-versionen.

Eftersom VoiceDesign-versionen använder en annan AI-modell än standardversionen, måste du klicka på "Load Model" första gången du använder den för att ladda ner modellen separat från standardversionen.

AI-modellen är cirka 2 GB stor, så det rekommenderas att ladda ner den på en plats med bra internetuppkoppling.

I VoiceDesign-versionens kontrollpanel finns textrutan "Caption / Style Prompt (optional)".

Caption / Style Prompt (optional)

Här skriver du in en text om hur du vill att rösten ska låta.

  • Läs upp med en lugn kvinnoröst, med en nära och mjuk naturlig känsla.
  • Tala med en pigg mansröst, ljust och tydligt.
  • Läs sakligt som en nyhetsuppläsare med en mörk mansröst.

På så sätt kan du specificera vilken typ av röst som ska läsas upp.

Till exempel, när vi angav "Läs upp med en lugn kvinnoröst, med en nära och mjuk naturlig känsla." (skrivet på japanska i programmet), blev rösten så här:

Exempel där "落ち着いた女性の声で、近い距離感でやわらかく自然に読み上げてください。" angavs

Även här kunde vi få fram en röst med klar ljudkvalitet som var lätt att höra.

Men det finns en viktig punkt med caption-funktionen.

Caption-funktionen tar längre tid att generera rösten jämfört med andra metoder.

När vi genererade på den bärbara datorn denna gång, tog det cirka 5 minuter att generera denna korta text.

För att använda caption-funktionen rekommenderas en högpresterande PC med GPU.

Vad händer om man läser upp en engelsk text?

Irodori-TTS är en röstprogramvara som endast stödjer japanska.

Så vad händer om man försöker läsa upp en engelsk text?

Låt oss prova att skriva in en enkel exempelmening.

Exempel på uppläsning av "Hello, this is a voice recording created using Irodori-TTS."

Som synes blev "Hello" uttalat som katakana-"Haro", och delen "recording" fick ett uttal som var svårt att uppfatta, så den kunde inte läsas upp korrekt.

Om du vill läsa upp engelsk text rekommenderas det att använda en AI-rösttjänst som stödjer främmande språk.

Rekommenderad talsyntesmetod när "installationen är svår"

Efter att ha läst så här långt känner kanske vissa att installationen av Irodori-TTS verkar lite krånglig.

Om man inte är van vid terminalhantering eller att bygga Python-miljöer kan det ta tid bara att följa stegen.

Dessutom, om man inte har en PC med GPU, tar varje röstsyntes för lång tid, vilket gör det svårt att använda för ändamål som berättarröst till videor.

I sådana fall rekommenderas det att använda en AI-röst som varken kräver installation eller inställningar.

"Ondoku" – AI-röst som kan användas utan installation

Ondoku

När du vill göra talsyntes enkelt med den senaste AI:n rekommenderas AI-talsyntestjänsten Ondoku.

Ondoku är en AI-talsyntestjänst där du kan skapa röst genom att bara öppna webbläsaren och klistra in text.

Du kan skapa röster gratis direkt på PC, smartphone eller surfplatta.

Eftersom röstgenereringen sker i molnet (på serversidan) spelar det ingen roll om din PC saknar GPU.

Eftersom det redan finns flera röster förberedda, såsom mansröster, kvinnoröster och barnröster, kan du läsa upp direkt genom att bara välja, utan att behöva förbereda referensröster eller captions.

Långa texter kan också läsas upp precis som de är.

Dessutom stödjer Ondoku engelska!

Den stödjer många språk som franska, spanska, koreanska och kinesiska, så den kan även användas för uppläsning på andra språk än japanska.

Dessutom kan du uppleva ännu mer naturlig uppläsning med nästa generations AI-röst (OndokuBeta).

När du letar efter ett sätt att läsa upp text som ljud, varför inte prova Ondoku som är gratis och enkel att använda?

Jämförelse mellan skillnaderna hos Ondoku och Irodori-TTS

Slutligen jämför vi de främsta skillnaderna mellan Ondoku och Irodori-TTS.

👆 Du kan scrolla i sidled
KategoriOndokuIrodori-TTS
DriftsättMolnbaserat (hanteras i webbläsare)Lokalt (bearbetas på egen PC)
InstallationBehövs ejKräver miljökonfiguration av Python, Git etc.
SpråkstödÖver 35 språkEndast japanska
Val av röstVälj bara bland flera rösterAnge via röstkloning, caption, emoji
Maxgräns per genereringStödjer långa texterUpp till cirka 30 sekunder
Kommersiell användningMöjlig (kreditering krävs vid gratisanvändning)Möjlig (MIT license)
Enheter som stödsPC, smartphone, surfplattaPC (GPU rekommenderas)
PrisGratisplan finns (betalplan för fler tecken)Gratis (eftersom den körs lokalt)

Vid en jämförelse kan man säga att Ondoku lämpar sig för enkelhet och omedelbar användning, medan Irodori-TTS passar om du har en högpresterande PC och vill finjustera rösten i detalj.

För dig som vill ha röst direkt, behöver uppläsning på flera språk, eller vill använda den på smartphone eller surfplatta rekommenderas Ondoku.

Den passar även dig som vill läsa upp långa texter direkt, inte vill lägga tid på installation, eller inte har en PC med GPU.

Eftersom du kan generera högkvalitativ röst direkt genom att bara öppna webbläsaren, varför inte börja med att använda Ondoku gratis?

Sammanfattning av Irodori-TTS egenskaper, installation och användning

I den här artikeln har vi förklarat Irodori-TTS, en AI-talsyntesprogramvara för lokal drift specialiserad för japanska.

Irodori-TTS är ett attraktivt verktyg för dem som vill vara kräsna med röstuttryck, tack vare röstkloning, design av röstkvalitet med captions och känslokontroll med emojis.

Men installationsmetoden och användningen är för avancerade användare, och installationen kräver miljökonfiguration av Python och Git.

Dessutom tar röstgenereringen tid på en PC utan GPU.

För de som "vill använda talsyntes enkelt och direkt" rekommenderas Ondoku som kan användas enbart i webbläsaren.

Varför inte prova att skapa högkvalitativ röst med en gratis AI-talsyntes som är enkel att använda?

■ AI-talsyntesprogramvara "Ondoku"

"Ondoku" är ett online-text-till-tal-verktyg som kan användas utan initial kostnad.

  • Stöder cirka 50 språk inklusive japanska, engelska, kinesiska, koreanska, spanska, franska och tyska.
  • Finns både från PC och smartphone
  • Lämplig för affärer, utbildning, underhållning, etc.
  • Ingen installation krävs, kan användas direkt från din webbläsare
  • Stöder även läsning från bilder

För att använda det, skriv bara in text eller ladda upp en fil från webbplatsen. Generera naturliga ljudfiler på några sekunder. Du kan använda talsyntes för upp till 5 000 tecken gratis, så prova det först.

Text-till-tal-mjukvaran "Ondoku" kan läsa upp 5000 tecken varje månad med AI-röst gratis. Du kan enkelt ladda ner MP3-filer och kommersiell användning är också möjlig. Om du registrerar dig gratis kan du konvertera upp till 5 000 tecken per månad gratis från text till tal. Prova Ondoku nu.
HP: ondoku3.com
Email: ondoku3.com@gmail.com
Relaterad artikel

Textläsningsprogramvara Ondoku. Det är en text-till-tal-tjänst som kan användas gratis av alla utan installation. Om du registrerar dig gratis kan du få upp till 5000 tecken gratis varje månad. Registrera dig gratis nu