Irodori-TTS란? 기능, 주의사항, 사용법 완벽 해설

2026년 7월 28일

Irodori-TTS는 어떤 AI 음성 합성 소프트웨어인가요?

새로운 AI 음성 합성 소프트웨어 「Irodori-TTS」에 대해 궁금해하시는 분들이 많을 것입니다.

이 기사에서는 Irodori-TTS의 특징, 할 수 있는 일, 주의점, 사용법을 알기 쉽게 설명합니다.

또한 "설정이 어려워 보인다"고 느끼시는 분들을 위해 설치 없이 지금 바로 사용할 수 있는 음성 합성 방법도 소개합니다.

이 기사를 통해 알 수 있는 것

Irodori-TTS는 어떤 소프트웨어인가요?
Irodori-TTS로 할 수 있는 일과 주의점
Irodori-TTS 사용법 (설정부터 음성 조절까지)
환경 구축이 어려울 때 추천하는 방법

Irodori-TTS란? 일본어 AI 음성 합성 소프트웨어 해설

먼저 Irodori-TTS가 어떤 AI 음성 합성 소프트웨어인지 그 특징을 간단히 설명합니다.

Irodori-TTS는 로컬에서 동작하는 AI 음성 합성 모델

Irodori-TTS는 일본어에 특화된 AI 음성 합성 소프트웨어입니다.

개발자는 Aratako 님이며, 오픈 소스(MIT 라이선스)로 무료 공개되어 있습니다.

가장 큰 특징은 자신의 PC만으로 음성 합성이 완결되는 「로컬 동작」이 가능하다는 점입니다.

음성 생성 처리가 모두 수중의 PC에서 이루어지기 때문에, 텍스트나 생성된 음성 데이터가 외부 서버로 전송되지 않습니다.

초기 설정 후에는 인터넷 연결 없이도 음성을 생성할 수 있으며, 생성 횟수에도 제한이 없습니다.

단, 설정에는 Python이나 Git 같은 프로그래밍용 도구가 필요합니다.

또한, 고속으로 동작시키기 위해서는 GPU(그래픽 카드)를 탑재한 고성능 PC가 권장됩니다.

Irodori-TTS로 할 수 있는 일과 할 수 없는 일

다음으로 Irodori-TTS로 할 수 있는 일과 할 수 없는 일에 대해 설명합니다.

Irodori-TTS로 할 수 있는 일

Irodori-TTS는 로컬 환경에서 동작하므로 몇 번이라도 무제한으로 음성을 생성할 수 있습니다.

인터넷 회선이 없는 환경에서도 초기 설정이 끝나면 자유롭게 음성을 만들 수 있습니다.

어떤 음성을 만들지 지시하는 방법도 여러 가지가 준비되어 있으며, 캡션 기능을 사용하면 텍스트 지시만으로 자신이 원하는 목소리 톤을 만들어낼 수 있습니다.

또한 음성 클로닝으로 가지고 있는 목소리를 재현하거나, 이모티콘으로 감정 표현을 넣는 것도 가능합니다.

MIT 라이선스이므로 생성한 음성의 상업적 이용도 가능합니다.

Irodori-TTS의 주의점

반면 Irodori-TTS에는 사용하기 전에 알아두어야 할 주의점도 있습니다.

1회에 생성 가능한 음성은 약 30초까지

1회 생성으로 읽을 수 있는 분량은 약 30초까지입니다.

긴 문장을 읽게 하고 싶은 경우에는 문장을 나누어 여러 번 생성해야 합니다.

원하는 목소리나 말투로 만드는 것이 어려움

Irodori-TTS는 자유도가 높은 대신 기본 음성(베이스가 되는 음성)이 준비되어 있지 않습니다.

따라서 캡션이나 리퍼런스 음성을 지정하지 않으면 생성할 때마다 성별이나 연령이 랜덤하게 바뀝니다.

같은 목소리로 읽게 하려면 리퍼런스 음성을 불러와야 합니다.

또한 억양이나 인토네이션을 수동으로 조정하는 기능은 없습니다.

대응 언어는 일본어뿐

대응 언어는 일본어뿐이며, 영어 등의 외국어에는 대응하지 않습니다.

또한 한자 읽기 오류가 발생할 수도 있으므로 주의가 필요합니다.

GPU 탑재 하이스펙 PC 권장

PC 사양에 따라 음성 생성에 시간이 걸립니다.

GPU를 탑재하지 않은 PC에서는 짧은 문장이라도 생성에 1분 정도 소요됩니다.

Celeron이나 N100 같은 엔트리급 CPU로는 실사용이 어렵다고 느껴집니다.

Irodori-TTS를 사용하려면 (설정 흐름)

여기서부터는 Irodori-TTS의 사용법에 대해 간단히 설명합니다.

설정의 전체 흐름은 다음과 같습니다.

필요한 소프트웨어 설치
작업 폴더 생성
GitHub에서 Irodori-TTS 클론
필요한 패키지 설치
Irodori-TTS 실행
AI 모델 불러오기
텍스트 읽기

1. Irodori-TTS에 필요한 소프트웨어 설치

Irodori-TTS를 설정하려면 사전 준비가 필요합니다.

먼저 다음 3가지를 설치합니다.

Python 3.10 이상: 프로그래밍 언어
Git: 버전 관리 시스템 (Irodori-TTS를 다운로드하기 위해 필요)
uv: Python 패키지 관리자

Python, Git, uv를 설치하려면 먼저 시작 메뉴를 우클릭하고 「터미널」을 클릭합니다 (관리자 권한으로 실행할 필요는 없습니다).

그러면 터미널(PowerShell) 화면이 열립니다.

이 화면에서 다음 명령어를 입력하고 실행합니다.

winget install --id Git.Git -e
winget install --id=astral-sh.uv -e

이것으로 Irodori-TTS를 설정하는 데 필요한 것들이 설치되었습니다.

※Python은 uv가 관리하므로 설정 시 자동으로 설치됩니다.

설치한 후에는 한 번 터미널(PowerShell)을 닫고 다시 엽니다 (「패스 통과」를 위해).

2. 작업 폴더 생성

다음으로 작업 폴더를 만듭니다.

이곳에 Irodori-TTS가 설치됩니다.

이번에는 C 드라이브 바로 아래에 「irodori-tts」라는 이름의 폴더를 생성했습니다.

폴더를 만들었다면 터미널에서 해당 폴더로 이동합니다.

cd C:\irodori-tts

3. GitHub에서 Irodori-TTS 클론

터미널에서 다음 명령어를 입력하여 GitHub에서 Irodori-TTS 저장소를 클론합니다.

git clone https://github.com/Aratako/Irodori-TTS.git

저장소 클론은 몇 초 만에 끝납니다.

다음 명령어를 입력하여 클론한 저장소 폴더로 이동합니다.

cd Irodori-TTS

4. 필요한 패키지 설치

다음 명령어를 입력·실행하여 Irodori-TTS를 동작시키는 데 필요한 패키지를 설치합니다.

uv sync

대량의 패키지를 다운로드·설치하기 때문에 시간이 걸립니다.

Python 본체도 여기서 설치됩니다.

다운로드·설치되는 동안 터미널 화면을 닫지 말고 기다립니다.

3GB에 가까운 용량의 파일을 다운로드하므로 회선 상태가 좋은 곳에서 설정하는 것을 추천합니다.

5. Irodori-TTS 실행

패키지 다운로드와 설치가 끝나면 설정이 완료됩니다.

Irodori-TTS를 실행합니다.

다음 명령어를 입력하여 실행하고 실행될 때까지 잠시 기다립니다.

uv run python gradio_app.py --server-name 0.0.0.0 --server-port 7860

터미널에 다음과 같이 표시되면 실행 완료입니다.

Running on local URL: http://0.0.0.0:7860

웹 브라우저를 열고 http://localhost:7860 에 접속합니다.

이처럼 Irodori-TTS 화면(WebUI)이 열립니다.

6. AI 모델 불러오기

문장 읽기에 사용할 AI 모델을 불러오기 위해 「Load Model」을 클릭합니다.

처음 사용할 때는 이 버튼을 누르면 AI 모델 다운로드가 시작됩니다.

Model Status(다음 이미지에서 빨간색으로 표시된 부분)에 완료 메시지가 표시되면 AI 모델 로드가 완료된 것입니다.

7. Irodori-TTS로 텍스트 읽기

Irodori-TTS에서는 감정 표현을 비롯해 읽기 방식에 대한 지시를 내릴 수 있지만, 우선 예시로서 지시 없이 읽어보겠습니다.

아래로 스크롤하면 텍스트 입력란이 있으니 읽고 싶은 문장을 입력합니다.

이번에는 「こんにちは、これはイロドリTTSで作成された音声です。(안녕하세요, 이것은 이로도리 TTS로 작성된 음성입니다.)」를 읽어보겠습니다.

(「Irodori-TTS」라고 알파벳으로 쓰면 올바르게 읽지 못하는 경우가 있어, 카타카나로 「イロドリTTS」라고 했습니다)

「Generate」 버튼을 누르면 음성 생성이 시작됩니다.

Irodori-TTS는 사용 중인 PC의 CPU나 GPU(그래픽 카드)를 사용하여 음성을 생성합니다.

따라서 PC 성능에 따라 생성에 걸리는 시간이 크게 달라집니다.

이번에는 GPU가 탑재되지 않은 노트북에서 생성했기 때문에 짧은 문장이지만 생성에 1분 정도 걸렸습니다.

참고: CPU: Ryzen 5 4650U 메모리: DDR4 32GB Windows 11 Pro 24H2 환경에서 테스트 생성했습니다.

생성이 끝나면 이처럼 음성 파형이 표시되어 음성을 재생할 수 있게 됩니다.

「안녕하세요, 이것은 이로도리 TTS로 작성된 음성입니다.」를 읽은 예시

들어보고 문제가 없다면 다운로드 버튼(아래쪽 화살표 아이콘)을 눌러 음성 파일을 저장합니다.

음성 파일은 WAV 형식으로 저장됩니다.

이것으로 Irodori-TTS를 사용하여 음성을 합성할 수 있었습니다.

Irodori-TTS의 음성을 조정하는 방법

Irodori-TTS에서는 다양한 방법으로 성별이나 감정 등의 표현을 조정할 수 있습니다.

이모티콘으로 감정 표현 지정

텍스트 입력란 아래에 있는 「Emoji Palette」를 클릭하면 이모티콘을 선택할 수 있습니다.

이모티콘에는 각각 감정 표현이 할당되어 있습니다.

😊 즐거운 듯이, 기쁜 듯이
😭 오열, 울음소리
😰 서둘러서, 동요
⏩ 빠른 말투
📖 나레이션, 독백

텍스트 입력란에 이모티콘을 넣는 것만으로 지정한 감정 표현으로 읽게 할 수 있습니다.

「😊 안녕하세요, 이것은 이로도리 TTS로 작성된 음성입니다.」를 읽은 예시

「📖 안녕하세요, 이것은 이로도리 TTS로 작성된 음성입니다.」를 읽은 예시

단, 이모티콘을 지정한 것만으로는 성별이나 연령을 구체적으로 지정할 수 없습니다.

리퍼런스 음성을 불러와서 같은 목소리로 읽기

Irodori-TTS에서는 리퍼런스 음성 파일을 불러와서 그 목소리를 참고하여 읽게 할 수 있습니다.

리퍼런스 음성은 「음성을 여기에 드롭 - 또는 - 클릭하여 업로드」라고 적힌 부분에서 불러옵니다.

같은 목소리로 읽을 수 있을 뿐만 아니라, 아무것도 지정하지 않았을 때와 비교해 깨끗한 음질로 읽을 수 있습니다.

캡션 기능으로 직접 읽기 스타일을 조정하는 것도 가능

Irodori-TTS에서는 어떤 음성으로 읽을지를 텍스트로 직접 지정할 수도 있습니다.

캡션 기능을 사용하는 경우 「VoiceDesign판」을 실행해야 하며, Irodori-TTS를 터미널에서 실행하는 명령어가 달라집니다.

uv run python gradio_app_voicedesign.py --server-name 0.0.0.0 --server-port 7861

이 명령어를 실행하면 VoiceDesign판 조작 화면이 실행됩니다.

VoiceDesign판에서는 표준판과는 다른 AI 모델을 사용하기 때문에, 처음 사용할 때는 「Load Model」을 클릭하여 표준판과는 별도로 모델을 다운로드해야 합니다.

AI 모델 용량이 2GB 정도 되므로 회선 상태가 좋은 곳에서 다운로드하는 것을 추천합니다.

VoiceDesign판 조작 화면에는 「Caption / Style Prompt (optional)」 텍스트 박스가 있습니다.

여기에 어떤 목소리로 읽어주길 원하는지 문장으로 입력합니다.

차분한 여성의 목소리로, 가까운 거리감에서 부드럽고 자연스럽게 읽어주세요.
활기찬 남성의 목소리로, 밝고 또박또박 이야기해주세요.
낮은 남성의 목소리로, 뉴스 캐스터처럼 담담하게 읽어주세요.

이처럼 어떤 음성으로 읽을지 지정할 수 있습니다.

예를 들어 「차분한 여성의 목소리로, 가까운 거리감에서 부드럽고 자연스럽게 읽어주세요.」라고 지정하여 읽으면 다음과 같은 음성이 됩니다.

「차분한 여성의 목소리로, 가까운 거리감에서 부드럽고 자연스럽게 읽어주세요.」를 지정한 예시

이 또한 깨끗한 음질로 듣기 좋은 음성을 생성할 수 있었습니다.

단, 캡션 기능에는 주의점이 있습니다.

캡션 기능은 다른 읽기 방법에 비해 음성 생성에 시간이 더 걸립니다.

이번에 노트북에서 생성했을 때, 이 짧은 문장을 생성하는 데 약 5분이 걸렸습니다.

캡션 기능을 사용할 때는 GPU를 탑재한 하이스펙 PC를 추천합니다.

영어 텍스트를 읽으면 어떻게 되나요?

Irodori-TTS는 일본어에만 대응하는 음성 합성 소프트웨어입니다.

그렇다면 영어 텍스트를 읽게 하면 어떻게 될까요?

시험 삼아 간단한 예문을 입력해 보겠습니다.

「Hello, this is a voice recording created using Irodori-TTS.」를 읽은 예시

이처럼 Hello가 「하로-」 같은 카타카나 발음이 되거나, recording 부분이 제대로 들리지 않는 발음이 되는 등 올바르게 읽지 못했습니다.

영어 텍스트를 읽게 하고 싶을 때는 외국어에 대응하는 AI 음성 서비스를 사용하는 것을 추천합니다.

「설정이 어렵다」고 느낄 때 추천하는 음성 합성 방법

여기까지 읽고 Irodori-TTS의 설정이 조금 힘들겠다고 느끼신 분들도 계실 것입니다.

터미널 조작이나 Python 환경 구축에 익숙하지 않으면 절차대로 진행하는 것만으로도 시간이 많이 걸립니다.

또한 GPU가 탑재된 PC를 가지고 있지 않으면 1회 음성 합성에 시간이 너무 많이 걸려 영상 나레이션 등의 용도로 사용하기는 어렵습니다.

그럴 때 추천하는 것이 설치도 설정도 필요 없는 AI 음성을 사용하는 것입니다.

『Ondoku』 설치 없이 바로 사용할 수 있는 AI 음성

최신 AI로 간편하게 음성 합성하고 싶을 때 추천하는 것이 AI 음성 합성 서비스 『Ondoku』입니다.

『Ondoku』는 브라우저를 열고 텍스트를 붙여넣기만 하면 음성을 만들 수 있는 AI 음성 합성 서비스입니다.

PC, 스마트폰, 태블릿에서 지금 바로 음성을 무료로 만들 수 있습니다.

음성 생성은 클라우드(서버 측)에서 이루어지기 때문에 PC에 GPU가 탑재되어 있지 않아도 문제없습니다.

남성, 여성, 아이 목소리 등 처음부터 여러 목소리가 준비되어 있어 리퍼런스 음성이나 캡션을 준비하지 않아도 선택하기만 하면 바로 읽어줍니다.

장문도 그대로 읽기 가능합니다.

게다가 Ondoku는 영어에도 대응!

프랑스어, 스페인어, 한국어, 중국어 등 다국어에 대응하고 있어 일본어 이외의 읽기에도 사용할 수 있습니다.

또한 차세대 AI 음성(OndokuBeta)으로 더욱 자연스러운 낭독을 경험해 볼 수 있습니다.

텍스트를 음성으로 읽어주는 방법을 찾고 계신다면 무료로 간편하게 사용할 수 있는 『Ondoku』를 체험해 보시는 건 어떨까요?

지금 바로 Ondoku 사용해보기

Ondoku와 Irodori-TTS 차이 비교

마지막으로 Ondoku와 Irodori-TTS의 주요 차이점을 비교합니다.

👆 옆으로 스크롤할 수 있습니다

항목	Ondoku	Irodori-TTS
동작 방식	클라우드 (브라우저에서 조작)	로컬 (자신의 PC에서 처리)
설정	불필요	Python·Git 등의 환경 구축 필요
대응 언어	35개 언어 이상	일본어만
음성 선택 방법	여러 목소리 중 선택	음성 클로닝·캡션·이모티콘으로 지정
1회 생성 한도	장문 대응 가능	약 30초까지
상업적 이용	가능 (무료 이용 시 출처 표기 필요)	가능 (MIT 라이선스)
대응 기기	PC·스마트폰·태블릿	PC (GPU 권장)
요금	무료 플랜 있음 (유료 플랜으로 글자 수 확대)	무료 (로컬 동작 방식이므로)

비교해보면, 간편함과 즉시 사용할 수 있는 점에서는 Ondoku, 고성능 PC를 가지고 있고 음성을 세밀하게 만들고 싶은 경우에는 Irodori-TTS와 같이 용도에 맞게 선택할 수 있습니다.

지금 바로 음성이 필요한 분, 다국어 낭독이 필요한 분, 스마트폰이나 태블릿에서 사용하고 싶은 분에게는 Ondoku를 추천합니다.

긴 문장을 그대로 읽고 싶은 분이나 설정에 시간을 들이고 싶지 않은 분, PC에 GPU가 탑재되어 있지 않은 분에게도 적합합니다.

브라우저를 여는 것만으로 바로 고품질의 음성을 생성할 수 있으니, 우선 Ondoku를 무료로 사용해 보시는 건 어떨까요?

지금 바로 Ondoku 사용해보기

Irodori-TTS의 특징·설정·사용법 요약

이 기사에서는 일본어에 특화된 로컬 동작 AI 음성 합성 소프트웨어 Irodori-TTS에 대해 설명했습니다.

Irodori-TTS는 음성 클로닝이나 캡션을 통한 목소리 톤 디자인, 이모티콘을 통한 감정 제어 등 음성 표현에 공을 들이고 싶은 분들에게 매력적인 도구입니다.

단, 설정 방법과 사용법은 상급자용이며, 설정에는 Python이나 Git 환경 구축이 필요합니다.

또한 GPU가 없는 PC에서는 음성 생성에 시간이 걸립니다.

「지금 바로 간편하게 음성 합성을 사용하고 싶다」는 분들에게는 브라우저만으로 사용할 수 있는 『Ondoku』를 추천합니다.

간편하게 사용할 수 있는 무료 AI 음성 합성으로 당신도 고품질 음성을 만들어 보시는 건 어떨까요?

■ AI 음성 합성 소프트웨어 「Ondoku」

Ondoku는 초기 비용 0으로 사용할 수 있는 온라인 텍스트 음성 변환 도구입니다.

일본어, 영어, 중국어, 한국어, 스페인어, 프랑스어, 독일어 등 약 50개 언어에 대응
PC·스마트폰 어느쪽에서도 이용 가능
비즈니스·교육·엔터테인먼트 등의 용도에 대응
설치가 필요없고 브라우저에서 즉시 사용 가능
화상으로부터의 독해에도 대응

이용 방법은 사이트에서 텍스트를 입력하거나 파일을 업로드할 뿐. 몇 초 안에 자연스러운 오디오 파일이 생성됩니다. 5,000자까지의 음성 합성이라면 무료로 이용할 수 있으므로, 우선은 한번 시험해 주세요.

문장 독서 소프트웨어 "Ondoku"는 무료로 매월 5000자를 AI 음성으로 읽을 수 있습니다. MP3를 쉽게 다운로드할 수 있어 상용 이용도 가능합니다. 무료 등록을 하면 매월 5000자까지 무료로 텍스트를 음성으로 변환할 수 있습니다. 지금 Ondoku를 사용해보십시오.

HP: ondoku3.com
Email: ondoku3.com@gmail.com

←이전 기사 |