블로그

AI 텍스트 강화: 날 것의 음성에서 완성된 텍스트로

원본 전사만으로는 부족한 이유

생각을 소리 내어 말하면 "음", "어", "그러니까", "아 그게" 같은 모든 말이 그대로 기록된다고 상상해 보십시오. 그것이 원본 음성 전사입니다. Whisper 모델 — 현재 가장 정확한 모델 중 하나 — 은 사용자가 원하지 않는 모든 것을 포함하여 말한 내용을 충실하게 기록합니다.

그 생각을 이메일이나 문서에 작성한다면 완전히 달라질 것입니다. 더 나은 구두점. 군더더기 제거. 적절한 구조. 전문적인 문체.

AI 텍스트 강화는 그 두 버전 사이의 간극을 메웁니다.

음성과 텍스트 사이에서 일어나는 일

AI 강화가 포함된 음성 인식 파이프라인은 두 가지 단계로 이루어집니다.

1단계: 전사. 음성이 음성 인식 모델에 의해 처리됩니다 — Telvr의 경우 Whisper large-v3입니다. 오디오 파형이 높은 정확도로 텍스트로 변환됩니다. 출력은 원본 전사본입니다. 즉, 구어의 자연스러운 불완전함을 포함하여 말한 내용 그대로입니다.

2단계: 강화. 원본 전사본이 특정 작업을 기술한 프롬프트와 함께 언어 모델에 전달됩니다. 언어 모델은 전사본을 서식이 갖춰진 출력으로 변환합니다 — 군더더기를 제거하고, 문장을 재구성하고, 서식 규칙을 적용하고, 목적 맥락에 맞게 문체를 조정합니다.

강화 단계는 단순히 "음"과 "어"를 찾아서 바꾸는 것이 아닙니다. 진정한 언어 이해를 적용하여 사려 깊은 사람이 쓴 것처럼 읽히는 출력을 생성합니다.

6가지 강화 모드 상세 설명

원본 전사

가장 단순한 모드입니다. 최소한의 후처리를 적용하여 Whisper가 생성하는 것에 가까운 출력을 제공합니다. 무언가를 인용하거나, 정확한 표현을 기록하거나, 특정 문구를 보존하고 싶을 때 유용합니다.

입력: "어 그 주요 문제는 어 어제 오후 두시쯤부터 결제 엔드포인트에서 정상보다 세 배 높은 오류율이 나타나고 있다는 겁니다"

출력: "주요 문제는 어제 오후 2시경부터 결제 엔드포인트에서 정상보다 세 배 높은 오류율이 나타나고 있다는 점입니다."

원본 모드에서도 기본적인 정리(대문자화, 숫자 서식 통일)는 적용됩니다.

정리 및 교정

일상적으로 가장 많이 사용하는 모드입니다. 군더더기(음, 어, 그러니까, 있잖아)를 제거하고, 문법을 교정하고, 적절한 구두점을 추가하여 신중하게 타이핑한 것처럼 읽히는 깔끔한 문장을 만들어 냅니다. 대부분의 일반적인 텍스트(Slack 메시지, 일상적인 이메일, 메모, 문서)에 적합한 기본 설정입니다.

입력: "그러니까 기본적으로 제가 말하려는 건 인증 처리에 대한 현재 접근 방식이 음 규모가 커지면 문제를 일으킬 거라는 건데 왜냐면 우리가 있잖아 세션 테이블을 사용하고 있어서 그게 어 병목이 될 거거든요"

출력: "인증 처리에 대한 현재 접근 방식은 규모가 커지면 문제를 일으킬 것입니다. 현재 인증 상태에 세션 테이블을 사용하고 있어 병목 현상이 발생할 수 있습니다."

강화는 단순히 군더더기를 제거하는 것을 넘어 생각을 두 개의 명확한 문장으로 재구성했습니다.

전문 이메일

말한 내용을 제목, 인사, 본문, 마무리가 갖춰진 완전한 이메일로 변환합니다. 전문적이지만 자연스러운 어조를 유지합니다. 내용을 받아쓰고 AI가 서식을 처리하기를 원하는 업무 소통에 적합합니다.

입력: "제이크한테 서버 마이그레이션 계획을 이번 주 말까지 보내달라고 하고 15일로 예정된 보안 감사도 상기시켜줘, 그의 팀이 준비됐는지도 물어봐"

출력:

제목: 서버 마이그레이션 계획 및 보안 감사 현황

Jake에게,

서버 마이그레이션 계획을 이번 주 말까지 보내주실 수 있을까요? 아울러 15일로 예정된 보안 감사에 대해서도 확인드리고 싶습니다 — 팀 준비가 완료되었나요?

감사합니다.

회의록

말한 내용을 표준 회의록 형식으로 구조화합니다. 결정 사항, 액션 아이템, 맥락, 다음 단계가 포함됩니다. 기억이 생생할 때 회의 직후에 요약을 말하는 용도로 설계되었습니다.

입력: "오늘 제품 회의에서 모바일 출시를 3분기로 연기하기로 했고, Tom이 로드맵을 업데이트하고 있어요. 출시 전에 새 약관에 대한 법률 검토도 필요한데 Sarah가 담당해요. 다음 주에 확인할 예정이에요"

출력:

결정 사항

  • 모바일 출시 3분기로 일정 변경

액션 아이템

  • Tom: 제품 로드맵 업데이트 — 진행 중
  • Sarah: 출시 전 새 약관 법률 검토 시작

다음 확인

  • 다음 주

2~3문장 요약

더 긴 발화를 두세 문장의 핵심 요약으로 압축합니다. 경영진 요약, 상태 업데이트, 많은 내용을 간략하게 요약해야 할 때 유용합니다.

입력: [프로젝트 현황에 대한 3분간의 구두 설명 — 배경, 현재 장애물, 계획된 해결책, 예상 일정 포함]

출력: "현재 프로젝트는 서드파티 공급업체의 API 접근 문제로 인해 차단되어 있으며, 통합 작업이 약 2주 지연되고 있습니다. 팀은 개발을 계속하기 위해 임시로 목업 API 레이어를 구현하고 있습니다. 전체 통합은 이달 말까지 완료될 것으로 예상됩니다."

개발 작업

말한 내용을 맥락, 요구 사항, 완료 기준이 포함된 개발 작업으로 구조화합니다. 출력 형식은 GitHub 이슈, Linear 작업, Jira 티켓의 일반적인 형식과 일치합니다.

입력: "API에 속도 제한을 추가해야 해요. 현재 아무 보호도 없어서 누군가 엔드포인트를 마구 호출할 수 있거든요. 사용자당 분당 100개 요청으로 제한하고, 초과하면 429를 반환하고, 카운터는 Redis를 사용해요"

출력:

작업: API 속도 제한 추가

맥락 현재 API에 속도 제한이 없어 엔드포인트가 남용에 취약한 상태입니다.

요구 사항

  • 인증된 사용자당 분당 100개 요청으로 제한
  • 한도 초과 시 HTTP 429(요청 횟수 초과) 반환
  • 속도 카운터 구현에 Redis 사용

완료 기준

  • [ ] 사용자당 분당 100개 요청으로 속도 제한 적용
  • [ ] 적절한 헤더와 함께 429 응답 반환
  • [ ] 1분 후 Redis 카운터 올바르게 초기화

강화 구현 방법

강화 단계는 각 모드별로 신중하게 설계된 시스템 프롬프트를 사용한 대형 언어 모델을 활용합니다. 프롬프트는 역할("당신은 전문 텍스트 편집자입니다"), 작업("다음 원본 음성 전사를 전문 이메일로 변환하십시오"), 규칙("군더더기 단어 제거, 문법 교정, 제목과 인사 추가"), 예상 출력 형식을 정의합니다.

원본 Whisper 전사본이 사용자 메시지로 추가됩니다. LLM은 단일 추론 과정에서 서식이 갖춰진 출력을 생성합니다.

이 아키텍처 덕분에 강화가 전체 지연 시간에 약 1초만 추가되는 것입니다 — 효율적인 모델에서의 잘 설계된 LLM 추론은 빠릅니다.

올바른 모드 선택하기

올바른 모드는 작성하는 맥락에 따라 다릅니다.

  • 일반 텍스트, Slack, 메모: 정리 모드
  • 전문적인 맥락의 이메일: 이메일 모드
  • 회의 후 문서화: 회의록 모드
  • 상태 업데이트, 요약, 초록: 요약 모드
  • GitHub 이슈, Linear, Jira 작업: 개발 작업 모드
  • 커스텀 워크플로우: 직접 시스템 프롬프트를 정의하는 커스텀 모드

Telvr에서 모드 전환은 모드 선택기에서 한 번 클릭으로 완료됩니다. 일관된 주된 사용 사례가 있는 사용자를 위해 마지막으로 선택한 모드가 세션 간에 유지되어 매번 다시 선택할 필요가 없습니다.

강화와 단순 정리의 차이

"강화"와 "정리"의 구분은 중요합니다. 단순 정리 도구는 군더더기 단어를 제거하고 대문자화를 수정합니다 — 어떤 텍스트 처리 스크립트도 근사하게 수행할 수 있는 비교적 기계적인 작업입니다.

진정한 강화는 언어 이해를 적용합니다. 단순한 정확성이 아닌 명확성을 위해 문장을 재구성합니다. 발화 흐름에서 액션 아이템을 식별하고 담당자와 마감일을 붙여 형식을 갖춥니다. 이메일 모드에서 "저는 여쭤보고 싶은 게 있어서..."를 "다음 사항에 대해 문의드리고자 합니다..."로 변환합니다.

차이는 출력에서 눈에 보입니다. 기계적으로 정리된 텍스트는 "음"이 제거된 구어처럼 읽힙니다. 강화된 텍스트는 사람이 쓴 것처럼 읽힙니다.