'call with ai'에 해당되는 글 1건

  1. 2024.06.04 AI와 통화기능 구현

AI와 통화기능 구현

웹 개발/Problems 2024. 6. 4. 17:37

AI와 통화기능을 구현하기 위해 다음과 같은 스텝들이 필요했다.

1. 나의 목소리를 텍스트로 변환.

2. 변환된 텍스트를 AI프롬프트에 입력 후 스트림 형식의 텍스트 데이터 받기.

3. 스트림 형식의 텍스트 데이터를 음성으로 변환 후 스트림 형식으로 클라이언트로 전달.

4. audio/mpeg 형식의 파일을 응답받은 클라이언트는 플레이 가능 즉시 재생.

5. 유저로 하여금 심심하지 않게 모든 오디오에 대해 비주얼라이져를 통해 소리를 시각적으로 표현.

각 스텝마다 문제점들이 발생했는데 이 문제점들을 어떻게 해결했는지 정리해보겠다.

1. 나의 목소리를 텍스트로 변환.

이부분은 web api에서 제공하는 SpeechRecognition 객체를 이용하여 구현하였다. 처음에는 매우 동작이 잘 되어 안심을 했지만, 모바일에서는 잘 되지 않는 문제가 발생하였는데, 이것은 나중에 비주얼라이저와 같이 실행할 경우에 안되는것을 알아냈다. 또한 특정 모바일에서 인식 간격이 너무 짧아 말을 천천히하면 중간에 speechend 리스터가 호출되어 버려서 프롬프트가 짤리는 현상이 발생했다. 이 문제는 추후에 버튼을 추가해 버튼을 누르기 전까지는 계속 인식을 하도록 변경하는 방향으로 했다. 당장 AI를 손 볼 시간은 없기 때문에..

2. 변환된 텍스트를 AI프롬프트에 입력 후 스트림 형식의 텍스트 데이터 받기. / 3. 스트림 형식의 텍스트 데이터를 음성으로 변환 후 스트림 형식으로 클라이언트로 전달

스트림 형식의 텍스트 데이터는 기존에는 라이브러리를 사용해서 처리하고 있었다. 하지만 라이브러리에서 토큰 마다 이벤트 함수가 호출되기는 하는데, 이것을 바로 바로 음성으로 변환을 해버리면 단어가 짤리는 경우도 있고, 무엇보다 요청을 너무 많이 해버리게 된다. 따라서 이걸 문장 단위로 짤라서 음성 변환 요청을 하려고 시도를 했는데, 구조적으로 라이브러리에서 제공하는 토큰 콜백함수만으로 이를 구현하기가 매우 힘들었다. 왜냐면 비동기적으로 스트림형태의 데이터를 받고 있는데 이를 문장단위로 짜른 변수를 음성으로 변환하고, 또 음성으로 변환되는 스트림형태의 오디오 데이터를 클라이언트에게 순차적으로 보내주어야 했기 때문이다. 이를 해결하기 위해 결국 ReadableStream의 pipeThrough 메서드를 사용해야 한다는 것을 깨달았고, 결국 라이브러리를 분석하여 스트림형태의 데이터를 텍스트로 변환하는 부분만 추출하여 3개의 트랜스포머를 만들어서 순차적으로 텍스트 변환, 문장 생성, 문장 음성 변환 단계를 거친 후 클라이언트에게 성공적으로 데이터를 전달 해줄 수 있었다.

4. audio/mpeg 형식의 파일을 응답받은 클라이언트는 플레이 가능 즉시 재생. / 5. 유저로 하여금 심심하지 않게 모든 오디오에 대해 비주얼라이져를 통해 소리를 시각적으로 표현.

이부분은 자바스크립트 객체인 Audio객체를 통해 손쉽게 구현할 수 있었다. 해당 객체가 URL을 통해 audio 형식의 데이터를 받으면 자동으로 실시간 스트리밍 기능을 제공하기 때문에 큰 어려움은 없었다. 문제는 비주얼라이저였는데, 처음 사용했던 라이브러리는 나의 마이크로 입력되는 소리는 손쉽게 비주얼라이징 했지만, 서버로 부터 응답받은 오디오를 비주얼라이징 객체에 넘겨주려고했는데 Audio 객체의 play 메서드와 충돌이 일어났다. 결국 해결방법을 찾지 못한 채 다른 라이브러리인 audiomotion-analyzer를 사용해보았는데, 일단 데스크톱에서는 매우 잘 동작했다. 하지만 모바일에서는 SpeechRecognition과 비주얼라이저를 같이 사용하면 작동을 안하는 현상이 있어서, 모바일 기기에서는 마이크 입력할 때는 비주얼라이저를 꺼주었다. 아이폰에서는 잘 동작을 했지만 안드로이드에서만 이러한 현상이 나타났는데, 이는 라이브러리가 어떻게 동작하는지와 안드로이드 환경의 SpeechRecognition이 동작하는 원리를 알아야 할거 같아서 일단 미래의 내가 해결하기로 했다..

이번 개발을 통해 stream형태의 데이터를 어떻게 다룰지 감을 잡은 거 같다.

: