구글, 청각 장애인에게 일상 활동을…라이브 트랜스크라이브 프로젝트

세계보건기구(WHO)에 따르면 청각 장애를 겪는 인구가 4억 6600만명에 달합니다.

구글은 청각 장애인은 물론, 모두를 위한 제품을 만들기 위해 ‘접근성(Accessibility)’ 연구에 힘쓰고 있습니다. 이미 안드로이드에서는 TTS(Text To Speech), 햅틱, 트랙볼 등 많은 기능을 제공합니다. 유튜브 자동 자막, 프레젠테이션 등 서비스에 접근성 기능을 도입했습니다.

하지만 청각 장애인은 여전히 사람이 직접 글을 적어 제공하는 서비스에 의존하고 있습니다. 사람을 통하기 때문에 비싸고, 즉석에서 대화를 나누거나 많은 사람을 만나는 자리에서는 사용하기 어렵습니다.

구글은 이 격차를 줄이고자 지난 2월에 청각 장애인을 위해 소리를 텍스트 자막으로 보여주는 서비스 ‘라이브 트랜스크라이브(Live Transcribe)를 출시했는데요.

라이브 트랜스크라이브는 머신러닝 기반 음성 텍스트 변환 서비스입니다. 실시간 대화를 자막으로 변환해 보여줍니다. 현재 70개 이상 언어를 지원하며, 한국어도 제공하고 있습니다.

구글코리아는 14일 구글코리아 21층 마당에서 ‘구글 AI 포럼’을 열었습니다. ‘구글 AI 포럼’에는 라이브 트랜스크라이브를 개발한 사가 사블라(Sagar Savla) 구글 AI 리서치 프로덕트 매니저가 참여했습니다.

개발하는 기자, 개기자. 오세용 기자가 ‘구글 AI 포럼’에 다녀왔습니다.

▲구글 AI 포럼. / 오세용 기자

◆ 음성을 감지하고 네트워크를 관리하는 디바이스 엔진

구글은 실시간으로 생성되는 자막 서비스를 위해 노력했습니다. 라이브 트랜스크라이브는 네트워크가 불안정한 환경에서도 자막이 끊기지 않도록 데이터 압축 기술을 적용했는데요.

이를 위해 엔진을 2개로 나눴습니다. 엔진이 디바이스에 1개, 서버에 1개 위치합니다. 디바이스 엔진은 음성을 감지하고 클라우드 ASR 엔진과 네트워크 연결을 관리하며 데이터를 최소화하는 역할을 담당합니다. 더 무거운 작업은 서버 엔진이 합니다.

서비스 사용자 경험을 높이기 위해 갈루뎃 대학(Gallaudet University)과 협력해 자막 표시 방법도 고민했습니다.

▲높은 수준 신뢰도는 노란색, 낮은 수준 신뢰도는 파란색.

특히 자막 신뢰도를 표시하는 일에 집중했는데요. 높은 수준 신뢰도는 노란색, 낮은 수준 신뢰도는 파란색으로 표시해 테스트했습니다. 하지만, 색상을 구분하는 것이 집중을 방해한다는 결과에 따라 신뢰도 표시가 없는 자막으로 결정했습니다.

주변 소음을 나타내는 기능도 사용자 경험을 위해 도입했는데요. 시끄러운 장소에서 상대 목소리를 감지하는 것은 컴퓨터에 매우 어려운 일입니다. 하지만 사람은 시끄러운 장소에서도 대화하는 상대의 목소리를 알아들을 수 있는데요. 이를 학계에서는 ‘칵테일 파티 효과’라고 부릅니다.

▲오른쪽 위 2개 원이 소음과 사용자 음량을 나타낸다.

구글은 칵테일 파티 효과를 돕기 위해 주변 소음보다 사용자 음성 음량이 어느 정도인지 시각화합니다. 화면 오른쪽 위 2개 원으로 표시하는데요. 안쪽 원은 주변 소음을 바깥쪽 원은 사용자 음성을 나타냅니다.

◆ 향후 방향성

사가 사블라 프로덕트 매니저는 향후 방향성을 소개했는데요.

앞으로 라이브 트랜스크라이브는 ▲서버 엔진 기능을 디바이스 엔진으로 이전하고 ▲칵테일 파티 효과를 돕기 위해 사람을 찾아 포커싱하는 ‘시청각 시그널’을 준비 중이며 ▲사람 목소리를 더 증폭시키는 연구를 진행합니다.

특히, 말하는 사람을 찾아 포커싱하는 기능 연구는 최근 성과가 있어 관련 논문도 제출했습니다.

▲손을 흔드는 사가 사블라 매니저. / 오세용 기자

이 서비스를 유료 API로 제공할 의향이 있냐는 질문에 사가 사블라 매니저는 “접근성을 미션으로 작업하는 프로젝트다”라며 “유료화 계획이 없다”고 밝혔습니다.

또한 구글 번역팀과 협업으로 실시간 자막에 번역 기능을 추가 개발 중이라고 하는데요. 구글 글라스 등 웨어러블 디바이스에 장착됐을 때 더 큰 시너지가 날 것으로 보입니다.