모질라의 오픈소스 음성인식 프로젝트 ‘Project Common Voice’

0

아마존의 알렉사(Alexa)나 마이크로소프트의 코타나(Cortana), 애플의 시리(Siri) 등 VUI(음성을 이용해 조작하는 UI)를 활용한 가상비서가 큰 관심을 끌면서 진화에 진화를 거듭하고 있다. 그런데 음성을 이용한 프로젝트는 각 기업들이 내부에서 폐쇄적으로 진행하므로 우리는 SDK 등이 공개되기까지 그 내용이나 구조를 볼 수 없는 문제가 있다.

만약 이들 프로젝트가 오픈소스화되어 전 세계 개발자에 의해 개선될 수 있다면 어떨까? 우리가 이런 분야에 지식이 있다면 플랫폼에 참여하여 개발에 일조할 수도 있을 것이다. 바로 그런 음성 플랫폼 프로젝트를 모질라 파운데이션(Mozilla Foundation)이 소리소문 없이 론칭했다. 이름은 ‘Project Common Voice’다.

음성인식(Voice Recognition) 분야는 아직 발전 중에 있으며 모질라는 이 프로젝트를 오픈소스화하여 한꺼번에 이 분야에서의 세력을 확대코자 하고 있다. 주목해야 할 것은 프로그래머뿐 아니라 비프로그래머도 이 프로젝트에 참가하여 프로젝트 개선에 일조할 수 있다는 것이다. 여기서는 모질라가 추진하는 오픈소스 음성인식 프로젝트 ‘Project Common Voice’를 소개한다.

음성인식 프로그램에 대한 수요

FOSSBYTES의 보도에 따르면, 구글이 모바일 단말에서의 전체 검색 중 약 20%(즉 5회 중 1회)는 음성검색을 사용한다고 작년에 밝혔다고 한다. 지난 몇 년 동안 음성인식과 그 사용법은 테크 업계를 견인해온 거대기업에게 중요한 요소가 되고 있다. 시리나 코타나, 알렉사나 구글 어시스턴트가 대표적인 예가 될 수 있다. WIRED에 따르면 다수의 전문가는 음성인식 기술을 ‘Next Big Thing’이라고 생각하고 있다.

현재 아이폰과 같은 터치스크린 디바이스가 전 세계 수억 명의 주머니 안에 들어 있겠지만, 머지 않아 그 주머니 안에는 스크린조차 필요 없는 디바이스가 자리잡을지도 모른다. 알렉사 포켓판 같은 것이 나오는 것도 시간 문제기 때문이다.

오픈소스 세계에서는 음성인식에 대한 연구개발이 늦은 감이 있었던 것은 사실이다. 애플이나 마이크로소프트, 아마존, 구글은 음성인식 기술을 폐쇄적으로 다루고 있기 때문에 전 세계의 개발자가 이노베이션을 일으키기 어려운 상황이었다. 그 현실에 칼을 대고자 한 것이 파이어폭스 브라우저를 내놓았던 모질라다. 모질라는 2017년 6월 ‘Project Common Voice’라고 불리는 프로젝트를 출범시켰다.

Project Common Voice란?

출처 : 모질라 재단

대부분의 엔드유저들은 세상을 바꾸는 거대한 규모의 프로젝트에 참가하는 기회를 갖기란 쉽지 않다. 그러나 음성인식 세계에서는 예를 들어 시리를 향해 ‘안녕, 시리야. 오늘 날씨는 어때?’라고 말을 거는 것만으로도 애플에 당신의 육성을 제공함으로써 ‘시리’라는 프로젝트의 개선을 돕는 것이 된다.

단 앞서 언급했듯이 시리는 애플의 폐쇄 프로젝트다. ‘자유로운 인터넷’ 세계에서 우리들 엔드유저의 힘을 결속시켜 파워풀한 이노베이션을 일으키기 위해서는 오픈된 프로젝트가 가장 좋은 방법이다.

Project Common Voice에서는 자원봉사자인 엔드유저들이 두 가지 방법으로 이 오픈소스의 음성인식 시스템이 ‘학습’하는 것을 도와줄 수 있다. 모질라는 최종적으로 2017년 후반에 오픈소스 데이터베이스를 공개하기 위해 10,000시간 분량의 음성 데이터 수집을 목적으로 하고 있다.

Project Common Voice에 공헌하는 방법

이 프로젝트에 공헌하는 방법은 크게 나눠 3개다. 프로그래머가 아니어도 프로젝트에 공헌할 수 있으므로 자신에게 맞는 방법을 찾아보자.

첫째 ‘Speak’다. Project Common Voice에서는 육성 데이터를 모으고 있다. Speak 메뉴를 누르면 예문 텍스트가 표시되고 이 예문 텍스트를 읽으면 된다. 또 읽은 음성 데이터의 인구 통계도 수집하므로 Profile 메뉴에서 설정하자.

둘째 ‘Listen’이다. 말하는 데 자신 없는 경우라도 육성 데이터를 듣고 검증하는 것으로 도움을 줄 수 있다. Listen 메뉴에서는 다른 유저가 읽은 데이터를 듣고 정말 텍스트대로 읽고 있는지를 ‘Yes!’ 혹은 ‘Nope.’을 눌러 검증한다.

셋째 ‘Contribute’다. 만약 당신이 프로그래머라면 실제로 프로그램 개발현장에서 공헌하는 것도 가능하다. Contribute 메뉴는 GitHub에 연결되어 있으므로 직접 오픈소스 프로젝트에 참가할 수 있다.

현재 Project Common Voice는 영어만 지원하지만 앞으로는 중국어를 시작으로 기타 언어로도 개발이 확대되어 나갈 것으로 전망된다.

 

 

 

페이스북으로 댓글을 달아주세요!

About Author

국내 모바일 산업과 창업 생태계를 응원합니다. 모바일 트렌드에 대한 전문 컬럼을 기고하거나 유망한 스타트업을 소개하고 싶으시면 연락바랍니다. 적극 수용하겠습니다~♥

댓글 남기기