자청의 유튜브 추출기

유튜브 영상의 자막과 AI요약을 추출해보세요

AI 채팅

BETA

AWS re:Invent 2016에서 공개한 Capital One의 아마존 에코 음성 뱅킹 기술 비밀!

게시일: 작성자: 자청의 유튜브 추출기

알렉사 스킬 개발, 어떻게 하면 잘할까?

이 발표는 아마존의 데이비스 비츠키와 캐피탈 원의 스콧 토트먼이 함께 진행했어. 둘 다 동부 출신이고, 목소리로 기술을 사용하는 '보이스 스페이스'에 빠져들었지. 작년에도 같이 발표했는데, 그때는 데이비스가 알렉사 스킬 만드는 법을 보여줬고, 스콧은 캐피탈 원이 알렉사 스킬을 출시할 거라고 말했었어.

이번 발표에서는 아마존이 사용자 피드백을 듣고 어떻게 더 나은 알렉사 경험을 만들었는지, 그리고 캐피탈 원이 실제로 알렉사 스킬을 만들면서 어떤 경험을 했는지, 고객들이 뭘 원하는지 어떻게 알아냈는지, 그리고 피드백을 바탕으로 어떻게 발전시켜 나갔는지 이야기해 줄 거야. 마지막에는 캐피탈 원 스킬의 새로운 기능을 보여주는 데모도 준비되어 있다고 하니 기대해도 좋아!

아마존의 생각: 목소리가 미래다!

아마존은 목소리가 컴퓨팅의 다음 혁신이라고 믿고 있어. 클라우드, 모바일, 웹처럼 목소리도 세상을 바꿀 거라고 생각하는 거지. 우리는 태어날 때부터 대화하는 법을 알고 있잖아? 목소리는 눈으로 보는 것보다 훨씬 자연스럽고, 맥락을 이해하는 데 유리하거든.

알렉사는 계속 배우고 있어. 매일, 매 순간 배우면서 똑똑해지고 있지. 그래서 앞으로 모든 사람, 모든 곳, 모든 것을 위한 알렉사 스킬이 나올 거라고 예상해. 마치 모바일이 데스크톱을 대체했듯이, 목소리가 우리의 주요 인터페이스가 될 수 있다는 거야. 물론 태블릿이나 터치스크린도 계속 사용되겠지만, 목소리로 기술과 상호작용하는 시대가 오고 있다는 거지.

앰비언트 컴퓨팅 (Ambient Computing): 에코와 알렉사는 이런 여정을 함께 하고 있어. 에코는 단순히 기기가 아니라, 우리가 공중에 대고 말하면 알아듣는 기술을 만들어냈지. 에코에는 7개의 마이크가 있어서 시끄러운 곳에서도 우리의 말을 잘 알아듣고, 단순히 말을 번역하는 것을 넘어 말의 의도를 이해하려고 노력해.

오픈 보이스 플랫폼: 알렉사는 특정 프로그래밍 언어나 클라우드 플랫폼에 묶여 있지 않아. 누구나 자신의 아이디어로 목소리를 사용할 수 있는 오픈 플랫폼인 거지.

  • Alexa Skills Kit (ASK): 알렉사에게 새로운 기술을 가르치듯 스킬을 만들 수 있어.
  • Alexa Voice Service (AVS): 알렉사를 자동차, 시계 등 다양한 기기에 넣을 수 있어.

작년에 몇 개의 스킬밖에 없었지만, 지금은 5,000개가 넘는 스킬이 있다고 해!

아마존이 배운 것들: 고객의 목소리에 귀 기울이기

아마존은 고객 리뷰를 보면서 많은 것을 배웠어. 고객들은 알렉사와 대화할 때 마치 사람과 이야기하는 것처럼 친밀함을 느끼고, "고마워", "제발" 같은 말을 하기도 하지. 이런 연결감이 화면 인터페이스에서는 느끼기 어려운 부분이야.

핵심 디자인 원칙:

  1. 높은 가치 제공: 스킬이 모바일 앱보다 훨씬 쉽고 빨라야 해. 예를 들어, "집 온도를 27도로 맞춰줘"라고 말하는 게 스마트폰으로 조작하는 것보다 훨씬 편하잖아.
  2. 시간이 지남에 따라 발전: 처음에는 핵심 기능만 제공하고, 고객 피드백을 바탕으로 계속 발전시켜야 해.
  3. 자연스럽고 즉흥적인 대화: 사용자가 특정 방식으로 말하도록 가르칠 필요 없이, 알렉사가 사용자의 말을 이해하도록 만들어야 해.
  4. 대부분의 요청 이해: 사용자가 무엇을 원하는지 정확히 파악하고, 금융 관련 질문처럼 민감한 부분은 더 신중하게 처리해야 해.
  5. 적절하게 응답: 음악, 소리, 발음 등을 조절해서 자연스러운 응답을 제공해야 해.

목소리 인터페이스의 특징:

  • 정확히 무엇을 원하는지 알 때: 목소리 앱은 특정 작업을 수행하는 데 매우 빠르고 유용해.
  • 무엇을 원할지 모를 때: 모바일 앱이나 웹 기반 앱은 탐색하고 정보를 찾는 데 좋아.
  • 대화는 물과 같아: 자연스럽게 흐르고 예측 불가능할 수 있어. 대화 흐름을 잘 설계해야 해.

스킬 개발 팁:

  • 호출 이름: 쉽고 발음하기 쉬운 이름을 사용해야 해.
  • 대화 설계: 처음에는 설정 모드로 시작하고, 점차 자연스러운 대화를 만들어가.
  • 반복적인 경험: 처음에는 자세히 설명하더라도, 익숙해지면 간결하게 응답해야 해.
  • 맥락 유지: 사용자가 이전 대화 내용을 기억하고, 새로운 주제로 전환될 때 이를 파악해야 해.
  • 피드백 활용: 고객 피드백을 바탕으로 스킬을 계속 업데이트해야 해.
  • 개성 표현: 브랜드의 개성을 목소리로 표현할 수 있는 기회를 찾아봐.
  • 모든 질문 처리: 모든 질문에 답할 수 없다면, "이해하지 못했어요"와 같이 명확하게 응답하고 다른 제안을 해주는 것이 좋아.

새로운 기능들:

  • 스트리밍 오디오: 음악이나 팟캐스트를 끊김 없이 들을 수 있어.
  • 플래시 브리핑: 매일 아침 뉴스를 듣는 것처럼, 맞춤형 정보를 제공할 수 있어.
  • SSML (Speech Synthesis Markup Language): 알렉사의 발음, 억양 등을 조절할 수 있어.
  • 카드 표시: 알렉사 스킬과 함께 화면에 정보를 표시할 수 있어.
  • 리스트 스킬 API: 할 일 목록이나 미리 알림 같은 앱과 연동할 수 있어.
  • 스마트 홈 스킬: 다양한 스마트 홈 기기를 알렉사로 제어할 수 있어.
  • AVS 업데이트: 라즈베리 파이로도 원거리 음성 인식이 가능한 에코를 만들 수 있어.
  • 가상 개발 도구 (Echo Sim): 에코가 없어도 웹에서 알렉사 스킬을 테스트해 볼 수 있어.

캐피탈 원의 경험: 금융과 목소리의 만남

스콧은 아들이 에코에 매료된 것을 보고 금융과 목소리를 연결하는 방법을 고민했어. 캐피탈 원은 디자인 사고를 바탕으로 고객의 목소리를 듣고, 보안, 개인 정보 보호, 사용 편의성 등 여러 가지를 고려하여 스킬을 개발했지.

고객들이 원했던 것:

  • 읽기 전용 정보: 계좌 잔액 확인, 거래 내역 조회 등
  • 쓰기 기능: 송금, 청구서 결제 등 (보안 우려가 있었음)

캐피탈 원이 해결해야 했던 과제:

  • 보안: 고객 계좌 정보를 안전하게 보호하는 방법
  • 개인 정보 보호: 다른 사람이 대화 내용을 듣지 못하도록 하는 방법
  • 사용자 경험: 금융 거래를 자연스럽고 편리하게 만드는 방법

초기 기능:

  • 신용카드 대금 결제
  • 계좌 잔액 확인 등

배운 점:

  • 고객의 언어로 말하기: 딱딱한 금융 용어 대신 자연스러운 대화체를 사용해야 해.
  • 의도 파악: 사용자가 무엇을 묻는지 정확히 이해하고, 다양한 표현을 포괄할 수 있도록 설계해야 해.
  • 보안과 편의성의 균형: 고객이 안전하다고 느끼면서도 편리하게 사용할 수 있도록 해야 해.

개발 팁:

  • "나쁜 첫 데이트" 피하기: 어색한 침묵, 강요된 대화, 개성 없는 응답은 피해야 해.
  • 빠른 응답: API 응답이 느리면 사용자가 지루해할 수 있어.
  • 반복적인 학습: 고객 피드백을 통해 스킬을 계속 개선해야 해.
  • 개성 살리기: 브랜드의 개성을 드러낼 수 있는 기회를 놓치지 마.
  • 간결함과 명확함: 너무 길거나 짧지 않게, 명확하게 응답해야 해.
  • 유틸리티 컴파일러: 다양한 발화 예시를 생성하는 데 도움이 되는 도구를 활용해.
  • 프레젠테이션 문제: 이제는 프로그래밍 능력뿐만 아니라, 어떻게 보여줄지가 더 중요해.
  • 접근성 고려: 시각 장애인, 신체 장애인 등 모든 사용자를 위한 경험을 만들어야 해.

새로운 기능 데모:

  • 다이닝 익스플로러: 신용카드 거래 데이터를 기반으로 지역 맛집 정보를 제공하는 기능.
  • "어젯밤 무슨 일이 있었니?": 밤늦게 발생한 거래 내역을 알려주는 재미있는 기능.

이 발표를 통해 알렉사 스킬 개발이 단순히 기술적인 문제를 넘어, 고객과의 자연스러운 소통을 만들어가는 과정이라는 것을 알 수 있었어. 앞으로 알렉사 스킬이 우리 삶에 어떻게 더 깊숙이 들어올지 기대되지?

최근 검색 기록