ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 4 - [연구과제] AI 에이전트의 정체성 설정과 인식 방식 고려 - AI 스피커를 중심으로
    인터랙션_UXUI_기획/리서치, 공부 2020. 4. 17. 18:04

     

    2020. 04. 12

     

    1~3번까지의 조사를 바탕으로 인터랙션 디자인 연구과제를 선정했다. 평소에 보이스 인터페이스와 인터랙션 방식, 인공지능 스피커에 관심이 많았기에 선정했다. (이따 다시 적어야겠다)

     

     


     

     

    연구 주제 [AI 에이전트의 정체성 설정과 인식 방식 고려 - AI 스피커를 중심으로] 

     

    현재 수준의 자연어 처리 기술을 기반으로 한 VUI를 사용하는 AI 에이전트를 기반으로 한 AI 스피커 사용에 있어, 어떤 AI의 정체성(identity)이 가장 유저가 사용하기에 편하며 그에 따라 어떤 인식 방식(wake-up word와 같은 층위의 것)이 가장 효과적인지에 대한 연구. 

    + (TAM을 참고하여 유저가 사용하기에 적절한 포인트를 찾고자 함) 

     

    -->  유저가 AI 스피커 속의 에이전트를 어떤 대상으로 인식하게끔 해야 정해져 있는 문장 구조에 맞춰 말을 걸까? 그리고 그러한 대상이 담겨있는 스피커에는 어떤 wake-up "무언가"가 알맞을까? 

     

     

    사람들이 불편을 느끼는 명시적인 이유 (감각적) 

    -

    AI 에이전트의 목소리가 성인 여성/남성을 떠오르게 함. 

    : AI 스피커는 어린아이부터 노인까지 다양한 층위의 사람들이 사용을 하고 있다. 보통 어린아이, 청소년, 청년, 중장년층, 노년층 모두 자신이 잘 모르는 성인 여성이나 남성에게 "00아 00해줘", "00아 00이 뭐야?"와 같은 반말식의 발화가 익숙하지 않다. 특히 어린아이에게는 AI 에이전트의 목소리가 어른의 것으로 느껴질 것이고, 청소년에게도 동일하게 자신보다 나이가 많은 대상, 청년에게는 비슷한 나이대로 느껴질 수 있다. 그러나, 모두 AI 에이전트가 존재하기 전 보통 개인의 에이전트 역할을 해주는 대체 인물이 없었던 경우가 대다수이기 때문에 그러한 존재에게 무언가를 시킨다 + 반말로 + 자신보다 나이가 많은 것으로 느껴지는 + 잘 모르는 대상에게 무언가를 시킨다는 것에서 불편함이 발생한다. 

     

    AI 스피커에게 말을 거는 것이 어색함. 

    : 위에서 언급했던 점과 맞물리는 점들이 있다.  

    현재 존재하는 AI 스피커의 형태는 다양하지만, 보통 일반적인 기존의 스피커의 형태를 띈다. 혹은 귀여운 인형과 비슷한 외형을 띄기도 한다. 스피커라는 개체는 음악을 송출하는 역할로서, 철저히 아웃풋의 역할을 했었다. 그러한 인식이 꽤 오래 자리잡고 있었고, 그러한 인식을 바탕으로 사실상 블루투스 스피커와 같은 형태의 띈 AI 스피커에게 아무런 인식 개선의 노력 없이 말을 거는 인풋의 개체로서 인식하는 것은 쉽지 않은 일이다.   

     

     

    사람들이 불편을 느끼는 암묵적인 이유 (구조적, 환경적) 

    -

    현재 기술의 한계점이 있음. 

    : 현재 AI 스피커 내의 문장을 받아들이는 기술은 자연어 처리 기술을 바탕으로 하고 있다. 해당 연구는 아직 활발히 진행중이고 결국 인간의 자연스러운 발화 방식을 인식할 수 있도록 목표하고 있으나 쉽지 않다고 한다. 그에 따른 현재 발전의 속도 또한 쉽게 바꾸기가 힘들다. 따라서, 현재 진행된만큼, 상용화가 가능한 부분을 AI 스피커가 사용 중인데, 현재의 AI 에이전트는 우리의 자연스러운 발화에 맞춰 이해 할만큼 발전되지는 못한 형태를 지니고 있다.  

     

    AI에게 맞춰 정해져있는 문장구조에 맞춰 발화해야 함. 

    : 위에서 언급된 기술적인 부분으로 인해 AI 에이전트 내에는 인풋의 형태로 받아들일 수 있는 문장의 구조가 있다. 우선 wake-up word나 같은 층위의 행동을 통해 AI 스피커를 활성화시키고 반응을 했을 경우, 정해진 문장 구조 안에서 어떠한 요구를 발화 하는 방식이다. 해당 단계를 거침에 있어 여러가지 문제가 발생하는데, 우선 AI 스피커 자체가 유저의 반응을 쉽게 이끌어내는 방식이 아니라고 생각한다. 스피커 형태의 사물에 말을 거는 것부터 아직까지는 익숙치 않은 어색한 행위이며 그러한 어색한 행위를 유저가 먼저 발화를 통해 이뤄져야 한다는 점이 불편한 점으로 존재한다. 또한 위에서 여러 번 언급했듯 해당 발화 방식 자체가 일반적으로 사람들 사이에서 자주 이뤄지는 발화 방식이 아니며 해당 발화 방식 외에는 AI 스피커가 인식하지 못한다는 점이 주요한 문제점이 된다.  

     

     

    이 문제를 해결해야 하는 이유 (이 문제가 중요한 이유)

    -  

    근미래의 스마트 라이프 속 보이스 인터페이스의 중요도 

    : 우리 사회는 IoT를 기반으로 한 스마트 환경으로 점차 변화해 나가고 있다. 그 속에서 다양한 방식의 인터랙션이 담겨있는 인터페이스들이 존재하는데, 그 중 다양한 IoT 사물들을 조작할 컨트롤 타워 역할을 할 인터페이스는 AI 스피커라고 생각한다. (물론 스피커의 형태가 아닌 다른 형태가 될 수도 있지만) 

    AI 스피커 안에 존재할 AI 에이전트는 보이스 인터페이스를 사용해 유저와 인터랙션 한다. 결국 차세대 스마트 라이프 속에서 가장 주요한 인터페이스는 보이스 인터페이스라고 생각한다. 보이스를 사용한 인터랙션 방식은 인간의 가장 기본적인 의사소통 방식이기 때문에 어떤 인터페이스보다도 발전 가능성이 크고 기술이 더 발전하고 인터랙션 방식이 잘 디자인 되어진다면 사용성이 좋을 인터페이스라고 생각한다.  

    그렇기 때문에 현재 가장 보편적인 VUI의 형태인 AI 스피커의 낮은 사용성은 안타까운 부분이라고 생각한다. AI 스피커 내에도 보이스 인터페이스의 비가시적인 특성으로 인해 다양한 문제들이 발생하지만, 우선 현재 개선 가능할 것이라 판단되는 부분부터 차근차근 유저의 실제 행동/인식과 AI 스피커의 현재 기능의 갭을 줄여나가 AI 스피커의 사용성을 조금씩 증진시켜 나아가 전반적인 VUI의 좋은 사용자 경험을 목표 하는 것이 중요하다고 생각한다.  

Designed by Tistory.