Алекса слиза в разговорната заешка дупка

На сцената в re: Марс тази седмица Amazon показа развиваща се функция на Alexa, предназначена да имитира потока на естествения език. Разговорът между двама души рядко следва някаква предварително определена структура. Отива на странни и неочаквани места. Една тема преминава в друга, докато участниците инжектират своя жизнен опит.

В демонстрация разговорът за дърветата се превръща в разговор за туризъм и паркове. В контекста на AI на компанията, старши вицепрезидент и главен учен за Alexa, Рохит Прасад, се позовава на феномена като „изследване на разговор“. Това не е правилното име за подходяща функция, точно. Няма превключвател, който да се превключва, за да активира внезапно разговорите за една нощ. По-скоро това е част от развиващата се представа за това как Alexa може да взаимодейства с потребителите по по-човешки – или може би по-хуманен – ​​начин.

Умните асистенти като Alexa традиционно предоставят много по-опростен модел на въпроси и отговори. Попитайте Alexa за времето и Alexa ще ви каже времето в предварително определен район. Попитайте я оценката на А (или, честно казано, вероятно не го правете) и Alexa ви казва оценката на А. Това е просто взаимодействие, което не се различава от въвеждането на въпрос в търсачката. Но, отново, разговорите в реалния свят рядко се развиват по този начин.

„Има цяла гама от въпроси, които получава Алекса, които носят много информация. Когато тези въпроси се случат, можете да си представите, че те не са насочващи въпроси “, каза Прасад пред TechCrunch в разговор на събитието. „Те наистина са за нещо, за което клиентът иска да научи повече. Това, което е на върха на нашите умове в момента, е това, което се случва с инфлацията. Получаваме много такива заявки към Alexa и това ви дава такъв вид изживяване. “

Такива разговорни функции обаче са начинът на нещата, към които се насочва домашен асистент като Alexa. Осем години след като беше пуснат от Amazon, асистентът все още се учи – събира данни и определя най-добрите начини за взаимодействие с потребителите. Дори когато нещо стигне до точката, в която Amazon е готова да го покаже на основна сцена, все още са необходими промени.

„Алекса трябва да бъде експерт по много теми“, обясни Прасад. „Това е голямата промяна на парадигмата и този вид опит отнема известно време, за да се постигне. Това ще бъде пътуване и с взаимодействията на нашите клиенти няма да е така, сякаш от първия ден Alexa ще знае всичко. Но тези въпроси могат да прераснат в повече изследвания, където в крайна сметка правите нещо, което не сте мислили, че сте.”

Виждането на думата „Емпатия“ с големи удебелени букви на сцената зад Прасад беше изненада – макар и може би не толкова, колкото това, което последва.

Има някои ясни сценарии, при които концепцията за емпатия може или трябва да вземе предвид по време на разговор както с хора, така и с умни асистенти. Вземете, например, способността да четете социални знаци. Това е умение, което придобиваме чрез опит – способността да четем понякога финия език на лицата и телата. Емоционалната интелигентност за Alexa е идея, която Прасад обсъжда от години. Това започва с промяна на тона на асистента, за да отговори по начин, предаващ щастие или разочарование.

Обратната страна е определянето на емоцията на човек, който говори, концепция, която компанията работи за усъвършенстване от няколко години. Това е работата, която се проявява по различни начини, включително дебюта на компанията през 2020 г спорен носимо Здравейтекойто предлага функция, наречена Tone, която претендира да „анализира енергията и позитивността в гласа на клиента, за да могат да разберат как звучат на другите и да подобрят комуникацията и взаимоотношенията си“.

„Мисля, че както емпатията, така и афектът са добре познати начини за взаимодействие по отношение на изграждането на взаимоотношения“, каза Прасад. „Алекса не може да бъде глуха за вашето емоционално състояние. Ако сте влезли и не сте в щастливо настроение, е трудно да кажете какво трябва да направите. Някой, който ви познава добре, ще реагира по различен начин. Това е много висока летва за AI, но това е нещо, което не можете да пренебрегнете.”

Изпълнителният директор отбелязва, че Alexa вече се е превърнала в един вид спътник за някои потребители – особено сред по-възрастните демографски групи. Един по-разговорен подход вероятно само би засилил това явление. В демонстрациите на Astro тази седмица компанията често споменава домашния робот като изпълняващ почти пет-подобна функция в дома. Подобни схващания обаче имат своите ограничения.

„Не трябва да крие факта, че е AI“, добави Прасад. „Когато стане въпрос [where] той е неразличим – от което сме много далече – все пак трябва да бъде много прозрачен.”

Следващо видео демонстрира впечатляваща нова технология за синтез на глас, която използва само минута аудио, за да създаде убедително приближение на човек, който говори. В него гласът на баба чете нейния внук „Магьосникът от Оз“. Идеята за възпоменание на близките чрез машинно обучение не е съвсем нова. Компании като MyHeritage използват технологии за анимиране на изображения на починали роднини, например. Но тези сценарии неизменно – и разбираемо – предизвикват някои проблеми.

Прасад побърза да посочи, че демонстрацията е по-скоро доказателство за концепция, подчертавайки основните гласови технологии.

„Това беше повече за технологията“, обясни той. „Ние сме много обсебена от клиентите научна компания. Искаме нашата наука да означава нещо за клиентите. За разлика от много неща, при които генерирането и синтезирането е било използвано без правилните порти, това изглежда така, сякаш един клиент би харесал. Трябва да им дадем правилния набор от контроли, включително чий е гласът.

Имайки това предвид, няма времева линия за такава функция – ако наистина такава функция някога ще съществува в Alexa. Въпреки това, изпълнителният директор отбелязва, че технологията, която би го захранвала, е много добре работеща в Amazon Labs. Въпреки че, отново, ако пристигне, това ще изисква част от гореспоменатата прозрачност.

„За разлика от deepfakes, ако сте прозрачни относно това за какво се използва, има ясен човек, който взема решения и клиентът контролира своите данни и за какво иска да се използват, мисля, че това е правилният набор от стъпки, “, обясни Прасад. „Това не беше за „мъртва баба“. Бабата е жива в този, само за да е много ясно.

Попитан как може да изглежда Alexa след 10 до 15 години в бъдеще, Прасад обяснява, че всичко е въпрос на избор – макар и по-малко за насищане на Alexa с индивидуални и уникални личности, отколкото за предлагане на гъвкава компютърна платформа за потребителите.

„Трябва да може да постигне всичко, което искате“, каза той. „Не е само чрез глас; това е интелигентност в точния момент, където идва атмосферната интелигентност. Той трябва да ви помогне проактивно в някои случаи и да предвиди нуждите ви. Това е мястото, където продължаваме разговорното изследване. Всичко, което търсите – представете си колко време отделяте за резервиране на ваканция [when you don’t] имам туристически агент. Представете си колко време прекарвате в закупуване на този фотоапарат или телевизор, който искате. Всичко, което изисква да отделите време за търсене, трябва да стане много по-бързо.