يتزايد عدد التطبيقات وأهمية الواجهات الصوتية بسرعة
تكنولوجيا

يتزايد عدد التطبيقات وأهمية الواجهات الصوتية بسرعة

علمت عائلة أمريكية في بورتلاند بولاية أوريغون مؤخرًا أن مساعد صوت Alex سجل محادثاتهم الخاصة وأرسلها إلى صديق. وقالت صاحبة المنزل ، التي أطلقت عليها وسائل الإعلام اسم دانييل ، للصحفيين إنها "لن تقوم بتوصيل هذا الجهاز مرة أخرى لأنه لا يمكن الوثوق بها".

اليكسا، المقدمة من مكبرات الصوت Echo (1) والأدوات الأخرى في عشرات الملايين من المنازل الأمريكية ، تبدأ التسجيل عندما تسمع اسمها أو "كلمة الاتصال" التي يتحدثها المستخدم. هذا يعني أنه حتى إذا تم ذكر كلمة "Alexa" في إعلان تلفزيوني ، فقد يبدأ الجهاز في التسجيل. هذا بالضبط ما حدث في هذه الحالة ، كما يقول أمازون ، موزع الأجهزة.

وقالت الشركة في بيان: "فسر المساعد الصوتي بقية المحادثة على أنها أمر بإرسال رسالة". "في مرحلة ما ، سألت أليكسا بصوت عالٍ:" لمن؟ " كان من المفترض أن ينظر الجهاز إلى استمرار المحادثة العائلية حول الأرضيات الخشبية على أنه عنصر في قائمة جهات اتصال العميل ". على الأقل هذا ما تعتقده أمازون. وبالتالي ، يتم تقليل الترجمة إلى سلسلة من الحوادث.

القلق ، ومع ذلك ، لا يزال قائما. لأنه لسبب ما في منزل ما زلنا نشعر فيه بالراحة ، يتعين علينا إدخال نوع من "الوضع الصوتي" ، ومشاهدة ما نقوله ، وما يبثه التلفزيون ، وبالطبع ، ما هذا مكبر الصوت الجديد على خزانة الأدراج يقول. نحن.

مع ذلك، على الرغم من العيوب التكنولوجية ومخاوف الخصوصية ، مع زيادة شعبية الأجهزة مثل Amazon Echo ، بدأ الناس في التعود على فكرة التفاعل مع أجهزة الكمبيوتر باستخدام أصواتهم..

كما لاحظ Werner Vogels ، كبير التكنولوجيا في Amazon ، خلال جلسة AWS re: Invent في أواخر عام 2017 ، فقد حدت التكنولوجيا حتى الآن من قدرتنا على التفاعل مع أجهزة الكمبيوتر. نقوم بكتابة الكلمات الرئيسية في Google باستخدام لوحة المفاتيح ، حيث لا تزال هذه هي الطريقة الأكثر شيوعًا والأسهل لإدخال المعلومات في الجهاز.

قال فوغلز. -

الأربعة الكبار

عند استخدام محرك بحث Google على الهاتف ، ربما لاحظنا علامة ميكروفون مع مكالمة للتحدث منذ فترة طويلة. هذا جوجل الان (2) ، والتي يمكنها إملاء استعلام بحث ، وإدخال رسالة عن طريق الصوت ، وما إلى ذلك. في السنوات الأخيرة ، تحسنت Google و Apple و Amazon بشكل كبير تقنية التعرف على الصوت. لا يقوم المساعدون الصوتيون مثل Alexa و Siri و Google Assistant بتسجيل صوتك فحسب ، بل يفهمون أيضًا ما تقوله لهم ويجيبون على الأسئلة.

Google Now متاح مجانًا لجميع مستخدمي Android. يمكن للتطبيق ، على سبيل المثال ، ضبط المنبه والتحقق من توقعات الطقس والتحقق من المسار على خرائط Google. تمديد محادثة جوجل الآن الدول مساعد جوجل () - مساعدة افتراضية لمستخدم المعدات. وهي متوفرة بشكل أساسي على الأجهزة المحمولة والأجهزة المنزلية الذكية. بخلاف Google Now ، يمكنه المشاركة في تبادل ثنائي الاتجاه. ظهر المساعد لأول مرة في مايو 2016 كجزء من تطبيق المراسلة من Google Allo ، وكذلك في مكبر الصوت Google Home (3).

3. صفحة Google الرئيسية

يحتوي نظام IOS أيضًا على مساعد افتراضي خاص به ، سيري، وهو برنامج مضمن مع أنظمة تشغيل Apple iOS و watchOS و tvOS homepod و macOS. ظهر Siri لأول مرة مع iOS 5 و iPhone 4s في أكتوبر 2011 في مؤتمر Let's Talk iPhone.

يعتمد البرنامج على واجهة محادثة: فهو يتعرف على الكلام الطبيعي للمستخدم (مع نظام iOS 11 ، من الممكن أيضًا إدخال الأوامر يدويًا) ، ويجيب على الأسئلة ويكمل المهام. بفضل إدخال التعلم الآلي ، مساعد بمرور الوقت يحلل التفضيلات الشخصية المستخدم لتقديم نتائج وتوصيات أكثر صلة. يتطلب Siri اتصالاً ثابتًا بالإنترنت - المصادر الرئيسية للمعلومات هنا هي Bing و Wolfram Alpha. قدم iOS 10 دعمًا لملحقات الجهات الخارجية.

واحد آخر من الأربعة الكبار مايكروسوفت كورتانا. إنه مساعد شخصي ذكي تم إنشاؤه بواسطة Microsoft. وهو مدعوم على أنظمة التشغيل Windows 10 و Windows 10 Mobile و Windows Phone 8.1 و Xbox One و Skype و Microsoft Band و Microsoft Band 2 و Android و iOS. تم تقديم Cortana لأول مرة في مؤتمر مطوري Microsoft Build في أبريل 2014 في سان فرانسيسكو. يأتي اسم البرنامج من اسم شخصية من سلسلة ألعاب Halo. يتوفر Cortana باللغات الإنجليزية والإيطالية والإسبانية والفرنسية والألمانية والصينية واليابانية.

مستخدمو البرنامج الذي سبق ذكره اليكسا يجب عليهم أيضًا مراعاة قيود اللغة - المساعد الرقمي يتحدث الإنجليزية والألمانية والفرنسية واليابانية فقط.

تم استخدام Amazon Virtual Assistant لأول مرة في مكبرات الصوت الذكية Amazon Echo و Amazon Echo Dot التي طورتها Amazon Lab126. يوفر التفاعل الصوتي ، وتشغيل الموسيقى ، وإنشاء قائمة المهام ، وإعداد التنبيه ، وتدفق البودكاست ، وتشغيل الكتاب الصوتي ، والطقس في الوقت الفعلي ، وحركة المرور ، والرياضة ، ومعلومات إخبارية أخرى مثل الأخبار (4). يمكن لـ Alexa التحكم في العديد من الأجهزة الذكية لإنشاء نظام أتمتة للمنزل. يمكن استخدامه أيضًا لإجراء تسوق مريح في متجر Amazon.

4. لماذا يستخدم المستخدمون الصدى (حسب البحث)

يمكن للمستخدمين تحسين تجربة Alexa عن طريق تثبيت "مهارات" Alexa () ، وهي ميزات إضافية تم تطويرها بواسطة جهات خارجية ، والتي يشار إليها بشكل أكثر شيوعًا باسم تطبيقات مثل برامج الطقس والصوت في إعدادات أخرى. تسمح لك معظم أجهزة Alexa بتنشيط مساعدك الافتراضي بكلمة مرور إيقاظ ، تسمى a.

تهيمن Amazon بالتأكيد على سوق السماعات الذكية اليوم (5). تحاول شركة IBM ، التي قدمت خدمة جديدة في مارس 2018 ، دخول المراكز الأربعة الأولى مساعد واتسون، المصممة للشركات التي ترغب في إنشاء أنظمتها الخاصة من المساعدين الافتراضيين مع التحكم الصوتي. ما هي ميزة حل IBM؟ وفقًا لممثلي الشركة ، أولاً وقبل كل شيء ، على فرص أكبر بكثير للتخصيص وحماية الخصوصية.

أولاً ، Watson Assistant ليس له علامة تجارية. يمكن للشركات إنشاء حلولها الخاصة على هذه المنصة وتمييزها بعلامتها التجارية الخاصة.

ثانيًا ، يمكنهم تدريب أنظمتهم المساعدة باستخدام مجموعات البيانات الخاصة بهم ، والتي تقول آي بي إم إنها تجعل من السهل إضافة وظائف وأوامر إلى هذا النظام أكثر من تقنيات VUI (واجهة المستخدم الصوتية) الأخرى.

ثالثًا ، لا يقوم Watson Assistant بتزويد IBM بمعلومات حول نشاط المستخدم - يمكن لمطوري الحلول على النظام الأساسي الاحتفاظ بالبيانات القيمة لأنفسهم فقط. وفي الوقت نفسه ، يجب على أي شخص يقوم ببناء الأجهزة ، على سبيل المثال مع Alexa ، أن يدرك أن بياناته القيمة ستنتهي في Amazon.

يحتوي Watson Assistant بالفعل على العديد من التطبيقات. تم استخدام النظام ، على سبيل المثال ، من قبل هارمان ، التي أنشأت مساعدًا صوتيًا لسيارة مازيراتي الاختبارية (6). في مطار ميونيخ ، يقوم مساعد IBM بتشغيل روبوت Pepper لمساعدة الركاب على التحرك. المثال الثالث هو Chameleon Technologies ، حيث تُستخدم تقنية الصوت في عداد المنزل الذكي.

6. مساعد واطسون في سيارة مفهوم مازيراتي

تجدر الإشارة إلى أن التكنولوجيا الأساسية هنا ليست جديدة أيضًا. يتضمن Watson Assistant إمكانات التشفير لمنتجات IBM الحالية و Watson Conversation و Watson Virtual Agent ، بالإضافة إلى واجهات برمجة التطبيقات لتحليل اللغة والدردشة.

أمازون ليست فقط شركة رائدة في تقنية الصوت الذكية ، ولكنها تحولها إلى عمل مباشر. ومع ذلك ، فقد جربت بعض الشركات تكامل Echo قبل ذلك بكثير. قدمت Sisense ، وهي شركة تعمل في مجال ذكاء الأعمال والتحليلات ، تكامل Echo في يوليو 2016. في المقابل ، قررت شركة Roxy الناشئة إنشاء برامجها وأجهزتها الخاصة مع التحكم الصوتي في صناعة الضيافة. في وقت سابق من هذا العام ، قدمت Synqq تطبيقًا لتدوين الملاحظات يستخدم معالجة الصوت واللغة الطبيعية لإضافة ملاحظات وإدخالات التقويم دون الحاجة إلى كتابتها على لوحة المفاتيح.

كل هذه الشركات الصغيرة لديها طموحات عالية. لكن الأهم من ذلك كله أنهم تعلموا أنه لا يرغب كل مستخدم في نقل بياناته إلى أمازون أو جوجل أو آبل أو مايكروسوفت ، والتي تعد أهم اللاعبين في بناء منصات الاتصالات الصوتية.

الأمريكيون يريدون الشراء

في عام 2016 ، استحوذ البحث الصوتي على 20٪ من جميع عمليات بحث Google على الأجهزة المحمولة. يستشهد الأشخاص الذين يستخدمون هذه التكنولوجيا على أساس يومي بملاءمة استخدامها وتعدد مهامها من بين أكبر فوائدها. (على سبيل المثال ، القدرة على استخدام محرك بحث أثناء قيادة السيارة).

يقدر محللو Visiongain القيمة السوقية الحالية للمساعدات الرقمية الذكية بمبلغ 1,138 مليار دولار ، وهناك المزيد والمزيد من هذه الآليات. وفقًا لـ Gartner ، بحلول نهاية عام 2018 بالفعل 30٪ من تفاعلاتنا مع التكنولوجيا سيكون من خلال المحادثات مع الأنظمة الصوتية.

تقدر شركة الأبحاث البريطانية IHS Markit أن سوق المساعدين الرقميين المدعومين بالذكاء الاصطناعي سيصل إلى 4 مليارات جهاز بحلول نهاية هذا العام ، وقد يرتفع هذا العدد إلى 2020 مليارات بحلول عام 7.

وفقًا لتقارير من eMarketer و VoiceLabs ، استخدم 2017 مليون أمريكي التحكم الصوتي مرة واحدة على الأقل شهريًا في عام 35,6. وهذا يعني زيادة بنسبة 130٪ تقريبًا عن العام السابق. من المتوقع أن ينمو سوق المساعد الرقمي وحده بنسبة 2018٪ في 23. هذا يعني أنك ستستخدمها بالفعل. 60,5 مليون أمريكي، مما سينتج عنه أموال ملموسة لمنتجيها. تقدر RBC Capital Markets أن واجهة Alexa ستحقق إيرادات تصل إلى 2020 مليارات دولار لشركة Amazon بحلول عام 10.

اغسل ، خبز ، نظف!

تدخل الواجهات الصوتية بجرأة متزايدة في أسواق الأجهزة المنزلية والإلكترونيات الاستهلاكية. يمكن رؤية هذا بالفعل خلال معرض IFA 2017 العام الماضي. قدمت الشركة الأمريكية Neato Robotics ، على سبيل المثال ، مكنسة كهربائية روبوتية تتصل بواحدة من العديد من منصات المنزل الذكي ، بما في ذلك نظام Amazon Echo. من خلال التحدث إلى مكبر الصوت الذكي Echo ، يمكنك توجيه الجهاز لتنظيف منزلك بالكامل في أوقات محددة من النهار أو الليل.

تم عرض المنتجات الأخرى التي يتم تنشيطها صوتيًا في المعرض ، بدءًا من أجهزة التلفزيون الذكية التي تم بيعها تحت علامة توشيبا التجارية من قبل شركة Vestel التركية إلى البطانيات المدفأة من قبل شركة Beurer الألمانية. يمكن أيضًا تنشيط العديد من هذه الأجهزة الإلكترونية عن بُعد باستخدام الهواتف الذكية.

ومع ذلك ، وفقًا لممثلي Bosch ، من السابق لأوانه تحديد أي من خيارات المساعد المنزلي سيصبح مهيمنًا. في IFA 2017 ، عرضت مجموعة تقنية ألمانية غسالات (7) وأفران وآلات صنع القهوة متصلة بـ Echo. تريد Bosch أيضًا أن تكون أجهزتها متوافقة مع منصات Google الصوتية و Apple في المستقبل.

7. غسالة Bosch التي تتصل بـ Amazon Echo

تعمل شركات مثل Fujitsu و Sony و Panasonic على تطوير حلول المساعد الصوتي القائمة على الذكاء الاصطناعي. تضيف Sharp هذه التقنية إلى الأفران والروبوتات الصغيرة التي تدخل السوق. تقوم Nippon Telegraph & Telephone بتوظيف الأجهزة وصانعي الألعاب لتكييف نظام ذكاء اصطناعي يتم التحكم فيه صوتيًا.

المفهوم القديم. هل حان وقتها أخيرًا؟

في الواقع ، كان مفهوم واجهة المستخدم الصوتية (VUI) موجودًا منذ عقود. من المحتمل أن أي شخص شاهد Star Trek أو 2001: A Space Odyssey منذ سنوات قد توقع أنه في حوالي عام 2000 سنتحكم جميعًا في أجهزة الكمبيوتر بأصواتنا. أيضًا ، لم يكن كتّاب الخيال العلمي وحدهم من رأوا إمكانات هذا النوع من الواجهة. في عام 1986 ، سأل باحثو Nielsen متخصصي تكنولوجيا المعلومات عما يعتقدون أنه سيكون أكبر تغيير في واجهات المستخدم بحلول عام 2000. أشاروا في أغلب الأحيان إلى تطوير واجهات الصوت.

هناك أسباب للأمل في مثل هذا الحل. التواصل اللفظي هو ، بعد كل شيء ، الطريقة الأكثر طبيعية للناس لتبادل الأفكار بوعي ، لذا فإن استخدامه للتفاعل بين الإنسان والآلة يبدو أنه الحل الأفضل حتى الآن.

واحدة من أولى VUIs تسمى علب الأحذية، تم إنشاؤه في أوائل الستينيات من قبل شركة IBM. لقد كان رائد أنظمة التعرف على الصوت اليوم. ومع ذلك ، فإن تطوير أجهزة VUI كان محدودًا بسبب حدود قوة الحوسبة. يتطلب تحليل الكلام البشري وتفسيره في الوقت الفعلي الكثير من الجهد ، واستغرق الأمر أكثر من خمسين عامًا للوصول إلى النقطة التي أصبح فيها ممكنًا بالفعل.

بدأت الأجهزة ذات الواجهة الصوتية في الظهور في الإنتاج الضخم في منتصف التسعينيات ، لكنها لم تكتسب شعبية. أول هاتف به تحكم صوتي (اتصال) كان فيليبس سباركصدر في عام 1996. ومع ذلك ، فإن هذا الجهاز المبتكر وسهل الاستخدام لم يكن خاليًا من القيود التكنولوجية.

الهواتف الأخرى المجهزة بأشكال من الواجهة الصوتية (التي أنشأتها شركات مثل RIM أو Samsung أو Motorola) تدخل السوق بانتظام ، مما يسمح للمستخدمين بالاتصال الصوتي أو إرسال رسائل نصية. ومع ذلك ، فقد تطلب كل منهم حفظ أوامر محددة ونطقها بشكل قسري ومصطنع ، يتكيف مع قدرات الأجهزة في ذلك الوقت. نتج عن ذلك عدد كبير من الأخطاء ، والتي بدورها أدت إلى عدم رضا المستخدم.

ومع ذلك ، فإننا ندخل الآن حقبة جديدة من الحوسبة ، حيث تؤدي التطورات في التعلم الآلي والذكاء الاصطناعي إلى فتح إمكانات المحادثة كطريقة جديدة للتفاعل مع التكنولوجيا (8). أصبح عدد الأجهزة التي تدعم التفاعل الصوتي عاملاً مهمًا كان له تأثير كبير على تطوير واجهة المستخدم الرسومية (VUI). اليوم ، يمتلك ما يقرب من ثلث سكان العالم بالفعل هواتف ذكية يمكن استخدامها لهذا النوع من السلوك. يبدو أن معظم المستخدمين جاهزون أخيرًا لتكييف واجهات الصوت الخاصة بهم.

8. التاريخ الحديث لتطوير واجهة الصوت

ومع ذلك ، قبل أن نتمكن من التحدث بحرية إلى جهاز كمبيوتر ، كما فعلت شخصيات A Space Odyssey ، يجب أن نتغلب على عدد من المشاكل. لا تزال الآلات غير جيدة في التعامل مع الفروق اللغوية. بجانب لا يزال الكثير من الناس يشعرون بعدم الارتياح عند إعطاء أوامر صوتية لمحرك البحث.

تشير الإحصائيات إلى أن المساعدين الصوتيين يتم استخدامهم بشكل أساسي في المنزل أو بين الأصدقاء المقربين. لم يعترف أي من الذين تمت مقابلتهم باستخدام البحث الصوتي في الأماكن العامة. ومع ذلك ، فمن المرجح أن يختفي هذا الحصار مع انتشار هذه التكنولوجيا.

سؤال صعب من الناحية الفنية

المشكلة التي تواجهها الأنظمة (ASR) هي استخراج بيانات مفيدة من إشارة كلامية وربطها بكلمة معينة لها معنى معين لشخص ما. الأصوات المنتجة مختلفة في كل مرة.

تقلب إشارة الكلام هي خاصية طبيعية ، بفضلها ، على سبيل المثال ، نتعرف على اللهجة أو التنغيم. كل عنصر من عناصر نظام التعرف على الكلام له مهمة محددة. بناءً على الإشارة المعالجة ومعلماتها ، يتم إنشاء نموذج صوتي مرتبط بنموذج اللغة. يمكن أن يعمل نظام التعرف على أساس عدد صغير أو كبير من الأنماط التي تحدد حجم المفردات التي يعمل بها. يستطيعون قواميس صغيرة في حالة الأنظمة التي تتعرف على الكلمات أو الأوامر الفردية ، وكذلك قواعد البيانات الكبيرة تحتوي على ما يعادل مجموعة اللغة مع مراعاة نموذج اللغة (القواعد).

المشاكل التي تواجهها واجهات الصوت في المقام الأول فهم الكلام بشكل صحيح، حيث ، على سبيل المثال ، غالبًا ما يتم حذف التسلسلات النحوية بأكملها ، وتحدث أخطاء لغوية وصوتية ، وأخطاء ، وحذف ، وعيوب في الكلام ، وترادفات متجانسة ، وتكرار غير مبرر ، وما إلى ذلك. يجب أن تعمل جميع أنظمة ACP هذه بسرعة وبشكل موثوق. على الأقل تلك هي التوقعات.

مصدر الصعوبات هو أيضًا إشارات صوتية بخلاف الكلام المعترف به والتي تدخل مدخلات نظام التعرف ، أي جميع الانواع التداخل والضوضاء. في أبسط الحالات ، أنت في حاجة إليها تصفية. تبدو هذه المهمة روتينية وسهلة - بعد كل شيء ، يتم تصفية الإشارات المختلفة ويعرف كل مهندس إلكترونيات ما يجب القيام به في مثل هذه الحالة. ومع ذلك ، يجب أن يتم ذلك بحذر شديد وحذر إذا كانت نتيجة التعرف على الكلام هي تلبية توقعاتنا.

تتيح التصفية المستخدمة حاليًا إزالة الضوضاء الخارجية التي يلتقطها الميكروفون والخصائص الداخلية لإشارة الكلام نفسها ، مع إشارة الكلام ، مما يجعل من الصعب التعرف عليها. ومع ذلك ، تظهر مشكلة تقنية أكثر تعقيدًا عندما يكون التداخل في إشارة الكلام التي تم تحليلها هو ... إشارة كلام أخرى ، أي ، على سبيل المثال ، مناقشات صاخبة حولها. هذا السؤال معروف في الأدبيات باسم ما يسمى ب. هذا يتطلب بالفعل استخدام أساليب معقدة ، ما يسمى ب. فك (تفكيك) الإشارة.

مشاكل التعرف على الكلام لا تنتهي عند هذا الحد. يجدر إدراك أن الكلام يحمل أنواعًا مختلفة من المعلومات. يوحي صوت الإنسان بالجنس والعمر والشخصيات المختلفة للمالك أو الحالة الصحية له. هناك قسم واسع من الهندسة الطبية الحيوية يتعامل مع تشخيص الأمراض المختلفة بناءً على الظواهر الصوتية المميزة الموجودة في إشارة الكلام.

هناك أيضًا تطبيقات يكون الغرض الرئيسي من التحليل الصوتي لإشارة الكلام فيها هو تحديد المتحدث أو التحقق من هويته (صوت بدلاً من المفتاح أو كلمة المرور أو رمز PUK). يمكن أن يكون هذا مهمًا ، خاصة لتقنيات البناء الذكية.

المكون الأول لنظام التعرف على الكلام هو ميكروفون. ومع ذلك ، فإن الإشارة التي يلتقطها الميكروفون عادة ما تظل قليلة الاستخدام. تشير الدراسات إلى أن شكل ومسار الموجة الصوتية يختلفان اختلافًا كبيرًا اعتمادًا على الشخص وسرعة الكلام وجزئيًا مزاج المحاور - بينما يعكسان إلى حدٍ ما محتوى الأوامر المنطوقة.

لذلك ، يجب معالجة الإشارة بشكل صحيح. توفر الصوتيات والصوتيات وعلوم الكمبيوتر الحديثة معًا مجموعة غنية من الأدوات التي يمكن استخدامها لمعالجة إشارة الكلام وتحليلها والتعرف عليها وفهمها. الطيف الديناميكي للإشارة ، ما يسمى ب الطيفية الديناميكية. من السهل جدًا الحصول عليها ، ومن السهل نسبيًا التعرف على الكلام ، المقدم في شكل مخطط طيف ديناميكي ، باستخدام تقنيات مشابهة لتلك المستخدمة في التعرف على الصور.

يمكن التعرف على عناصر الكلام البسيطة (على سبيل المثال ، الأوامر) من خلال التشابه البسيط بين مخططات طيفية كاملة. على سبيل المثال ، يحتوي قاموس الهاتف المحمول المنشط بالصوت على بضع عشرات إلى بضع مئات من الكلمات والعبارات ، وعادة ما تكون مكدسة مسبقًا بحيث يمكن التعرف عليها بسهولة وكفاءة. هذا كافٍ لمهام التحكم البسيطة ، لكنه يحد بشدة من التطبيق الكلي. الأنظمة التي تم إنشاؤها وفقًا للمخطط ، كقاعدة عامة ، تدعم فقط المتحدثين المحددين الذين يتم تدريب الأصوات لهم بشكل خاص. لذلك إذا كان هناك شخص جديد يريد استخدام صوته للتحكم في النظام ، فمن المرجح ألا يتم قبوله.

نتيجة هذه العملية تسمى مخطط الطيف 2-W، وهذا هو ، طيف ثنائي الأبعاد. هناك نشاط آخر في هذه المجموعة يستحق الانتباه إليه - تجزئة. بشكل عام ، نحن نتحدث عن تقسيم إشارة الكلام المستمر إلى أجزاء يمكن التعرف عليها بشكل منفصل. يتم التعرف على الكل من خلال التشخيصات الفردية فقط. هذا الإجراء ضروري لأنه لا يمكن تحديد خطاب طويل ومعقد دفعة واحدة. لقد تم بالفعل كتابة مجلدات كاملة حول الأجزاء التي يجب تمييزها في إشارة الكلام ، لذلك لن نقرر الآن ما إذا كانت المقاطع المميزة يجب أن تكون صوتية (معادلات صوتية) ، أو مقاطع ، أو ربما allophones.

تشير عملية التعرف التلقائي دائمًا إلى بعض ميزات الكائنات. تم اختبار المئات من مجموعات المعلمات المختلفة لإشارة الكلام مقسمة إلى إطارات معترف بها وبعد الميزات المختارةحيث يتم تقديم هذه الإطارات في عملية التعرف ، يمكننا القيام (لكل إطار على حدة) تصنيف، أي. تعيين معرف للإطار ، والذي سيمثله في المستقبل.

المرحلة القادمة تجميع الإطارات في كلمات منفصلة - في أغلب الأحيان على أساس ما يسمى ب. نموذج لنماذج ماركوف الضمنية (HMM-). ثم يأتي مونتاج الكلمات جمل كاملة.

يمكننا الآن العودة إلى نظام Alexa للحظة. يوضح مثاله عملية متعددة المراحل لـ "فهم" شخص ما - بشكل أدق: أمر معطى من قبله أو سؤال مطروح.

يعد فهم الكلمات وفهم المعنى وفهم نية المستخدم أشياء مختلفة تمامًا.

لذلك ، فإن الخطوة التالية هي عمل وحدة البرمجة اللغوية العصبية () ، ومهمتها هي التعرف على نية المستخدم، أي. معنى الأمر / السؤال في السياق الذي تم نطقه فيه. إذا تم تحديد النية ، إذن تخصيص ما يسمى بالمهارات والقدرات، أي الميزة المحددة التي يدعمها المساعد الذكي. في حالة وجود سؤال حول الطقس ، يتم استدعاء مصادر بيانات الطقس ، والتي لا يزال يتعين معالجتها في الكلام (TTS - آلية). نتيجة لذلك ، يسمع المستخدم إجابة السؤال المطروح.

صوت؟ الفنون التصويرية؟ أو ربما كلاهما؟

تعتمد معظم أنظمة التفاعل الحديثة المعروفة على وسيط يسمى واجهة المستخدم الرسومية (واجهة رسومية). لسوء الحظ ، فإن واجهة المستخدم الرسومية ليست الطريقة الأكثر وضوحًا للتفاعل مع منتج رقمي. يتطلب هذا أن يتعلم المستخدمون أولاً كيفية استخدام الواجهة وتذكر هذه المعلومات مع كل تفاعل لاحق. في كثير من المواقف ، يكون الصوت أكثر ملاءمة ، لأنه يمكنك التفاعل مع VUI ببساطة عن طريق التحدث إلى الجهاز. الواجهة التي لا تجبر المستخدمين على حفظ وحفظ أوامر معينة أو طرق تفاعل تسبب مشاكل أقل.

بالطبع ، لا يعني توسيع VUI التخلي عن واجهات أكثر تقليدية - بدلاً من ذلك ، ستتوفر واجهات هجينة تجمع بين عدة طرق للتفاعل.

واجهة الصوت ليست مناسبة لجميع المهام في سياق المحمول. باستخدامه ، سنتصل بصديق يقود سيارة ، وحتى نرسل إليه رسالة نصية قصيرة ، لكن التحقق من أحدث عمليات النقل قد يكون صعبًا للغاية - نظرًا لكمية المعلومات المنقولة إلى النظام () والتي تم إنشاؤها بواسطة النظام (النظام). كما تقترح Rachel Hinman في كتابها Mobile Frontier ، يصبح استخدام VUI أكثر فاعلية عند أداء المهام حيث يكون مقدار معلومات الإدخال والإخراج صغيرًا.

يعد الهاتف الذكي المتصل بالإنترنت ملائمًا ولكنه غير مريح أيضًا (9). في كل مرة يرغب فيها المستخدم في شراء شيء ما أو استخدام خدمة جديدة ، يتعين عليه تنزيل تطبيق آخر وإنشاء حساب جديد. تم هنا إنشاء مجال لاستخدام وتطوير واجهات الصوت. بدلاً من إجبار المستخدمين على تثبيت العديد من التطبيقات المختلفة أو إنشاء حسابات منفصلة لكل خدمة ، يقول الخبراء إن VUI ستحول عبء هذه المهام المرهقة إلى مساعد صوتي مدعوم بالذكاء الاصطناعي. سيكون من المناسب له القيام بأنشطة شاقة. سوف نعطيه الأوامر فقط.

9. واجهة صوتية عبر الهاتف الذكي

اليوم ، أكثر من مجرد هاتف وجهاز كمبيوتر متصلان بالإنترنت. يتم أيضًا توصيل منظمات الحرارة الذكية والأضواء والغلايات والعديد من الأجهزة الأخرى المدمجة بإنترنت الأشياء بالشبكة (10). وبالتالي ، هناك أجهزة لاسلكية في كل مكان حولنا تملأ حياتنا ، ولكن لا تتناسب جميعها بشكل طبيعي مع واجهة المستخدم الرسومية. سيساعدك استخدام VUI على دمجها بسهولة في بيئتنا.

10. واجهة الصوت مع إنترنت الأشياء

سيصبح إنشاء واجهة مستخدم صوتية قريبًا مهارة رئيسية للمصمم. هذه مشكلة حقيقية - ستشجعك الحاجة إلى تنفيذ أنظمة الصوت على التركيز بشكل أكبر على التصميم الاستباقي ، أي محاولة فهم النوايا الأولية للمستخدم ، وتوقع احتياجاته وتوقعاته في كل مرحلة من مراحل المحادثة.

الصوت هو وسيلة فعالة لإدخال البيانات - فهو يسمح للمستخدمين بإصدار الأوامر بسرعة إلى النظام بشروطهم الخاصة. من ناحية أخرى ، توفر الشاشة طريقة فعالة لعرض المعلومات: فهي تسمح للأنظمة بعرض كمية كبيرة من المعلومات في نفس الوقت ، مما يقلل العبء على ذاكرة المستخدم. من المنطقي أن دمجهم في نظام واحد يبدو مشجعًا.

لا تقدم مكبرات الصوت الذكية مثل Amazon Echo و Google Home عرضًا مرئيًا على الإطلاق. تعمل على تحسين دقة التعرف على الصوت بشكل كبير على مسافات معتدلة ، فهي تتيح التشغيل بدون استخدام اليدين ، مما يؤدي بدوره إلى زيادة مرونتها وكفاءتها - وهي مرغوبة حتى بالنسبة للمستخدمين الذين لديهم بالفعل هواتف ذكية مزودة بالتحكم الصوتي. ومع ذلك ، فإن عدم وجود شاشة يمثل قيدًا كبيرًا.

يمكن استخدام أصوات التنبيه فقط لإبلاغ المستخدمين بالأوامر المحتملة ، وتصبح قراءة الإخراج بصوت عالٍ مملة باستثناء المهام الأساسية. يعد ضبط المؤقت بأمر صوتي أثناء الطهي أمرًا رائعًا ، ولكن جعلك تسأل عن مقدار الوقت المتبقي ليس ضروريًا. يصبح الحصول على تنبؤات جوية منتظمة بمثابة اختبار لذاكرة المستخدم ، الذي يتعين عليه الاستماع واستيعاب سلسلة من الحقائق طوال الأسبوع ، بدلاً من التقاطها من الشاشة في لمح البصر.

لقد فعل المصممون بالفعل محلول هجين، Echo Show (11) ، الذي أضاف شاشة عرض إلى مكبر الصوت الذكي Echo الأساسي. هذا يوسع بشكل كبير من وظائف المعدات. ومع ذلك ، لا يزال برنامج Echo Show أقل قدرة على أداء الوظائف الأساسية التي كانت متاحة منذ فترة طويلة على الهواتف الذكية والأجهزة اللوحية. لا يمكنه (حتى الآن) تصفح الويب أو إظهار التعليقات أو عرض محتويات عربة تسوق أمازون ، على سبيل المثال.

العرض المرئي هو بطبيعته طريقة أكثر فعالية لتزويد الناس بثروة من المعلومات من مجرد الصوت. يمكن أن يؤدي التصميم باستخدام أولوية الصوت إلى تحسين التفاعل الصوتي بشكل كبير ، ولكن على المدى الطويل ، فإن عدم استخدام القائمة المرئية بشكل تعسفي من أجل التفاعل سيكون مثل القتال بيد واحدة مقيدة خلف ظهرك. نظرًا للتعقيد الذي يلوح في الأفق لواجهات الصوت والعرض الذكية من طرف إلى طرف ، يجب على المطورين التفكير بجدية في نهج هجين للواجهات.

أدت زيادة كفاءة وسرعة توليد الكلام وأنظمة التعرف إلى إمكانية استخدامها في تطبيقات ومجالات مثل ، على سبيل المثال:

• العسكرية (الأوامر الصوتية في الطائرات أو طائرات الهليكوبتر ، على سبيل المثال ، F16 VISTA) ،

• النسخ التلقائي للنص (الكلام إلى نص) ،

• أنظمة المعلومات التفاعلية (Prime Speech ، بوابات الصوت) ،

• أجهزة الجوال (الهواتف ، الهواتف الذكية ، الأجهزة اللوحية) ،

• الروبوتات (أنظمة Cleverbot - ASR جنبًا إلى جنب مع الذكاء الاصطناعي) ،

• السيارات (التحكم في مكونات السيارة بدون استخدام اليدين ، مثل Blue & Me) ،

• تطبيقات المنزل (أنظمة المنزل الذكي).

احترس من السلامة!

بدأت السيارات ، والأجهزة المنزلية ، وأنظمة التدفئة / التبريد وأمن المنزل ، ومجموعة كبيرة من الأجهزة المنزلية في استخدام واجهات صوتية ، غالبًا ما تكون قائمة على الذكاء الاصطناعي. في هذه المرحلة ، يتم إرسال البيانات التي تم الحصول عليها من ملايين المحادثات مع الأجهزة إلى الغيوم الحاسوبية. من الواضح أن المسوقين مهتمون بها. وليس هم فقط.

يوصي تقرير حديث صادر عن خبراء الأمن في Symantec بألا يتحكم مستخدمو الأوامر الصوتية في ميزات الأمان مثل أقفال الأبواب ، ناهيك عن أنظمة أمان المنزل. الشيء نفسه ينطبق على تخزين كلمات المرور أو المعلومات السرية. لم يتم بعد دراسة أمان الذكاء الاصطناعي والمنتجات الذكية بشكل كافٍ.

عندما تستمع الأجهزة في جميع أنحاء المنزل إلى كل كلمة ، يصبح خطر القرصنة وإساءة استخدام النظام مشكلة بالغة الأهمية. إذا تمكن المهاجم من الوصول إلى الشبكة المحلية أو عناوين البريد الإلكتروني المرتبطة بها ، فيمكن تغيير إعدادات الجهاز الذكي أو إعادة تعيينها إلى إعدادات المصنع ، مما يؤدي إلى فقدان المعلومات القيمة وحذف سجل المستخدم.

بعبارة أخرى ، يخشى المتخصصون في مجال الأمن من أن الذكاء الاصطناعي الذي يحركه الصوت والصورة VUI ليس ذكيًا بما يكفي لحمايتنا من التهديدات المحتملة وإغلاق أفواهنا عندما يطلب شخص غريب شيئًا ما.

إضافة تعليق