تنمية مهارات اليكسا
نشرت: 2021-07-19في هذه المدونة ، سأشرح ماهية Alexa ، وأهمية تقنية التعرف على الصوت ، قبل تقديم نظرة عامة موجزة عن إنشاء مهارات Alexa على AWS.
ما هو اليكسا؟
Alexa هي خدمة التعرف على الصوت والاستجابة المستندة إلى مجموعة النظراء التي تقدمها أمازون. يسمح للمستخدمين بالتحكم في أجهزتهم والوصول إلى المعلومات عن طريق التحدث بالأوامر.
يمكنه العمل مع العديد من الأجهزة ، بما في ذلك Amazon's Echo والأجهزة الأخرى المصنعة من طرف ثالث.
لماذا اليكسا؟
هذا يعتمد بحتة على معرفتي الشخصية. اللاعبان الرئيسيان الآخران في هذا المجال هما Google Assistant و Apple's Siri ، وكلاهما يمثل خدمات التعرف على الصوت المتشابهة للغاية.
لماذا الصوت؟
مر تصميم واجهة مستخدم الكمبيوتر بمراحل مختلفة من التطور. تحاول كل خطوة تحسين التصميمات السابقة من حيث المصطلحات - بعضها أكثر نجاحًا من البعض الآخر. في حالة إمكانية الوصول ، هذا مهم بشكل خاص. ومع ذلك ، إذا سألت أي شخص مشارك في إمكانية الوصول ، فمن المحتمل أن يخبرك بمدى قصره في كثير من الأحيان على تلبية احتياجات العديد من المستخدمين.
تاريخ موجز (جدًا) لواجهة مستخدم الكمبيوتر
الحوسبة الدفعية / البطاقات المثقبة
تطلبت أجهزة الكمبيوتر "العامة" المبكرة جدًا إنشاء بطاقات مثقوبة بشكل شاق ، وكانت تتمتع عمومًا بقوة حوسبة أقل من متوسط الغسالة.
واجهة سطر الأوامر (CLI)
على الرغم من أن بعض الأشخاص لا يزالون يعتبرون هذا هو الطريقة * الوحيدة * للتحكم في جهاز الكمبيوتر الخاص بك ، إلا أن الإجماع العام هو أنه قد يكون غير مريح بعض الشيء لبعض المهام التي قد يرغب المرء في القيام بها. من الواضح أن الطريقة الرئيسية للإدخال في هذه المرحلة كانت لوحة المفاتيح. على الرغم من أنه لا يزال عنصرًا أساسيًا في أي إعداد لمحطة العمل (ومن المحتمل أن يكون لفترة طويلة جدًا) ، إلا أن تعلم الكتابة يمكن أن يكون عائقًا صعبًا أمام الاستخدام.
واجهة المستخدم الرسومية (GUI)
شهد ظهور واجهة المستخدم الرسومية إدخال الأنظمة المستندة إلى Windows ، والتي كانت قفزة هائلة إلى الأمام من حيث سهولة الاستخدام وتجربة المستخدم. وبالطبع ، لسحب هذه النوافذ الجديدة اللامعة حولها ، تم اختراع الماوس - طريقة بديهية للغاية للتفاعل مع الكمبيوتر.
هاتف ذكي
على الرغم من استخدامها سابقًا مع أجهزة الكمبيوتر المكتبية ، إلا أن تقنية شاشة اللمس لم تنطلق أبدًا حتى ظهرت الهواتف الذكية والأجهزة "الذكية" الأخرى. لا مزيد من قعقعة المفاتيح بصوت عال!
صوت
يشكل تطوير التكنولوجيا التي تعمل بالصوت قفزة كبيرة أخرى إلى الأمام من حيث سهولة الاستخدام وتجربة المستخدم. القدرة الوحيدة التي تحتاجها للتفاعل مع البرنامج هي أن تكون قادرًا على التحدث بنفس اللغة. نظرًا لأن الواجهة طبيعية تمامًا تقريبًا ، فلا يوجد منحنى تعليمي تقريبًا .
لماذا استخدام "تقريبا" في الجملة السابقة؟ حسنًا ، لا تزال هناك حقيقة أنه يجب عليك تعلم كيفية إصدار أوامرك بطريقة ستحصل على النتائج التي تريدها.
بصرف النظر عن السهولة التي يمكن للأشخاص من خلالها البدء في استخدام هذا النوع من الواجهة ، هناك فوائد أخرى ، مثل الموقف وإجهاد العين - كلا المشكلتين التي لا شك أن أي شخص يعمل على الكمبيوتر لفترات طويلة من الوقت سيكون على دراية بهما.

ميزان القوى
الشيء الوحيد الذي يتضح عند النظر إلى الأنواع المختلفة من واجهات المستخدم التي تطورت على مر السنين ، هو أن لديهم جميعًا شيئًا مشتركًا. على الرغم من وجود الكثير من الموارد وساعات العمل المخصصة لمعالجة هذه المشكلة ، فإنها تتطلب جميعًا أشخاصًا يعملون إلى حد ما ، من أجل التوافق مع كيفية عمل أجهزة الكمبيوتر. يمكن القول بهذا المعنى ، أن التكنولوجيا مثل التعرف على الصوت والإيماءات (وهي مشاكل يصعب حلها) تظهر تغييراً في هذا التوازن. تعمل أجهزة الكمبيوتر لتلائم طريقة عمل البشر.
تحديات التعرف على الكلام
وبالعودة إلى الخمسينيات من القرن الماضي ، فإن التعرف على الكلام هو إحدى تلك المشاكل الصعبة بشكل مخادع ، لأنه بالنسبة لنا يأتي كطبيعة ثانية. خذ على سبيل المثال الجملة التالية:
صاحب متجر : "هل لي أن أسأل عما تبحث عنه؟"
الزبون : "أربع شموع".
بالطبع ، عندما نرى هذا في شكل مكتوب ، فإننا نعرف بالضبط ما يريده الشخص. ولكن عندما يتم سماعها في صيغة منطوقة ، يمكن أن يكون ذلك الشخص يريد فعلاً "مقابض شوكة"!
هذا سيناريو تافه وغير مرجح إلى حد ما ، لكن الغموض مثل هذا شائع للغاية في اللغة المنطوقة. تكون الآثار هائلة عندما تفكر في أنواع العمليات التي يتم تكليف أجهزة الكمبيوتر بها.
تم استخدام العديد من الأساليب خلال ذلك الوقت ، حيث كانت نماذج Hidden Markov والشبكات العصبية من بين الأكثر نجاحًا. في الآونة الأخيرة ، تم استخدام التعلم العميق ، وهذا ما أعطانا الحلول القوية المتاحة حاليًا.
مقارنة بين الخطوات المطلوبة
"ليس هناك بديل للعمل الجاد." ~ توماس أديسون
… أم هناك؟ حتى التكنولوجيا الحديثة نسبيًا تأتي مصحوبة بخطوات إضافية ، مما يجعلنا نعمل وفقًا للتكنولوجيا وليس العكس.
فيما يلي بعض المهام الأساسية المحددة "بطريقة حسابية" لتوضيح مقدار العمل الذي نقوم به دون أن ندرك:

قم بتشغيل / إيقاف تشغيل التلفزيون:
الطريقة التقليدية
- ابحث عن جهاز التحكم عن بعد
- تلتقط عن بعد
- البحث عن الزر الصحيح
- اضغط الزر
طريقة الصوت
- "Alexa ، تشغيل / إيقاف تشغيل التلفزيون"
إضافة عنصر إلى قائمة المهام:
الطريقة التقليدية
- ابحث عن الهاتف (واستلمه)
- افتح الهاتف
- ابحث عن التطبيق
- افتح التطبيق
طريقة الصوت
- "Alexa ، أضف" شراء الخبز "إلى قائمة المهام الخاصة بي"
كما ترى ، فإن امتلاك القدرة على التحكم في الأجهزة بصوتك يتطلب خطوات أقل بكثير.
المقاييس
فيما يلي بعض الرسوم البيانية التي توضح الحالة العامة لخدمات تنشيط الصوت. على الرغم من أن الأرقام صغيرة مقارنةً بتنزيلات متجر التطبيقات ، إلا أن المجال ينمو بسرعة:



الائتمان: https://www.voicebot.ai/amazon-echo-alexa-stats
مقدمة عن Amazon Skills API
توفر واجهة برمجة تطبيقات Amazon Alexa Skills الإطار الذي يمكن من خلاله تلقي الأوامر الصوتية المتلقاة عبر الجهاز والتعرف عليها ومعالجتها والاستجابة لها.
الخطوات العامة هي كما يلي:
نظرة عامة على الخطوات المطلوبة
قم بتسمية مهارتك
اختر اسم استدعاء لمهارتك ، والذي سيتم استخدامه لتنشيط Alexa حتى يتمكن من الاستجابة لأمرك.
حدد نيتك
في Amazon Skills ، "النية" أو "النوايا" عبارة عن طلبات أو إجراءات مرتبطة بأوامر المستخدم.
على سبيل المثال ، في الجملة: "Alexa ، ماذا حدث في هذا اليوم من عام 1729؟" ، الأمر "ماذا حدث في هذا اليوم من عام 1729؟" سيتم تعيينه إلى نية محددة مسبقًا ، مما يوفر الكلمات الرئيسية الصحيحة للتطبيق لجلب الإجابة.
لجعل مهارتك أكثر مرونة ، نستخدم شيئًا يسمى "الفتحات" ، والتي تعد في الأساس عناصر نائبة لأنواع معينة من البيانات.
بناء النموذج
هنا ، حددنا الهيكل العام للتفاعل مع Alexa ، بما في ذلك المطالبات للحصول على مزيد من المعلومات وأنماط الإجابة المحتملة.
حدد نقطة نهاية
يشير هذا إلى الموقع الفعلي للرمز الذي سيتعامل مع منطق التطبيق الخاص بك. يمكن وضعه في أي مكان على الإنترنت ، ولكن الخيار الأبسط هو إنشاء AWS Lambda ، والذي يمكن استدعاؤه عن بُعد من خلال مهارتك.
قم بإنشاء دالة Lambda
يعد إنشاء هذا على AWS أمرًا بسيطًا جدًا. تحتاج إلى القيام ببعض الإعداد ورسم الخرائط ، ولكن يتم توفير المخططات ، والتي تعطي فكرة جيدة عما هو ضروري.
عند تلقي أوامر من Alexa Skill ، سيعالج الكود الخاص بك هنا الاستجابة الصحيحة ويحدّث أي نماذج تحتاج إلى تتبع.
استنتاج
كانت هذه نظرة عامة موجزة (جدًا) على ما تفعله الخدمات التي يتم تنشيطها صوتيًا وكيفية إنشاء واحدة باستخدام Alexa Skills Kit. في المنشور التالي حول تطوير مهارات Alexa ، سنقوم بالفعل بإنشاء مهارة صغيرة ونشرها على Amazon Skills! بدلاً من ذلك ، للمساعدة في تصميم الويب وتطويره ، تواصل معنا اليوم.
إذا كنت بحاجة إلى مساعدة بشأنك فلا تتردد في الاتصال بنا.
