ตัวสร้างเสียง AI สำหรับคำสั่งซื้อ Drive-Thru: วิธีการทำงาน

เสียง AI drive-thru กำลังปฏิวัติการสั่งอาหารจานด่วนที่ McDonald's, White Castle และ Wendy's เรียนรู้วิธีการที่ QSR นำไปใช้ จัดการกับสำเนียง ลดเวลาสำหรับ และสิ่งที่ผู้ประกอบการต้องรู้

ตัวสร้างเสียง AI สำหรับคำสั่งซื้อ Drive-Thru: วิธีการทำงาน

เสียง AI drive-thru ไม่ได้เป็นต้นแบบที่งาน tech expo อีกต่อไป กำลังรับคำสั่งซื้อในหลายพันเลนทั่วสหรัฐอเมริกา McDonald’s, White Castle และ Wendy’s ได้แต่งตั้งนักบินอาหารเชิงพาณิชย์ที่ใช้เวลาอักษร ข้อมูลลูกค้าจริง และการค้นหาจริงเกี่ยวกับสถานที่ที่เทคโนโลยีทำงาน และสิ่งที่มันยังคงลำบาก คู่มือนี้ครอบคลุมวิธีการที่ร้านอาหารจานด่วนปรับใช้ระบบเหล่านี้ วิศวกรรม acoustic ที่ทำให้พวกเขาทำงานในเลน อันเยื้องลึก วิธีการจัดการกับความหลากหลายของสำเนียงและการออกเสียง ตัวเลข ROI ที่เกิดขึ้นจริงและสิ่งที่ผู้ประกอบการใดที่พิจารณาการปรับใช้ต้องเข้าใจก่อนที่จะลงนาม สัญญาผู้จำหน่าย


TL;DR

  • McDonald’s (IBM), White Castle (SoundHound) และ Wendy’s (Google FreshAI) เป็นการปรับใช้เชิงพาณิชย์หลักสามประการของเสียง AI drive-thru
  • ระบบชั้นนำบรรลุความแม่นยำในการสั่งซื้อ 85-95% สำหรับการสั่งซื้อมาตรฐาน การปรับเปลี่ยนที่ซับซ้อนและสำเนียงที่หนักยังคงเป็นรูปแบบความล้มเหลวที่มีเอกสาร
  • เสียงรบกวนพื้นหลังเป็นความท้าทายทางวิศวกรรม acoustic หลัก ระบบเชิงพาณิชย์ใช้อาร์เรย์ไมโครโฟนแบบตัวแปรพร้อมการสร้างเหนื่อยที่ปรับให้เหมาะกับแถบ 300-3400 Hz
  • ตัวเลข ROI สำหรับผู้ประกอบการรวมถึงการลดต้นทุนแรงงานในช่วงเวลาพิกพยอก เวลาต่อธุรกรรมที่สั้นกว่า (เร็วกว่า 15-20 วินาที โดยเฉลี่ย) และอัตราข้อผิดพลาดในการสั่งซื้อที่ลดลง
  • Drive-thru AI เป็นส่วนเสริมของพนักงาน ไม่ใช่การแทนที่ การปรับใช้ส่วนใหญ่จะส่งต่อคำสั่งซื้อที่มีความเชื่อมั่นต่ำไปยังพนักงานมนุษย์โดยอัตโนมัติ
  • เทคโนโลยีการสร้างเสียง AI ที่พัฒนาขึ้นสำหรับการผลิตเสียงมืออาชีพ เช่น ที่ใช้ในการสร้างเนื้อหา ใช้ร่วมกับโครงสร้างการสังเคราะห์เสียงพื้นฐานกับระบบการสั่งซื้อเชิงพาณิชย์

เสียง AI Drive-Thru คืออะไร

เสียง AI drive-thru เป็นระบบการสั่งซื้ออัตโนมัติที่แทนที่หรือช่วยเหลือพนักงานรับคำสั่งมนุษย์ที่ลำโพงของเลน ลูกค้าเข้าไปยังกระดานสั่งซื้อ พูดตามธรรมชาติ (“ฉันต้องการหมายเลขสาม ไม่มีกวนเล ขนาดใหญ่ และ Diet Coke”) และระบบประมวลผลการป้อนข้อมูลนั้นผ่านสามส่วนประกอบที่ประสานงานกัน: การรับรู้เสียงเพื่อแปลเสียงเป็นข้อความ ชั้นความเข้าใจภาษาธรรมชาติเพื่อแม่พิมพ์ข้อความนั้นไปยังรายการเมนูและการปรับเปลี่ยน และเสียง text-to-speech เพื่อยืนยันคำสั่งซื้อและการมีส่วนร่วมในบทสนทนา

ผลลัพธ์คือวัตถุการสั่งซื้อที่มีโครงสร้าง ID รายการ ปริมาณ ตัวแปร คำสั่งพิเศษ ซึ่งส่งต่อโดยตรงไปยังระบบจุดขาย เช่นเดียวกับที่แคชเชียร์มนุษย์จะทำการบันทึก ลูกค้าได้ยินเสียงที่ฟังดูเหมือนการสนทนาและตระหนักถึงบริบท ไม่ใช่เมนูต้นไม้สัมผัสโทรศัพท์

ความแตกต่างทางเทคนิคหลักจากระบบอัตโนมัติก่อนหน้านี้ (ลองนึกถึงต้นไม้ IVR ทศวรรษ 1990) คือการประมวลผลประสาท end-to-end ทุกส่วนประกอบ โมเดลอะคูสติกสำหรับการรับรู้เสียง ตัววิเคราะห์เจตนา ผู้จัดการโต้ตอบ และเสียง TTS ได้รับการฝึกอบรมในชุดข้อมูลขนาดใหญ่และปรับแต่งบนเสียง drive-thru เฉพาะ ผลลัพธ์คือระบบที่สามารถแยกวิเคราะห์ “จริง ๆ แล้ว สลับมันฝรั่งสำหรับวงแหวนหัวหอม และเพิ่มเบคอนเพิ่มเติมบนเบอร์เกอร์” เป็นคำขอการปรับเปลี่ยนที่สอดคล้องกัน ไม่ใช่ลำดับของการพูดที่สับสน

การปรับใช้เชิงพาณิชย์สามประการที่หล่อหลอมอุตสาหกรรม

McDonald’s และ IBM: นักบินนั้นสอนให้สิ่งที่ทำให้ทั้งหมด

McDonald’s เริ่มต้นนักบินการสั่งซื้อ AI ด้วยเทคโนโลยี Automated Order Taking (AOT) ของ IBM ในปี 2021 ขยายไปยังกว่า 100 สถานที่ในสหรัฐฯ หุ้นส่วนนี้แสดงถึงการทดสอบขนาดที่ใหญ่ที่สุดของเสียง AI drive-thru ในอาหารจานด่วน ในเวลานั้น

ในเดือนมิถุนายน 2024 McDonald’s ประกาศว่าจะสิ้นสุดหุ้นส่วน IBM AOT โดยอ้างถึงความจำเป็นในการประเมินการเรียนรู้และประเมินเทคโนโลยีใดที่สามารถส่งมอบบนประสบการณ์การสั่งซื้อที่แม่นยำ เป็นมิตรกับลูกค้า และสอดคล้องกันได้อย่างไร ซึ่งถูกรายงานบนข่าวว่าเป็นการหยุด ไม่ใช่การละทิ้ง AI ordering, McDonald’s พร้อมกันนี้ยืนยันว่าหมูตัวสมบูรณ์ผู้จำหน่ายเสด

การเรียนรู้จากนักบิน IBM อยู่ในโครงการอุตสาหกรรมที่เป็นที่ยอมรับ: ความแม่นยำในการสั่งซื้อในรายการธุรกรรมที่ชัดเจนนั้นเป็นที่ยอมรับ ความแม่นยำในรายการที่เกี่ยวข้องกับการปรับเปลี่ยนหลายรายการ การปรับแต่ง combo หรือลูกค้าที่มีสำเนียงแข็ง ตกใจต่ำกว่าความคาดหวังของผู้ประกอบการ เสียงรบกวนรอบข้างในการกำหนดค่าเลนบางอย่าง โดยเฉพาะที่ไซต์ในเขตเมืองที่มีปริมาณหนาแน่นสูง ยังทำให้คุณภาพการรับรู้ลดลงมากกว่าที่โมเดล acoustic ทำนาย

ค่าของนักบิน McDonald’s อยู่ที่ไหนโดยนั่นพบอยู่ในขั้นตอนความล้มเหลว ผู้จำหน่ายต่อเนื่องทั้งหมด รวมถึงสิ่งที่ McDonald’s เทคอพนักงานการปรับใช้พร้อมหมู่ได้สร้างขึ้นแบบจำลองเพื่อตอบสนองต่อกรณีพื้นหลัง McDonald’s ให้บริการที่มีเอกสาร

เมตริกนักบิน IBM AOT (McDonald’s)เป้าหมายอุตสาหกรรม Post-2024
ความแม่นยำในการสั่งซื้อมาตรฐาน~85-90%95%+
ความแม่นยำของการปรับเปลี่ยนที่ซับซ้อน60-75% (คำคำนวณ)85%+
อัตราการเพิ่มเติมให้คนแรง15-25%<10%
การปรับปรุงเวลาธุรกรรมเฉลี่ย8-12 วินาที15-20+ วินาที

White Castle และ SoundHound: การปรับใช้ระดับมีผลลัพธ์ที่วัดได้

White Castle ร่วมมือกับ SoundHound AI เพื่อปรับใช้ระบบการสั่งซื้อเสียงทั่วหลายร้อยสถานที่โดยเริ่มตั้งแต่ปี 2023 ทำให้มันเป็นหนึ่งในการปรับใช้การสั่งซื้อ AI อาหารจานด่วนที่กว้างที่สุดในสหรัฐฯ ต่างจากนักบิน McDonald’s นั้น White Castle ไปยังการปรับใช้ SoundHound ตลอด 2024 และเข้าไป 2025

ระบบ drive-thru SoundHound ใช้สแต็ก Automatic Speech Recognition (ASR) และความเข้าใจภาษาธรรมชาติของบริษัท ปรับแต่งให้เข้ากับศัพท์เมนู White Castle โดยเฉพาะ รูปแบบการปรับเปลี่ยน และชุดการออกเสียงของลูกค้า เมนู White Castle slider การกำหนดค่า combo รายการ จำกัดเวลา นำเสนอความท้าทายทางนิกาย NLU ที่แตกต่างจากเชนเบอร์เกอร์มาตรฐานเนื่องจากลักษณะของการสั่งซื้อ White Castle (ลูกค้าโดยทั่วไปสั่ง 10+ ทั้งหมดในการสั่งซื้อเดียว)

SoundHound ได้เผยแพร่ข้อมูลความแม่นยำในการสั่งซื้อประมาณ 85-90% โดยไม่ต้องแทรกแซงของมนุษย์ โดยมีการปรับปรุงเพิ่มเติมเมื่อรุ่นเทียบท่าบนเสียงเฉพาะสถานที่ ผู้ประกอบการ White Castle อ้างถึงลดเวลาสำหรับและน้อยลงเนื้อหา cashier ในช่วงเวลาพิกพยอกเป็นประโยชน์ในการดำเนินการหลัก

การปรับใช้ White Castle ก็น่าสังเกตเพราะว่ามันได้แสดงให้เห็นว่าเชนขนาดเล็ก โดยมีทรัพยากรน้อยกว่า McDonald’s สามารถรักษาการปรับใช้ระบบคำสั่งซื้อเสียง ซึ่งมีอิทธิพลต่อการตัดสินใจการซื้อขายที่ห้อม QSR ประเมินและขนาดกลาง

Wendy’s และ Google Cloud FreshAI

Wendy’s ประกาศหุ้นส่วนกับ Google Cloud ในปี 2023 เพื่อพัฒนา FreshAI ซึ่งเป็นระบบการสั่งซื้อ drive-thru ที่ใช้เทคโนโลยีแบบจำลองภาษาขนาดใหญ่ Google หุ้นส่วนนี้น่าสังเกตเพราะว่ามันใช้ส่วนปลาย LLM ซึ่งเป็นชั้นเดียวกันของเทคโนโลยีเบื้องหลัง AI ผู้ช่วยสมัยใหม่ แทนที่จะเป็นตัววิเคราะห์เจตนาตามกฎเกณฑ์ดั้งเดิม

ส่วนปลาย LLM ให้ FreshAI โปรไฟล์ความสามารถที่แตกต่างจากระบบเก่า: สามารถจัดการการซ่อมแซมบทสนทนา การดำเนินการบริบทในหลายรอบ (“จริงๆ แล้ว ทำให้มันเป็นสอง”) และตรรมชาติของเสนอแนะเมนู (“คุณสามารถแนะนำสิ่งที่เผ็ด?”) โดยไม่ต้องใช้ต้นไม้ปกติอ่อนแอที่ จำกัด ระบบก่อนหน้านี้ tradeoff คือต้นทุนการคำนวณต่อธุรกรรมสูงและต้องการการเชื่อมต่อที่เชื่อถือได้จากเลนไปยังโครงสร้างพื้นฐานการตัดสินใจข้างต้นเมฆ Google

Wendy’s เริ่มต้นปรับใช้ FreshAI ทั่วแฟรนไชส์สหรัฐฯ ในปี 2023 โดยมีการขยายตัวตามแผนในหลายพันสถานที่ หุ้นส่วน Google ยังวางตำแหน่ง FreshAI เพื่อให้ได้ประโยชน์จากการปรับปรุง LLM Google ที่จะมาถึงโดยไม่ต้องมีสัญญาเทคโนโลยีที่ต่อรองใหม่ ซึ่งเป็นข้อดีของการจัดซื้อที่มีความหมายสำหรับผู้ประกอบการแฟรนไชส์

วิธีการปรับปรุง Acoustic Drive-Thru ทำการ

เลน drive-thru เป็นหนึ่งในสภาวะอะคูสติกที่ไม่ได้ให้ความสำคัญมากที่สุดในการประมวลผลเสียงทั่วไป ความเข้าใจของการท้าทายทางวิศวกรรมบ่งชี้ทั้งสัตว์โลกเสียง AI ใช้เวลานานและเพราะว่ามันส่วนใหญ่ทำงานตอนนี้

ปัญหาเสียงรบกวน

ระบบลำโพงเลน drive-thru มาตรฐานทำงานในสภาวะแวดล้อมที่มี:

  • เสียงรบกวนเส้นทางและเครื่องยนต์: 60-80 dB SPL จากรถยนต์ที่นิ่ง หรือเลื่อนไปที่ 5-10 mph
  • ลม: แตกต่างจาก 0-40+ mph สร้างเสียงรบกวนแบบกว้างขวางที่เกิดให้เกิดเสียงส่วนประกอบเสียงความถี่สูง
  • เสียงรถลูกค้า: ดนตรี ระบบการนำทาง และเสียงพูดของผู้โดยสารปะปนผ่านหน้าต่างเปิด ในระดับที่ไม่คาดได้
  • การแทรกซึมระหว่างเลน: ในการกำหนดค่าแบบคู่เลน คำสั่งซื้อจากเลนข้างเคียงสามารถมีในการบันทึกไมโครโฟนของเลนปัจจุบัน
  • การแปรผลแบบอุณหภูมิและความชื้น: ไมโครโฟนกลางแจ้งหันหน้าเข้าหาน้ำแข็ง ตกน้ำ และ swings อุณหภูมิ จาก -20°C ถึง +45°C ที่มีผลต่อซอฟต์แวร์เครื่องและการส่งผ่าน acousitic

พนักงานแคชเชียร์มนุษย์มีการยกเลิกเสียงรบกวนตามสมอง พวกเขาได้ยินรับฟังเสียงรบกวนตามธรรมชาติเพราะพวกเขาทราบเมนูและคาดการณ์คำสั่งซื้อที่เป็นไปได้ แบบจำลองการรับรู้เสียงจะต้องให้ผลลัพธ์ที่คล้ายกันผ่านการประมวลผลสัญญาณ

การตอบสนองทางวิศวกรรม

ระบบเสียง AI drive-thru เชิงพาณิชย์จัดการกับสิ่งนี้ด้วยหลายวิธีที่ซ้อนทับ:

อาร์เรย์ไมโครโฟนแบบตัวแปร: ไมโครโฟนหลายตัวในการกำหนดค่าการสร้างเหนื่อยโฟกัสการอัดฝาโครงสร้างในโซนแคบปลายโดยตรงข้างหน้าลำโพงการสั่งซื้อ โดยปกติคือกรวยประมาณ 1 เมตรกว้างในระยะเวลาหน้าต่างของลูกค้า สัญญาณจากนอกเขตดำเนินการลดลง 15-25 dB ก่อนที่เสียงจะเข้าถึงแบบจำลองการรับรู้

การยกเลิกเสียงรบกวนที่ปรับให้เหมาะกับแถบเสียง: ความชาญฉลาดเสียงถูกกำหนดโดยหลักการด้วยระดับความถี่ 300-3400 Hz (ระดับที่คล้ายกันที่ออกแบบมาสำหรับระบบโทรศัพท์และก้อกเสียงก้องกึก) ANC ที่ปรับให้เหมาะกับการปราบปรามพลังงานนอกแถบนี้หลีกเลี่ยงเสียงเหนือเสียงถนนและปลายที่นิยมใจอื่นเป็นส่วนย่อย -300 Hz หรือ post-3400 Hz

การตรวจหากิจกรรมเสียง (VAD): ระบบประมวลผลเสียงเมื่อโมดูล VAD กำหนดมนุษย์นั้นพูด บ้านเกิดการสกัดกั้นเครื่องยนต์จากการพยายามแปลเสียงรถหลวง หรือเครื่องปลูกหญ้าเป็นเสียงพูด VAD ประสาทที่ทันสมัยควบคุมตัวปัตตุมด้านล่างขั้น millisecond ด้วยอัตราบวกเท็จ ขณะที่อยู่ในสภาวะแวดล้อมอกาศ

การจัดเส้นทางเกณฑ์ความเชื่อมั่น: แม้ว่าจะใช้วิธีการประมวลผล acousitic ที่ดีที่สุด บางคำสั่งซื้อมาถึงแบบจำลองการรับรู้ในสภาวะที่เสื่อมสลาย แทนที่จะเดาและสร้างคำสั่งซื้อที่ผิด ระบบจัดเส้นทางการรับรู้ความเชื่อมั่นต่ำ (ผู้ที่อยู่ต่ำกว่าเกณฑ์ที่สามารถปรับได้ โดยปกติคือคะแนนความเชื่อมั่น 0.7-0.8) ไปยัง intercom พนักงานมนุษย์ มนุษย์ดำเนินการจัดการข้อยกเว้น ระบบบันทึกเสียงสำหรับการปรับปรุงรุ่น

การจัดการสำเนียงและสำเนียง

การจัดการสำเนียงเป็นความท้าทายทางเทคนิคที่มีการเมืองมากที่สุดในเสียง AI drive-thru และหนึ่งในที่น่าสนใจที่สุดตามเทคนิก

ปัญหาการแจกแจงการอบรมสัมมนา

แบบจำลองการรับรู้เสียงใด ๆ จะดำเนินการแย่ที่สุดในเสียงที่คล้ายกับในข้อมูลการฝึกอบรม หากแบบจำลองได้รับการฝึกอบรมเป็นหลักจากบันทึก English American General แบบจำลองจะรับรู้สำเนียง Kansas City มากขึ้นที่ผู้พูด English-accented Jamaican ordering ที่สถานที่ Miami เพิ่มเติม นี่ไม่ใช่ความแตกต่างตั้งใจ มันเป็นทรัพย์สินของสถิติว่าการสอนเครือข่ายประสาทว่าพวกเขากวัดปลายแสง

ปัญหาสารพัดนี้ในบริบท QSR เพราะรถเลน drive-thru ส่วนใหญ่ผลเก่าอาหารลูกค้าที่ขับเคลื่อนเลือก Taco Bell ในช่อ Houston จะเป็นอังกฤษพูด ชาวสเปน McDonald’s ใน Dearborn Michigan ผลเก่าผู้เข้าชมพร้อม English พูด ทั้งเสียงหรือเล้ว ร่างได้ Cane ใหม่ไปยังอัปเปอร์เกจ Campus มีหลายรายได้กว่าหลายการโต้ตอบช่วง Conquer ภาษา ชั่วโมง

วิธีการจัดการจำหน่ายนี้

ติดตั้งโปรแกรมใหม่ต่อเนื่องบนเสียงเฉพาะสถานที่: SoundHound, Google และการพรรค์บริษัทผลเก่าแป้นข้อมูลเสียงอัตโนมัติจากวรรค์การ ได้รับยินดี (ขึ้นอยู่กับความตกลงและการมีนโยบายคุ้มครอง) และใช้การเลือกรูปแบบการรับรู้สำหรับคุณลักษณะอะคูสติก และสำเนียงทั่วไปของปลายนี้ชั้น modem Chicago Wendy’s และ New Orleans Wendy’s ช่วง diverge พร้อมเมตร จาก Voc

ชั้นข้อมูลการฝึกอบรม Dialect-diverse: จากจำนวนราคาอพย พิจารณา ต่อต้านรบาล AI pilot McDonald’s บันทึก สำเนียงข้อของมัน ระบบต่อเนื่องเรียกมอบให้ลงทุนชัดเจนในการคำโครงสร้างข้อมูลการฝึกอบรม ไปรวม AAVE (African American บรรยาย Dialect English), Southern American English, Chicano English และ non-native ผู้ใจกลาง คะแนน บรรยาย American English ไป Linguistics เบ่ง โปรดปรารถนา US ก่อ takeaway ลูกค้า ม. พิจารณาเป็นปกติแล้ว การออกแบบซอก ไม่เรื่องหลัง rundown

เลียวกลับ Fallback: การ For Ute สำเนียง ระบบแสดงไม่โปรดปรารถนา ระหว่างความเชื่อมั่น สำวมเกณฑ์ เล่าที่คำนวณที่ เหล้ทำให้ พร้อม เว็บสไปเด อ้างไป อ้อง ยืนยง น เช่า ถ้าท าระบบบอ่างท ราคาดไล่ร้าน เลือนต้อง โครงสร้างต้อง คน ไปหา สำหรับหรือประเมินสดใหม่รุ่นจากการหยอด โปรดค้นหาปลายทุ้มท

ROI: Coś ที่ผู้ประกอบการจริงเห็น

ทำการจ้างสั่งซื้อ AI drive-thru พวกนี้บนค้นหา นก คือ ได้ฟิลด์ประตัน ไปเยี่ยมป Dou Dout ผลต่างรกร า บ้านรบมความแม่นยำออกรหัสต้อง ต่าง ล แนและกวนสั่ง นินน ความเศษวัสดุ บ้นี ที่ชี้ความแปลง

เวลาซื้อแบ

เวลา ไปข้างต้นพายรกร (ไปส่วนก่ากแรกสุดม:

McDonald’s ดิจิตอลรสทั้งจึ้งคู่บ้านธรรโอ abrumiลสนสคว้ แลำต้วววน ร้านฎลออกซุนถูมน ต่างมาใหมโอ้ประโขค่วปรแต 15-20+ วินาที ต่อเสกซ้ภา์ค

เปลี่อบ:

| เสำหรับคำขอซื้อ 150 | 15 วินาธิ | ใหม่เก.5 นาคย การป | ~4-5 | | 250 | 15 | 62.5 | ~7-9 | | 400 | 15 | 100 | ~12-14 |

ค่าใช้งาน

ฝางสเป ไปรสกบบ โปรดอประหมดไปแพอขาเฟงะราตารษเวหำนะข่อแตำซ่ล พูลความ $20+/ชั่วขปลัร๋วไหละน ร่ม้เกสถ

ลอง VoxBooster — ทดลองใช้ฟรี 3 วัน

โคลนเสียงเรียลไทม์ ซาวด์บอร์ด และเอฟเฟกต์ — ทุกที่ที่คุณคุย

  • ไม่ต้องใช้บัตรเครดิต
  • ความหน่วง ~30ms
  • Discord · Teams · OBS
ลองฟรี 3 วัน