เครื่องสร้างเสียง AI สำหรับระบบประกาศบนรถเมล์

วิธีการทำงานของ AI เสียงประกาศรถเมล์ — ครอบคลุมการประกาศหยุดที่ใช้ GPS ฮาร์ดแวร์ Clever Devices และ Luminator การปฏิบัติตาม ADA นครนิวยอร์ก MTA London Buses Tokyo Toei Bus และวิธีสร้างเสียง PA คุณภาพขนส่ง

เครื่องสร้างเสียง AI สำหรับระบบประกาศบนรถเมล์

AI เสียงประกาศรถเมล์เป็นระบบที่ทำงานเงียบ ๆ ทุกครั้งที่รถเมล์เมืองบอกคุณว่าการหยุดต่อไปจะมาถึงเร็ว ๆ นี้ — และมันกลายเป็นระบบที่ซับซ้อนมากขึ้นกว่าที่ผู้โดยสารส่วนใหญ่รู้สึก สิ่งที่ฟังเหมือนข้อความที่บันทึกไว้ล่วงหน้าแบบง่ายกลายเป็นเหตุการณ์การสังเคราะห์ neural ที่มีชีวิต: พิกัด GPS เรียก string ข้อความ เครื่องยนต์ TTS บนเรือแปลงเป็นเสียงพูดใน vòng dưới 300 มิลลิวินาที และเสียงไปถึงลำโพงห้องโดยสารก่อนที่รถเมล์จะเดินทาง 30 เมตรต่อไป คู่มือนี้ครอบคลุมวิธีการทำงานของไปป์ไลน์นี้จากจุดสิ้นสุดไปยังจุดสิ้นสุด ผู้ขายฮาร์ดแวร์และซอฟต์แวร์ใดบ้างที่ให้พลังงานระบบในโลกแห่งความเป็นจริง วิธี NYC MTA London Buses และ Tokyo Toei Bus เข้าใจมันต่างกัน ข้อกำหนดการปฏิบัติตาม ADA จริง ๆ แล้วคืออะไร และวิธีที่เทคโนโลยีเสียง AI เดียวกันสามารถเข้าถึงได้โดยผู้สร้างที่สร้างการจำลองการขนส่ง เกม และภาพยนตร์


TL;DR

  • การประกาศบนรถเมล์สร้างขึ้นโดย TTS neural ที่ใช้ GPS ไม่ใช่ธนาคารคลิป — เปิดใช้งานการเรียกหยุดที่แม่นยำและแบบไดนามิกสำหรับการแก้ไขเส้นทางใด ๆ แบบเรียลไทม์
  • Clever Devices และ Luminator เป็นผู้ขายฮาร์ดแวร์ที่มีอำนาจในอเมริกาเหนือ; ทั้งสองรองรับการสังเคราะห์เสียง neural ในรุ่นแพลตฟอร์มปัจจุบัน
  • NYC MTA London Buses และ Tokyo Toei Bus แต่ละคนใช้ตัวละครเสียงที่แตกต่างกันและกลยุทธ์ทวิภาษีที่ปรับให้เข้ากับชีววิทยาของผู้โดยสารของพวกเขา
  • ADA (49 CFR Part 37) ต้องการการประกาศหยุดโดยอัตโนมัติที่จุดโอนและจุดตัดสำคัญ; การสังเคราะห์ AI เป็นไปตามนี้และสร้างบันทึกการปฏิบัติตามที่ตรวจสอบได้
  • เทคโนโลยีเดียวกันสามารถสร้างเสียง PA รถเมล์ที่สมจริงสำหรับเกม ภาพยนตร์ และการจำลองการขนส่งโดยใช้เครื่องมือเสียง AI บนเดสก์ท็อป

ระบบประกาศรถเมล์ที่ใช้ GPS ทำงานอย่างไร

ระบบข้อมูลผู้โดยสารโดยอัตโนมัติ (APIS) บนรถขนส่งสมัยใหม่เป็นคอมพิวเตอร์ฝังตัวขนาดเล็กที่รวมการกำหนดตำแหน่ง GPS ข้อมูลตารางเวลาเส้นทาง เครื่องยนต์ TTS การจัดการตัวควบคุมแอมป์ PA และการจัดการจอแสดงผู้โดยสารเข้าในหน่วยที่ยากแบบเดียว ไปป์ไลน์ประกาศถูกเรียกใช้ในลำดับที่ผูกไว้อย่างแน่น:

  1. การกำหนดตำแหน่ง GPS — คอมพิวเตอร์ยานพาหนะติดตามตำแหน่งในช่วงเวลา 1 วินาที เรขาคณิตเส้นทางจัดเก็บบนเรือเป็นชุดของ geo-segment แต่ละส่วนติดแท็กด้วยหยุดที่เกี่ยวข้องและจุดกระตุ้นประกาศ
  2. ตัวกระตุ้น geofence — เมื่อยานพาหนะเข้าเขตเข้าถึงการหยุด — โดยปกติ 200-400 เมตร ขึ้นอยู่กับโปรไฟล์ความเร็วของเส้นทาง — APIS เรียกใช้เหตุการณ์ประกาศ
  3. การสร้างข้อความ — ระบบประกอบข้อความประกาศจากแม่แบบ: ชื่อหยุด การเชื่อมต่อเส้นทาง ข้อมูลการเข้าถึงตัวเลือก สำหรับเส้นทางแบบไดนามิกหรือสถานการณ์เส้นทางเบี่ยงเบน สตริงข้อความถูกแก้ไขจากการอัปเดตการส่งที่ถูกผลักไปยัง LTE
  4. การสังเคราะห์ TTS — เครื่องยนต์ TTS (บนเรือหรือผ่านการเรียก edge ที่มีเวลาแฝงต่ำ) แปลงข้อความเป็นคลื่นเสียงภายใน 300 มิลลิวินาที ในหน่วย Clever Devices และ Luminator รุ่นปัจจุบัน การสังเคราะห์ทำงานบนเรือทั้งหมดเพื่อหลีกเลี่ยงการพึ่งพา LTE latency
  5. การกำหนดเส้นทางเสียง — ตัวควบคุม PA กำหนดเส้นทางเสียงไปยังลำโพงห้องโดยสาร อาจเลือก ด้วยการควบคุมโซน (ครึ่งหน้าเทียบกับครึ่งหลังของรถเมล์) และตัวกระตุ้นพร้อมกันสำหรับการอัปเดตจอแสดงข้อมูลผู้โดยสาร
  6. การบันทึกการปฏิบัติตาม — APIS บันทึกแต่ละเหตุการณ์ประกาศ — ประทับเวลา พิกัด GPS ID หยุด สตริงข้อความ แฮชไฟล์เสียง — เพื่อรายงานการปฏิบัติตาม ADA และการตรวจสอบการรับประกันคุณภาพ

ผลลัพธ์คือระบบที่สามารถสร้างการประกาศหยุดที่ถูกต้องแม้แต่สำหรับเส้นทางที่ได้รับการแก้ไขในตอนเช้าเดียวกัน ประกาศเส้นทางเบี่ยงเบนและการหยุดชะงักของบริการในเสียงพูดที่ดูเหมือนธรรมชาติ และทำทั้งหมดนี้โดยไม่ต้องใช้เสียงที่บันทึกไว้ล่วงหน้า

Clever Devices และ Luminator: ฮาร์ดแวร์เบื้องหลัง Bus Voice AI

Clever Devices

Clever Devices เป็นผู้ขายระบบข้อมูลผู้โดยสารโดยอัตโนมัติที่ใหญ่ที่สุดในอเมริกาเหนือ โดยมีการปรับใช้งานทั่วทั้ง MTA ขนส่งเมือง New York Chicago CTA และหลายสิบหน่วยงานขนส่ง หน่วย IVIU (Intelligent Vehicle Interface Unit) ของพวกเขารวม GPS seluler คอมพิวเตอร์บนเรือ แอมพลิฟายเออร์ PA และซอฟต์แวร์การจัดการประกาศเข้าในหน่วยเดียว

แพลตฟอร์ม Clever Devices รองรับเครื่องยนต์ TTS หลายเครื่อง รวมถึงการสังเคราะห์เสียงที่ได้สิทธิ์เฉพาะตัวและการรวม TTS neural ของบริษัทอื่น รุ่นแพลตฟอร์มล่าสุดรวมถึงการสนับสนุน TTS ที่เป็นภาพเคลื่อนไหว neural และในโหมดที่เชื่อมต่อกับคลาวด์ การสังเคราะห์ neural end-to-end ผ่านเซิร์ฟเวอร์ edge ที่ระดับเก็บ ระบบจัดการตารางเวลาประกาศทั้งหมด — เรียกการบิน เรียกหยุด เรียกการเชื่อมต่อ และข้อความด้านความปลอดภัย — ด้วยความสามารถในการกำหนดค่าต่อเส้นทางสำหรับหน้าต่างเวลาและการเลือกภาษา

คุณสมบัติที่น่าสังเกตคือโหมดทวิภาษี Clever Devices: เส้นทางสามารถกำหนดค่าให้ส่งการประกาศในสองภาษาตามลำดับ โดยมีเครื่องยนต์ TTS ภาษาหลักและเครื่องยนต์ภาษารองรับข้อความที่มีโครงสร้างเดียวกันและสร้างสตรีมเสียงอิสระที่ปล่อยออกมาตามลำดับ

Luminator Technology Group

Luminator เป็นผู้เล่นอื่น ๆ ที่สำคัญ โดยมีการแทรกซึมที่เข้มแข็งเป็นพิเศษในระบบขนส่ง European และ Canadian บนตัวเลือก Northาเมริกา ATPIS (Automated Transit Passenger Information System) ของพวกเขา คือหน่วยรวมที่มีความสามารถคล้ายกับ Clever Devices IVIU แต่มีการรวมระดับสูงต่อเครือข่ายการกระจายเสียงตาม IP ของยุโรป

โครงสร้างพื้นฐานการสังเคราะห์เสียงของ Luminator รองรับแบบจำลองการสร้างแบรนด์นักแสดง: หน่วยงานขนส่งสามารถว่าจ้างแบบจำลองเสียงแบบกำหนดเองที่ผ่านการฝึกอบรมบนนักแสดงเสียงระบบเสียงมืออาชีพที่โยกย้ายโดยเฉพาะ ซึ่งให้ระบบตัวตนของ “house voice” ที่แตกต่าง เสียงหญิงอังกฤษที่สม่ำเสมอที่ประกาศหยุด London Buses ผู้ประกอบการที่ TfL ทั้งหมดเป็นตัวอย่างที่รู้จักกันดีของวิธีการนี้

คุณลักษณะClever Devices IVIULuminator ATPIS
ตลาดหลักอเมริกาเหนืออเมริกาเหนือ + ยุโรป
สถาปัตยกรรม TTSHybrid onboard + cloud-edgeOnboard neural
การสนับสนุนทวิภาษีSequential dual-engineSequential และ zone-based
ความเป็นเจ้าของแบบจำลองเสียงAgency-licensed หรือเป็นกรรมสิทธิ์ตัวเลือกนักแสดงเสียงแบบกำหนดเอง
บันทึก ADAร่องรอยการตรวจสอบการประกาศแบบเต็มร่องรอยการตรวจสอบการประกาศแบบเต็ม
ความแม่นยำของตัวกระตุ้น GPSGeofence (approaches 200-400m)Geofence + hybrid ตามตารางเวลา
ความสำคัญของการแสดงใช่ (หน้าจอข้อมูลผู้โดยสาร)ใช่ (จอแสดงปลายทาง)

รถเมล์ NYC MTA: ภาษาอังกฤษ ภาษาสเปน และความซับซ้อนของยานพาหนะ 5.800 คัน

ยานพาหนะรถเมล์ของ MTA เป็นหนึ่งในขนาดใหญ่ที่สุดในโลก — ยานพาหนะมากกว่า 5.800 คันทำงานในทั้งเส้นทางประมาณ 300 เส้นทางในไบรที่ห้า การดำเนินการประกาศบนเรือโดยอัตโนมัติในขนาดของยานพาหนะนั้นเกี่ยวข้องกับความซับซ้อนของโลจิสติกส์ที่อภิปรายเกี่ยวกับเทคโนโลยีการขนส่งส่วนใหญ่เกินการประเมิน

ระบบประกาศรถเมล์ NYC MTA ทำงานบนฮาร์ดแวร์ Clever Devices เสียงภาษาอังกฤษเป็นเสียงสังเคราะห์โดยอิงจากบันทึกเสียงมืออาชีพที่ได้สัญญา ออกแบบมาเพื่อความชัดเจนในห้องโดยสารรถเมล์เมืองที่มีเสียงดัง เสียงวิ่งในจังหวะที่ช้ากว่าพูดคุยเล็กน้อย — ประมาณ 145-155 คำต่อนาที — ซึ่งเป็นมาตรฐานสำหรับ PA ขนส่งเพื่อให้เวลาแก่ผู้โดยสารในการแยกวิเคราะห์ชื่อหยุดบนเสียงรอบข้าง

สำหรับบริการทวิภาษี เส้นทาง trunk ที่เลือก (โดยเฉพาะใน Manhattan Queens และ Bronx โดยประชากรผู้โดยสารพูดภาษาสเปนสูงสุด) ส่งคู่การประกาศตามลำดับ English-Spanish คู่ เครื่องยนต์ TTS สเปนใช้สำเนียงภาษาละตินอเมริกาที่เป็นกลางแทนสำเนียงเปอร์โต้ริโกหรือโดมินิกัน ซึ่งให้บริการประชากรที่กว้างที่สุดแม้จะมีประชากรผู้โดยสารพูดภาษาสเปนแคริบเบียนที่มีอำนาจใน NYC — ประนีประนอมที่ปฏิบัติได้โดยพิจารณาถึงข้อ จำกัด ของ TTS ที่ตรงกับสำเนียงในระดับยานพาหนะ

MTA ยังใช้การประกาศที่ใช้ GPS สำหรับการเชื่อมต่อรถไฟใต้ดิน: เมื่อรถเมล์เข้าใกล้การหยุดที่อยู่ติดกับสถานีรถไฟใต้ดิน การประกาศจะรวมสายรถไฟที่เชื่อมต่อ นี่คือการสร้างแบบไดนามิก — ข้อมูลการเชื่อมต่อจะเก็บไว้ในฐานข้อมูลเส้นทาง ไม่ใช่ hard-coded เป็นธนาคารคลิป — เพื่อให้มันอัปเดตเมื่อการเปลี่ยนแปลงบริการเกิดขึ้น

เมตริกรายละเอียด
ขนาดยานพาหนะ~ 5.800 รถเมล์ท้องถิ่น
ผู้ขาย APISClever Devices
ภาษาหลักภาษาอังกฤษ (สังเคราะห์)
ภาษาที่อ
ตัวกระตุ้นประกาศGPS geofence (200-300m)
Callout การเชื่อมต่อไดนามิก (ข้อมูลสายรถไฟ)
พื้นฐาน ADA Compliance49 CFR Part 37

London Buses: เสียงที่สม่ำเสมอทั่วทั้งเครือข่ายที่ได้รับสัมปทาน

London Buses นำเสนอแบบจำลองการทำงานที่แตกต่างจาก NYC MTA ขนส่ง for London (TfL) ไม่ได้ดำเนินการส่วนใหญ่ของบริการรถเมล์โดยตรง — มันจึงทำหน้าที่เส้นทางไปยังผู้ประกอบการเอกชนรวมถึง Arriva Go-Ahead Metroline และอื่น ๆ สิ่งนี้สร้างความท้าทายที่น่าสนใจสำหรับความสม่ำเสมอของเสียง: ผู้ประกอบการที่แตกต่างกันใช้ยานพาหนะจากผู้ผลิตที่แตกต่างกัน แต่ผู้โดยสารประสบกับแบรนด์ London Buses ที่ รวม

TfL กล่าวถึงสิ่งนี้ผ่านข้อกำหนด APIS บังคับในสัญญาผู้ประกอบการรถเมล์ ผู้ประกอบการรถเมล์ที่ได้รับสัญญาทั้งหมด TfL จะต้องติดตั้งฮาร์ดแวร์ APIS ที่ได้รับการอนุมัติ — ระบบที่เข้ากันได้กับ Luminator ส่วนใหญ่ — และใช้แบบจำลองเสียงที่ได้มาตรฐานซึ่ง TfL จัดให้ เสียงหญิงอังกฤษที่แตกต่างที่ประกาศหยุด London Buses ไม่ใช่ส่วนแต่ละบุคคลสำหรับผู้ประกอบการใด ๆ มันเป็นแบบจำลองเสียงที่ได้สัญญา TfL ซึ่งปรับใช้อย่างสม่ำเสมอทั่วทั้งเครือข่าย

ระบบ London ใช้พจนานุกรม phonetic ของชื่อและพื้นที่ถนน London หลายพัน — หลายชื่อถูกออกเสียงในลักษณะที่ไม่มีจักรยาน (Marylebone Holborn Plaistow Southwark ทั้งหมดมีรูปแบบความเครียดที่ไม่ชัดเจนซึ่งระบบ TTS ทั่วไปออกเสียงผิด) ทีม TfL รักษาพจนานุกรมนี้โดยป้อนข้อมูลจากนักพูดและคำติชม ชุมชนและมันจะได้รับการอัปเดตเมื่อแต่ละรุ่นซอฟต์แวร์ APIS ที่สำคัญ

การประกาศรถเมล์ London ยังรวมถึงข้อมูล terminus และทิศทางที่จุดเริ่มต้นของเส้นทาง และการแจ้งเตือน “รถเมล์นี้กำลังเบี่ยงเบน” เมื่อการเบี่ยงเบนเส้นทางใช้งาน — ทั้งสองสร้างแบบไดนามิกจากข้อมูลส่ง

เมตริกรายละเอียด
ชนิดของเครือข่ายFranchised (สัญญา TfL)
มาตรฐาน APISTfL-mandated Luminator-compatible
ลักษณะเสียงหญิงอังกฤษ (TfL-commissioned)
พจนานุกรม phoneticชื่อสถานที่ London หลายพัน
การจัดการเบี่ยงเบนข้อความที่บังคับใช้การส่งแบบไดนามิก
เรียกข้ึงตัวกระตุ้นGPS geofence

Tokyo Toei Bus: การสังเคราะห์ทวิภาษีและอนุสัญญาการประกาศวัฒนธรรม

Toei Bus ของ Tokyo (ที่ดำเนินการโดยสำนักงาน Tokyo Metropolitan Bureau of Transportation) ให้บริการเส้นทางประมาณ 590 เส้นทางในโตเกียว โดยมีการครอบคลุมที่หนาแน่นเป็นพิเศษในกรุง ไม่ได้รับการบริการจาก Tokyo Metro หรือเครือข่ายรถไฟ JR ระบบประกาศบนเรือของมันสะท้อนวัฒนธรรมการขนส่งญี่ปุ่น ซึ่งมีอนุสัญญาที่แปลกประหลาดหลายอย่างที่แตกต่างจากระบบตะวันตก

การประกาศบนรถเมล์ญี่ปุ่นมีความยาวมากขึ้นอย่างสัปตาห์ที่เทียบเท่า การประกาศการเข้าใกล้การหยุด Toei Bus โดยทั่วไป ได้แก่: ชื่อการหยุดปัจจุบัน การเตือนที่สุภาพเพื่อเตรียมออก หากนี่คือการหยุดของผู้โดยสาร ชื่อการหยุดต่อไป และบางครั้งการเตือนการเชื่อมต่อ แต่ละองค์ประกอบจะถูกส่งมอบในอัตราที่เห็นแจ่มชัดลักษณะของการสื่อสารที่อยู่สาธารณะญี่ปุ่น — ประมาณ 130-140 คำต่อนาที ซึ่งรู้สึกได้ว่าได้รับการวัด แต่เป็นมาตรฐานสำหรับการลงทะเบียนที่เป็นทางการของ PA ขนส่ง

แทร็ก English ทวิภาษีบน Toei Bus ใช้สคริปต์ที่ทำให้ง่าย: เพียงชื่อหยุดและโครงสร้าง “Next stop [ชื่อ]” ชื่อสถานีที่มี romanizations ภาษาอังกฤษอย่างเป็นทางการ (จาก Tokyo Metro หรือ JR signage) ใช้พวกเขา; หยุดที่ไม่มี romanizations เป็นทางการใช้ transliteration Hepburn ที่มี stress วางบนพยางค์แรก ซึ่งเป็นแบบแผนสำหรับชื่อสถานที่ญี่ปุ่นในภาษาอังกฤษ

แบบจำลองเสียงสำหรับการประกาศ Tokyo Toei Bus ญี่ปุ่นเป็นเสียงหญิงที่มีการลงทะเบียนอย่างเป็นทางการ — แตกต่างจากเสียงหญิงที่อบอุ่นและมีการสนทนามากขึ้นที่ใช้ใน Tokyo Metro นี่คือทางเลือกสไตล์ที่มีจุดมุ่งหมาย: Toei Bus ให้บริการแก่ผู้โดยสารหลายคนอายุและการทำให้บาทพลเมืองที่ชอบการลงทะเบียนเป็นทางการ PA ซึ่งการวิจัยแสดงให้เห็นปรับปรุงการปฏิบัติตามพฤติกรรมการออกจากการหยุดในจำนวนประชากรที่

เมตริกรายละเอียด
โปรแกรมTokyo Metropolitan Bureau of Transportation
จำนวนเส้นทาง~ 590 เส้นทาง
ภาษาญี่ปุ่น (หลัก) ภาษาอังกฤษ (เส้นทางการท่องเที่ยว)
อัตราการพูดญี่ปุ่น~ 130-140 wpm (การลงทะเบียนอย่างเป็นทางการ)
ชื่อการหยุดภาษาอังกฤษRomanizations เป็นทางการ + fallback Hepburn
องค์ประกอบการประกาศการหยุดปัจจุบัน พร้อมท์ ออก การหยุดต่อไป การเชื่อมต่อ

ความปฏิบัติตาม ADA: กฎระเบียบต้องการอะไรจริง ๆ

Americans with Disabilities Act ที่ดำเนินการสำหรับการขนส่งผ่าน 49 CFR Part 37 ได้จัดตั้งข้อกำหนดเฉพาะสำหรับข้อมูลผู้โดยสารบนเรือที่โดยตรงขับเคลื่อนการนำ adopt ระบบประกาศโดยอัตโนมัติ ทำความเข้าใจว่าการปฏิบัติตามจำเป็นจริง ๆ — แทนที่จะเป็นสิ่งที่หน่วยงานขนส่งบางครั้งดำเนินการ — มีประโยชน์สำหรับใครก็ตามที่ระบุหรือประเมิน APIS รถเมล์

49 CFR 37.167(b) — ยานพาหนะเส้นทางคงที่ ต้องให้หน่วยงานขนส่งประกาศหยุด:

  • จุดโอนกับเส้นทางคงที่อื่น ๆ
  • จุดตัดที่สำคัญและจุดปลายทาง
  • ช่วงเวลาที่เพียงพอตามเส้นทางเพื่อกำหนดทิศทางผู้โดยสารที่มีปัญหาการมองเห็น

นอกจากนี้ 49 CFR 37.167(c) ต้องให้หน่วยงานขนส่งรับประกันว่าการประกาศหยุดได้ยินได้ทั่วทั้งยานพาหนะ

กฎระเบียบไม่ระบุว่าการประกาศต้องเป็นแบบอัตโนมัติ — ไดรเวอร์สามารถทำการประกาศแบบ คู่มือ อย่างไรก็ตาม การปฏิบัติตามแบบคู่มือนั้นไม่สม่ำเสมอและไม่สามารถทำได้จริงในการตรวจสอบ ระบบเสียง AI อัตโนมัติปฏิบัติตามกฎระเบียบเป็นระบบและสร้างบันทึกประกาศที่มีป้ายกำกับประทับเวลา GPS ที่อนุญาตให้หน่วยงานขนส่งแสดงการปฏิบัติตามในระหว่างการตรวจสอบ Federal Transit Administration (FTA)

การหยุดตามคำขอ คือคุณลักษณะการปฏิบัติตามที่เกี่ยวข้อง: ผู้โดยสารที่ไม่สามารถดูข้อมูลหยุดสามารถขอให้หยุดโดยเฉพาะโดยการพูดหรือผ่านปุ่มขอ ระบบ APIS สมัยใหม่รองรับสิ่งนี้โดยการปรับปรุงการประกาศ TTS on-demand เมื่อผู้โดยสารกดปุ่มหยุดตามคำขอ สังเคราะห์คำประกาศการเข้าใกล้และการหยุดเพื่อให้ปลายทางที่ขอร้องของพวกเขา

ข้อกำหนด ADAวิธี AI Bus Announcer พบกับปฏิบัติตาม
ประกาศจุดโอนGPS-triggered ที่ทั้งหมดหยุดการโอนเฉพาะ
ประกาศจุดตัดสำคัญฐานข้อมูลหยุด รวมถึงแท็กจุดตัด
ประกาศในช่วงเวลาที่เพียงพอการประกาศช่วงเวลาที่กำหนดค่าได้
ได้ยินได้ทั่วทั้งยานพาหนะPA ปรับสมดุลให้ตรงกับรุ่นเสียงรถ
การสนับสนุนขอหยุดปุ่ม TTS-triggered on demand
Auditability ของการปฏิบัติตามร่องรอยเหตุการณ์การประกาศที่บันทึก GPS

สำหรับบริบทเกี่ยวกับวิธีการต้องการ PA ที่คล้ายกันใช้ในสภาพแวดล้อมการขนส่งอื่น ๆ โปรดดูคู่มือของเราใน เครื่องสร้างเสียง AI สำหรับระบบ PA สถานีรถไฟ

ความท้าทายของเสียงห้องโดยสารรถเมล์

ห้องโดยสารรถเมล์นั้นไม่เป็นมิตรกับเสียงเมื่อเทียบกับสภาพแวดล้อมส่วนใหญ่ที่ TTS ถูกนำไป ระบบ PA ต้องแข่งขันกับ:

  • เสียงเครื่องยนต์และถนน ที่ 65-78 dB(A) ที่ความเร็วเมืองทั่วไป
  • การสนทนาของผู้โดยสาร ที่ 55-65 dB(A)
  • เสียงระบบ HVAC ที่ 55-60 dB(A)
  • ปริมาณเสียงที่แปรผัน — รถเมล์ที่เต็มไปด้วยจะดูดซับเสียงมากกว่ารถที่ว่างเนื่องจากการออกแบบของผู้โดยสารซึ่งการทำงานเป็นวัสดุที่ทำให้เสียง

วิศวกร PA ขนส่งจัดการสิ่งนี้ด้วยการรวม tuning รุ่นเสียงและการประมวลผลห่วงโซ่ DSP ที่แตกต่างจากงานเสียงของสตูดิโอหรือการออกอากาศ ขั้นตอนสำคัญ:

EQ Bandpass — ลำโพงห้องโดยสารรถเมล์ไม่สามารถสร้างเสียงขั้วพื้นต่ำกว่า 200 Hz หรือเทรเบิลข้างต้น 5 kHz ในปริมาณที่เป็นประโยชน์ แบบจำลองเสียง AI สำหรับ PA รถเมล์ได้รับการฝึกอบรมโดยพิจารณาถึงสิ่งนี้หรือเสียงหลังการประมวลผลด้วยตัวกรอง bandpass ตรงกลางที่ช่วง intelligibility 500-3500 Hz นี่คือเหตุผลที่การประกาศรถเมล์ฟัง “tinny” เมื่อเทียบกับเสียงแบบเต็มพิสัย: ปลายต่ำและสูงถูกลบออกโดยเจตนา

การบีบอัดหนัก — แอมป์ PA ในตู้รถเมล์ทำงานใกล้กับระดับเอาท์พุตสูงสุดของมันเพื่อเอาชนะเสียงรอบข้าง การบีบอัดแบบหนัก (อัตราส่วน 6:1 ถึง 10:1 ที่มีเวลาการโจมตี), ความเร็วเร็ว) ถูกนำไปใช้ก่อนแอมป์เพื่อป้องกันการตัดและรับประกันความดังที่กระทบสม่ำเสมอจากการประกาศ

อัตราการพูด — เสียง PA ขนส่งทำงานที่ 140-160 wpm ช้ากว่าเสียงพูด เพื่อให้เวลาแก่ผู้โดยสารในการแยกวิเคราะห์ชื่อหยุดบนเสียง การวิจัย intelligibility อย่างสม่ำเสมอแสดงให้เห็นว่าการลด 15% ในอัตราการพูดสร้างปรับปรุงการวัดในการทำความเข้าใจในสภาพแวดล้อมที่มีเสียงดัง

Equalization ห้องโดยสาร — การติดตั้ง APIS ขั้นสูงบางอย่างรวมถึง equalization ที่เข้ากันได้ซึ่งปรับโปรไฟล์การตอบสนองความถี่ตามการวัดแบบเรียลไทม์ของเสียงรอบข้างห้องโดยสาร โดยเพิ่มความถี่ของเสียงที่ถูกปิดบังโดย noise floor ปัจจุบัน

ขั้นตอน DSPการตั้งค่าสำหรับ PA รถเมล์ข้อเหตุผล
ตัวกรอง high-pass200 Hz ลำดับที่ 2ลบ sub-bass ลำโพงไม่สามารถสร้างเสียง
ความเน้น bandpass+4 dB shelf ที่ 1-3 kHzเพิ่มช่วง intelligibility ของเสียง
ตัวกรอง high-cutม้วน 5 kHzลบเทรเบิลเหนือความสามารถลำโพง
การบีบอัดอัตราส่วน 6:1 เกณฑ์ -15 dB การโจมตี 5msป้องกันการตัด PA amp
ข้อจำกัด-2 dBFS จริงสูงสุดเพดานแข็ง
การกำจัดเสียงรบกวนการประมวลผลก่อนการสังเคราะห์ ตัวเลือกทำให้อินพุตสะอาดสำหรับแบบจำลอง TTS

การสร้างเสียง PA Onboard Bus สำหรับโครงการสร้างสรรค์

เทคโนโลยีเสียง AI เดียวกันที่ให้พลังงานระบบประกาศการขนส่งโดยอัตโนมัติสามารถเข้าถึงได้โดยผู้สร้างอิสระ นักพัฒนาเกมที่สร้างการจำลองการขนส่งเมือง ผู้ถ่ายทำภาพยนตร์ที่ต้องการเสียงภายในรถเมล์ที่น่าเชื่อถือ ผู้ออกแบบสวนสนุกสร้างสภาพแวดล้อมการขนส่ง และผู้สร้างเนื้อหาที่สร้างวิดีโอที่เกี่ยวข้องกับการขนส่งทั้งหมดมีความต้องการพื้นฐานเดียวกัน: เสียง PA รถเมล์ที่สมจริงที่ฟังเหมือนว่ามันออกมาจากลำโพงห้องโดยสารรถเมล์จริง ๆ

การไหลของงานบนฮาร์ดแวร์เดสก์ท็อป Windows:

ขั้นตอนที่ 1 — เลือกแบบจำลองเสียง สำหรับเสียงในสไตล์ NYC MTA เลือกเสียงหญิงภาษาอังกฤษอเมริกาที่เป็นกลางพร้อมการลงทะเบียน mid-range — ไม่เป็นลมหรือให้ความอบอุ่น โดยที่ “ฟังก์ชันและชัดเจน” มากขึ้น สำหรับเสียงในสไตล์ London Buses เสียงหญิงอังกฤษ received pronunciation ที่มีการให้น้ำหนักอย่างเป็นทางการ สำหรับสไตล์ Tokyo Toei Bus เสียงหญิงญี่ปุ่นที่เป็นทางการคือการอ้างอิง

ขั้นตอนที่ 2 — โคลนและฝึกอบรม ใช้เครื่องมือโคลนเสียง AI เพื่อสร้างแบบจำลองจากเสียงต้นทางที่สะอาดนาน 2-4 นาที ท่อ cloning เสียง VoxBooster จัดการสิ่งนี้บนฮาร์ดแวร์ Windows 10/11 มาตรฐาน ทำงานในท้องถิ่นโดยไม่มีการพึ่งพาคลาวด์ เก็บเสียงต้นทางให้แห้ง — ไม่มีการสะท้อน ไม่มี room tone — สำหรับแบบจำลองการสังเคราะห์ที่สะอาดที่สุด

ขั้นตอนที่ 3 — เขียนสคริปต์ของคุณด้วยอนุสัญญา PA รถเมล์ในใจ เก็บแต่ละการประกาศหยุดเป็นประโยคคำสั่งสูงสุด ใช้ปัจจุบันต่อเนื่องสำหรับเรียกเข้าใกล้ (“การหยุดต่อไปคือ…”) และอดีตสำหรับเรียกหยุด (“นี่คือ…”) หลีกเลี่ยงการหดตัว — “เราคือ” ฟังชัดเจนยิ่งขึ้นใน PA บีบอัด มากกว่า “เราคือ” หลีกเลี่ยงชื่อหยุดด้วย plosives หนักที่หน้าหากเป็นไปได้

ขั้นตอนที่ 4 — สังเคราะห์เป็น WAV ที่สะอาด สร้างแต่ละการประกาศที่ 44.1 kHz 16-bit WAV เก็บความได้ที่ -18 dBFS ก่อนการประมวลผล

ขั้นตอนที่ 5 — ใช้ห่วงโซ่ DSP PA รถเมล์ high-pass ที่ 200 Hz Bandpass boost ที่ 1-3 kHz บีบอัด 6:1 high-cut ที่ 5 kHz ข้อจำกัดแข็งที่ -2 dBFS เพิ่มการสะท้อน room ที่เบาลงมาก (RT60 ของ 0.3-0.5 วินาที — ห้องโดยสารรถเมล์ แห้งกว่าสถานีรถไฟมากขึ้น)

ขั้นตอนที่ 6 — เสียงรบกวน Ambient Layer สำหรับความเป็นจริง ในบริบทของเกมหรือภาพยนตร์ เสียง PA ได้ยินเหนือเสียงรบกวน ambient ห้องโดยสาร ผสมการประกาศที่ประมวลผลที่ +3 ถึง +6 dB เหนือการอ้างอิงเสียงรบกวนของ bus ambient ของคุณเพื่อให้ได้ intelligibility ที่ฟังได้สมจริง

สำหรับการไหลของงานการสร้างเสียง PA ที่คล้ายกันในบริบทการขนส่งอื่น ๆ โปรดดู เครื่องสร้างเสียง AI สำหรับระบบ PA เรือสำราญ และ เครื่องสร้างเสียง AI สำหรับระบบ toll booth EZ-Pass ซึ่งครอบคลุมความท้าทายเสียงและการปฏิบัติตาม Analogous ในสภาพแวดล้อมยานพาหนะที่แตกต่างกัน

Chartion Voice Character Variation ทั่วประเภท Bus Fleet

เช่นเดียวกับเสียง Transit PA ที่แตกต่างกันระหว่าง metro commuter rail และ airport rail เสียง PA รถเมล์แตกต่างกันระหว่างบริบทยานพาหนะ:

รถเมล์เมือง (เส้นทางท้องถิ่น หยุดเมือง): อัตราการพูดที่เร็วที่สุดของประเภทรถเมล์ทั้งหมด (155-165 wpm) เสียงบีบอัดส่วนใหญ่ ความเน้นสูงสุดในความชัดเจนกว่าความอบอุ่น ตัวอย่าง: NYC MTA ท้องถิ่น London Buses inner zone

บริการ express และ limited-stop: ช้าลงเล็กน้อย (145-155 wpm) ข้อมูลมากขึ้นต่อการประกาศ (รายละเอียดการเชื่อมต่อ การเปลี่ยนแปลงโซนค่า) การลงทะเบียนอบอุ่นมากขึ้นเนื่องจากผู้โดยสารนั่งสำหรับการเดินทางยาวนาน ตัวอย่าง: NYC MTA Select Bus Service London Buses express routes

Airport shuttle และ coach: อัตราการพูดที่ช้าที่สุด (130-140 wpm) การลงทะเบียนทางการที่สุด บ่อยครั้งที่ประเพนีมากที่สุด การประกาศมักรวมคำแนะนำโดยละเอียด (สัมภาระข้อมูลเทอร์มินัล) ตัวอย่าง: Heathrow Express coach LAX FlyAway

Paratransit และบริการที่สามารถเข้าถึงได้: อย่างมากช้า (120-130 wpm) enunciation ที่มีจุดมุ่งหมายที่สุด ยืนยันที่อยู่และการยืนยันการรับบาลรวมถึงตรรกะการประกาศ ความสำคัญของความชัดเจนของ formant ที่สูงขึ้น

ความแตกต่างเหล่านี้สะท้อนถึงการทดสอบเสียงและการวิจัย psychoacoustic — ไม่ใช่อนุสัญญาตามอำเภอใจ สำหรับการอ่านที่ลึกกว่าเกี่ยวกับการสังเคราะห์เสียง AI ในบริบท PA สภาพแวดล้อมที่สร้างขึ้นอื่น ๆ คู่มือของเราเกี่ยวกับ โคลนเสียงสำหรับงาน voiceover ครอบคลุมวิธีการใช้แบบจำลองการสังเคราะห์ neural เดียวกันในการขนส่งในการผลิตเนื้อหาระดับมืออาชีพ และ เครื่องสร้างเสียง AI สำหรับระบบเคาน์เตอร์โรงแรม ครอบคลุมปรัชญาการออกแบบเสียงตรงกันข้าม — ความอบอุ่นและความสัญชาติ PA punch สำหรับผู้สร้างเนื้อหาที่ต้องการใช้ตัวละครเสียงในสไตล์ transit ในสตรีมหรือการสร้างสรรค์ คู่มือ trình chuyển đổi giọng nói cho những người tạo nội dung ครอบคลุมการ Forming เสียงแบบเรียลไทม์

คำถามที่พบบ่อย

AI เสียงประกาศรถเมล์คืออะไร

AI เสียงประกาศรถเมล์เป็นระบบ text-to-speech ที่ผ่านการฝึกอบรมจากนักพูดระบบเสียงมืออาชีพและรวมเข้ากับระบบข้อมูลผู้โดยสาร (APIS) ของยานพาหนะ มันสร้างชื่อหยุด คำแนะนำการเชื่อมต่อ และข้อความด้านความปลอดภัยแบบเรียลไทม์จากข้อมูลตำแหน่ง GPS แทนที่ธนาคารคลิปที่บันทึกไว้ล่วงหน้าด้วยการสังเคราะห์ neural unlimited-vocabulary

TTS ที่ใช้ GPS ทำงานอย่างไรบนรถเมล์

ตัวรับ GPS ติดตามตำแหน่งของยานพาหนะ เมื่อรถเมล์เข้าเขตเรียก geofence — โดยปกติ 200-400 เมตรก่อนการหยุด — ตัวควบคุม APIS บนเรือส่งชื่อหยุด หมายเลขเส้นทาง และข้อมูลการเชื่อมต่อไปยังเครื่องยนต์ TTS เครื่องยนต์สังเคราะห์เสียงในเวลาต่ำกว่า 300 มิลลิวินาที และกำหนดเส้นทางไปยังลำโพงห้องโดยสาร เหตุการณ์เดียวกันสามารถอัปเดตจอแสดงปลายทางและหน้าจออ้อมข้อมูลผู้โดยสารพร้อมกัน

หน่วยงานขนส่งใช้ฮาร์ดแวร์ใดสำหรับการประกาศบนรถเมล์

Clever Devices และ Luminator เป็นผู้จัดจำหน่ายฮาร์ดแวร์ที่มีอำนาจในอเมริกาเหนือ ทั้งสองสร้างหน่วย APIS แบบรวมที่รวมโมดูล GPS/LTE คอมพิวเตอร์บนเรือ แอมป์ PA และซอฟต์แวร์ TTS ในแพคเกจที่ยากแบบเดียว ระบบยุโรปมักใช้อุปกรณ์ INIT หรือ Trapeze แพลตฟอร์มปัจจุบันทั้งหมดรองรับการสังเคราะห์เสียง neural ผ่านเครื่องยนต์ TTS บนเรือหรือ cloud-edge

ข้อกำหนดการปฏิบัติตาม ADA สำหรับการประกาศบนรถเมล์

ภายใต้กฎหมาย Americans with Disabilities Act (ADA) และโดยเฉพาะ 49 CFR Part 37 ยานพาหนะขนส่งจะต้องประกาศหยุดในจุดโอนการดำเนินการ จุดตัดสำคัญ และตามคำขอ การประกาศต้องได้ยินได้ทั่วทั้งยานพาหนะ ระบบเสียง AI สมัยใหม่เป็นไปตามนี้โดยสร้างการประกาศหยุดโดยอัตโนมัติจากตัวกระตุ้น GPS บันทึกการประกาศแต่ละครั้งเพื่อรายงานการปฏิบัติตาม และให้ปุ่มขอหยุดที่ผู้โดยสารเปิดใช้งาน

NYC MTA London Buses และ Tokyo Toei Bus จัดการเสียงบนเรือได้อย่างไร

รถเมล์ NYC MTA ใช้ฮาร์ดแวร์ Clever Devices IVIU พร้อมเสียงภาษาอังกฤษที่สังเคราะห์; การสังเคราะห์ทวิภาษี English-Spanish ใช้งานได้บนเส้นทางลำต้นหลายเส้น London Buses ใช้ APIS ที่เข้ากันได้กับ Luminator พร้อมเสียงหญิงอังกฤษที่สังเคราะห์โดยเฉพาะที่ใช้อย่างสม่ำเสมอกับผู้ประกอบการที่ TfL เช่า Tokyo Toei Bus ใช้การสังเคราะห์ทวิภาษี Japanese-English โดยชื่อสถานีแสดงผล romaji สำหรับเส้นทางภาษาอังกฤษและใน kanji + hiragana เต็มสำหรับภาษาญี่ปุ่น

ฉันสามารถสร้างเสียง PA สไตล์รถเมล์สำหรับเกมหรือภาพยนตร์ด้วยซอฟต์แวร์เดสก์ท็อปได้หรือไม่

ใช่. คุณจำเป็นต้องใช้โคลนเสียงที่ปรับสำหรับสภาพแวดล้อม PA — EQ bandwidth โทรศัพท์ที่มี bandpass ตรงกลาง 500-3500 Hz — บวกกับสคริปต์ที่ปฏิบัติตามรูปแบบวลีการประกาศที่ใช้ GPS เครื่องมือเช่น VoxBooster จัดการการโคลนเสียงและการสังเคราะห์แบบเรียลไทม์บน Windows; ขั้นตอนการจำลอง EQ สามารถทำได้ใน DAW หรือตัวแก้ไขเสียงใดก็ได้

ทำไมเสียง PA รถเมล์ถึงฟังต่างจากบันทึกเสียงสตูดิโอ

ลำโพงห้องโดยสารรถเมล์เล็ก จำกัดพลังงาน และต้องแข่งขันกับเสียงเครื่องยนต์ เสียงถนน และการสนทนาของผู้โดยสาร แอมป์ PA ใช้การบีบอัดหนักและ EQ bandpass ที่ตัดต่ำกว่า 200 Hz และสูงกว่า 5 kHz โมเดลเสียง AI สำหรับการขนส่งได้รับการฝึกอบรมหรือประมวลผลเพื่อให้พลังงานของพวกเขาอยู่ในช่วง intelligibility 500-3500 Hz โดยมีการบีบอัดที่ใช้แล้ว

บทสรุป

AI เสียงประกาศรถเมล์ได้แปลงเสียงที่เคยเป็นแบบคำเพศของคลิปที่บันทึกไว้ล่วงหน้าและการประกาศไดรเวอร์ที่ไม่สม่ำเสมอเข้าสู่ระบบที่เชื่อถือได้ สามารถตรวจสอบได้ และพหุภาษีที่ทำงานทั่วทั้งเครือข่ายขนส่งบางส่วนที่ซับซ้อนที่สุดในโลก จากเรือ 5.800 คันใน NYC MTA ที่ใช้ฮาร์ดแวร์ Clever Devices ไปยังแบบจำลองเสียงที่ได้มาตรฐาน TfL ในทั้ง London Buses ไปยังการสังเคราะห์ทวิภาษี Japanese-English ที่จดทะเบียนอย่างเป็นทางการของ Tokyo Toei Bus — สถาปัตยกรรม TTS ที่ใช้ GPS ที่เป็นพื้นฐาน เดียวกันทั้งหมด โดยมีการปรับแต่งเสียงและภาษาที่ปรับให้เข้ากับแต่ละสภาพแวดล้อม

สำหรับผู้สร้างและนักพัฒนาที่ต้องการเสียง PA คุณภาพการขนส่งโดยไม่มีงบประมาณหน่วยงานขนส่ง ไปป์ไลน์เดียวกันในขนาดเล็ก: โคลนเสียง AI สคริปต์ที่เขียนด้วยอนุสัญญา phrasing PA รถเมล์ และห่วงโซ่ DSP ที่จำลองลักษณะเสียง Bandpass-Compessed ของลำโพงห้องโดยสารรถเมล์ VoxBooster จัดการสำเนาเสียง เสียงการสังเคราะห์ด้าน windows 10/11 ที่มีการทดสอบ 3 วันฟรี และไม่ต้องบัตรเครดิต

ความแตกต่างระหว่างการประกาศรถเมล์ที่น่าเชื่อถือและอันที่ไม่น่าเชื่อถือเกือบทั้งหมดมาจากห่วงโซ่ DSP และการปรับเทียบอัตราการพูดที่อธิบายไว้ที่นี่ ได้มันตรง ผลลัพธ์จะแยกไม่ออกจากผลลัพธ์ Clever Devices หรือ Luminator ผู้โดยสารได้ยินทุกวัน

ดาวน์โหลด VoxBooster — การทดสอบฟรี 3 วัน ไม่ต้องใช้บัตรเครดิต

ลอง VoxBooster — ทดลองใช้ฟรี 3 วัน

โคลนเสียงเรียลไทม์ ซาวด์บอร์ด และเอฟเฟกต์ — ทุกที่ที่คุณคุย

  • ไม่ต้องใช้บัตรเครดิต
  • ความหน่วง ~30ms
  • Discord · Teams · OBS
ลองฟรี 3 วัน