Lompat ke konten Lompat ke sidebar Lompat ke footer

OpenAI open-sources Whisper, sistem pengenalan ucapan multibahasa

 Pengenalan suara tetap menjadi masalah yang menantang dalam AI dan pembelajaran mesin. Dalam langkah untuk menyelesaikannya, OpenAI hari ini open-source Whisper, sistem pengenalan suara otomatis yang diklaim perusahaan memungkinkan transkripsi "kuat" dalam berbagai bahasa serta terjemahan dari bahasa tersebut ke dalam bahasa Inggris.

Organisasi yang tak terhitung jumlahnya telah mengembangkan sistem pengenalan suara yang sangat mumpuni, yang merupakan inti dari perangkat lunak dan layanan dari raksasa teknologi seperti Google, Amazon, dan Meta. Tetapi apa yang membuat Whisper berbeda, menurut OpenAI, adalah bahwa ia dilatih pada 680.000 jam data multibahasa dan "multitugas" yang dikumpulkan dari web, yang mengarah pada peningkatan pengenalan aksen unik, kebisingan latar belakang, dan jargon teknis.


"Pengguna utama yang dituju dari model [Whisper] adalah peneliti AI yang mempelajari ketahanan, generalisasi, kemampuan, bias, dan kendala model saat ini. Namun, Whisper juga berpotensi cukup berguna sebagai solusi pengenalan ucapan otomatis untuk pengembang, terutama untuk pengenalan ucapan bahasa Inggris," tulis OpenAI dalam repo GitHub untuk Whisper, dari mana beberapa versi sistem dapat diunduh. "[Modelnya] menunjukkan hasil ASR yang kuat dalam ~10 bahasa. Mereka mungkin menunjukkan kemampuan tambahan ... jika disesuaikan pada tugas-tugas tertentu seperti deteksi aktivitas suara, klasifikasi pembicara atau diarisasi pembicara tetapi belum dievaluasi dengan kuat di area ini."

Whisper memiliki keterbatasan, terutama di bidang prediksi teks. Karena sistem ini dilatih pada sejumlah besar data "berisik", OpenAI memperingatkan Whisper mungkin menyertakan kata-kata dalam transkripsinya yang sebenarnya tidak diucapkan — mungkin karena keduanya mencoba memprediksi kata berikutnya dalam audio dan mencoba mentranskripsikan audio itu sendiri. Selain itu, Whisper tidak berkinerja sama baiknya di seluruh bahasa, menderita tingkat kesalahan yang lebih tinggi dalam hal penutur bahasa yang tidak terwakili dengan baik dalam data pelatihan.

Sayangnya, bagian terakhir itu bukanlah hal baru bagi dunia pengenalan suara. Bias telah lama mengganggu bahkan sistem terbaik, dengan studi Stanford 2020 menemukan sistem dari Amazon, Apple, Google, IBM dan Microsoft membuat kesalahan yang jauh lebih sedikit — sekitar 19% — dengan pengguna yang berkulit putih dibandingkan dengan pengguna yang berkulit hitam.

Meskipun demikian, OpenAI melihat kemampuan transkripsi Whisper digunakan untuk meningkatkan alat aksesibilitas yang ada.

"Sementara model Whisper tidak dapat digunakan untuk transkripsi real-time di luar kotak, kecepatan dan ukurannya menunjukkan bahwa orang lain mungkin dapat membangun aplikasi di atasnya yang memungkinkan pengenalan dan terjemahan ucapan yang hampir real-time," lanjut perusahaan di GitHub. "Nilai sebenarnya dari aplikasi bermanfaat yang dibangun di atas model Whisper menunjukkan bahwa kinerja yang berbeda dari model-model ini mungkin memiliki implikasi ekonomi yang nyata ... [Kami] berharap teknologi ini akan digunakan terutama untuk tujuan yang bermanfaat, membuat teknologi pengenalan ucapan otomatis lebih mudah diakses dapat memungkinkan lebih banyak aktor untuk membangun teknologi pengawasan yang mumpuni atau meningkatkan upaya pengawasan yang ada, karena kecepatan dan akurasi memungkinkan transkripsi otomatis yang terjangkau dan terjemahan komunikasi audio dalam volume besar."

Posting Komentar untuk "OpenAI open-sources Whisper, sistem pengenalan ucapan multibahasa"