ضبط مصاحبههای پر سر و صدای و سخنرانیها کابوس صدابرداران هستند. اما یک استارتآپ آلمانی (AI coustics) امیدوار است با رویکرد فنی منحصربهفردی که از هوش مصنوعی برای بهبود وضوح صدا در ویدیوها استفاده میکند، این مشکل را حل کند.
امروز، شرکت AI coustics با ۱.۹ میلیون یورو بودجه از خفا خارج شد. طبق گفته فابیان سایپل، همبنیانگذار و مدیرعامل، فناوری AI coustics فراتر از حذف نویز استاندارد عمل میکند و در تمام دستگاهها و با هر بلندگویی کار میکند.
سایپل در مصاحبهای با TechCrunch گفت: «ماموریت اصلی ما این است که هر تعامل دیجیتالی، چه در تماس کنفرانسی، دستگاه مصرفکننده یا ویدیوی معمولی رسانههای اجتماعی، به شفافیت یک پخش از یک استودیوی حرفهای برسد.»
سایپل گفت: «ما تحت تأثیر یک ماموریت شخصی برای غلبه بر چالش فراگیر کیفیت پایین صدا در ارتباطات دیجیتال بودهایم. در حالی که شنوایی من به دلیل تولید موسیقی در اوایل بیست سالگی کمی ضعیف شده است، اما همیشه با محتوای آنلاین و سخنرانیها مشکل داشتم که این موضوع ما را به سمت کار روی کیفیت و وضوح گفتار سوق داد.»
بازار نرمافزار حذف نویز و تقویت صدا با هوش مصنوعی از قبل بسیار پررونق است. رقبای این پلتفرم شامل Insoundz، که از هوش مصنوعی تولیدکننده برای بهبود کلیپهای صوتی استریمشده و ضبطشده استفاده میکند، و Veed.io، یک مجموعه ویرایش ویدئو با ابزارهایی برای حذف نویز پسزمینه از کلیپها میشود.
اما سایپل میگوید AI-coustics رویکرد منحصربهفردی برای توسعه مکانیسمهای هوش مصنوعی که کار حذف نویز واقعی را انجام میدهند، دارد.
این استارتآپ از مدلی استفاده میکند که روی نمونههای صوتی ضبطشده در استودیوی این شرکت در برلین، شهر محل فعالیت AI-coustics، آموزش دیده است. به افرادی که نمونههایی را ضبط میکنند پول پرداخت میشود و سپس آن نمونهها به مجموعهای از دادهها اضافه میشوند تا مدل کاهش نویز AI-coustics آموزش ببیند.
سایپل گفت: «ما رویکرد منحصربهفردی را برای شبیهسازی مصنوعی صدا و مشکلات – مانند نویز، انعکاس، فشردهسازی، میکروفونهای با محدوده باند، بریدگی و غیره – در طول فرآیند آموزش توسعه دادیم.»
من حدس میزنم که برخی با طرح پرداخت یکبار مصرف این برنامه برای تولیدکنندگان محتوا مخالف خواهند بود، زیرا مدلی که این استارتآپ در حال آموزش آن است، در درازمدت میتواند بسیار سودآور شود. اما شاید نگرانی بزرگتر و فوریتر، سوگیری باشد.
به خوبی ثابت شده است که الگوریتمهای تشخیص گفتار میتوانند سوگیریهایی را ایجاد کنند. سوگیریهایی که در نهایت به کاربران آسیب میرسانند. مطالعهای که در مجموعه مقالات آکادمی ملی علوم منتشر شد، نشان داد که تشخیص گفتار از شرکتهای پیشرو، دو برابر بیشتر احتمال داشت که صدای افراد سیاهپوست را نسبت به افراد سفید اشتباه کند.
سایپل میگوید این هوشی مصنوعی برای مقابله با این مشکل، بر جذب مشارکتکنندگان نمونههای گفتار «متنوع» تمرکز میکند. او افزود: «حجم و تنوع برای از بین بردن سوگیری و کارکرد این فناوری برای تمام زبانها، هویتهای گویشور، سن، لهجه و جنسیتها کلیدی است.
سایپل پیش بینی می کند که از فناوری AI-coustics برای بهبود گفتار در زمان واقعی و ضبط شده استفاده شود، و شاید حتی در دستگاه هایی مانند ساندبارها، تلفن های هوشمند و هدفون ها برای افزایش خودکار وضوح صدا تعبیه شود.
در حال حاضر، AI-coustics یک برنامه وب و API برای پردازش ضبط های صوتی و تصویری و یک SDK ارائه می دهد که پلتفرم AI-coustics را به گردش کار، برنامه ها و سخت افزارهای موجود وارد می کند.
حالت صوتی پیشرفته ChatGPT در وب OpenAI در حال گسترش قابلیت حالت صوتی پیشرفته (Advanced…
عینکهای واقعیت افزوده متا با قابلیتهای هوش مصنوعی خود متا اعلام کرد که شروع به…
بلواسکای از پستهای کاربران برای آموزش هوش مصنوعی خود استفاده نمیکند. بلواسکای، شبکه اجتماعی که…
قابلیت Genmoji اپل چیست؟ به روزرسانی iOS 18.1 اپل، مجموعه ای از ویژگیهای هوش مصنوعی…
کسب درآمد از اسپاتیفای Spotify روز چهارشنبه اعلام کرد که پادکسترهایی که ویدیوهای محبوب را…
ساخت ریمیکس با هوش مصنوعی یوتیوب سال گذشته، یوتیوب به برخی از سازندگان محتوا در…