Дата публикации: 02 ноября 2024. Опубликовано в Новости.

Whisper от OpenAI, внедренный в ряде американских клиник, стал галлюцинировать

openAI

Whisper — инструмент для транскрипции аудио от OpenAI неожиданно стал галлюцинировать (https://techcrunch.com/2024/10/26/openais-whisper-transcription-tool-has-hallucination-issues-researchers-say/). Это явление, когда ИИ, казалось бы, «выдумывает» части текста, что критично неприемлемо для медицины, где точность важнее остальных параметров.

Способность генеративного ИИ «галлюцинировать» известна давно, но это было неожиданно для инструмента транскрипции, который должен воспроизводить текст, точно соответствующий представленному аудио. Однако оказалось, что Whisper добавляет ложную информацию, например, расовые комментарии или даже придуманные медицинские методы лечения.

Эксперты Мичиганского университета, изучающие публичные собрания, обнаружили галлюцинации той или иной степени более чем в половине из 100 изученных часов транскрипции.

Представитель OpenAI сообщил, что они работают над улучшением точности, включая уменьшение галлюцинаций, и напомнил, что Whisper предоставляется только вместе с политикой, которая запрещает его использование в «определённых ситуациях, связанных с важными решениями».Ну это как чат GPT или Claude предупреждают нас, что могут ошибаться, и важную информацию надо перепроверять.

💬 Это означает, что разработчикам необходимо искать инструменты и подходы, чтобы исключить возможность ИИ добавлять сгенерированные данные в задачах, которые требуют высокой точности. Кроме Whisper, существуют и другие решения для преобразования речи в текст и структурирования этого текста, такие как Google Speech-to-Text (https://cloud.google.com/speech-to-text), Microsoft Azure Speech (https://azure.microsoft.com/services/cognitive-services/speech-to-text/), IBM Watson Speech to Text (https://www.ibm.com/cloud/watson-speech-to-text), Amazon Transcribe (https://aws.amazon.com/transcribe/), Deepgram (https://www.deepgram.com/) и российская Speech2Text (https://speech2text.ru/). Эти модели успешно справляются с задачей обработки невнятной речи, и, в отличие от Whisper, большинство из них не склонны к галлюцинациям.

Подписаться на ИИ в медицине

Просмотров: 11