logo

OpenAI представила новый стандарт оценки мед ИИ

By: block-chain24|2025/05/14 12:15:08
0
Поделиться
copy
Компания представила HealthBench —открытый набор данных и оценочный инструмент, созданный для тестирования LLM на их способность обрабатывать медицинские диалоги. Он включает 5000 реалистичных медицинских разговоров, которые охватывают 26 медицинских специальностей, таких как нейрохирургия и офтальмология, и поддерживает 49 языков, включая ахмарский и непальский. Эти разговоры моделируют реальные сценарии взаимодействия между пациентами и врачами, что делает бенчмарк уникальным в своей реалистичности и масштабе. Основная цель HealthBench — оценить, насколько точно и безопасно ИИ-модели могут отвечать на запросы, связанные со здоровьем. Каждый ответ модели оценивается по специально разработанным рубрикам, созданным врачами, которые учитывают клиническую точность, полноту и соответствие медицинским стандартам. Рубрики содержат 48 562 уникальных критерия, что позволяет проводить глубокую и детализированную оценку. Запуск HealthBench вызвал интерес не только в медицинской и ИИ-сферах, но и в криптовалютном секторе. Некоторые аналитики предполагают, что стандартизация оценки медицинских ИИ-моделей может стимулировать спрос на блокчейн-решения в здравоохранении, особенно для управления медицинскими данными и обеспечения прозрачности. Несмотря на новаторский характер HealthBench, эксперты подчеркивают, что бенчмарк не является исчерпывающим. Реальная клиническая практика сложнее, чем смоделированные диалоги, и требует дополнительного тестирования в реальных условиях. Некоторые эксперты выражают скептицизм относительно заявлений, что ИИ в 4 раза превосходит врачей, указывая на необходимость критической оценки таких утверждений.

Вам также может понравиться

ИИ начинает пожирать производственную индустрию | Rewire News Morning Edition

Когда Безос начинает использовать ИИ для покупки фабрик вместо строительства дата-центров, это показывает, что он считает, что следующая волна ценности ИИ не находится внутри коробки.

Когда масштабируемость встречается со скоростью, Фонд Ethereum вводит «Жесткость» для защиты базового уровня

Жесткость - это обязательство на уровне протокола в отношении основных свойств Ethereum, включая устойчивость к цензуре, конфиденциальность, безопасность и отсутствие разрешений.

Google, Circle, Stripe Flock вместе, чтобы позволить ИИ тратить деньги: Радости и заботы платежных гигантов в I квартале 2026 г.

Настоящий враг больше не друг друга, но но ноль стоит себе

Покупка завода на 100 миллиардов долларов: Безос и ближневосточный капитал перенаправляют деньги ИИ из облака на производственную площадку

Безос не инвестирует в новую модель; он инвестирует в цепочку поставок.

Xiaomi и MiniMax одновременно выпустили свои лучшие продукты, что стало сигналом к началу ценовой войны за агентов.

Никаких брендов, никакой маркетинг, пусть разработчики решат, что им делать, в течение 8 дней

Рынки прогнозирования привлекли к себе внимание, но Perp DEX тихо ведет войну с традиционными биржами.

В течение выходных, когда традиционные финансовые рынки были закрыты, на фоне непрерывной волатильности, еще одна волна инвесторов активно торговала золотом, нефтью и серебром на блокчейн-платформе.

Популярные монеты

Последние новости криптовалют

Еще