+

WO2023063845A1 - System and method for using automated machine learning (automl) to train computer vision models for analyzing biomedical images - Google Patents

System and method for using automated machine learning (automl) to train computer vision models for analyzing biomedical images Download PDF

Info

Publication number
WO2023063845A1
WO2023063845A1 PCT/RU2021/000440 RU2021000440W WO2023063845A1 WO 2023063845 A1 WO2023063845 A1 WO 2023063845A1 RU 2021000440 W RU2021000440 W RU 2021000440W WO 2023063845 A1 WO2023063845 A1 WO 2023063845A1
Authority
WO
WIPO (PCT)
Prior art keywords
training
computer vision
automatically
image data
models
Prior art date
Application number
PCT/RU2021/000440
Other languages
French (fr)
Russian (ru)
Inventor
Сергей Юрьевич СОРОКИН
Иван Сергеевич ДРОКИН
Олег Леонидович БУХВАЛОВ
Елена Витальевна ЕРИЧЕВА
Original Assignee
Общество С Ограниченной Ответственностью "Интеллоджик"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from RU2021129912A external-priority patent/RU2787558C1/en
Application filed by Общество С Ограниченной Ответственностью "Интеллоджик" filed Critical Общество С Ограниченной Ответственностью "Интеллоджик"
Publication of WO2023063845A1 publication Critical patent/WO2023063845A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images

Definitions

  • the invention relates to the field of information and communication technologies for processing medical data, in particular, to a system and method for automatic machine learning (AutoML) of computer vision models for analyzing biomedical images.
  • AutoML automatic machine learning
  • the presented solution can be used in medical decision support systems (DMSS), by doctors, for example, CT diagnostic doctors, MRI doctors, radiologists, radiologists, mammologists, oncologists and other specialists who analyze biomedical images obtained using various diagnostic methods.
  • doctors for example, CT diagnostic doctors, MRI doctors, radiologists, radiologists, mammologists, oncologists and other specialists who analyze biomedical images obtained using various diagnostic methods.
  • CT scans e.g. CT scans, MPT scans, ultrasound scans, x-rays, mammography, etc.
  • Patent US10282835B2 publication date 05/07/2019, describes a method and system for automatic analysis of clinical images using models developed using machine learning.
  • the system includes a server with an electronic processor and an interface for communication with the data source.
  • the electronic processor is configured to receive training information from a data source via an interface.
  • the training information includes a plurality of images and graphic reports associated with each of the plurality of images.
  • Each graphical report includes a graphic marker denoting a portion of one of the plurality of images and diagnostic information associated with a portion of one of the plurality of images.
  • the electronic processor is also configured to perform machine learning to develop a model using the training information.
  • the electronic processor is also configured to receive images for analysis and automatic image processing using a model to generate a diagnosis for the image.
  • the method includes: receiving the user's target and the first data set by the AutoML system; determining, according to the target, that the original artificial intelligence (AI) model is used to implement the user's target; training the AutoML system, according to the obtained first data set, the initial AI model to obtain the trained AI model; further analyzing, according to the first data set, the training of the initial AI model to obtain an analysis result, the analysis result including the effect of at least one type of data in the first data set on the training of the initial AI model.
  • AI artificial intelligence
  • An AutoML system is also described, providing, depending on the analysis result and the user, an optimization mode for the trained AI model, while the optimization mode can load a second data set to optimize the trained AL model.
  • the technical problem to be solved by the claimed invention is the development of methods and systems for automatic training of computer vision models for tasks related to biomedical images, the development of automated methods for evaluating and validating trained models, the development of a data and markup management system to provide the AutoML process, increasing accuracy of AutoML machine learning models for biomedical image analysis.
  • the technical result of the claimed invention is to expand the arsenal of technical tools for automating the creation of models machine learning for biomedical image analysis (e.g. CT scans, MPT scans, ultrasound scans, x-rays, mammography, angiography, and others), improving the accuracy of biomedical image analysis by choosing the best model, reducing biomedical image analysis time by automating search, training and evaluation of computer vision models, increasing the speed of processing a large number of biomedical images simultaneously with increasing accuracy, increasing the ability to adapt computer vision models to new cases, devices, research modes, etc.
  • biomedical image analysis e.g. CT scans, MPT scans, ultrasound scans, x-rays, mammography, angiography, and others
  • a computer-implemented automatic machine learning (AutoML) system for computer vision models for biomedical image analysis comprises: a database, the database storing biomedical image data; moreover, the data on the basis of which the biomedical image data is obtained is collected automatically; server containing:
  • the loader automatically loads the biomedical image data required for testing, training and validating computer vision models from the database;
  • transformation unit automatically transforms the biomedical image data received from the download unit into a format accepted by the search, learning and evaluation units;
  • search unit and with the help of the search unit, computer vision models are automatically searched using training and test samples generated on the basis of biomedical image data received from the transformation unit, and the architecture parameters of the found models are automatically searched and optimized;
  • the training unit automatically trains the computer vision models found by the search unit using a training sample generated on the basis of biomedical image data received from the transformation unit and using architecture parameters received from the search unit; wherein the best of said trained models is automatically selected and the selected model is passed to the estimator;
  • the estimator automatically evaluates the best selected computer vision model trained by the training unit using a validation set formed on the basis of biomedical image data received from the transformation unit.
  • data collection can be automatically carried out using a clinic agent, on the basis of which biomedical image data is obtained.
  • a model can be searched until the specified metric values are reached or until the search budget is exhausted.
  • additional training of the computer vision model found by the search unit can be carried out using a training sample, which is supplemented with data from additional biomedical images received from the transformation unit, if the specified model has not passed validation.
  • the training and evaluation units may be configured to initiate a repeated search and training process for computer vision models for biomedical image analysis.
  • biomedical image data required for testing, training and validation of computer models vision; moreover, the data on the basis of which the biomedical image data is obtained is collected automatically;
  • loading of biomedical image data can be automatically performed using a loading block
  • automatic collection of data from which biomedical image data is obtained can be performed using a clinic agent
  • transformation of the loaded biomedical image data can be automatically performed using a transformation block
  • the computer vision models can be automatically searched with the search block
  • the found computer vision models can be automatically trained with the training block
  • the best selected trained computer vision model can be automatically evaluated with the evaluation block.
  • the method can be used to search for a model until the specified values of the metrics are reached or until the search budget is exhausted.
  • additional training of the computer vision model found by the search unit can be carried out using a training set, in which additional biomedical image data received from the transformation unit is added, if the specified model has not passed the validation.
  • the method may further initiate a repeated process of searching and training computer vision models for biomedical image analysis.
  • Fig. 1 illustrates an example of a general architecture of which an automatic machine learning (AutoML) system of computer vision models for biomedical image analysis is a part.
  • AutoML automatic machine learning
  • Fig. 2 - illustrates the general scheme for constructing AutoML computer vision models for biomedical image analysis using hybrid intelligence.
  • Fig. 3 - illustrates the general scheme of the learning agent device.
  • Fig. 4 illustrates the general scheme for updating AutoML computer vision models for biomedical image analysis.
  • Fig. 5 - illustrates the general scheme of the device of the clinic agent.
  • Fig. 6 illustrates a general diagram of a computing device for implementing the present invention.
  • the present invention discloses an automatic machine learning (AutoML) system for computer vision models for analyzing biomedical images.
  • the system is designed to automate the stages of development and training of computer vision models in the tasks of biomedical image analysis.
  • Biomedical images are medical images obtained by various methods, for example, methods of radiation diagnostics (X-ray, magnetic resonance, radionuclide, ultrasound, etc.) - computed tomography (CT) images, magnetic resonance imaging (MRI) images, ultrasound images ( ultrasonography), positron emission tomography (PET) images, x-rays, mammography, angiography images, elastography images, etc.), through an endoscope (endoscopic images), using photographic methods (for example, medical photographs of skin conditions and other superficial conditions, such as the palate, birthmarks, moles, etc.), etc.
  • CT computed tomography
  • MRI magnetic resonance imaging
  • PET positron emission tomography
  • x-rays x-rays
  • mammography mammography
  • the task of building machine learning models consists of the following steps:
  • Data preparation normalization, cleaning, search for outliers.
  • the Clinic Agent provides automation of data collection from clinics based on a system of rules and filters.
  • the clinic agent is also responsible for technical integration and data download, validation and storage.
  • the work of a clinic agent is based on sets of rules, filters and lists of DICOM tags. Based on this data, it is possible to automate the processes of access, technical integration, validation, download, storage and retrieval of biomedical image data.
  • Data collection is carried out from internal sources (for example, mini and postgre databases storing biomedical images) by automatic copying to the point of work - to the server where the training model will be launched.
  • the training agent is responsible for dividing the prepared data into test, validation and training sets, choosing the model architecture, choosing hyperparameters, training the selected model, and evaluating the model, which collects all actions into a chain of tasks that are performed on computing resources in sequential mode.
  • Automatic sampling relies on industry-leading AutoML approaches based on parsing the markup in the data to partition the samples in a stratified manner.
  • model architecture is based on the methods of Neural Architecture Serach (NAS) - a branch of machine learning that solves the problem of finding the best model in the context of a training set.
  • NAS Neural Architecture Serach
  • a method is used based on the adaptation of NAS methods to the specifics of medical data - small sample sizes, the task of segmenting biomedical images as a key task of analysis, the use of existing solutions as a starting point for searching for computer vision models for analyzing biomedical images.
  • the found architecture is also trained in automatic mode, which eliminates the need for manual launches and selection of training parameters, which reduces human participation in this cycle.
  • Model evaluation is performed on the basis of a prepared protocol, which allows you to evaluate all the necessary model metrics in automatic mode.
  • FIG. 1 shows an example of a general architecture, of which an automatic machine learning (AutoML) system for computer vision models for biomedical image analysis is a part.
  • AutoML automatic machine learning
  • Botkin Main Platform the main platform, the central cloud of the Botkin.AI ecosystem. Carries out the relationship between all agents and subsystems, including managing data flows used for training and labeling models.
  • groups of services 1.
  • Agent Manager infrastructure management services that perform the following functions:
  • Model Registry model artifacts
  • Process Schedule Management - process planning service This service performs the following functions:
  • Platform Controller - a service for coordinating system processes.
  • Botkin Secondary Platform - secondary secondary platform Botkin.AL It differs from the main platform in that there are no AutoML management services, and process scheduling tasks are delegated to the main platform.
  • Inference Agent is an inference agent whose task is to process medical images using already trained models.
  • the Learning Agent a learning agent whose task is to find and train new machine learning models.
  • the learning agent contains several subcomponents: a module for interacting with the system, a module for training computer vision models, a module for automatically deploying a model in industrial outline. This module is deployed on servers with sufficient computing resources. Multiple copies may be deployed.
  • Clinic Agent is a clinic agent that is deployed on the side of the clinic and provides a means of interaction with the clinic's information systems.
  • Satellite - agent management service
  • ML Service - a service that performs the processing of studies by a computer vision model.
  • Report Service - a service that generates reports in the DICOM standard based on the results of processing a series of studies by a machine learning model.
  • Learning Service is a service that trains machine learning models, including machine learning algorithms.
  • Cloud Provider - provider of cloud servers.
  • PACS English Picture Archiving and Communication System
  • Botkin Resource Layer resource management layer.
  • the 3rd Party DICOM Viewer is a doctor-supplied viewer, such as a web viewer or a standalone viewer, that contains all the necessary tools for biomedical image analysis, labeling biomedical images according to required protocols, and interacts with the system in terms of data addressing and tasks.
  • FIG. Figure 2 shows a general scheme for building computer vision models for analyzing biomedical images based on two key technologies - AutoML technology, which automates the routine work of computer vision specialists, and hybrid intelligence - a group of methods that allow taking into account feedback from a person (for example, a radiologist) and using it to update AutoML models.
  • the stages where AutoML and hybrid intelligence are used are highlighted in color.
  • the physician(s) mark up a pool of biomedical image data.
  • the data is uploaded to the server for training.
  • the AutoML algorithm is launched, which consists of the following steps: data preparation, search for suitable model architectures, training of selected architectures, selection of the best model, testing on a delayed sample.
  • the model is updated in the industrial loop, otherwise this step is skipped.
  • the data is processed by the current version of the model and provided to the doctor for validation. If the validation result is unsatisfactory (FAIL), the data is returned to the markup and the process is repeated.
  • FAIL unsatisfactory
  • FIG. Figure 3 shows the general layout of the learning agent device.
  • Satellite Service designed to train artificial intelligence models for biomedical image analysis tasks.
  • FIG. 3 shows the following learning agent services:
  • Satellite - managing agent service 1. Satellite - managing agent service.
  • the service consists of the following components:
  • Data Preprocessor data preparation module - a block that performs the transformation of data received from the data loading block into a format accepted by the blocks for searching for models and their training;
  • Model Search block a block that implements a set of AutoML methods for searching and optimizing metaparameters. Starts and controls the model search process;
  • Block - a block that trains the model according to the found architecture parameters. If necessary, may initiate a second learning search process; (In case of incorrect completion of training or problems of an infrastructural nature (temporary communication problems, equipment reboot, etc.).
  • Model Test block - a block that performs testing and evaluation of model metrics on a delayed sample. If necessary, it can initiate a repeated learning search process, for example, if the specified metric values are not reached on the test sample.
  • FIG. 4 shows a general scheme for updating AutoML computer vision models for biomedical image analysis.
  • FIG. 5 shows a general diagram of the device of the clinic agent.
  • Clinic agents are a group of services managed by the Satellite service, deployed on the side of the clinic, designed to be integrated with the clinic's information systems, devices, radiologists' tools, etc.
  • the clinic agent periodically, for example, once a day at midnight, selects all studies that have entered the clinic's PACS in the last 24 hours.
  • the clinic agent sends the collected biomedical image data to the main or auxiliary platform for processing, and returns the results of the biomedical image analysis to the responsible doctor.
  • AutoML automatic machine learning
  • the learning agent loads from the storage locations specified in the configuration file the mammography data as images and the generated annotations for the specified images.
  • Annotation is created by physicians and usually consists of a class of study (normal or pathological, such as breast cancer) and a set of regions of interest associated with the mammographic image.
  • the configuration file specifies the necessary parameters for the operation of the learning agent, for example, the search budget (how many hours of computing resources can be spent on searching), the type of problem being solved (classification, segmentation), service information (for example, addresses of alloying servers), the share of training and test examples in the sample, image parameters in the study (their number) and the number of channels (classes) into which the samples are divided, etc.
  • the learning agent processes the received data (for example, for raw data from the DICOM viewports embedded in the file, determines the projections of the image) and saves the data in the accepted format on the server (for example, in the form of binary files containing 4 images (images of each breast in two projections, and images of regions of interest.)
  • the learning agent launches methods for preparing data partitioning into training and test data. For example, a stratified partition by the presence of a norm and a pathology into two samples according to specified proportions. One patient can enter only one sample - training or a test one, even if it has more than one study.
  • the learning agent runs the learning methods that represent is a variation of a method called Neural Architecture Search (NAS) based on a gradient architecture search.
  • NAS Neural Architecture Search
  • a basic architecture consisting of large blocks (for example, Linet) is used. Each block is searched by optimizing links between nodes.
  • the search process is a search for such a set of weights that achieves a minimum of training error.
  • the final architecture itself is obtained by binarizing (removing) links that have too low a weight.
  • unified models are used that differ only in parameters. Alloying takes place in the ML Flow service.
  • DS Data Science
  • a specialist has access to logs to evaluate the performance of the model.
  • the search for suitable models occurs until the specified values of the metrics are reached.
  • the search is carried out by running the learning method with different metaparameters (training step size, regularization parameters, data augmentation parameters, etc.).
  • the criterion for choosing models for the analysis of mammograms is, for example, maximizing the value of the AUC metric (area under the ROC-curve) to determine the norm / pathology for the study on the entire test sample.
  • the traditional threshold value AUC 0.85.
  • the validation set is created from a separate data source that is not represented in the test or training dataset, otherwise the process is similar to the process of creating training and test sets.
  • a workflow is launched that sends mammographic data from the validation dataset to the trained model, which performs processing, and as a result, annotated mammographic images generated by the model are obtained.
  • Mammography images processed by the trained model are assigned to a doctor who checks the quality of the model on the data provided. If the model fails validation, the decision is usually made to add training data and repeat the training process.
  • FIG. 6 shows a general diagram of a computing device (600) that provides the data processing necessary to implement the claimed solution.
  • the device (600) contains components such as: one or more processors (601), at least one memory (602), storage media (603), input/output interfaces (604), I/O ( 605), networking tools (606).
  • processors such as: one or more processors (601), at least one memory (602), storage media (603), input/output interfaces (604), I/O ( 605), networking tools (606).
  • the processor (601) of the device performs the basic computing operations necessary for the operation of the device (600) or the functionality of one or more of its components.
  • the processor (601) executes the necessary machine-readable instructions contained in the main memory (602).
  • the memory (602) is typically in the form of RAM and contains the necessary software logic to provide the desired functionality.
  • the data storage means (603) can be in the form of HDD, SSD disks, raid array, network storage, flash memory, optical information storage devices (CD, DVD, MD, Blue-Ray disks), etc.
  • the means (603) allows long-term storage of various types of information.
  • Interfaces (604) are standard means for connecting and working with the server part, for example, USB, RS232, RJ45, LPT, COM, HDMI, PS/2, Lightning, FireWire, etc.
  • interfaces (604) depends on the specific implementation of the device (N00), which can be a personal computer, mainframe, server cluster, thin client, smartphone, laptop, etc.
  • the data I/O means (605) in any embodiment of the system must be a keyboard.
  • the keyboard hardware can be any known: it can be either a built-in keyboard used on a laptop or netbook, or a separate device connected to a desktop computer, server, or other computer device.
  • the connection can be either wired, in which the keyboard connection cable is connected to the PS / 2 or USB port located on the system unit of the desktop computer, or wireless, in which the keyboard exchanges data via a wireless communication channel, for example, a radio channel, with base station, which, in turn, is directly connected to the system unit, for example, to one of the USB- ports.
  • the following I/O devices can also be used: joystick, display (touchscreen), projector, touchpad, mouse, trackball, light pen, speakers, microphone, etc.
  • Means of networking are selected from devices that provide network reception and transmission of data, for example, an Ethernet card, WLAN/Wi-Fi module, Bluetooth module, BLE module, NFC module, IrDa, RFID module, GSM modem, etc.
  • an Ethernet card for example, WAN, PAN, LAN (LAN), Intranet, Internet, WLAN, WMAN or GSM, 3G, 4G, 5G, is provided.
  • the components of the device (600) are coupled via a common data bus (607).

Landscapes

  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Artificial Intelligence (AREA)
  • Epidemiology (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Radiology & Medical Imaging (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Image Analysis (AREA)

Abstract

The invention relates to a system and method for using automated machine learning (AutoML) to train computer vision models for analyzing biomedical images. The system comprises a database of biomedical images, and a server which: uploads biomedical image data for testing, training and validating computer vision models; transforms biomedical image data into the required format for searching, training and evaluation; searches computer vision models with the aid of a training set and a test set; searches and optimizes the architecture parameters of the models found; trains computer vision models with the aid of a training set generated on the basis of biomedical image data; selects the best training model; evaluates the selected best computer vision model with the aid of a validation set generated on the basis of biomedical image data.

Description

СИСТЕМА И СПОСОБ АВТОМАТИЧЕСКОГО МАШИННОГО ОБУЧЕНИЯ (AutoML) МОДЕЛЕЙ КОМПЬЮТЕРНОГО ЗРЕНИЯ ДЛЯ АНАЛИЗА БИОМЕДИЦИНСКИХ ИЗОБРАЖЕНИЙ SYSTEM AND METHOD FOR AUTOMATED MACHINE LEARNING (AutoML) OF COMPUTER VISION MODELS FOR ANALYSIS OF BIOMEDICAL IMAGES

ОБЛАСТЬ ТЕХНИКИ FIELD OF TECHNOLOGY

Изобретение относится к области информационных и коммуникационных технологий для обработки медицинских данных, в частности, к системе и способу автоматического машинного обучения (AutoML) моделей компьютерного зрения для анализа биомедицинских изображений. The invention relates to the field of information and communication technologies for processing medical data, in particular, to a system and method for automatic machine learning (AutoML) of computer vision models for analyzing biomedical images.

Представленное решение может быть использовано в системах поддержки принятия врачебных решений (СППВР), врачами, например, врачами КТ- диагностики, врачами МРТ, радиологами, рентгенологами, маммологами, онкологами и другими специалистами, которые проводят анализ биомедицинских изображений, полученных с помощью различных методов диагностики (например, КТ-снимки, MPT-снимки, УЗИ-снимки, рентгеновские снимки, маммография и др.). The presented solution can be used in medical decision support systems (DMSS), by doctors, for example, CT diagnostic doctors, MRI doctors, radiologists, radiologists, mammologists, oncologists and other specialists who analyze biomedical images obtained using various diagnostic methods. (e.g. CT scans, MPT scans, ultrasound scans, x-rays, mammography, etc.).

УРОВЕНЬ ТЕХНИКИ BACKGROUND OF THE INVENTION

В патенте US10282835B2, дата публикации 07.05.2019, описаны способ и система автоматического анализа клинических изображений с использованием моделей, разработанных с использованием машинного обучения. Система включает в себя сервер с электронным процессором и интерфейсом для связи с источником данных. Электронный процессор сконфигурирован для приема обучающей информации от источника данных через интерфейс. Информация для обучения включает в себя множество изображений и графические отчеты, связанные с каждым из множества изображений. Каждый графический отчет включает в себя графический маркер, обозначающий часть одного из множества изображений и диагностическую информацию, связанную с частью одного из множества изображений. Электронный процессор также настроен на выполнение машинного обучения для разработки модели с использованием обучающей информации. Электронный процессор также сконфигурирован для приема изображения для анализа и автоматической обработки изображения с использованием модели для генерации диагноза для изображения. Patent US10282835B2, publication date 05/07/2019, describes a method and system for automatic analysis of clinical images using models developed using machine learning. The system includes a server with an electronic processor and an interface for communication with the data source. The electronic processor is configured to receive training information from a data source via an interface. The training information includes a plurality of images and graphic reports associated with each of the plurality of images. Each graphical report includes a graphic marker denoting a portion of one of the plurality of images and diagnostic information associated with a portion of one of the plurality of images. The electronic processor is also configured to perform machine learning to develop a model using the training information. The electronic processor is also configured to receive images for analysis and automatic image processing using a model to generate a diagnosis for the image.

В международной заявке WO2021035412A1 , дата публикации 04.03.2021 описан способ автоматического машинного обучения (AutoML). Способ включает: получение системой AutoML целевой задачи пользователя и первого набора данных; определение, согласно целевой задаче, что исходная модель искусственного интеллекта (AI) используется для реализации целевой задачи пользователя; обучение системы AutoML, согласно полученному первому набору данных, начальной модели AI для получения обученной модели AI; дополнительно анализируют, согласно первому набору данных, обучение начальной модели AI для получения результата анализа, при этом результат анализа включает влияние по меньшей мере одного типа данных в первом наборе данных на обучение начальной модели AI. Также описана система AutoML, обеспечивающая, в зависимости от результата анализа и пользователя, режим оптимизации для обученной модели AI, при этом режим оптимизации может загружать второй набор данных для оптимизации обученной модели AL С помощью данного решения, согласно анализу обучения исходной модели AI, режим оптимизации, предоставляемый системой AutoML пользователю, может эффективно оптимизировать степень точности прогнозирования модели AL International application WO2021035412A1, publication date 03/04/2021 describes an automatic machine learning (AutoML) method. The method includes: receiving the user's target and the first data set by the AutoML system; determining, according to the target, that the original artificial intelligence (AI) model is used to implement the user's target; training the AutoML system, according to the obtained first data set, the initial AI model to obtain the trained AI model; further analyzing, according to the first data set, the training of the initial AI model to obtain an analysis result, the analysis result including the effect of at least one type of data in the first data set on the training of the initial AI model. An AutoML system is also described, providing, depending on the analysis result and the user, an optimization mode for the trained AI model, while the optimization mode can load a second data set to optimize the trained AL model. With this solution, according to the analysis of the training of the original AI model, the optimization mode provided by the AutoML system to the user can effectively optimize the degree of prediction accuracy of the AL model

Однако, в данных решениях отсутствует автоматический поиск нескольких моделей компьютерного зрения для анализа биомедицинских изображений, обучение найденных нескольких моделей и выбор лучшей из обученных моделей для ее последующей оценки, а также отсутствует автоматический сбор биомедицинских изображений. However, in these solutions there is no automatic search for several computer vision models for biomedical image analysis, training of the found several models and selection of the best of the trained models for its subsequent evaluation, and there is also no automatic collection of biomedical images.

Техническая проблема, на решение которой направлено заявляемое изобретение, заключается в разработке методов и систем автоматического обучения моделей компьютерного зрения для задач, связанных с биомедицинскими изображениями, разработке автоматизированных методов оценки и валидации обученных моделей, разработке системы управления данными и разметкой для обеспечения AutoML процесса, повышении точности AutoML моделей машинного обучения для анализа биомедицинских изображений. The technical problem to be solved by the claimed invention is the development of methods and systems for automatic training of computer vision models for tasks related to biomedical images, the development of automated methods for evaluating and validating trained models, the development of a data and markup management system to provide the AutoML process, increasing accuracy of AutoML machine learning models for biomedical image analysis.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ SUMMARY OF THE INVENTION

Техническим результатом заявляемого изобретения является обеспечение расширения арсенал технических средств автоматизации создания моделей машинного обучения для анализа биомедицинских изображений (например, КТ- снимки, MPT-снимки, УЗИ-снимки, рентгеновские снимки, маммография, ангиография и другие), повышение точности анализа биомедицинских изображений за счет выбора лучшей модели, снижение времени анализа биомедицинских изображений за счет автоматизации поиска, обучения и оценки моделей компьютерного зрения, повышение скорости обработки большого количества биомедицинских изображений одновременно с повышением точности, повышение способности к адаптации моделей компьютерного зрения к новым кейсам, аппаратам, режимам проведения исследований и т.д. - например, к появлению большого числа КТ-исследований с признаками вирусной пневмонии, повышение масштабируемости процессов построения моделей компьютерного зрения в задачах анализа биомедицинских изображений, снижение участия исследователей при построении моделей компьютерного зрения в задачах анализа биомедицинских изображений и, тем самым, экономия на самом дефицитном ресурсе - человеческой экспертизе, повышение качества получаемых моделей компьютерного зрения в задачах анализа биомедицинских изображений за счет автоматизации исследования пространства конфигураций моделей компьютерного зрения и параметров обучения. The technical result of the claimed invention is to expand the arsenal of technical tools for automating the creation of models machine learning for biomedical image analysis (e.g. CT scans, MPT scans, ultrasound scans, x-rays, mammography, angiography, and others), improving the accuracy of biomedical image analysis by choosing the best model, reducing biomedical image analysis time by automating search, training and evaluation of computer vision models, increasing the speed of processing a large number of biomedical images simultaneously with increasing accuracy, increasing the ability to adapt computer vision models to new cases, devices, research modes, etc. - for example, to the emergence of a large number of CT studies with signs of viral pneumonia, increasing the scalability of the processes of building computer vision models in the tasks of analyzing biomedical images, reducing the participation of researchers in building computer vision models in the tasks of analyzing biomedical images and, thereby, saving on the most scarce resource - human expertise, improving the quality of the resulting computer vision models in the analysis of biomedical images by automating the study of the space of configurations of computer vision models and training parameters.

Указанный технический результат достигается за счёт того, чтоThis technical result is achieved due to the fact that

Компьютерно-реализуемая система автоматического машинного обучения (AutoML) моделей компьютерного зрения для анализа биомедицинских изображений содержит: базу данных, причем база данных хранит данные биомедицинских изображений; причем данные, на основе которых получают данные биомедицинских изображений, собирают автоматически; сервер, содержащий: A computer-implemented automatic machine learning (AutoML) system for computer vision models for biomedical image analysis comprises: a database, the database storing biomedical image data; moreover, the data on the basis of which the biomedical image data is obtained is collected automatically; server containing:

- блок загрузки, причем с помощью блока загрузки автоматически выполняют загрузку данных биомедицинских изображений, необходимых для тестирования, обучения и валидации моделей компьютерного зрения, из базы данных; - a loader, wherein the loader automatically loads the biomedical image data required for testing, training and validating computer vision models from the database;

- блок трансформации, причем с помощью блока трансформации автоматически выполняют трансформацию данных биомедицинских изображений, полученных от блока загрузки, в формат, принимаемый блоками поиска, обучения и оценки; - блок поиска, причем с помощью блока поиска автоматически осуществляют поиск моделей компьютерного зрения с помощью обучающей и тестовой выборок, сформированных на основе данных биомедицинских изображений, полученных от блока трансформации, и автоматически осуществляют поиск и оптимизацию параметров архитектур найденных моделей; - a transformation unit, wherein the transformation unit automatically transforms the biomedical image data received from the download unit into a format accepted by the search, learning and evaluation units; - a search unit, and with the help of the search unit, computer vision models are automatically searched using training and test samples generated on the basis of biomedical image data received from the transformation unit, and the architecture parameters of the found models are automatically searched and optimized;

- блок обучения, причем с помощью блока обучения автоматически выполняют обучение моделей компьютерного зрения, найденных блоком поиска, с помощью обучающей выборки, сформированной на основе данных биомедицинских изображений, полученных от блока трансформации, и с помощью параметров архитектуры, полученных от блока поиска; причем автоматически выбирают лучшую из указанных обученных моделей и передают выбранную модель в блок оценки; - a training unit, wherein the training unit automatically trains the computer vision models found by the search unit using a training sample generated on the basis of biomedical image data received from the transformation unit and using architecture parameters received from the search unit; wherein the best of said trained models is automatically selected and the selected model is passed to the estimator;

- блок оценки, причем с помощью блока оценки автоматически выполняют оценку лучшей выбранной модели компьютерного зрения, обученной блоком обучения, с помощью валидационной выборки, сформированной на основе данных биомедицинских изображений, полученных от блока трансформации. - an estimator, wherein the estimator automatically evaluates the best selected computer vision model trained by the training unit using a validation set formed on the basis of biomedical image data received from the transformation unit.

В системе может быть автоматически осуществлен с помощью агента клиники сбор данных, на основе которых получают данные биомедицинских изображений. In the system, data collection can be automatically carried out using a clinic agent, on the basis of which biomedical image data is obtained.

В системе с помощью блока поиска может быть осуществлен поиск модели до достижения заданных значений метрик либо до исчерпания бюджета на поиск. In the system, using the search block, a model can be searched until the specified metric values are reached or until the search budget is exhausted.

В системе с помощью блока обучения поиска может быть осуществлено дообучение модели компьютерного зрения, найденной блоком поиска, с помощью обучающей выборки, в которую добавлены данные дополнительных биомедицинских изображений, полученных от блока трансформации, в том случае, если указанная модель не прошла валидацию. In the system, using the search learning unit, additional training of the computer vision model found by the search unit can be carried out using a training sample, which is supplemented with data from additional biomedical images received from the transformation unit, if the specified model has not passed validation.

В системе блоки обучения и оценки могут быть выполнены с возможностью инициировать повторный процесс поиска и обучения моделей компьютерного зрения для анализа биомедицинских изображений. In the system, the training and evaluation units may be configured to initiate a repeated search and training process for computer vision models for biomedical image analysis.

В компьютерно-реализуемом способе автоматического машинного обучения (AutoML) моделей компьютерного зрения для анализа биомедицинских изображений: In a computer-implemented method for automatic machine learning (AutoML) of computer vision models for biomedical image analysis:

- автоматически выполняют загрузку данных биомедицинских изображений, необходимых для тестирования, обучения и валидации моделей компьютерного зрения; причем данные, на основе которых получают данные биомедицинских изображений, собирают автоматически; - automatically load biomedical image data required for testing, training and validation of computer models vision; moreover, the data on the basis of which the biomedical image data is obtained is collected automatically;

- автоматически выполняют трансформацию загруженных данных биомедицинских изображений в формат, принимаемый для автоматического поиска, обучения и оценки; - automatically perform the transformation of the downloaded biomedical image data into a format accepted for automatic search, training and evaluation;

- автоматически осуществляют поиск моделей компьютерного зрения с помощью обучающей и тестовой выборок, сформированных на основе трансформированных данных биомедицинских изображений, и автоматически осуществляют поиск и оптимизацию параметров архитектур найденных моделей; - automatically search for computer vision models using training and test sets formed on the basis of transformed biomedical image data, and automatically search and optimize the architecture parameters of the found models;

- автоматически выполняют обучение найденных моделей компьютерного зрения с помощью обучающей выборки, сформированной на основе трансформированных данных биомедицинских изображений, и с помощью найденных и оптимизированных параметров архитектур найденных моделей; причем автоматически выбирают лучшую из указанных обученных моделей;- automatically perform training of the found computer vision models using a training set formed on the basis of the transformed data of biomedical images, and using the found and optimized parameters of the architectures of the found models; and automatically choose the best of these trained models;

- автоматически выполняют оценку лучшей выбранной обученной модели компьютерного зрения с помощью валидационной выборки, сформированной на основе трансформированных данных биомедицинских изображений. - automatically evaluate the best selected trained computer vision model using a validation set formed on the basis of the transformed biomedical image data.

В способе может быть автоматически выполнена загрузка данных биомедицинских изображений с помощью блока загрузки, может быть осуществлен автоматический сбор данных, на основе которых получают данные биомедицинских изображений, с помощью агента клиники, может быть автоматически выполнена трансформация загруженных данных биомедицинских изображений с помощью блока трансформации, может быть автоматически осуществлен поиск моделей компьютерного зрения с помощью блока поиска, может быть автоматически выполнено обучение найденных моделей компьютерного зрения с помощью блока обучения, может быть автоматически выполнена оценка лучшей выбранной обученной модели компьютерного зрения с помощью блока оценки. In the method, loading of biomedical image data can be automatically performed using a loading block, automatic collection of data from which biomedical image data is obtained can be performed using a clinic agent, transformation of the loaded biomedical image data can be automatically performed using a transformation block, the computer vision models can be automatically searched with the search block, the found computer vision models can be automatically trained with the training block, the best selected trained computer vision model can be automatically evaluated with the evaluation block.

В способе может быть осуществлен поиск модели до достижения заданных значений метрик либо до исчерпания бюджета на поиск. The method can be used to search for a model until the specified values of the metrics are reached or until the search budget is exhausted.

В способе может быть осуществлено дообучение модели компьютерного зрения, найденной блоком поиска, с помощью обучающей выборки, в которую добавлены данные дополнительных биомедицинских изображений, полученные от блока трансформации, в том случае, если указанная модель не прошла валидацию. В способе может быть дополнительно инициирован повторный процесс поиска и обучения моделей компьютерного зрения для анализа биомедицинских изображений. In the method, additional training of the computer vision model found by the search unit can be carried out using a training set, in which additional biomedical image data received from the transformation unit is added, if the specified model has not passed the validation. The method may further initiate a repeated process of searching and training computer vision models for biomedical image analysis.

ОПИСАНИЕ ЧЕРТЕЖЕЙ DESCRIPTION OF THE DRAWINGS

Реализация изобретения будет описана в дальнейшем в соответствии с прилагаемыми чертежами, которые представлены для пояснения сути изобретения и никоим образом не ограничивают область изобретения. The implementation of the invention will be described hereinafter in accordance with the accompanying drawings, which are presented to explain the essence of the invention and in no way limit the scope of the invention.

Заявляемое изобретение проиллюстрировано фигурами 1-6, на которых изображены: The claimed invention is illustrated by figures 1-6, which depict:

Фиг. 1 - иллюстрирует пример общей архитектуры, частью которой является система автоматического машинного обучения (AutoML) моделей компьютерного зрения для анализа биомедицинских изображений. Fig. 1 illustrates an example of a general architecture of which an automatic machine learning (AutoML) system of computer vision models for biomedical image analysis is a part.

Фиг. 2 - иллюстрирует общую схему построения AutoML моделей компьютерного зрения для анализа биомедицинских изображений с использованием гибридного интеллекта. Fig. 2 - illustrates the general scheme for constructing AutoML computer vision models for biomedical image analysis using hybrid intelligence.

Фиг. 3 - иллюстрирует общую схему устройства агента обучения. Fig. 3 - illustrates the general scheme of the learning agent device.

Фиг. 4 - иллюстрирует общую схему обновления AutoML моделей компьютерного зрения для анализа биомедицинских изображений. Fig. 4 illustrates the general scheme for updating AutoML computer vision models for biomedical image analysis.

Фиг. 5 - иллюстрирует общую схему устройства агента клиники. Fig. 5 - illustrates the general scheme of the device of the clinic agent.

Фиг. 6 - иллюстрирует общую схема вычислительного устройства для реализации настоящего изобретения. Fig. 6 illustrates a general diagram of a computing device for implementing the present invention.

ДЕТАЛЬНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ DETAILED DESCRIPTION OF THE INVENTION

В приведенном ниже подробном описании реализации изобретения приведены многочисленные детали реализации, призванные обеспечить отчетливое понимание настоящего изобретения. Однако, квалифицированному в предметной области специалисту будет очевидно, каким образом можно использовать настоящее изобретение, как с данными деталями реализации, так и без них. В других случаях хорошо известные методы, процедуры и компоненты не были описаны подробно, чтобы не затруднять излишне понимание особенностей настоящего изобретения. In the following detailed description of the implementation of the invention, numerous implementation details are provided to provide a clear understanding of the present invention. However, it will be apparent to one skilled in the art how the present invention can be used, both with and without these implementation details. In other instances, well-known methods, procedures, and components have not been described in detail so as not to unnecessarily obscure the features of the present invention.

Кроме того, из приведенного изложения будет ясно, что изобретение не ограничивается приведенной реализацией. Многочисленные возможные модификации, изменения, вариации и замены, сохраняющие суть и форму настоящего изобретения, будут очевидными для квалифицированных в предметной области специалистов. Furthermore, it will be clear from the foregoing that the invention is not limited to the present implementation. Numerous possible modifications, changes, variations and substitutions that retain the essence and form of the present invention will be obvious to those skilled in the art.

Настоящее изобретение раскрывает систему автоматического машинного обучения (AutoML) моделей компьютерного зрения для анализа биомедицинских изображений. Система предназначена для автоматизации этапов разработки и обучения моделей компьютерного зрения в задачах анализа биомедицинских изображений. Биомедицинские изображения - это медицинские изображения, полученные различными методами, например, методами лучевой диагностики (рентгенологический, магнитно-резонансный, радионуклидный, ультразвуковой и др.) - снимки компьютерной томографии (КТ), снимки магнитно-резонансной томографии (МРТ), ультразвуковые снимки (УЗИ), снимки позитронно-эмиссионной томографии (ПЭТ), рентгеновские снимки, маммографические снимки, снимки ангиографических исследований, эластографические изображения и др.), с помощью эндоскопа (эндоскопические изображения), с помощью фотографических методов (например, медицинские фотографии состояния кожи и других поверхностных состояний, таких как нёбо, родимые пятна, родинки и др.) и др. The present invention discloses an automatic machine learning (AutoML) system for computer vision models for analyzing biomedical images. The system is designed to automate the stages of development and training of computer vision models in the tasks of biomedical image analysis. Biomedical images are medical images obtained by various methods, for example, methods of radiation diagnostics (X-ray, magnetic resonance, radionuclide, ultrasound, etc.) - computed tomography (CT) images, magnetic resonance imaging (MRI) images, ultrasound images ( ultrasonography), positron emission tomography (PET) images, x-rays, mammography, angiography images, elastography images, etc.), through an endoscope (endoscopic images), using photographic methods (for example, medical photographs of skin conditions and other superficial conditions, such as the palate, birthmarks, moles, etc.), etc.

Задача построения моделей машинного обучения состоит из следующих этапов: The task of building machine learning models consists of the following steps:

1. Сбор данных: 1. Data collection:

-доступ к источникам данных; - access to data sources;

- техническая интеграция; - technical integration;

- валидация данных; - data validation;

- скачивание данных; - data download;

- хранение данных; - data storage;

- поиск данных. - data search.

2. Подготовка данных: нормирование, очистка, поиск выбросов. 2. Data preparation: normalization, cleaning, search for outliers.

3. Разделение подготовленных данных на тестовую, валидационную и обучающую выборки. 3. Separation of the prepared data into test, validation and training sets.

4. Выбор архитектуры модели. 4. Choice of model architecture.

5. Выбор гиперпараметров. 5. Choice of hyperparameters.

6. Обучение выбранной модели. 6. Training of the selected model.

7. Оценка модели. 7. Model evaluation.

Агент Клиники обеспечивает автоматизацию забора данных из клиник, опираясь на систему правил и фильтров. Агент клиники так же отвечает за техническую интеграцию и скачивание данных, валидацию и хранение. В основе работы агента клиники лежат комплекты правил, фильтров и списки тегов DICOM. Опираясь на эти данные, возможно автоматизировать процессы доступа, технической интеграции, валидации, скачивания, хранения и поиска данных биомедицинских изображений. Сбор данных осуществляется из внутренних источников (например, минио и постгре баз данных, хранящих биомедицинские изображения) путем автоматического копирования в точку работы - на сервер, где будет запущена модель для обучения. The Clinic Agent provides automation of data collection from clinics based on a system of rules and filters. The clinic agent is also responsible for technical integration and data download, validation and storage. At the core The work of a clinic agent is based on sets of rules, filters and lists of DICOM tags. Based on this data, it is possible to automate the processes of access, technical integration, validation, download, storage and retrieval of biomedical image data. Data collection is carried out from internal sources (for example, mini and postgre databases storing biomedical images) by automatic copying to the point of work - to the server where the training model will be launched.

За разделение подготовленных данных на тестовую, валидационную и обучающую выборки, выбор архитектуры модели, выбор гиперпараметров, обучение выбранной модели, оценку модели отвечает Агент обучения, который собирает все действия в цепочку задач, выполняющихся на вычислительных ресурсах в последовательном режиме. The training agent is responsible for dividing the prepared data into test, validation and training sets, choosing the model architecture, choosing hyperparameters, training the selected model, and evaluating the model, which collects all actions into a chain of tasks that are performed on computing resources in sequential mode.

Автоматическое разделение на выборки опирается на имеющиеся в AutoML отрасли подходы, основываясь на анализе разметки в данных для разбиения выборок стратифицированно. Automatic sampling relies on industry-leading AutoML approaches based on parsing the markup in the data to partition the samples in a stratified manner.

Выбор архитектуры модели выполняется на базе методов Neural Architecture Serach (NAS) - отрасли машинного обучения, решающей задачу поиска наилучшей модели в контексте обучающей выборки. В рамках данного изобретения применяется метод, основанный на адаптации NAS методов под особенности медицинских данных - малые размеры выборок, задача сегментации биомедицинских изображений, как ключевая задача анализа, использование уже существующих решений как точки старта для поиска моделей компьютерного зрения для анализа биомедицинских изображений. The choice of model architecture is based on the methods of Neural Architecture Serach (NAS) - a branch of machine learning that solves the problem of finding the best model in the context of a training set. Within the framework of this invention, a method is used based on the adaptation of NAS methods to the specifics of medical data - small sample sizes, the task of segmenting biomedical images as a key task of analysis, the use of existing solutions as a starting point for searching for computer vision models for analyzing biomedical images.

Обучение найденной архитектуры выполняется так же в автоматическом режиме, что снимает необходимость ручных запусков и подборов параметров обучения, что снижает участие человека в данном цикле. The found architecture is also trained in automatic mode, which eliminates the need for manual launches and selection of training parameters, which reduces human participation in this cycle.

Оценка модели выполняется на базе подготовленного протокола, который позволяет оценить все необходимые метрики модели в автоматическом режиме. Model evaluation is performed on the basis of a prepared protocol, which allows you to evaluate all the necessary model metrics in automatic mode.

На Фиг. 1 представлен пример общей архитектуры, частью которой является система автоматического машинного обучения (AutoML) моделей компьютерного зрения для анализа биомедицинских изображений. On FIG. 1 shows an example of a general architecture, of which an automatic machine learning (AutoML) system for computer vision models for biomedical image analysis is a part.

Botkin Main Platform - основная платформа, центральное облако экосистемы Botkin.AI. Осуществляет взаимосвязь между всеми агентами и подсистемами, в том числе управляет потоками данных, используемых для обучения и разметки моделей. Здесь находятся следующие группы сервисов: 1. Data Management - сервисы управления данными системы: исследования, медицинские изображения, поддержка стандарта DICOM, управление датасетами и группами исследований (DataSet, DataFolder). Botkin Main Platform - the main platform, the central cloud of the Botkin.AI ecosystem. Carries out the relationship between all agents and subsystems, including managing data flows used for training and labeling models. Here are the following groups of services: 1. Data Management - system data management services: studies, medical images, support for the DICOM standard, management of datasets and groups of studies (DataSet, DataFolder).

2. User Management - сервисы управления пользователями, выполняющие следующие функции: 2. User Management - user management services that perform the following functions:

- учети и регистрация пользователей; - accounting and registration of users;

- ведение прав пользователей; - maintenance of user rights;

- аудит; - audit;

- сервисы авторизации OAuth 2. - OAuth 2 authorization services.

3. Agent Manager - сервисы управления инфраструктурой, выполняющие следующие функции: 3. Agent Manager - infrastructure management services that perform the following functions:

- учет и реестр агентов, дескрипторов агентов; - accounting and register of agents, agent descriptors;

- взаимодействие с API облачных провайдеров для поднятия виртуальных машин, развертывания локальных кластеров Kubernetes; - interaction with the API of cloud providers to raise virtual machines, deploy local Kubernetes clusters;

- взаимодействие с контроллерами кластеров Kubernetes для развертывания и обновления сервисов агентов. - interaction with Kubernetes cluster controllers to deploy and update agent services.

4. AutoML Management - сервисы управления обучения моделей, выполняющие следующие функции: 4. AutoML Management - model learning management services that perform the following functions:

- учет метрик обучения моделей (Leader Board); - accounting for model learning metrics (Leader Board);

- хранение артефактов моделей (Model Registry). - storage of model artifacts (Model Registry).

5. Process Schedule Management - сервис планирования процессов. Данный сервис выполняет следующие функции: 5. Process Schedule Management - process planning service. This service performs the following functions:

- назначение процесса (в том числе подпроцесса), выбор агента; - purpose of the process (including sub-process), choice of agent;

- контроль утилизации ресурсов. - control of resource utilization.

6. Platform Controller - сервис координации процессов системы. 6. Platform Controller - a service for coordinating system processes.

Botkin Secondary Platform - вторичная вспомогательная платформа Botkin.AL Она отличается от главной платформы тем, что здесь отсутствуют сервисы управления AutoML, а также задачи планирования процессов делегируются в главную платформу. Botkin Secondary Platform - secondary secondary platform Botkin.AL It differs from the main platform in that there are no AutoML management services, and process scheduling tasks are delegated to the main platform.

Inference Agent - агент вывода, задачей которого является обработка медицинских изображений с использованием уже обученных моделей. Inference Agent is an inference agent whose task is to process medical images using already trained models.

Learning Agent - агент обучения, задачей которого является поиск и обучение новых моделей машинного обучения. Агент обучения содержит несколько подкомпонент: модуль взаимодействия с системой, модуль обучения моделей компьютерного зрения, модуль автоматической развертки модели в промышленный контур. Данный модуль разворачивается на серверах, имеющих достаточные вычислительные ресурсы. Может быть развернуто несколько копий. Learning Agent - a learning agent whose task is to find and train new machine learning models. The learning agent contains several subcomponents: a module for interacting with the system, a module for training computer vision models, a module for automatically deploying a model in industrial outline. This module is deployed on servers with sufficient computing resources. Multiple copies may be deployed.

Clinic Agent - агент клиники, разворачиваемый на стороне клиники и предоставляющий средства взаимодействия с информационными системами клиники. Clinic Agent is a clinic agent that is deployed on the side of the clinic and provides a means of interaction with the clinic's information systems.

Satellite - управляющий сервис агента. Satellite - agent management service.

ML Service - сервис, выполняющий обработку исследований моделью компьютерного зрения. ML Service - a service that performs the processing of studies by a computer vision model.

Report Service - сервис, генерирующий отчеты в DICOM стандарте, опираясь на результаты обработки серии исследований моделью машинного обучения. Report Service - a service that generates reports in the DICOM standard based on the results of processing a series of studies by a machine learning model.

Learning Service - сервис, выполняющий обучение моделей машинного обучения, включая алгоритмы машинного обучения. Learning Service is a service that trains machine learning models, including machine learning algorithms.

Clinic Side - внутренняя сеть клиники. Clinic Side - the internal network of the clinic.

Cloud Provider - поставщик облачных серверов. Cloud Provider - provider of cloud servers.

HIS -информационная система клиники. HIS - clinic information system.

PACS - (англ. Picture Archiving and Communication System) — системы передачи и архивации DICOM изображений. PACS - (English Picture Archiving and Communication System) - systems for the transmission and archiving of DICOM images.

Scanners - устройства, выполняющие исследование (КТ аппарат, мат аппарат и др.). Scanners - devices that perform research (CT machine, mat machine, etc.).

User -пользователь системы. User - system user.

Botkin Resource Layer - слой управления ресурсами. Botkin Resource Layer - resource management layer.

3rd Party DICOM Viewer- просмотрщик для врачей, поставляемый третьей стороной, например веб-просмотрщик или автономный (standalone) просмотрщик, содержит все необходимые инструменты для анализа биомедицинских изображений, разметки биомедицинских изображений согласно требуем протоколам, а также взаимодействует с системой в части адресации данных и задач. The 3rd Party DICOM Viewer is a doctor-supplied viewer, such as a web viewer or a standalone viewer, that contains all the necessary tools for biomedical image analysis, labeling biomedical images according to required protocols, and interacts with the system in terms of data addressing and tasks.

На Фиг. 2 представлена общая схема построения моделей компьютерного зрения для анализа биомедицинских изображений на основе двух ключевых технологий - технологии AutoML, автоматизирующей рутинную работу специалистов по компьютерному зрению, и гибридного интеллекта - группы методов, позволяющих учитывать обратную связь от человека (например, радиолога) и использовать ее для обновления AutoML моделей. Этапы, на которых используются AutoML и гибридный интеллект, выделены цветом. Например, врач(и) размечает пул данных биомедицинских изображений. В автоматическом режиме данные выгружаются на сервер для обучения. Запускается алгоритм AutoML, состоящий из следующих шагов: подготовка данных, поиск подходящих архитектур моделей, обучение выбранных архитектур, отбор лучшей модели, тестирование на отложенной выборке. Если качество модели превысило заданный порог, происходит обновление модели в промышленном контуре, иначе этот шаг пропускается. Данные обрабатываются текущей версией модели и предоставляются врачу на валидацию. При неудовлетворительном результате валидации (FAIL), данные возвращаются на разметку и процесс повторяется. On FIG. Figure 2 shows a general scheme for building computer vision models for analyzing biomedical images based on two key technologies - AutoML technology, which automates the routine work of computer vision specialists, and hybrid intelligence - a group of methods that allow taking into account feedback from a person (for example, a radiologist) and using it to update AutoML models. The stages where AutoML and hybrid intelligence are used are highlighted in color. For example, the physician(s) mark up a pool of biomedical image data. In automatic mode, the data is uploaded to the server for training. The AutoML algorithm is launched, which consists of the following steps: data preparation, search for suitable model architectures, training of selected architectures, selection of the best model, testing on a delayed sample. If the quality of the model exceeds the specified threshold, the model is updated in the industrial loop, otherwise this step is skipped. The data is processed by the current version of the model and provided to the doctor for validation. If the validation result is unsatisfactory (FAIL), the data is returned to the markup and the process is repeated.

На Фиг. 3 приведена общая схема устройства агента обучения. On FIG. Figure 3 shows the general layout of the learning agent device.

Агенты обучения - это управляемая сервисом Satellite группа сервисов, предназначенная для обучения моделей искусственного интеллекта для задач анализа биомедицинских изображений. Learning Agents is a group of services managed by the Satellite service designed to train artificial intelligence models for biomedical image analysis tasks.

На Фиг. 3 представлены следующие сервисы агента обучения: On FIG. 3 shows the following learning agent services:

1. Satellite - управляющий сервис агента. 1. Satellite - managing agent service.

2. Learning Service - сервис, выполняющий обучение. Сервис состоит из следующих компонент: 2. Learning Service - a service that performs learning. The service consists of the following components:

- загрузчик данных (Data Loader) - блок, выполняющий загрузку данных, необходимых для обучения и тестирования моделей, из хранилища непосредственно на сервер, где развернут агент; - data loader - a block that loads the data necessary for training and testing models from the storage directly to the server where the agent is deployed;

- модуль подготовки данных (Data Preprocessor) - блок, выполняющий трансформацию данных, полученных от блока загрузки данных, в формат, принимаемый блоками поиска моделей и их обучения; - data preparation module (Data Preprocessor) - a block that performs the transformation of data received from the data loading block into a format accepted by the blocks for searching for models and their training;

- блок поиска модели (Model Search) - блок, реализующий наборы методов AutoML для поиска и оптимизации метапараметров. Запускает и контролирует процесс поиска модели; - Model Search block - a block that implements a set of AutoML methods for searching and optimizing metaparameters. Starts and controls the model search process;

- блок обучения модели (Model Train) - блок, выполняющий обучение модели по найденным параметрам архитектуры. При необходимости, может инициировать повторный процесс поиска обучения; (В случае некорректного завершения обучения или проблем инфраструктурного характера (временные проблемы с связью, перезагрузка оборудования и др.). - Model Train block - a block that trains the model according to the found architecture parameters. If necessary, may initiate a second learning search process; (In case of incorrect completion of training or problems of an infrastructural nature (temporary communication problems, equipment reboot, etc.).

- блок тестирования модели (Model Test) - блок, выполняющий тестирование и оценку метрик модели на отложенной выборке. При необходимости, может инициировать повторный процесс поиска обучения, например, при недостижении заданных значений метрик на тестовой выборке. На Фиг. 4 представлена общая схема обновления AutoML моделей компьютерного зрения для анализа биомедицинских изображений. - Model Test block - a block that performs testing and evaluation of model metrics on a delayed sample. If necessary, it can initiate a repeated learning search process, for example, if the specified metric values are not reached on the test sample. On FIG. 4 shows a general scheme for updating AutoML computer vision models for biomedical image analysis.

На Фиг. 5 представлена общая схема устройства агента клиники. On FIG. 5 shows a general diagram of the device of the clinic agent.

Агенты клиники - это управляемая сервисом Satellite группа сервисов, разворачиваемая на стороне клиники, предназначенная для интеграции с информационными системами клиники, аппаратами, инструментами радиологов и т.д. Агент клиники периодически, например, один раз в день в полночь, выбирает все исследования, попавшие в PACS клиники за последние 24 часа. Далее агент клиники отправляет собранные данные биомедицинских изображений на обработку в основную или вспомогательную платформу и возвращает результаты анализа биомедицинских изображений ответственному врачу. Clinic agents are a group of services managed by the Satellite service, deployed on the side of the clinic, designed to be integrated with the clinic's information systems, devices, radiologists' tools, etc. The clinic agent periodically, for example, once a day at midnight, selects all studies that have entered the clinic's PACS in the last 24 hours. Next, the clinic agent sends the collected biomedical image data to the main or auxiliary platform for processing, and returns the results of the biomedical image analysis to the responsible doctor.

Ниже приведен пример автоматического машинного обучения (AutoML) моделей компьютерного зрения для анализа маммографических изображений. Below is an example of automatic machine learning (AutoML) computer vision models for mammography image analysis.

Агент обучения загружает из мест хранения, указанных в файле конфигурации, данные маммографических исследований в виде изображений и созданные аннотации к указанным изображениям. Аннотация создается врачами, и обычно состоит из класса исследования (норма или патология, например, рак молочной железы) и множества регионов интереса, привязанных к маммографическому изображению. В файле конфигурации указываются необходимые параметры для работы агента обучения, например, бюджет на поиск (сколько часов вычислительных ресурсов можно потратить на поиск), тип решаемой задачи (классификация, сегментация), сервисная информация (например, адреса серверов легирования), доля обучающих и тестовых примеров в выборке, параметры изображений в исследовании (их число) и количество каналов (классов) на которые происходит разбиение выборок и т.д. Далее агент обучения обрабатывает полученные данные (например, для сырых данных из DICOM окон просмотра, заложенных в файле, определяет проекции снимка) и сохраняет данные в принятом формате на сервере (например, в виде бинарных файлов, содержащих 4 изображения (изображения каждой молочной железы в двух проекциях, и изображения регионов интереса). Далее агент обучения запускает методы для подготовки разбиения данных на обучающие и тестовые данные. Например, стратифицированное разбиение по наличию нормы и патологии на две выборки согласно заданным долям. Один пациент может войти только в одну выборку - обучающую или тестовую, даже если у него больше одного исследования. Далее агент обучения запускает методы обучения, представляющие собой вариации метода под названием Neural Architecture Search (NAS), основанного на градиентом поиске архитектуры. Для этого используется базовая архитектура, состоящая из крупных блоков (например, Linet). Каждый блок ищется путем оптимизации связей между узлами. Таким образом, процесс поиска - это поиск такого набора весов, при котором достигается минимум ошибки обучения. Сама итоговая архитектура получается путем бинаризации (удаления) связей, которые имеют слишком низкий вес. В процессе обучения используются унифицированные модели, отличающиеся лишь параметрами. Легирование происходит в сервис ML Flow. На каждой эпохе обучения DS (Data Science) специалист имеет доступ к логам для оценки перформанса модели. Поиск подходящих моделей происходит до достижения заданных значений метрик. Поиск осуществляется путем запуска метода обучения с разными метапараметрами (размер шага обучения, параметров регуляризации, параметров аугментации данных и т.д.). Критерием выбора моделей для анализа маммограмм является, например, максимизация значения метрики AUC (площадь под ROC-кривой) для определения нормы/патологии для исследования на всей тестовой выборке. Традиционный порог значения AUC = 0.85. При его достижении обучение считается успешно завершенным, либо до исчерпания бюджета на поиск. Бюджет - это количество машино-часов, отведенных на поиск. Если за отведённое время не достигнуто заданное качество, процесс завершается. В этом случае DS специалист получает уведомление с указанием причины остановки «исчерпан бюджет на поиск». Если на какой-либо эпохе достигнуто качество модели, агент обучения выполняет развертывание модели в контур валидации. Для валидации модели формируется валидационный датасет Валидационная выборка создается из отдельного источника данных, который не представлен в тестовом или обучающем датасете, в остальном процесс аналогичен процессу создания обучающей и тестовой выборок. Далее запускается workflow, который отправляет маммографические данные из валидационного датасета на обученную модель, которая производит обработку, и в результате получают маммографические изображения с аннотацией, сгенерированный моделью. Маммографические изображения, обработанные обученной моделью, назначаются на врача, который проверяет качество работы модели на предоставленных данных. В случае, если модель не прошла валидацию, как правило принимается решение о добавлении обучающих данных и повторении процесса обучения. На Фиг. 6 представлена общая схема вычислительного устройства (600), обеспечивающего обработку данных, необходимую для реализации заявленного решения. The learning agent loads from the storage locations specified in the configuration file the mammography data as images and the generated annotations for the specified images. Annotation is created by physicians and usually consists of a class of study (normal or pathological, such as breast cancer) and a set of regions of interest associated with the mammographic image. The configuration file specifies the necessary parameters for the operation of the learning agent, for example, the search budget (how many hours of computing resources can be spent on searching), the type of problem being solved (classification, segmentation), service information (for example, addresses of alloying servers), the share of training and test examples in the sample, image parameters in the study (their number) and the number of channels (classes) into which the samples are divided, etc. Next, the learning agent processes the received data (for example, for raw data from the DICOM viewports embedded in the file, determines the projections of the image) and saves the data in the accepted format on the server (for example, in the form of binary files containing 4 images (images of each breast in two projections, and images of regions of interest.) Next, the learning agent launches methods for preparing data partitioning into training and test data. For example, a stratified partition by the presence of a norm and a pathology into two samples according to specified proportions. One patient can enter only one sample - training or a test one, even if it has more than one study.The learning agent then runs the learning methods that represent is a variation of a method called Neural Architecture Search (NAS) based on a gradient architecture search. For this, a basic architecture consisting of large blocks (for example, Linet) is used. Each block is searched by optimizing links between nodes. Thus, the search process is a search for such a set of weights that achieves a minimum of training error. The final architecture itself is obtained by binarizing (removing) links that have too low a weight. In the learning process, unified models are used that differ only in parameters. Alloying takes place in the ML Flow service. At each epoch of DS (Data Science) training, a specialist has access to logs to evaluate the performance of the model. The search for suitable models occurs until the specified values of the metrics are reached. The search is carried out by running the learning method with different metaparameters (training step size, regularization parameters, data augmentation parameters, etc.). The criterion for choosing models for the analysis of mammograms is, for example, maximizing the value of the AUC metric (area under the ROC-curve) to determine the norm / pathology for the study on the entire test sample. The traditional threshold value AUC = 0.85. When it is reached, the training is considered successfully completed, or until the search budget is exhausted. The budget is the number of machine hours allocated for the search. If the specified quality is not achieved within the allotted time, the process ends. In this case, the DS specialist receives a notification indicating the reason for the stop "search budget exhausted". If the quality of the model is achieved at any epoch, the learning agent deploys the model to the validation loop. To validate the model, a validation dataset is formed. The validation set is created from a separate data source that is not represented in the test or training dataset, otherwise the process is similar to the process of creating training and test sets. Next, a workflow is launched that sends mammographic data from the validation dataset to the trained model, which performs processing, and as a result, annotated mammographic images generated by the model are obtained. Mammography images processed by the trained model are assigned to a doctor who checks the quality of the model on the data provided. If the model fails validation, the decision is usually made to add training data and repeat the training process. On FIG. 6 shows a general diagram of a computing device (600) that provides the data processing necessary to implement the claimed solution.

В общем случае устройство (600) содержит такие компоненты, как: один или более процессоров (601), по меньшей мере одну память (602), средство хранения данных (603), интерфейсы ввода/вывода (604), средство В/В (605), средства сетевого взаимодействия (606). In general, the device (600) contains components such as: one or more processors (601), at least one memory (602), storage media (603), input/output interfaces (604), I/O ( 605), networking tools (606).

Процессор (601) устройства выполняет основные вычислительные операции, необходимые для функционирования устройства (600) или функциональности одного или более его компонентов. Процессор (601) исполняет необходимые машиночитаемые команды, содержащиеся в оперативной памяти (602). The processor (601) of the device performs the basic computing operations necessary for the operation of the device (600) or the functionality of one or more of its components. The processor (601) executes the necessary machine-readable instructions contained in the main memory (602).

Память (602), как правило, выполнена в виде ОЗУ и содержит необходимую программную логику, обеспечивающую требуемый функционал. The memory (602) is typically in the form of RAM and contains the necessary software logic to provide the desired functionality.

Средство хранения данных (603) может выполняться в виде HDD, SSD дисков, рейд массива, сетевого хранилища, флэш-памяти, оптических накопителей информации (CD, DVD, MD, Blue-Ray дисков) и т.п. Средство (603) позволяет выполнять долгосрочное хранение различного вида информации. The data storage means (603) can be in the form of HDD, SSD disks, raid array, network storage, flash memory, optical information storage devices (CD, DVD, MD, Blue-Ray disks), etc. The means (603) allows long-term storage of various types of information.

Интерфейсы (604) представляют собой стандартные средства для подключения и работы с серверной частью, например, USB, RS232, RJ45, LPT, COM, HDMI, PS/2, Lightning, FireWire и т.п. Interfaces (604) are standard means for connecting and working with the server part, for example, USB, RS232, RJ45, LPT, COM, HDMI, PS/2, Lightning, FireWire, etc.

Выбор интерфейсов (604) зависит от конкретного исполнения устройства (N00), которое может представлять собой персональный компьютер, мейнфрейм, серверный кластер, тонкий клиент, смартфон, ноутбук и т.п. The choice of interfaces (604) depends on the specific implementation of the device (N00), which can be a personal computer, mainframe, server cluster, thin client, smartphone, laptop, etc.

В качестве средств В/В данных (605) в любом воплощении системы должна использоваться клавиатура. Аппаратное исполнение клавиатуры может быть любым известным: это может быть, как встроенная клавиатура, используемая на ноутбуке или нетбуке, так и обособленное устройство, подключенное к настольному компьютеру, серверу или иному компьютерному устройству. Подключение при этом может быть, как проводным, при котором соединительный кабель клавиатуры подключен к порту PS/2 или USB, расположенному на системном блоке настольного компьютера, так и беспроводным, при котором клавиатура осуществляет обмен данными по каналу беспроводной связи, например, радиоканалу, с базовой станцией, которая, в свою очередь, непосредственно подключена к системному блоку, например, к одному из USB- портов. Помимо клавиатуры, в составе средств В/В данных также может использоваться: джойстик, дисплей (сенсорный дисплей), проектор, тачпад, манипулятор мышь, трекбол, световое перо, динамики, микрофон и т.п. The data I/O means (605) in any embodiment of the system must be a keyboard. The keyboard hardware can be any known: it can be either a built-in keyboard used on a laptop or netbook, or a separate device connected to a desktop computer, server, or other computer device. In this case, the connection can be either wired, in which the keyboard connection cable is connected to the PS / 2 or USB port located on the system unit of the desktop computer, or wireless, in which the keyboard exchanges data via a wireless communication channel, for example, a radio channel, with base station, which, in turn, is directly connected to the system unit, for example, to one of the USB- ports. In addition to the keyboard, the following I/O devices can also be used: joystick, display (touchscreen), projector, touchpad, mouse, trackball, light pen, speakers, microphone, etc.

Средства сетевого взаимодействия (606) выбираются из устройств, обеспечивающих сетевой прием и передачу данных, например, Ethernet карту, WLAN/Wi-Fi модуль, Bluetooth модуль, BLE модуль, NFC модуль, IrDa, RFID модуль, GSM модем и т.п. С помощью средств (605) обеспечивается организация обмена данными по проводному или беспроводному каналу передачи данных, например, WAN, PAN, ЛВС (LAN), Интранет, Интернет, WLAN, WMAN или GSM, 3G, 4G, 5G. Means of networking (606) are selected from devices that provide network reception and transmission of data, for example, an Ethernet card, WLAN/Wi-Fi module, Bluetooth module, BLE module, NFC module, IrDa, RFID module, GSM modem, etc. With the help of tools (605) the organization of data exchange over a wired or wireless data transmission channel, for example, WAN, PAN, LAN (LAN), Intranet, Internet, WLAN, WMAN or GSM, 3G, 4G, 5G, is provided.

Компоненты устройства (600) сопряжены посредством общей шины передачи данных (607). The components of the device (600) are coupled via a common data bus (607).

В настоящих материалах заявки представлено предпочтительное раскрытие осуществления заявленного технического решения, которое не должно использоваться как ограничивающее иные, частные воплощения его реализации, которые не выходят за рамки испрашиваемого объема правовой охраны и являются очевидными для специалистов в соответствующей области техники. The present application materials provide a preferred disclosure of the implementation of the claimed technical solution, which should not be used as limiting other, private embodiments of its implementation, which do not go beyond the scope of the requested legal protection and are obvious to specialists in the relevant field of technology.

Специалисту в данной области техники должно быть понятно, что различные вариации заявляемого способа и системы не изменяют сущность изобретения, а лишь определяют его конкретные воплощения и применения. It should be clear to a person skilled in the art that various variations of the proposed method and system do not change the essence of the invention, but only determine its specific embodiments and applications.

Claims

ФОРМУЛА ИЗОБРЕТЕНИЯ CLAIM 1. Компьютерно-реализуемая система автоматического машинного обучения (AutoML) моделей компьютерного зрения для анализа биомедицинских изображений, содержащая: базу данных, причем база данных хранит данные биомедицинских изображений; причем данные, на основе которых получают данные биомедицинских изображений, собирают автоматически; сервер, содержащий: 1. Computer-implemented automatic machine learning (AutoML) computer vision models for biomedical image analysis, comprising: a database, the database storing biomedical image data; moreover, the data on the basis of which the biomedical image data is obtained is collected automatically; server containing: - блок загрузки, причем с помощью блока загрузки автоматически выполняют загрузку данных биомедицинских изображений, необходимых для тестирования, обучения и валидации моделей компьютерного зрения, из базы данных; - a loader, wherein the loader automatically loads the biomedical image data required for testing, training and validating computer vision models from the database; - блок трансформации, причем с помощью блока трансформации автоматически выполняют трансформацию данных биомедицинских изображений, полученных от блока загрузки, в формат, принимаемый блоками поиска, обучения и оценки; - a transformation unit, wherein the transformation unit automatically transforms the biomedical image data received from the download unit into a format accepted by the search, learning and evaluation units; - блок поиска, причем с помощью блока поиска автоматически осуществляют поиск моделей компьютерного зрения с помощью обучающей и тестовой выборок, сформированных на основе данных биомедицинских изображений, полученных от блока трансформации, и автоматически осуществляют поиск и оптимизацию параметров архитектур найденных моделей; - a search unit, and with the help of the search unit, computer vision models are automatically searched using training and test samples generated on the basis of biomedical image data received from the transformation unit, and the architecture parameters of the found models are automatically searched and optimized; - блок обучения, причем с помощью блока обучения автоматически выполняют обучение моделей компьютерного зрения, найденных блоком поиска, с помощью обучающей выборки, сформированной на основе данных биомедицинских изображений, полученных от блока трансформации, и с помощью параметров архитектуры, полученных от блока поиска; причем автоматически выбирают лучшую из указанных обученных моделей и передают выбранную модель в блок оценки; - a training unit, wherein the training unit automatically trains the computer vision models found by the search unit using a training sample generated on the basis of biomedical image data received from the transformation unit and using architecture parameters received from the search unit; wherein the best of said trained models is automatically selected and the selected model is passed to the estimator; - блок оценки, причем с помощью блока оценки автоматически выполняют оценку лучшей выбранной модели компьютерного зрения, обученной блоком обучения, с помощью валидационной выборки, сформированной на основе данных биомедицинских изображений, полученных от блока трансформации. - an estimator, wherein the estimator automatically evaluates the best selected computer vision model trained by the training unit using a validation set formed on the basis of biomedical image data received from the transformation unit. 2. Система по п. 1 , характеризующаяся тем, что с помощью агента клиники автоматически осуществляют сбор данных, на основе которых получают данные биомедицинских изображений. 2. The system according to claim 1, characterized in that the clinic agent automatically collects data, on the basis of which biomedical image data is obtained. 3. Система по п. 1 , характеризующаяся тем, что с помощью блока поиска осуществляют поиск модели до достижения заданных значений метрик либо до исчерпания бюджета на поиск. 3. The system according to claim 1, characterized in that the search block is used to search for the model until the specified metric values are reached or until the search budget is exhausted. 4. Система по п. 1 , характеризующаяся тем, что с помощью блока обучения осуществляют дообучение модели компьютерного зрения, найденной блоком поиска, с помощью обучающей выборки, в которую добавлены данные дополнительных биомедицинских изображений, полученные от блока трансформации, в том случае, если указанная модель не прошла валидацию. 4. The system according to claim 1, characterized in that with the help of the training unit, the computer vision model found by the search unit is retrained using the training set, in which additional biomedical image data obtained from the transformation unit is added, if the specified the model has not been validated. 5. Система по п. 1, характеризующаяся тем, что блоки обучения и оценки выполнены с возможностью инициировать повторный процесс поиска и обучения моделей компьютерного зрения для анализа биомедицинских изображений. 5. The system according to claim 1, characterized in that the training and evaluation units are configured to initiate a repeated process of searching and training computer vision models for analyzing biomedical images. 6. Компьютерно-реализуемый способ автоматического машинного обучения (AutoML) моделей компьютерного зрения для анализа биомедицинских изображений, в котором: 6. A computer-implemented method for automatic machine learning (AutoML) of computer vision models for analyzing biomedical images, in which: - автоматически выполняют загрузку данных биомедицинских изображений, необходимых для тестирования, обучения и валидации моделей компьютерного зрения; причем данные, на основе которых получают данные биомедицинских изображений, собирают автоматически; - automatically load biomedical image data required for testing, training and validation of computer vision models; moreover, the data on the basis of which the biomedical image data is obtained is collected automatically; - автоматически выполняют трансформацию загруженных данных биомедицинских изображений в формат, принимаемый для автоматического поиска, обучения и оценки; - automatically perform the transformation of the downloaded biomedical image data into a format accepted for automatic search, training and evaluation; - автоматически осуществляют поиск моделей компьютерного зрения с помощью обучающей и тестовой выборок, сформированных на основе трансформированных данных биомедицинских изображений, и автоматически осуществляют поиск и оптимизацию параметров архитектур найденных моделей; - automatically search for computer vision models using training and test sets formed on the basis of transformed biomedical image data, and automatically search and optimize the architecture parameters of the found models; - автоматически выполняют обучение найденных моделей компьютерного зрения с помощью обучающей выборки, сформированной на основе трансформированных данных биомедицинских изображений, и с помощью найденных и оптимизированных параметров архитектур найденных моделей; причем автоматически выбирают лучшую из указанных обученных моделей;- automatically perform training of the found computer vision models using a training set formed on the basis of the transformed data of biomedical images, and using the found and optimized parameters of the architectures of the found models; and automatically choose the best of these trained models; - автоматически выполняют оценку лучшей выбранной обученной модели компьютерного зрения с помощью валидационной выборки, сформированной на основе трансформированных данных биомедицинских изображений. - automatically evaluate the best selected trained computer vision model using a validation set formed on the basis of the transformed biomedical image data. 7. Способ по п. 6, характеризующийся тем, что с помощью блока загрузки автоматически выполняют загрузку данных биомедицинских изображений, с помощью агента клиники осуществляют автоматический сбор данных, на основе которых получают данные биомедицинских изображений, с помощью блока трансформации автоматически выполняют трансформацию загруженных данных биомедицинских изображений, с помощью блока поиска автоматически осуществляют поиск моделей компьютерного зрения, с помощью блока обучения автоматически выполняют обучение найденных моделей компьютерного зрения, с помощью блока оценки автоматически выполняют оценку лучшей выбранной обученной модели компьютерного зрения. 7. The method according to claim 6, characterized in that the loading block automatically performs the loading of biomedical image data, with using the agent of the clinic, they automatically collect data, on the basis of which biomedical image data is obtained, using the transformation unit, they automatically perform the transformation of the loaded biomedical image data, using the search unit, they automatically search for computer vision models, using the training unit, the found computer vision models are automatically trained , the estimator automatically evaluates the best selected trained computer vision model. 8. Способ по п. 6, характеризующийся тем, что осуществляют поиск модели до достижения заданных значений метрик либо до исчерпания бюджета на поиск. 8. The method according to claim 6, characterized in that the model is searched until the specified metric values are reached or until the search budget is exhausted. 9. Способ по п. 6, характеризующийся тем, что осуществляют дообучение модели компьютерного зрения, найденной блоком поиска, с помощью обучающей выборки, в которую добавлены данные дополнительных биомедицинских изображений, полученные от блока трансформации, в том случае, если указанная модель не прошла валидацию. 9. The method according to claim 6, characterized in that the computer vision model found by the search unit is retrained using a training set, in which additional biomedical image data received from the transformation unit is added, if the specified model has not passed validation . 10. Способ по п. 6, характеризующийся тем, что дополнительно инициируют повторный процесс поиска и обучения моделей компьютерного зрения для анализа биомедицинских изображений. 10. The method according to claim 6, characterized in that it additionally initiates a repeated process of searching and training computer vision models for analyzing biomedical images. 18 18
PCT/RU2021/000440 2021-10-14 2021-10-18 System and method for using automated machine learning (automl) to train computer vision models for analyzing biomedical images WO2023063845A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
RU2021129912A RU2787558C1 (en) 2021-10-14 SYSTEM AND METHOD FOR AUTOMATIC MACHINE LEARNING (AutoML) OF COMPUTER VISION MODELS FOR ANALYSING BIOMEDICAL IMAGES
RU2021129912 2021-10-14

Publications (1)

Publication Number Publication Date
WO2023063845A1 true WO2023063845A1 (en) 2023-04-20

Family

ID=85987652

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/RU2021/000440 WO2023063845A1 (en) 2021-10-14 2021-10-18 System and method for using automated machine learning (automl) to train computer vision models for analyzing biomedical images

Country Status (1)

Country Link
WO (1) WO2023063845A1 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160364527A1 (en) * 2015-06-12 2016-12-15 Merge Healthcare Incorporated Methods and Systems for Automatically Analyzing Clinical Images and Determining when Additional Imaging May Aid a Diagnosis
WO2021035412A1 (en) * 2019-08-23 2021-03-04 华为技术有限公司 Automatic machine learning (automl) system, method and device
US11094034B2 (en) * 2018-06-26 2021-08-17 International Business Machines Corporation Determining appropriate medical image processing pipeline based on machine learning

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160364527A1 (en) * 2015-06-12 2016-12-15 Merge Healthcare Incorporated Methods and Systems for Automatically Analyzing Clinical Images and Determining when Additional Imaging May Aid a Diagnosis
US10282835B2 (en) * 2015-06-12 2019-05-07 International Business Machines Corporation Methods and systems for automatically analyzing clinical images using models developed using machine learning based on graphical reporting
US11094034B2 (en) * 2018-06-26 2021-08-17 International Business Machines Corporation Determining appropriate medical image processing pipeline based on machine learning
WO2021035412A1 (en) * 2019-08-23 2021-03-04 华为技术有限公司 Automatic machine learning (automl) system, method and device

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GESSERT NILS ET AL.: "Efficient Neural Architecture Search on Low-Dimensional Data for OCT Image Segmentation", MEDICAL IMAGING WITH DEEP LEARNING 2019 CONFERENCE, XP081273317 *
YAN JIANGCHENG, RUI SHI, BINGBING NI: "MedMNIST Classification Decathlon: A Lightweight AutoML Benchmark for Medical Image Analysis", IEEE 18TH INTERNATIONAL SYMPOSIUM ON BIOMEDICAL IMAGING, 28 October 2020 (2020-10-28), pages 1 - 5, XP093061894 *

Similar Documents

Publication Publication Date Title
Azizi et al. Robust and data-efficient generalization of self-supervised machine learning for diagnostic imaging
KR101818074B1 (en) Artificial intelligence based medical auto diagnosis auxiliary method and system therefor
US20190220978A1 (en) Method for integrating image analysis, longitudinal tracking of a region of interest and updating of a knowledge representation
US20170011185A1 (en) Artificial neural network and a method for the classification of medical image data records
US12230012B2 (en) Machine learning system and method, integration server, information processing apparatus, program, and inference model creation method
WO2015023732A1 (en) Systems, methods and devices for analyzing quantitative information obtained from radiological images
KR20220038017A (en) Systems and methods for automating clinical workflow decisions and generating priority read indicators
AU2019334755B2 (en) Determination of a growth rate of an object in 3D data sets using deep learning
EP4290527A1 (en) Bladder lesion diagnosis method using neural network, and system thereof
CN112561869A (en) Pancreatic neuroendocrine tumor postoperative recurrence risk prediction method
Graziani et al. Breast histopathology with high-performance computing and deep learning
US20230118546A1 (en) High-definition labeling system for medical imaging AI algorithms
Quilis et al. A federated cloud architecture for processing of cancer images on a distributed storage
US20230290485A1 (en) Artificial intelligence prioritization of abnormal radiology scans
CN113034428A (en) Deep learning system for detecting acute intracranial hemorrhage in head CT panned images
CN111279424B (en) Apparatus, system and method for optimizing image acquisition workflow
RU2787558C1 (en) SYSTEM AND METHOD FOR AUTOMATIC MACHINE LEARNING (AutoML) OF COMPUTER VISION MODELS FOR ANALYSING BIOMEDICAL IMAGES
CN118262913A (en) Prognostic analysis method, system, device and medium based on multi-scale pathological images
US20240087697A1 (en) Methods and systems for providing a template data structure for a medical report
WO2023063845A1 (en) System and method for using automated machine learning (automl) to train computer vision models for analyzing biomedical images
CN115579094B (en) Multi-mode medical data lake construction method and system
JP2020038723A (en) Information processing unit, information processing method, information processing system and program
CN119131403B (en) Processing method and device of cerebral hemorrhage segmentation prediction model based on self-supervision learning
US20240203591A1 (en) System and method for providing an analytical result based on a medical data set using ml algorithms
Jesus et al. A Vendor Neutral Archive with MONAI for Automatic Medical Image Analysis

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21960765

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21960765

Country of ref document: EP

Kind code of ref document: A1

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 23/09/2024)

点击 这是indexloc提供的php浏览器服务,不要输入任何密码和下载