+

RU2811324C1 - Heterogeneous computing module and embedded heterogeneous computing device based on it - Google Patents

Heterogeneous computing module and embedded heterogeneous computing device based on it Download PDF

Info

Publication number
RU2811324C1
RU2811324C1 RU2022135404A RU2022135404A RU2811324C1 RU 2811324 C1 RU2811324 C1 RU 2811324C1 RU 2022135404 A RU2022135404 A RU 2022135404A RU 2022135404 A RU2022135404 A RU 2022135404A RU 2811324 C1 RU2811324 C1 RU 2811324C1
Authority
RU
Russia
Prior art keywords
artificial intelligence
heterogeneous computing
computing module
memory
processing unit
Prior art date
Application number
RU2022135404A
Other languages
Russian (ru)
Inventor
Дмитрий Александрович Велеславов
Сергей Анатольевич Салмин
Original Assignee
Общество с ограниченной ответственностью "Макро ЕМС"
Filing date
Publication date
Application filed by Общество с ограниченной ответственностью "Макро ЕМС" filed Critical Общество с ограниченной ответственностью "Макро ЕМС"
Application granted granted Critical
Publication of RU2811324C1 publication Critical patent/RU2811324C1/en

Links

Abstract

FIELD: computer technology.
SUBSTANCE: invention is intended to work in devices of the Internet of Things (IoT), Edge Intelligence (EDGE AI) and other compact computing systems for processing information using classical and artificial intelligence algorithms. The effect is achieved through the use of a trusted circuit block, consisting of a separate processor with built-in memory that controls operation of other elements. The design of the final product is made in the form of a “sandwich” from a mounted printed circuit board, which is mechanically connected to a cooling radiator, which directly touches the most heat-loaded elements and which is an element of the body of the final product where this device is integrated. At the same time, the heatsink can limit physical access to the trusted circuit and device memory.
EFFECT: increased level of cyber security of a heterogeneous computing module, as well as simplified final product based on an embedded device using the claimed module while simultaneously reducing the dimensions of the device and increasing its reliability.
5 cl, 3 dwg

Description

Заявленная группа изобретений относится к вычислительным системам встраиваемого типа и предназначена для работы в устройствах класса Интернет вещей (IoT), Граничного интеллекта (EDGE AI) и прочих компактных вычислительных систем для обработки информации классическими алгоритмами и алгоритмами искусственного интеллекта.The declared group of inventions relates to embedded computing systems and is intended to work in devices of the Internet of Things (IoT), Edge Intelligence (EDGE AI) and other compact computing systems for processing information using classical and artificial intelligence algorithms.

В современном мире востребованы компактные вычислительные устройства класса IoT и EDGE AI, которые должны решать параллельно несколько разноплановых задач в реальном времени, например, распознавание образов алгоритмами искусственного интеллекта, выполнение вычислений общего характера традиционными алгоритмами, передача информации во внешние системы. Для решения этой проблемы в последние годы стали создаваться гетерогенные вычислительные модули, имеющие в своем составе различные узкоспециализированее микропроцессорные схемы, контроллеры или ядра, каждые из которых занимаются своим классом задач. In the modern world, compact computing devices of the IoT and EDGE AI class are in demand, which must solve several diverse tasks in parallel in real time, for example, pattern recognition using artificial intelligence algorithms, performing general calculations using traditional algorithms, and transferring information to external systems. To solve this problem, in recent years, heterogeneous computing modules have begun to be created, incorporating various highly specialized microprocessor circuits, controllers or cores, each of which deals with its own class of tasks.

До не давнего времени встраиваемые вычислительные модули строили на базе «облегчённых» классических процессорных ядер X86, RISC, ARM. Причем ядра были, как правило, однотипные, таким образом, получалась относительно универсальная гомогенная вычислительная система, которая показывала неплохую производительность для классических алгоритмов, но недостаточную, например, для работы алгоритмов искусственного интеллекта в реальном времени. Until recently, embedded computing modules were built on the basis of “lightweight” classic processor cores X86, RISC, ARM. Moreover, the cores were, as a rule, of the same type, thus, a relatively universal homogeneous computing system was obtained, which showed good performance for classical algorithms, but insufficient, for example, for the operation of artificial intelligence algorithms in real time.

В качестве конструктивного исполнения подобных устройств преобладала классическая серверная компоновка с принудительным воздушным охлаждением. Такое решение не позволяло создавать компактные и, одновременно, высокопроизводительные устройства в части скорости вычислений решения.The design of such devices was dominated by the classic server layout with forced air cooling. This solution did not allow the creation of compact and, at the same time, high-performance devices in terms of the speed of calculation of the solution.

Известна высокопроизводительная вычислительная платформа на базе процессоров с разнородной архитектурой [патент на изобретение RU 2635896, опубл. 16.11.2017г.], выполненная на базе процессоров с разнородной архитектурой, содержащей установочный блок высотой 4U, предназначенный для установки в телекоммуникационную стойку и выполненный в виде корпуса, разделенного на две секции. В одной из секций смонтирована система питания, а во второй - размещена объединительная плата со слотами, для размещения в них помещаемых через указанный проем модуля коммутации и вычислительных модулей на базе разнородных процессоров, объединенными через высокоскоростную шину стандарта CompactPCI Serial для образования многопроцессорной конфигурации.A high-performance computing platform based on processors with heterogeneous architecture is known [invention patent RU 2635896, publ. 11/16/2017], made on the basis of processors with heterogeneous architecture, containing a 4U high mounting block, designed for installation in a telecommunications rack and made in the form of a housing divided into two sections. In one of the sections the power supply system is mounted, and in the second there is a backplane with slots for placing switching modules and computing modules based on heterogeneous processors placed through the indicated opening, united through a high-speed bus of the CompactPCI Serial standard to form a multiprocessor configuration.

Недостатком данного устройства является значительные габариты высота 4U 18 см, ширина 49 см что исключает их использование в компактных IoT и Edge AI устройствах. Использование общей шины Compact PCI serial, к которой подключены все микропроцессоры, делает устройство киберуязвимым по причине доступа к этой шине через имеющиеся модули коммутации. Кроме того, в устройстве имеется принудительное охлаждение с использованием вентиляторов, это затрудняет охлаждение устройства в целом, так как нагретый воздух выбрасывается во внутрь устройства, а также увеличивает габариты устройства, поэтому данное устройство не может принципиально использоваться в компактных устройствах для IoT и Edge AI.The disadvantage of this device is its significant dimensions: height 4U 18 cm, width 49 cm, which precludes their use in compact IoT and Edge AI devices. The use of a common Compact PCI serial bus, to which all microprocessors are connected, makes the device cyber vulnerable due to access to this bus through existing switching modules. In addition, the device has forced cooling using fans, this makes it difficult to cool the device as a whole, since heated air is thrown into the inside of the device, and also increases the dimensions of the device, so this device cannot fundamentally be used in compact devices for IoT and Edge AI.

Известен способ создания реконфигурируемой структуры соединений в интегральной схеме [патент на изобретение US 10,872,186, опубл. 22.12.2020г.], включающий доступ к шаблону конфигурации, направленному на реконфигурируемую структуру соединений, редактирование параметров шаблона конфигурации, функциональное объединение шаблона конфигурации с множеством модулей из библиотеки IP для создания модели схемы уровня передачи регистров (RTL), генерирование по меньшей мере одну автоматизированную функцию тестового стенда и создание как минимум одного сценария логического синтеза. Редактирование параметров шаблона конфигурации включает в себя подтверждение первого количества выходных портов реконфигурируемого коммутатора потока и подтверждение второго количества входных портов реконфигурируемого коммутатора потока. Каждый выходной порт и каждый входной порт имеют соответствующую архитектурную композицию. Архитектурная композиция выходного порта определяется множеством N каналов передачи данных, включая выходы данных A и выходы управления B. Архитектурная композиция входного порта определяется множеством M путей данных, включая A входы данных и B входы управления.There is a known method for creating a reconfigurable structure of connections in an integrated circuit [invention patent US 10,872,186, publ. 12/22/2020], including access to a configuration template aimed at a reconfigurable connection structure, editing configuration template parameters, functionally combining the configuration template with multiple modules from the IP library to create a register transfer level (RTL) circuit model, generating at least one automated test bench function and creation of at least one logic synthesis scenario. Editing configuration template parameters includes confirming a first number of output ports of the reconfigurable flow switch and confirming a second number of input ports of the reconfigurable flow switch. Each output port and each input port have a corresponding architectural composition. The output port architecture is defined by a plurality of N data paths, including A data outputs and B control outputs. The input port architecture is defined by a plurality of M data paths, including A data inputs and B control inputs.

Недостатком данного устройства является низкий уровень киберзащищенности из-за незащищенного доступа к устройству через входные порты и возможность изменения шаблона или его параметров.The disadvantage of this device is the low level of cyber security due to unprotected access to the device through input ports and the ability to change the template or its parameters.

Техническим результатом заявляемой группы изобретений является повешение уровня киберзащищенности вычислительного модуля гетерогенного, а также упрощение конечного изделия на основе встраиваемого устройства на основе заявляемого модуля при одновременном уменьшении габаритов устройства, повышении его надежности.The technical result of the claimed group of inventions is to increase the level of cyber security of a heterogeneous computing module, as well as to simplify the final product based on an embedded device based on the claimed module while simultaneously reducing the dimensions of the device and increasing its reliability.

Заявляемый технический результат в части киберзащищености вычислительного модуля гетерогенного достигается за счет того, что он состоит из блока обработки алгоритмов искусственного интеллекта, контролера ARM, блока доверенного контура на выделенном процессоре архитектуры со встроенной памятью, контроллера питания, блока интерфейса, содержащего интерфейсы передачи данных, постоянного запоминающего устройства и оперативного запоминающего устройства, согласно настоящему изобретению, блок обработки алгоритмов искусственного интеллекта, блок интерфейса, контроллер ARM, постоянное запоминающее устройства и оперативное запоминающее устройство подключены к общей шине данных, при этом блок доверенного контура соединен с контроллером ARM и с контроллером питания, контроллер питания подключен по шинам питания к блоку обработки алгоритмов искусственного интеллекта, блоку интерфейса, контроллеру ARM, постоянному запоминающему устройству и оперативному запоминающему устройству, а блок обработки алгоритмов искусственного интеллекта дополнительно напрямую соединен с блоком интерфейсов.The claimed technical result in terms of cybersecurity of a heterogeneous computing module is achieved due to the fact that it consists of a processing unit for artificial intelligence algorithms, an ARM controller, a trusted circuit unit on a dedicated architecture processor with built-in memory, a power controller, an interface unit containing data transfer interfaces, a permanent storage device and random access memory, according to the present invention, the artificial intelligence algorithm processing unit, the interface unit, the ARM controller, the read-only memory and the random access memory are connected to a common data bus, and the trusted loop unit is connected to the ARM controller and to the power controller, The power controller is connected via power buses to the artificial intelligence algorithm processing unit, interface unit, ARM controller, read-only memory and random access memory, and the artificial intelligence algorithm processing unit is additionally directly connected to the interface unit.

Возможны варианты развития основного технического решения, заключающиеся в том, что блок обработки алгоритмов искусственного интеллекта реализован на FPGA технологии или DSP технологии.Possible options for the development of the main technical solution are that the processing unit for artificial intelligence algorithms is implemented on FPGA technology or DSP technology.

Заявляемый технический результат в части повышения надежности и уменьшения габаритов встраиваемого вычислительного гетерогенного устройства на основе вычислительного модуля гетерогенного, достигается за счет того, что оно состоит из соединенных друг с другом печатной платы и радиатора охлаждения, при этом на печатной плате размещены все элементы вычислительного модуля гетерогенного при помощи поверхностного монтажа и последующей пайки к ее токоведущим линиям, радиатор охлаждения прикреплен к печатной плате с обеспечением теплового контакта с блоком обработки алгоритмов искусственного интеллекта, контроллером питания и контроллером ARM вычислительного модуля.The claimed technical result in terms of increasing the reliability and reducing the size of an embedded heterogeneous computing device based on a heterogeneous computing module is achieved due to the fact that it consists of a printed circuit board and a cooling radiator connected to each other, while all the elements of the heterogeneous computing module are placed on the printed circuit board Using surface mounting and subsequent soldering to its current-carrying lines, the cooling radiator is attached to the printed circuit board ensuring thermal contact with the artificial intelligence algorithm processing unit, power controller and ARM controller of the computing module.

Возможен вариант развития основного технического решения, заключающийся в том, что радиатор закрывает доступ к блоку доверенного контура вычислительного модуля.A possible development option for the main technical solution is that the radiator blocks access to the trusted circuit block of the computing module.

Таким образом, за счет совокупности существенных признаков удалось повысить уровень киберзащищенности модуля и всего устройства, благодаря применению блока доверенного контура, состоящего из отдельного процессора со встроенной памятью, управляющего работой других элементов. При этом упрощается конструкция конечного изделия, уменьшаются габариты и повышается надежность устройства на основе вычислительного модуля за счет специального конструктивного его исполнения в виде «сэндвича» из смонтированной печатной платы, которая механически соединена с радиатором охлаждения, который непосредственно касается наиболее теплонагруженных элементов и который является элементом корпуса конечного изделия, куда встраивается это устройство. Одновременно с этим радиатор может ограничивать физический доступ к доверенному контуру и памяти устройства, что также повышает уровень киберзащищенности устройства.Thus, due to the combination of essential features, it was possible to increase the level of cyber security of the module and the entire device, thanks to the use of a trusted circuit unit, consisting of a separate processor with built-in memory that controls the operation of other elements. At the same time, the design of the final product is simplified, the dimensions are reduced and the reliability of the device based on the computing module is increased due to its special design in the form of a “sandwich” of a mounted printed circuit board, which is mechanically connected to a cooling radiator, which directly touches the most heat-loaded elements and which is an element the housing of the final product where this device is built. At the same time, the heatsink can limit physical access to the trusted circuit and device memory, which also increases the level of cyber security of the device.

Сущность заявляемого технического решения поясняется фигурами и нижеследующим описанием.The essence of the proposed technical solution is illustrated by the figures and the following description.

На Фиг. 1 представлена блок-схема заявляемого вычислительного модуля.In FIG. 1 shows a block diagram of the proposed computing module.

На Фиг. 2 представлено конструктивное исполнение устройства.In FIG. Figure 2 shows the design of the device.

На Фиг. 3 представлена иллюстрация встраивания заявляемого устройства в состав конечного изделия – Умной камеры.In FIG. Figure 3 shows an illustration of the integration of the proposed device into the final product - a Smart Camera.

Встраиваемый вычислительный модуль гетерогенный (Фиг. 1) состоит из блока 1 обработки алгоритмов искусственного интеллекта (далее – Блок 1 ИИ), контролера 2 ARM, блока 3 доверенного контура (далее – Блок 3 ДК) на выделенном процессоре архитектуры со встроенной памятью, контроллера 4 питания, блока 5 интерфейса, содержащего интерфейсы передачи данных, постоянного запоминающего устройства 6 (далее – ПЗУ 6) и оперативного запоминающего устройства 7 (далее – ОЗУ 7).The heterogeneous embedded computing module (Fig. 1) consists of block 1 for processing artificial intelligence algorithms (hereinafter referred to as Block 1 AI), controller 2 ARM, block 3 of the trusted circuit (hereinafter referred to as Block 3 DC) on a dedicated architecture processor with built-in memory, controller 4 power supply, interface block 5 containing data transfer interfaces, read-only memory 6 (hereinafter referred to as ROM 6) and random access memory 7 (hereinafter referred to as RAM 7).

Блок 1 ИИ, блок 5 интерфейса, контроллер 2 ARM, ПЗУ 6 и ОЗУ 7 подключены к общей шине данных 8.AI block 1, interface block 5, ARM controller 2, ROM 6 and RAM 7 are connected to a common data bus 8.

При этом блок 3 ДК соединен с контроллером 2 ARM и с контроллером 4 питания.In this case, the DC block 3 is connected to the ARM controller 2 and to the power supply controller 4.

Контроллер 4 питания подключен по шинам питания к блоку 1 ИИ, блоку 5 интерфейса, контроллеру 2 ARM, ПЗУ 6 и ОЗУ 7. Power controller 4 is connected via power buses to AI block 1, interface block 5, ARM controller 2, ROM 6 and RAM 7.

Блок 1 ИИ дополнительно напрямую соединен с блоком 5интерфейсов.Block 1 AI is additionally directly connected to block 5 interfaces.

Блок 1 ИИ предназначен для ускорения выполнения алгоритмов искусственного интеллекта, включая нейросетевые алгоритмы. Блок 1 ИИ должен обладать вычислительной производительностью не менее 0,5 TOPs (0.5х10^12 операций в секунду) и реализован либо на специализированных процессорных DSP (другое название NPU или TPU процессоры) ядрах, например Elcore от компании НПЦ Элвис или Amper, Volta от компании Nvidia, изначально оптимизированных под работу с алгоритмами искусственного интеллекта, либо на интегральных FPGA схемах, например, от компаний Xilinx, Lattice, запрограммированных под алгоритмы искусственного интеллекта структурой. Применение FPGA схем возможно при наличии в них не менее 100 000 программируемых элементов-вентилей, что позволяет получать производительность не менее 0,5 TOPs. Данная производительность Блока 1 ИИ позволяет, например, обрабатывать видеопоток со скоростью 10-15 кадров в секунду. Особенностью подключения Блока 1 ИИ является его прямое подключение к Блоку 5 интерфейса, минуя общую шину 8 передачи данных и Контроллер 2 ARM, что ускоряет вывод информации с устройства при обработке информации в нем в режиме реального времени. Например, при использовании традиционного способы вывода результата из Блока 1 ИИ в Блок 5 интерфейса по общей шине 8 данных под управлением Контроллера 2 ARM время реакции на событие занимает 80-120 мс, при прямом выводе с Блока 1 ИИ в Блок 5 интерфейса это время составляет 15-25 мс.Block 1 AI is designed to speed up the execution of artificial intelligence algorithms, including neural network algorithms. Block 1 AI must have a computing performance of at least 0.5 TOPs (0.5x10^12 operations per second) and is implemented either on specialized processor DSP (another name for NPU or TPU processors) cores, for example Elcore from the company SPC Elvis or Amper, Volta from Nvidia, initially optimized for working with artificial intelligence algorithms, or on integrated FPGA circuits, for example, from Xilinx, Lattice, with a structure programmed for artificial intelligence algorithms. The use of FPGA circuits is possible if they contain at least 100,000 programmable gate elements, which allows obtaining a performance of at least 0.5 TOPs. This performance of AI Block 1 allows, for example, to process a video stream at a speed of 10-15 frames per second. A special feature of connecting AI Block 1 is its direct connection to interface Block 5, bypassing the common data bus 8 and ARM Controller 2, which speeds up the output of information from the device when processing information in it in real time. For example, when using the traditional method of outputting the result from Block 1 AI to Block 5 of the interface via a common data bus 8 under the control of Controller 2 ARM, the response time to the event takes 80-120 ms, when directly outputting from Block 1 AI to Block 5 of the interface this time is 15-25 ms.

Контроллер 2 ARM содержит по меньшей мере одно ядро ARM Cortex-A разрядностью не менее 32 бит. Контроллер 2 предназначен для выполнения прикладной программы, записанной в ПЗУ 6. Эта программа определяется функциональностью конечного изделия и определяет, какие данные и в каком блоке устройства будут обрабатываться. The 2 ARM controller contains at least one ARM Cortex-A core of at least 32 bits. Controller 2 is designed to execute an application program recorded in ROM 6. This program is determined by the functionality of the final product and determines what data and in which block of the device will be processed.

Блок 3 ДК представляет собой выделенный микропроцессор, поостренный на архитектуре RISC. Он имеет встроенную память, содержащую неизменяемый код загрузки и инициализации устройства в целом. Так как процессор доверенного контура не связан с общей шиной 8 и не имеет внешней памяти, которая может быть изменена злоумышленниками, тем самым достигается высокая стойкость к вредоносному коду и стойкость к внешнему изменению управляющей программы. В заявляемом устройстве доверенный контур используется для инициализации системы, управления питанием через Контроллер 4 питания.Block 3 DC is a dedicated microprocessor based on RISC architecture. It has built-in memory containing immutable code for booting and initializing the device as a whole. Since the trusted circuit processor is not connected to the common bus 8 and does not have external memory that can be changed by attackers, high resistance to malicious code and resistance to external changes in the control program are achieved. In the inventive device, a trusted circuit is used to initialize the system and control power through the Power Controller 4.

Контроллер 4 питания формирует необходимые напряжения питания для подключенных к нему элементов вычислительного устройства по шине питания. Он управляется от Блока 3 ДК и, тем самым, сводя к минимуму потенциальную возможность влияния вредоносного кода, потенциально попавшего в Контроллер 2 ARM, на работу остальных элементов устройства по цепям питания.The power controller 4 generates the necessary supply voltages for the elements of the computing device connected to it via the power bus. It is controlled from Block 3 of the DC and, thereby, minimizing the potential impact of malicious code that potentially got into Controller 2 ARM on the operation of other elements of the device along the power circuits.

Блок 5 интерфейса предназначен для обмена информацией с внешними системами. Состав блока 5 определяется функциональностью конечного изделия, собираемого на базе устройства. Этот блок 5 содержит любую комбинацию следующих интерфейсов: HDMI и/или MIPI и/или Ethernet и/или Wi-Fi и/или DIO и/или AIO и/или Audio. Отличительной особенностью включения Блока 5 интерфейса является его прямое подключение к Блоку 1 ИИ, что позволяет существенно снизить время передачи управляющего сигнала от Блока 1 ИИ в Блок 5 интерфейса и выдачу его наружу, по сравнению с традиционным путем, по общей шине 8 данных через Контроллер 2 ARM.Interface block 5 is designed for exchanging information with external systems. The composition of block 5 is determined by the functionality of the final product assembled on the basis of the device. This block 5 contains any combination of the following interfaces: HDMI and/or MIPI and/or Ethernet and/or Wi-Fi and/or DIO and/or AIO and/or Audio. A distinctive feature of the inclusion of Interface Block 5 is its direct connection to AI Block 1, which makes it possible to significantly reduce the transmission time of the control signal from AI Block 1 to Interface Block 5 and its output to the outside, compared to the traditional way, via the common data bus 8 through Controller 2 ARM.

ПЗУ 6 предназначено для хранения прикладных программ, которые выполняет Контроллер 2 ARM. Объем ПЗУ 6 для функционирования устройств должен составлять от 4 до 64 ГБ.ROM 6 is designed to store application programs that ARM Controller 2 executes. The volume of ROM 6 for the devices to function must be from 4 to 64 GB.

ОЗУ 7 предназначено для хранения промежуточных данных и результатов вычислений. Объем ОЗУ 7 для функционирования устройств должен составлять от 1 до 16 ГБ.RAM 7 is designed to store intermediate data and calculation results. The amount of RAM 7 for the devices to function must be from 1 to 16 GB.

Заявляемый модуль работает следующим образом.The proposed module works as follows.

При подаче напряжения питания, в случае его соответствия необходимым критериям, Контроллер 4 питания подает питание вначале только на Блок 3 ДК. Тот, в свою очередь, начинает выполнение программы, размещённой в его собственной памяти, не связанной с общей шиной 8 передачи данных. Тем самым обеспечивается физическая изоляция элемента – Блок 3 ДК от общей шины 8 данных, что делает принципиально невозможным запуск на нем вредоносного кода из Блока 5 интерфейса, ПЗУ 6 и ОЗУ 7 при подмене последних, тем самым повышая киберзащищеность устройства. When supply voltage is applied, if it meets the necessary criteria, the Power Controller 4 initially supplies power only to DC Unit 3. He, in turn, begins executing the program located in his own memory, not connected to the common data bus 8. This ensures physical isolation of the element - Block 3 DC from the common data bus 8, which makes it fundamentally impossible to run malicious code on it from Interface Block 5, ROM 6 and RAM 7 when replacing the latter, thereby increasing the cyber security of the device.

После запуска Блок 3 ДК, управляя Контроллером 4 питания, подает питание по выделенным линиям шины только на те устройства, которые нужны для решения задачи в данный момент времени. Далее Блок 3 ДК запускает Контроллер 2 ARM, который начинает выполнение прикладной программы, записанной в ПЗУ 6. Для хранения промежуточных результатов используется ОЗУ 7. Прикладная программа распределяет потоки данных по вычислительным блокам, оптимизируя производительность устройства. Например, нейросетевые алгоритмы, как правило, выполняются в Блоке 1 ИИ, алгоритмы общего назначения на ARM контроллере 2, критические, с точки зрения безопасности, вычисления в Блоке 3 ДК. Блок 5 интерфейса предназначен для обмена информацией между устройством и «внешним миром». Особенность подключения этого блока 5 состоит в том, что помимо подключения к общей шине 8 данных Блок 5 интерфейса может получать информацию непосредственно от Блока 1 ИИ, минуя общую шину 8 и Контроллер 2 ARM. Благодаря этому существенно уменьшается время реакции на событие, в среднем, примерно с 100 мс до 20 мс.After startup, DC Block 3, controlling Power Controller 4, supplies power via dedicated bus lines only to those devices that are needed to solve the problem at a given time. Next, DC Block 3 launches ARM Controller 2, which begins executing the application program recorded in ROM 6. RAM 7 is used to store intermediate results. The application program distributes data streams across computing units, optimizing device performance. For example, neural network algorithms, as a rule, are performed in Block 1 of the AI, general-purpose algorithms on ARM controller 2, and safety-critical calculations in Block 3 of the DC. Interface block 5 is designed to exchange information between the device and the “outside world”. The peculiarity of connecting this block 5 is that in addition to connecting to the common data bus 8, the interface Block 5 can receive information directly from the AI Block 1, bypassing the common bus 8 and the ARM Controller 2. Thanks to this, the response time to an event is significantly reduced, on average from approximately 100 ms to 20 ms.

Встраиваемое вычислительное гетерогеное устройство (Фиг. 2) на основе вычислительного модуля гетерогенного состоит из соединенных друг с другом печатной платы 9 смонтированной и радиатора 10 охлаждения.An embedded heterogeneous computing device (Fig. 2) based on a heterogeneous computing module consists of a mounted printed circuit board 9 and a cooling radiator 10 connected to each other.

При этом на печатной плате 9 размещены все элементы вычислительного модуля гетерогенного при помощи поверхностного монтажа и последующей пайки к ее токоведущим линиям.In this case, all the elements of the heterogeneous computing module are placed on the printed circuit board 9 using surface mounting and subsequent soldering to its current-carrying lines.

Радиатор 10 охлаждения прикреплен к печатной плате 9 с обеспечением теплового контакта с Блоком 1 ИИ, Контроллером 4 питания и Контроллером 2 ARM вычислительного модуля, поскольку эти элементы являются наиболее тепловыделяющими. Они дают до 70-80% от общего тепловыделения модуля, поэтому достаточный отвод тепла от этих элементов является необходимым условием надежности модуля, в целом. The cooling radiator 10 is attached to the printed circuit board 9 to provide thermal contact with the AI Unit 1, the Power Controller 4 and the Compute Module ARM Controller 2, since these elements are the most heat-generating. They provide up to 70-80% of the total heat release of the module, so sufficient heat removal from these elements is a necessary condition for the reliability of the module as a whole.

Для увеличения компактности устройства элементы модуля 1, 3, 4, 5 целесообразно выполнить на едином кристалле кремния и в одном корпусе интегральной схемы. Примерами таких интегральных схем являются интегральная схема СКИФ от НПЦ Элвис, в которой Блок 1 ИИ выполнен на DSP ядрах ELcore-50, имеющих производительность 1,2 TOPs (1,2*10^12 операций в секунду), или интегральная схема Kria от компании Xilinx, в которой Блок 1 ИИ выполнен на FPGA схеме, имеющей число вентилей более 200 000 и производительность 1,35 TOPs (1,35*10^12 операций в секунду).To increase the compactness of the device, it is advisable to implement module elements 1, 3, 4, 5 on a single silicon crystal and in one integrated circuit package. Examples of such integrated circuits are the SKIF integrated circuit from SPC Elvis, in which Block 1 AI is implemented on ELcore-50 DSP cores with a performance of 1.2 TOPs (1.2*10^12 operations per second), or the Kria integrated circuit from the company Xilinx, in which AI Block 1 is implemented on an FPGA circuit with a number of gates of more than 200,000 and a performance of 1.35 TOPs (1.35*10^12 operations per second).

Для обеспечения дополнительной компактности конструкции устройства целесообразно использовать печатную плату размером 122х122 мм (формат Nano-ITX), не более. Оправданным считается применение плат более мелких форматов Pico-ITX, Mobile-ITX, SBC 3,5” или SBC 2,5”, если необходимо получить объем модуля 0,2-0,3 литра.To ensure additional compactness of the device design, it is advisable to use a printed circuit board measuring 122x122 mm (Nano-ITX format), no more. It is considered justified to use boards of smaller formats Pico-ITX, Mobile-ITX, SBC 3.5” or SBC 2.5” if it is necessary to obtain a module volume of 0.2-0.3 liters.

Основная идея конструкции устройства состоит в конструктивном объединении в единое целое двух элементов: 1) смонтированной печатной платы 9, содержащей элементы модуля поз. 1-7 (Фиг. 1), установленные на ней методом поверхностного монтажа с последующей пайкой к ее токоведущим дорожкам в том числе к общей шине данных 8 и шине питания, и 2) пассивного радиатора 10 охлаждения. При таком объединении радиатор 10 выполняет две роли: 1) пассивного охладителя для наиболее тепловыделяющих элементов: Блока 1 ИИ, Контроллера 4 питания, Котроллера 2 ARM, и 2) конструктивного элемента, обеспечивающего функцию крышки или стенки конечного изделия и физической защиты для Блок 3 ДК. The main idea of the device design is to constructively combine two elements into a single whole: 1) a mounted printed circuit board 9 containing module elements pos. 1-7 (Fig. 1), installed on it by surface mounting followed by soldering to its current-carrying tracks, including the common data bus 8 and the power bus, and 2) a passive cooling radiator 10. With this combination, the radiator 10 performs two roles: 1) a passive cooler for the most heat-producing elements: AI Block 1, Power Controller 4, ARM Controller 2, and 2) a structural element that provides the function of a cover or wall of the final product and physical protection for DC Block 3 .

Для достижения этих целей печатная плата 9 выполнена таким образом, что наиболее «горячие» ее элементы 1, 2, 4 смонтированы на первой стороне, а остальные элементы 3, 5, 6, 7 могут быть расположены по обеим сторонам произвольным образом. При этом плата 9 прижимается к поверхности радиатора 10 охлаждения и обеспечивает тепловой контакт элементов платы 1, 2, 4 с ним и защиту элемента 3 Прижим платы 9 к радиатору 10 осуществляется за счет крепежных элементов таких как винты, заклепки, резьбовые втулки и др. To achieve these goals, the printed circuit board 9 is designed in such a way that its “hottest” elements 1, 2, 4 are mounted on the first side, and the remaining elements 3, 5, 6, 7 can be located on both sides in an arbitrary manner. In this case, the board 9 is pressed against the surface of the cooling radiator 10 and ensures thermal contact of board elements 1, 2, 4 with it and protection of element 3. The board 9 is pressed to the radiator 10 by means of fastening elements such as screws, rivets, threaded bushings, etc.

В таком решении другая сторона радиатора 10 является внешней стенкой устройства и граничит с внешней средой, обеспечивая достаточный теплоотвод от этих элементов без использования вентилятора для принудительного обдува. Кроме того, использование радиатора как внешней стенки конечного изделия и произвольный рельеф его (радиатора) поверхности, от гладкой до существенно ребристой, позволило сделать его площадь вариативной от 150 до 300 см2, тем самым, обеспечивая достаточное пассивное охлаждение наиболее термонагруженных элементов схемы модуля 1, 2, 4. В качестве материала радиатора 10 могут использоваться любые металлы, способные выдерживать требуемые конструкционные нагрузки при эксплуатации конечного изделия. In this solution, the other side of the radiator 10 is the outer wall of the device and borders the external environment, providing sufficient heat removal from these elements without the use of a fan for forced airflow. In addition, the use of the radiator as the outer wall of the final product and the arbitrary relief of its (radiator) surface, from smooth to significantly ribbed, made it possible to make its area variable from 150 to 300 cm2, thereby providing sufficient passive cooling of the most thermally loaded elements of the module 1 circuit, 2, 4. Any metal that can withstand the required structural loads during operation of the final product can be used as the material of the radiator 10.

Возможет вариант развития основного технического решения, при котором размеры радиатора 10 превышают размеры платы 9. При этом части его контура, выступающие за периметр платы 9, могут использоваться для фиксации устройства по этому контуру к корпусу конечного изделия. It is possible to develop the main technical solution in which the dimensions of the radiator 10 exceed the dimensions of the board 9. In this case, parts of its contour protruding beyond the perimeter of the board 9 can be used to fix the device along this contour to the body of the final product.

В случае необходимости обеспечения пыле- и влагозащиты конечного изделия по этому выступающему контуру радиатора 10 происходит герметизация. При таком конструктивном исполнении устройства его радиатор 10 помимо охлаждения и физической защиты элемента 3 выполняет роль несущей стенки или ее части для конечного изделия. If it is necessary to ensure dust and moisture protection of the final product, sealing occurs along this protruding contour of the radiator 10. With this design of the device, its radiator 10, in addition to cooling and physical protection of element 3, acts as a load-bearing wall or part thereof for the final product.

В качестве примера на Фиг. 2 показано, что превышение размеров радиатора 10 по ширине, относительно платы 9, составило 10%, по длине – 20%, что обеспечило эффективную площадь охлаждения 200 см2, при этом температура элементов 1, 2, 4 не поднималась выше 76 град. С, что является приемлемым значением. Дальнейшее моделирование показало возможность превышения габаритов радиатора 10 относительно платы 9 от 10 до 40%. Эффективная площадь охлаждения радиатора 10 в этом случае составит до 300 см2 что достаточно для рассеивания до 10 Вт тепловой мощности.As an example, in FIG. Figure 2 shows that the excess of the dimensions of the radiator 10 in width relative to board 9 was 10%, in length - 20%, which provided an effective cooling area of 200 cm2, while the temperature of elements 1, 2, 4 did not rise above 76 degrees. C, which is an acceptable value. Further modeling showed the possibility of exceeding the dimensions of the radiator 10 relative to the board 9 from 10 to 40%. The effective cooling area of the radiator 10 in this case will be up to 300 cm2, which is enough to dissipate up to 10 W of thermal power.

На Фиг. 3 показан для примера вид конечного изделия класса Edge AI – умной камеры – в состав которой входит заявляемое встраиваемое устройство. Устройство устанавливается в сборе и фиксируется к корпусу 11 конечного изделия по выступающей части радиатора 10 винтовым, клеевым, заклепочным способом или на защелках, обеспечивая необходимую степень герметизации конечного изделия. При этом радиатор 10 выполняет роль части верней крышки устройства, обеспечивая тем самым существенное упрощение конструкции последнего и хорошую теплоотдачу, так как он (радиатор) контактирует со внешней средой, имеющей более низкую температуру в отличии от традиционной компоновки, когда радиатор электронного модуля находится внутри устройства.In FIG. Figure 3 shows, as an example, a view of the final product of the Edge AI class - a smart camera - which includes the claimed embedded device. The device is installed as an assembly and fixed to the body 11 of the final product along the protruding part of the radiator 10 using a screw, glue, rivet or latches method, providing the required degree of sealing of the final product. In this case, the radiator 10 acts as part of the upper cover of the device, thereby providing a significant simplification of the design of the latter and good heat transfer, since it (the radiator) is in contact with the external environment, which has a lower temperature, unlike the traditional layout, when the radiator of the electronic module is located inside the device .

Элементы 1, 2, 3, 4, 5 установлены на первой стороне платы 9, к которой прикрепляется радиатор 10. Elements 1, 2, 3, 4, 5 are installed on the first side of the board 9, to which the radiator 10 is attached.

Данное устройство выполнено из смонтированной печатной платы 9 форм-факторе Pico-ITX размером 100х75 мм и радиатора 10 охлаждения, прижатого винтами к первой стороне платы 9, причем наиболее тепловыделяющие элементы 1, 2, 4, расположенные на этой стороне платы 9, имеют тепловой контакт с радиатором 10, фактически касаются его. Для устранения возможного зазора между элементами 1, 2, 4 и радиатором 10, обусловленного разной высотой элементов 1, 2, 4 относительно поверхности платы 9, используются теплопроводящие прокладки, гели, пасты. Также для нивелирования разновысотности элементов 1, 2, 4 радиатор 10 может быть изготовлен с переменной толщиной, обеспечивая беззазорное примыкание к этим элементам. При этом возможен вариант устройства, когда элемент 3 расположен на той же стороне платы 9, что элементы 1, 2, 4, и радиатор 10 закрывает элемент 3, ограничивая физический доступ к нему, дополнительно повышая тем самым кибербезопасность устройства.This device is made of a mounted printed circuit board 9 in the Pico-ITX form factor measuring 100x75 mm and a cooling radiator 10 pressed with screws to the first side of the board 9, and the most heat-generating elements 1, 2, 4 located on this side of the board 9 have thermal contact with radiator 10, actually touch it. To eliminate the possible gap between elements 1, 2, 4 and the radiator 10, due to the different heights of elements 1, 2, 4 relative to the surface of the board 9, heat-conducting pads, gels, and pastes are used. Also, to level out the difference in height of elements 1, 2, 4, the radiator 10 can be made with variable thickness, ensuring a gap-free connection to these elements. In this case, a variant of the device is possible when element 3 is located on the same side of the board 9 as elements 1, 2, 4, and the radiator 10 covers element 3, limiting physical access to it, thereby further increasing the cybersecurity of the device.

Другими примерами конечных изделий классов IoT и EDGE AI, где может применяться заявляемое устройство, могут быть: устройство помощи водителю в управлении (ADAS), банкоматы, системы контроля доступа, и информационные терминалы, где требуется биометрическое распознавание индивидуума и аналогичные изделия и системы, где требуется комбинация общих алгоритмов обработки информации в совокупности с алгоритмами искусственного интеллекта, малые размеры, простота, киберзащищеность и надежность.Other examples of end products of the IoT and EDGE AI classes, where the claimed device can be used, can be: driver assistance devices (ADAS), ATMs, access control systems, and information terminals where biometric recognition of an individual is required and similar products and systems where a combination of general information processing algorithms in conjunction with artificial intelligence algorithms, small size, simplicity, cyber security and reliability is required.

Таким образом, предлагаемая схема устройства позволяют достичь результата: в части высокой вычислительной производительности за счет комбинации Контролера 2 Arm на одном или нескольких процессорных ARM ядер, Блока 1 ИИ на базе DSP процессорных ядер или FPGA схем, прямого соединения Блока 5 интерфейса с Блоком 1 ИИ; высокой киберзащищенности за счет использования Блока 3 ДК на специализированном процессоре со встроенной памятью и который физически не связан с общей шиной и памятью устройства, в которую может быть занесен вредоносный код; в части компактных размеров устройства и упрощения конструкции конечных изделий и повышения их надежности за счет специального конструктивного исполнения устройства в виде «сэндвича» из смонтированной печатной платы, соединённой механически с радиатором охлаждения, который непосредственно касается наиболее теплонагруженных элементов и который является стенкой конечных изделий и физической защитой Блок 3 ДК.Thus, the proposed device circuit allows us to achieve the following results: in terms of high computing performance due to the combination of Controller 2 Arm on one or more ARM processor cores, Block 1 AI based on DSP processor cores or FPGA circuits, direct connection of Block 5 interface with Block 1 AI ; high cyber security due to the use of Block 3 DC on a specialized processor with built-in memory and which is not physically connected to the common bus and device memory, into which malicious code can be inserted; in terms of the compact dimensions of the device and simplifying the design of the final products and increasing their reliability due to the special design of the device in the form of a “sandwich” from a mounted printed circuit board connected mechanically to a cooling radiator, which directly touches the most heat-loaded elements and which is the wall of the final products and the physical protection Block 3 DC.

Claims (5)

1. Вычислительный модуль гетерогенный, состоящий из блока обработки алгоритмов искусственного интеллекта, контролера ARM, блока доверенного контура на выделенном процессоре архитектуры со встроенной памятью, контроллера питания, блока интерфейса, содержащего интерфейсы передачи данных, постоянного запоминающего устройства и оперативного запоминающего устройства, характеризующийся тем, что блок обработки алгоритмов искусственного интеллекта, блок интерфейса, контроллер ARM, постоянное запоминающее устройство и оперативное запоминающее устройство подключены к общей шине данных, при этом блок доверенного контура представляет собой выделенный микропроцессор, имеющий встроенную память, содержащую неизменяемый код загрузки и инициализации устройства в целом, и соединен с контроллером ARM и с контроллером питания, контроллер питания подключен по шинам питания к блоку обработки алгоритмов искусственного интеллекта, блоку интерфейса, контроллеру ARM, постоянному запоминающему устройству и оперативному запоминающему устройству, а блок обработки алгоритмов искусственного интеллекта дополнительно напрямую соединен с блоком интерфейсов.1. A heterogeneous computing module, consisting of a processing unit for artificial intelligence algorithms, an ARM controller, a trusted circuit unit on a dedicated architecture processor with built-in memory, a power controller, an interface unit containing data transfer interfaces, a permanent storage device and a random access memory device, characterized by: that the artificial intelligence algorithm processing unit, interface unit, ARM controller, read-only memory and random access memory are connected to a common data bus, while the trusted circuit unit is a dedicated microprocessor having built-in memory containing immutable boot and initialization code for the device as a whole, and is connected to the ARM controller and to the power controller, the power controller is connected via power buses to the artificial intelligence algorithm processing unit, interface unit, ARM controller, read-only memory and random access memory, and the artificial intelligence algorithm processing unit is additionally directly connected to the interface unit. 2. Вычислительный модуль гетерогенный по п. 1, отличающийся тем, что блок обработки алгоритмов искусственного интеллекта реализован на FPGA технологии. 2. The heterogeneous computing module according to claim 1, characterized in that the processing unit for artificial intelligence algorithms is implemented on FPGA technology. 3. Вычислительный модуль гетерогенный по п. 1, отличающийся тем, что блок обработки алгоритмов искусственного интеллекта реализован на DSP технологии.3. The heterogeneous computing module according to claim 1, characterized in that the processing unit for artificial intelligence algorithms is implemented on DSP technology. 4. Встраиваемое вычислительное гетерогеное устройство на основе вычислительного модуля гетерогенного по п. 1 состоит из соединенных друг с другом смонтированной печатной платы и радиатора охлаждения, при этом на печатной плате размещены все элементы вычислительного модуля гетерогенного при помощи поверхностного монтажа и последующей пайки к ее токоведущим линиям, радиатор охлаждения прикреплен к печатной плате с обеспечением теплового контакта с блоком обработки алгоритмов искусственного интеллекта, контроллером питания и контроллером ARM вычислительного модуля.4. An embedded heterogeneous computing device based on a heterogeneous computing module according to claim 1 consists of a mounted printed circuit board and a cooling radiator connected to each other, while all elements of the heterogeneous computing module are placed on the printed circuit board using surface mounting and subsequent soldering to its current-carrying lines , the cooling radiator is attached to the printed circuit board to ensure thermal contact with the artificial intelligence algorithm processing unit, the power controller and the ARM controller of the computing module. 5. Встраиваемое вычислительное гетерогенное устройство по п. 4, отличающееся тем, что радиатор закрывает доступ к блоку доверенного контура вычислительного модуля.5. An embedded heterogeneous computing device according to claim 4, characterized in that the heatsink blocks access to the trusted circuit block of the computing module.
RU2022135404A 2022-12-30 Heterogeneous computing module and embedded heterogeneous computing device based on it RU2811324C1 (en)

Publications (1)

Publication Number Publication Date
RU2811324C1 true RU2811324C1 (en) 2024-01-11

Family

ID=

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060064524A1 (en) * 2003-09-12 2006-03-23 Logic Controls, Inc. Rugged industrial computing module
RU2275678C2 (en) * 2001-02-20 2006-04-27 Арм Лимитед Method for processing data by means of coprocessor
RU2778213C1 (en) * 2021-05-26 2022-08-15 Акционерное общество Научно-технический центр "Модуль" Small-sized high-performance computing module based on a multiprocessor system-on-a-chip

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2275678C2 (en) * 2001-02-20 2006-04-27 Арм Лимитед Method for processing data by means of coprocessor
US20060064524A1 (en) * 2003-09-12 2006-03-23 Logic Controls, Inc. Rugged industrial computing module
RU2778213C1 (en) * 2021-05-26 2022-08-15 Акционерное общество Научно-технический центр "Модуль" Small-sized high-performance computing module based on a multiprocessor system-on-a-chip

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Злата Р.Н. Разработка процессорного модуля на базе микросхемы 1892ВА018 СнК "СКИФ" и его первый запуск. Февраль 2022, https://www.fabmicro.ru/pub/RanetkaPC_Module/RanetkaPC_module_design_experience.pdf. *

Similar Documents

Publication Publication Date Title
CN205540411U (en) Electronic device
US7365976B2 (en) Electronic apparatus
US6999312B1 (en) Heatsink apparatus
US20090016017A1 (en) Heat dissipating system
US12055986B2 (en) Flexible and modular top and bottom side processor unit module cooling
EP3474648B1 (en) Cooling module
US20090215380A1 (en) Fan module for failure backup
US6762939B2 (en) Thermal solution for a mezzanine card
WO2014164884A1 (en) Modular computer and thermal management
US20110013363A1 (en) Housing Used As Heat Collector
CN113220085A (en) Server
US6922337B2 (en) Circuit card divider to facilitate thermal management in an electronic system
KR20040038162A (en) Main body of computer
RU2811324C1 (en) Heterogeneous computing module and embedded heterogeneous computing device based on it
US20050286221A1 (en) Storage device system and cooling structure for logic circuit board for storage device system
CN103176572B (en) Server and Cooling Module
JP2010524249A (en) Thermal management system for electronic devices
CN206639159U (en) It is a kind of can double-radiation function high-efficiency computer radiator
CN207927009U (en) A kind of circuit board arrangement and computing device
RU217737U1 (en) Embedded computing device heterogeneous
Levin et al. High-Performance Reconfigurable Computer Systems with Immersion Cooling
CN105657864A (en) Lightweight high-speed wireless sensor node
CN218675930U (en) Image recognition edge calculation indoor unit structure
CN217034655U (en) Double-circuit server
US20250081409A1 (en) Heat flow control method and heat flow control system
点击 这是indexloc提供的php浏览器服务,不要输入任何密码和下载