+

WO1997049034A1 - Systeme de prise en charge de taches - Google Patents

Systeme de prise en charge de taches Download PDF

Info

Publication number
WO1997049034A1
WO1997049034A1 PCT/JP1997/002109 JP9702109W WO9749034A1 WO 1997049034 A1 WO1997049034 A1 WO 1997049034A1 JP 9702109 W JP9702109 W JP 9702109W WO 9749034 A1 WO9749034 A1 WO 9749034A1
Authority
WO
WIPO (PCT)
Prior art keywords
processing
business
processing device
standby
failure
Prior art date
Application number
PCT/JP1997/002109
Other languages
English (en)
French (fr)
Inventor
Toshimichi Yuge
Toshihiro Amemiya
Satoshi Matsumoto
Yasuhiro Suzuki
Original Assignee
Fujitsu Limited
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Limited filed Critical Fujitsu Limited
Priority to JP52879497A priority Critical patent/JP3197279B2/ja
Priority to KR1019980701217A priority patent/KR100323255B1/ko
Priority to US09/011,737 priority patent/US6219801B1/en
Priority to GB9803343A priority patent/GB2319369B/en
Priority to DE19780639T priority patent/DE19780639C2/de
Publication of WO1997049034A1 publication Critical patent/WO1997049034A1/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2035Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant without idle spare hardware
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/203Failover techniques using migration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2046Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share persistent storage

Definitions

  • the present invention relates to a system that allows a plurality of processing devices to efficiently perform business processing in a hot standby mode or a mouthpiece mode.
  • one-third of a transaction can be processed in a short time, or if a large number of transactions occur at the same time, one transaction may occur.
  • the processing equipment cannot perform the processing in real time. Therefore, in order to distribute the processing load, there is a form of load sharing in which generated transactions are distributed to a plurality of processing units to perform processing. In this load-sharing configuration, when a failure occurs in one processing unit, the generated transaction is not simply distributed to the processing unit in which the failure has occurred.
  • the general purpose of the present invention is to provide an improved and useful business takeover system that solves these problems.
  • a more specific object of the present invention is to provide a system in which a plurality of processing devices execute business processes in the form of a hot standby or a load-sharing system, especially when a failure occurs without requiring a great deal of programming.
  • the purpose is to provide a business takeover system that can take over efficiently.
  • the present invention provides a system in which a plurality of processing devices perform processing related to a business in a hot-standby mode, wherein each processing device is an active system or a standby system for a business.
  • a storage unit for storing a table indicating whether there is a service, and, when a failure occurs in a processing device which is an active system for a business, processing relating to the business in the processing device in which the failure has occurred is referred to by referring to a table in the storage unit.
  • This is a business takeover system including means for taking over to a processing device that is a standby system for the business.
  • a table indicating whether each processing device is an active system or a standby system for the business is directly stored.
  • the present invention provides a system in which a plurality of processing devices perform processing related to a task in a form of load sharing.
  • the storage means for storing the table to be displayed and the table stored in the storage means when a failure occurs in the processing device, and the tasks assigned to the processing device in which the failure has occurred are transferred to another processing device.
  • a business takeover system equipped with means for taking over.
  • the present invention provides a system in which a plurality of processing apparatuses perform processes related to a plurality of tasks in a hot standby mode and a load mode.
  • the tasks and tasks to be processed are indicated in the form of dossier, indicating whether or not the tasks to be processed are assigned to each processing device.
  • the tasks to be processed are assigned in the hot standby mode, the tasks are performed.
  • a storage unit that stores a table indicating whether the system is an active system or a standby system, and a table stored in the storage unit when a failure occurs in any of the plurality of processing devices.
  • the processing related to the tasks to be processed in the hot standby mode among the tasks assigned to the failed processing unit is transferred to the processing unit that is the standby system for the task.
  • the tasks to be processed in the hot standby mode and the processes to be performed are performed.
  • Indicates whether or not the work to be processed is assigned to each processing device in the form of code share, and if the work to be processed is assigned in the form of hot standby, it is determined whether the work is the active system for the work.
  • the business process in the processing unit that caused the failure is taken over by another processing unit, so the process related to business takeover is simplified, and particularly large programs are constructed. Business is efficiently taken over without the need for
  • FIG. 1 is a system configuration diagram of the present invention.
  • FIG. 2 is a block diagram showing a hardware configuration of the system according to the embodiment of the present invention.
  • FIG. 3 is an explanatory diagram of the operation of the system shown in FIG.
  • FIGS. 4A, 4B, and 4C show examples of operation state management tables for each class used for processing in the system shown in FIG.
  • FIGS. 5A and 5B are examples of global processing tables used for processing in the system shown in FIG.
  • FIG. 6 is an example of a distribution table used for processing in the system shown in FIG.
  • each of clusters 1, 2, and 3 (hereinafter, each of them is simply referred to as class 11) is a processing device housed in an independent casing as described above, and is related to various tasks. Perform processing.
  • the cluster 11 is composed of business takeover means 12 and various businesses 13 and 14.
  • the business takeover means 12 is for taking over the business when a failure occurs in another class 11.
  • Operations 13 and 14 provide various operations to multiple terminals.
  • the operation status management table 21 manages the operation status of the class.
  • the global processing table 22 is for acquiring resources to be used when taking over the business, processing for taking over, and the like.
  • the distribution table 23 is used to set a load distribution ratio of a business unit to a class evening in the case of a single dossier.
  • the active system of the hot standby in the failure class is referred to the operation status management table 21 when one of the other classes 11 fails.
  • the operation status management table 21 For a business, take over the business based on the Global Processing Table 22 or determine that it is a load-sharing business when it is determined that it is the standby cluster of the hot standby for that business or its own business evening. However, when the own class evening is identified as a cluster of the load share of the business, the business is taken over based on the global processing table 22.
  • the service of the failure class 11 is referred to as the hot standby active system by referring to the operation status management table 21. Only the class 11 that started the takeover process first or the class 11 that has the highest priority among the class 11 of the standby system of the standby system can take over the business.
  • the operation status Refer to the management table 21 and refer to the management table 21.
  • the task in the class in which the failure occurred is a share
  • the class that started the takeover process first among the other classes 11 in the share of the share of the task 11 or priority.
  • the cluster 11 having the highest rank can take over the takeover processing.
  • the handover process may include a process for changing the multiplicity of business tasks in class 11 for class sharing in class sharing 11.
  • the load distribution ratio of each cluster 11 of the load shares is changed based on the distribution table 23. Therefore, in a system in which hot standby and load sharing are mixed, when a failure occurs, the table of class 11 that failed is referred to by the table at the time of failure, and the cluster 11 of hots and evenings takes over, for example, by winning first.
  • the load distribution for each job in classroom 11 of Law Doner processing in the event of a failure is simplified and efficient operation of classroom 11 is realized, and the classroom is arranged freely. Can be realized.
  • FIG. 2 is a configuration diagram showing a hardware configuration of the system according to the embodiment of the present invention.
  • FIG. 2 multiple classes 1, 2, and 3 (processing units) are connected to the bus.
  • Each class 1, 2, and 3 shares a system memory unit (System Storage Unit: SSU) 100 as an external storage device and a disk device 120.
  • SSU System Storage Unit
  • Each of the clusters 1, 2, and 3 is connected to a communication control device 150 via a bus, and the communication control device 150 is connected to each of the classes 1, 2, and 3 via a predetermined communication line. The communication control for various tasks with the terminal device 200 is performed.
  • Classes 2 and 3 correspond to classes 1, 2 and 3 shown in Fig. 1, respectively. It provides services related to various tasks to the terminal device 200 and, as described above, is composed of task takeover means 12 and various tasks 13 and 14 as shown in Fig. 1. You.
  • the operation status table 21, global processing table 22, and distribution table 23 shown in FIG. 1 are stored in the disk unit 120, and each class 1, 2, and 3 is assigned to the disk unit 140. Each table stored in the can be used in common. In the clusters 1, 2, and 3, especially when high-speed table reference processing is required, the tables 21, 22, and 23 are stored in the system memory unit 100.
  • the work takeover means 12 of each class 1, 2, and 3 is a function to take over the work when a failure occurs in another class (see Fig. 3).
  • services 13 and 14 are assigned to each class 1, 2, and 3, and services related to various services 13 and 14 are provided to a plurality of terminal devices 200. Is provided from each cluster. These operations 13 and 14 are, for example, banking operations, such as bank-related deposit operations, foreign exchange operations, and financing operations.
  • the business 13 is the business A processed in the form of the hot standby
  • the business 14 is the business B processed in the form of the load share.
  • the operation status management table 21 manages the operation status of each class.
  • the operation system is a hot standby system, a hot standby system, a load share active system, and a global processing table. (For takeover) is set (see Fig. 4A, Fig. 4B, Fig. 4C).
  • the global processing table 22 sets the resources used by the business, the processing to be executed, and the like (see FIGS. 5A and 5B).
  • the distribution table 23 is used to set the load distribution ratio for each business unit in the case of load sharing (see Fig. 6).
  • FIG. 3 shows an operation explanatory diagram. Clusters 1, 2, and 3 in FIG. 3 correspond to clusters 1, 2, and 3 in FIGS.
  • Classes 1, 2, and 3 exchange messages periodically and monitor each other for responses. As shown in Fig. 2, for example, if the cluster 1 goes down (stops operation) due to some kind of failure (S1), the other classes 2 and 3 perform the following operations.
  • class E2 When class E2 recognizes that a failure has occurred in class E1 (S3), it refers to the operation status management table 21 of cluster D1 as shown in FIG.
  • the assigned tasks are extracted (S4). Then, it is determined whether or not the extracted task has been completed (S5). If Y E S, terminate. In the case of NO (if the task has not been completed yet), proceed to the next step S6.
  • step S5 If the extracted task has not been completed yet (NO in S5), the task is referred to as a class share by referring to the operation status management table 21 of class 1 (see FIG. 4A). It is determined whether or not the data is to be processed (S6). If YES, form of raw dona Since it is determined in step 9 that the task is a task to be processed, the process proceeds to step S12, where the task to be processed is carried over in the form of a load share. On the other hand, in the case of NO, it is determined that the job should be processed in the hot standby mode, and the process proceeds to step S7.
  • step S7 it is further determined by referring to the operation state management table of cluster 1 whether or not cluster 1 has been determined as the active system of the business. If cluster 1 has been set as the standby system for the service (S7, NO), it is not necessary to take over the service, so the process returns to step S4 and is further assigned to class 1 where the failure occurred.
  • the tasks that have been assigned are extracted, and processing is performed in the same procedure as above.
  • class E1 in which the failure occurred is defined as the active system for the business (S7, YES)
  • class E2 will be the operation status management table 21 of class E2 shown in Fig. 4B.
  • the own cluster determines whether or not the cluster 1 in which the failure has occurred is set as the standby system of the service set as the active system (S70). If it is not specified as a standby system for the service, cluster 2 does not need to take over the service, so the process returns to step S4 to further extract the service assigned to class 1 in which the failure occurred. And perform the processing in the same procedure as above.
  • class E2 is set as the standby system for the job (S70, YES)
  • the process of taking over the job is performed in accordance with the procedure from step S8 to step S11.
  • step S8 a request to acquire exclusion is issued.
  • step S9 it is determined whether or not the exclusion acquisition request can be exclusioned.
  • the control table of 0 S is rewritten to obtain exclusion.
  • the cluster that can take exclusion is the class that acquires the exclusion the fastest (class evening 2 or class evening 3), and is the cluster with the lowest load. This least loaded class Only the server will take over the business of the downed cluster. If the exclusion is not obtained, it is not necessary to take over the work, and the process returns to step S4 to further extract the work assigned to the class 1 in which the failure occurred. Perform the same procedure.
  • step S10 the control table is rewritten in step S10. This is because, for example, the status of the relevant business in the operation status management table 21 of the cluster 2 shown in FIG. 4B is changed from “standby system” to “takeover”, and when the transfer process is completed, it is rewritten to “working system”.
  • step SI1 resources are acquired according to the global processing table shown in FIG. 5A.
  • resources are acquired according to the global processing table shown in FIG. 5A.
  • this is done by acquiring resources (necessary database resources, network resources, various tables, hard resources, etc.) as takeover processing. Acquisition) and processing (transaction revalidation, activation notification, change of ratio (task multiplicity) (mouth sharing), message distribution ratio (load: load share), etc.) are performed.
  • Class E2 continues the actual operation of the business taken over from Class E1 (S15) o
  • step S12 the control table is rewritten. Is performed. This is down It was determined that the class 2 business, which is the same as the business that was running in cluster 1 that had been running, was considered to be a market share, so the operation status management table 21 was rewritten so that the business was performed in the remaining class. For example, the status of the relevant business of the share is changed from “active system” to “taking over”, and when the handover process is completed, it is changed to “active system”).
  • step S13 resources are obtained according to the global processing table. That is, as described above, after the status of the relevant job in the operation status management table 21 is rewritten to “working system,” the takeover is performed in accordance with the global process table 22 shown in FIG. 5A. Processing involves acquiring resources (acquiring necessary database resources, network resources, various tables, hard resources, etc.).
  • step S1 the distribution table 23 shown in FIG. 6 is updated, and the message of the class 1 which is not processed on the global processing table shown in FIG. 5B is processed.
  • the work of the downed class evening 1 was to be handled in the form of a load senior, so the class evening 2 changed the load sharing ratio of the downed class evening 1 to the other class evening 3 Determine the load sharing ratio for the work in the class of the evening in order to re-share.
  • the load sharing ratio of the task B to be performed in the distribution table 23 in the form of the load sharer for the class 2 is updated.
  • the load sharing ratio for the class B 3 of the work B in the distribution table 23 is also updated by the same procedure (see FIG. 6).
  • the processing of the unprocessed message of the down cluster ⁇ ⁇ managed in the global processing table 22 in FIG. 5B is executed as the recovery processing.
  • the message subjected to recovery processing is managed as a processed message in Global Processing Table 22.
  • the processing for the task B is executed in the form of a load share in accordance with the distribution table 23 updated to the new load sharing ratio for the clusters 2 and 3 (S15).
  • step S 6 the class 1 is executed by referring to the clusters 2 and 3 or the operation state management table 21. If it is determined that the task (task B) that should have been processed should be processed in the form of a load shear, the load sharing ratio of that task to the downed cluster 1 is distributed to other classes 2 and 3. Table 23 is updated as follows. Then, the work is taken over at the load ratio according to the updated distribution table 23, and the unprocessed work is separately recovered.
  • the operation status management table 21, global processing table 22, and distribution table 23 only need to be set in advance as the load-sharing business unit. It is possible to automatically take over the business of a single share.
  • steps S1 to S15 By the overall processing of steps S1 to S15 as described above, even if tasks executed in the form of hotspot or load sharing are mixed, the operation status management table 21 and the global Only the information on the active / standby system and the load share in the form of hots and evenings in the business unit is set in advance in the transaction processing table 22 and the distribution table 23. Can automatically take over the work in the other clusters.
  • FIGS. 4A, 4B, and 4C show examples of operation state management tables for each class used for processing in the above system.
  • Figure 4A shows an example of the operation status management table for class 1.
  • the operation status management table 21 of the cluster 1 is set, for example, in association with the business as shown in the figure below.
  • No. Business type Active Z standby Global processing table 1 Business AHS Current Global Processing Table (for takeover)
  • H S Hot standby L S: Load share
  • the number is a sequential number, for example, 32 can be registered.
  • the services are tasks that are executed in cluster 1, such as account deposit services, currency exchange services, and loan services, and are used to set the type, active / standby, etc. for each business unit.
  • Working / standby is used to set either work or standby in class 1 (in the case of standby, the service is changed to working when the class goes down in the working class).
  • the global processing table specifies acquisition and processing of necessary resources when taking over business.
  • Fig. 4B shows an example of the operation status management table of class E2.
  • the operation status management table 21 of the cluster 2 is set, for example, in association with the business as shown in the figure below.
  • H S Hot standby L S: Load share
  • Figure 4C shows an example of the operation status management table of cluster 3.
  • the operation status management table 21 of class E3 is set, for example, in association with the business as shown in the figure below.
  • FIGS. 5A and 5B show examples of global processing tables used in the above system.
  • FIG. 5A shows an example of a global processing table (hot standby).
  • This global processing table (hot standby) 22 secures resources and processes as shown in the figure.
  • the start notification means that the class that took over the business resumes the operation of the business and issues a start notification to that effect.
  • Changing the ratio (task multiplicity) changes the multiplicity of the tasks within a class when multiple clusters or a single task are performing load sharing for a certain task. (Note that the multiplicity of the cluster may be changed instead of the multiplicity of the task).
  • the message distribution ratio (load: load share) is to change the ratio of messages to be distributed in the case of a single tasker that is performing load distribution for a business with multiple classes and loads (change the load ratio). It is to be.
  • by setting up the global processing table 22 and securing resources and setting processing it is necessary for business processing to be performed automatically when the standby class in hot standby takes over the business. It is possible to acquire necessary resources and execute processing for takeover.
  • Figure 5B shows an example of a global transaction table (load share).
  • clusters 1, 2, and 3 receive messages under the load sharing status and store the processing status. For unprocessed messages, the cluster performs processing by transaction recovery during business takeover processing.
  • FIG. 6 shows an example of a distribution table according to the present invention.
  • This distribution table 23 is for changing the ratio of distributing the load to another cluster when one class goes down in a state where the class is performing business with load sharing. For example, load B for business B
  • the hot standby class operation is performed earlier by referring to the table at the time of the occurrence of the failure and performing the operation in the class where the error occurred.
  • a configuration is adopted in which the load distribution for each task in the class sharing evening is dynamically changed while taking over on a win basis, etc., making it easy to design a process when a failure occurs and efficiently operating the class evening
  • the class can be arranged freely.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)

Description

明細書 業務引継システム 技術分野
本発明は、 ホッ トスタンバイの形態や口一 ドシヱァの形態で複数 の処理装置により業務処理を効率的に行わせるシステムに関するも のである。 背景技術
信頼性を要求されるシステムにおいては、 システムを 2重化する ことが行われていた。 すなわち、 処理装置を 2つ用意し、 第 1 の処 理装置を現用の処理装置として使用し、 もう一つの第 2の処理装置 に、 現用の処理装置に障害が発生した場合に、 その処理をすぐに引 き継げるように、 予め、 その処理に必要なプログラムやデータを読 み込んでおき、 第 1の処理装置の障害発生の為に待機する形態であ る。 これのような形態をホッ トス夕ンバイと呼んでいる。
また、 トラ ンザク シ ョ ン処理等においては、 トラ ンザク シ ョ ンの 一^ 3については、 短時間に処理を行うこ とができるか、 同時に多量 のトランザクショ ンが発生した場合には、 一つの処理装置では、 リ アルタイムに処理を行うことができない。 そこで、 処理の負荷を分 散させるために、 発生したトランザクショ ンを複数の処理装置に、 分配して処理を行うロー ドシェアという形態がある。 このロー ドシ エアの形態においては、 一つの処理装置に障害が発生した場合には、 単に、 その障害が発生した処理装置に、 発生した トランザクショ ン を分配しないようにしている。
上記のホッ トス夕ンバイや、 ロー ドシ アの形態をシステムを構 築するためには、 多大なプログラ ミ ングを必要としていた。
また、 近年、 処理装置が安価になってきたこと、 多くの業務処理 P T JP 7
2 を行う必要性から、 大型の汎用機を 2、 3台使用するような運用か ら、 より数の多い処理装置を使用した運用が望まれている。 例えば、 クラスタと呼ばれる独立した筐体に収められている処理装置を複数 個、 接続して使用する形態が多くなつてきている。 (一つのクラス 夕には、 複数の C P Uを有することもある。 ) このような複数のク ラスタの普及に伴い、 いずれかのクラス夕の障害発生時に処理の引 継ぎを効率的に実現することが望まれている。 発明の開示
本発明は、 これらの問題を解決する、 改良された有用な業務引継 システムを提供することを総括的な目的としている。
本発明のより詳細な目的は、 ホッ トスタ ンバイの形態やロー ドシ エアの形態で複数の処理装置により業務処理の実行を行うシステム において、 特に多大なプログラ ミ ングを必要とせずに障害発生時の 効率的な引き継ぎができるような業務引継システムを提供すること である。
上述の目的を達成するため、 本発明は、 複数の処理装置により業 務に係る処理をホッ トス夕 ンバイの形態にて行うシステムにおいて、 各処理装置が業務についての現用系であるか待機系であるかを表す テーブルを記憶する記憶手段と、 業務についての現用系である処理 装置の障害発生時に、 該障害が発生した処理装置における業務に係 る処理を、 前記記憶部内のテーブルを参照して当該業務の待機系と なる処理装置に引き継ぐ手段とを備えた業務引継システムとなる。
このようなシステムによれば、 ホッ トス夕ンバイの形態にてある 業務を複数の処理装置において行うシステムにおいて、 各処理装置 が業務についての現用系であるか待機系であるかを表すテーブルを 直接参照することによって障害発生に係る現用系の処理装置での業 務処理を待機系の処理装置引き継ぐようにしているため、 引き継ぐ べき処理装置を特定するためのアルゴリズムが簡単になり、 特に大 きなプログラムの構築を必要とせずに効率的に業務の引き継ぎが行 われる。
また、 上記の課題を解決するため、 本発明は、 複数の処理装置に より業務に係る処理をロー ドシェアの形態にて行う システムにおい て、 各処理装置が当該業務に係る処理を分担する割合を表すテープ ルを記憶する記憶手段と、 処理装置の障害発生時に、 上記記憶手段 に記憶されたテーブルを参照して、 該障害が発生した処理装置に分 担された割合の業務を他の処理装置が引き継ぐ手段とを備えた業務 引継システムとなる。
このようなシステムによれば、 ロー ドシェアの形態にてある業務 を複数の処理装置において行うシステムにおいて、 各処理装置が当 該業務に係る処理を分担する割合を表すテーブルを直接参照するこ とによって障害発生に係る処理装置に分担された割合の業務処理を 他の処理装置引き継ぐようにしているため、 引き継ぎに関する処理 が簡単になり、 特に大きなプログラムの構築を必要とせずに効率的 に業務の引き継ぎが行われる。
更に、 上記課題を解決するため、 本発明は、 複数の処理装置によ り複数の業務に係る処理をホッ トス夕 ンバイの形態及びロー ドシェ 了の形態にて行うシステムにおいて、 ホッ 卜スタンバイの形態にて 処理すべき業務と口— ドシ アの形態にて処理すべき業務の各処理 装置に対する割付の有無を表すと共に、 ホッ トスタ ンバイの形態に て処理すべき業務が割り付けられる場合にその業務についての現用 系であるか待機系であるかを表すテーブルを記憶した記憶手段と、 上記複数の処理装置のいずれかでの障害発生時に、 上記記憶手段に 記憶されたテーブルを参照して、 該障害か発生した処理装置に割り 付けられた業務のうちホッ トスタンバイの形態にて処理すべき業務 に係る処理を当該業務についての待機系となる処理装置に引き継ぎ、 口一 ドシェアの形態にて処理すべき業務に係る処理を当該業務が割 り付けられた他の処理装置にて引き継ぐ手段とを備えた業務引継シ ステ厶となる。
このようなシステムによれば、 ホッ トスタ ンバイの形態及び口一 ドシェアの形態が混在して複数の業務を複数の処理装置において行 う システムにおいて、 ホッ トスタ ンバイの形態にて処理すべき業務 とロ ー ドシェアの形態にて処理すべき業務の各処理装置に対する割 付の有無を表すと共に、 ホッ トスタ ンバイの形態にて処理すべき業 務が割り付けられる場合にその業務についての現用系であるか待機 系であるかを表すテーブルを直接参照することによって障害発生に 係る処理装置での業務処理を他の処理装置で引き継ぐようにしてい るため、 業務引き継ぎに関する処理が簡単となり、 特に大きなプロ グラムの構築を必要とせずに効率的に業務の引き継ぎか行われる。
図面の簡単な説明
本発明の他の目的、 特徴及び利点は添付の図面を参照しながら以 下の詳細な説明を読むことにより一層明瞭となるであろう。
図 1 は、 本発明のシステム構成図である。
図 2は、 本発明の実施例に係るシステムのハー ドウエア構成を示 すブロッ ク図である。
図 3は、 図 2に示すシステムの動作説明図である。
図 4 A、 図 4 B、 図 4 Cは、 図 2に示すシステムでの処理に用い られる各クラス夕の運用状態管理テーブルの例である。
図 5 A、 図 5 Bは、 図 2に示すシステムでの処理に用いられるグ ロ ーバル処理表の例である。
図 6は、 図 2に示すシステムでの処理に用いられる振分テーブル 例である。
発明を実施するための最良の形態
まず、 図 1 を参照して本発明の実施例に係るシステムの原理につ いて説明する。 図 1 において、 各クラスタ 1、 2、 3 (以下、 夫々を適宜単にク ラス夕 1 1 という) は、 前述したように、 独立した筐体に収められ ている処理装置であり、 各種業務に係る処理を行う。 ここでは、 ク ラスタ 1 1 は、 業務引継手段 1 2、 および各種業務 1 3、 1 4など から構成されるものである。
業務引継手段 1 2は、 他のクラス夕 1 1 に障害発生したときにそ の業務を引き継ぐなどするものである。 業務 1 3、 1 4は、 複数の 端末に各種業務を提供するものである。
運用状態管理テーブル 2 1 は、 クラス夕の運用状態を管理するも のである。 グロ一バル処理テーブル 2 2は、 業務を引き継ぐときに 使用する資源の獲得や引継ぎの処理などを行うためのものである。 振分テーブル 2 3は、 口一 ドシヱァのときの業務単位のクラス夕へ の負荷分散割合を設定するものである。
次に、 動作を説明する。
クラスタ 1 1内の業務引継手段 1 2が他の複数のクラス夕 1 1 の いずれかの障害発生時に、 運用状態管理テーブル 2 1 を参照して障 害発生クラス夕のホッ 卜スタンバイの現用系の業務について、 自ク ラス夕かその業務のホッ トスタンバイの待機系のクラスタであつた と判明したときにグローバル処理表 2 2をもとに当該業務を引き継 いだり、 あるいはロー ドシェアの業務について、 自クラス夕がその 業務のロー ドシェアのクラスタと判明したときにグロ一バル処理テ —ブル 2 2をもとに当該業務を引き継いだりするようにしている。 この際、 複数のクラス夕 1 1 のいずれかの障害発生時に、 運用状 態管理テーブル 2 1 を参照して障害発生クラス夕 1 1 の業務がホッ トスタンバイの現用系のときにその業務のホッ トスタンバイの待機 系のクラス夕 1 1 のうち最初に引継ぎ処理を開始したクラス夕 1 1 あるいは優先順位の最も高いクラス夕 1 1 のみが業務を引継ぐよう にすることができる。
また、 複数のクラスタ 1 1 のいずれかの障害発生時に、 運用状態 管理テーブル 2 1を参照して障害発生クラス夕の業務が口一 ドシェ ァのときにその業務の口一 ドシェアの他のクラス夕 1 1 のうち最初 に引継ぎ処理を開始したクラス夕 1 1 あるいは優先順位の最も高い クラスタ 1 1 が引継ぎ処理を行うようにすることができる。
また、 引継ぎ処理として、 口一 ドシェアのクラス夕 1 1 あるレ、は クラス夕 1 1 内の業務タスクの多重度を変更する処理を含むことが できる。
また、 引継ぎ処理として、 ロー ドシェアの各クラスタ 1 1 の負荷 分散割合を振分テーブル 2 3をもとに変更するようにしている。 従って、 ホッ トスタンバイおよびロー ドシェアが混在するシステ 厶において、 障害発生時にテーブルを参照して障害発生したクラス 夕 1 1 の業務をホッ トス夕ンバイのクラスタ 1 1 が早いもの勝ちな どで引き継ぐと共にロー ドン ァのクラス夕 1 1 の業務毎の負荷分 散を動的変更することにより、 障害発生時の処理を簡単かつクラス 夕 1 1 の効率的な運用を実現すると共にクラス夕の自由な配置を実 現することが可能となる。
次に、 図 1及び図 2から図 6を参照して本発明の実施例に係るシ ステムの構成およびその動作を順次詳細に説明する。
図 2は、 本発明の実施例に係るシステムのハ一 ドウエア構成を示 す構成図を示す。
図 2において、 複数のクラス夕 1、 2、 3 (処理装置) がバスに 接続されている。 各クラス夕 1、 2、 3は、 外部記憶装置としての システムメモリュニッ ト (Sys t em S t orage Un i t : S S U ) 1 0 0 とディスク装置 1 2 0を共有している。 各クラスタ 1、 2、 3は、 バスを介して通信制御装置 1 5 0 と接続されており、 この通信制御 装置 1 5 0が所定の通信回線を介して、 各クラス夕 1 、 2、 3 と端 末装置 2 0 0 との間の種々の業務に関する通信制御を行う。
各クラス夕 し 2、 3は夫々、 図 1 に示すクラス夕 1、 2、 3に 対応しており、 上記通信制御装置 1 5 0及び回線を介して複数の端 末装置 2 0 0に各種業務に関するサービスを提供などを行うもので あって、 前述したように、 図 1 に示すような業務引継手段 1 2、 お よび各種業務 1 3、 1 4などから構成される。 また、 図 1 に示す運 用状態テーブル 2 1、 グローバル処理テーブル 2 2及び振分テープ ル 2 3は、 ディスク装置 1 2 0に格納され、 各クラス夕 1、 2、 3 がディスク装置 1 4 0に格納された各テーブルを共通的に利用でき るようになっている。 なお、 各クラスタ 1、 2、 3において、 特に、 高速なテーブル参照処理を要する場合には、 上記各テーブル 2 1 、 2 2、 2 3はシステムメモリユニッ ト 1 0 0に格納される。
各クラス夕 1、 2、 3が有する業務引継手段 1 2は、 他のクラス 夕で障害が発生したときにその業務を引き継ぐための機能である (図 3参照) 。 また、 各クラス夕 1 、 2、 3には、 図 1 に示すよう に業務 1 3、 1 4が割り当てられており、 複数の端末装置 2 0 0に 対して各種業務 1 3、 1 4に関するサービスが各クラスタから提供 されるようになつている。 この業務 1 3、 1 4は、 銀行での業務を 例にとると、 例えば、 勘定系の預金業務、 為替業務、 あるいは融資 業務などである。 この実施例では、 業務 1 3は、 ホッ トスタ ンバイ の形態にて処理される業務 Aであり、 業務 1 4は、 ロー ドシェアの 形態にて処理される業務 Bである。 更に、 クラス夕 1 力く、 ホッ トス 夕ンバイの形態にて処理すべき業務 Aについての現用系に定められ、 他のクラスタ 2、 3が当該業務 Aについての待機系に定められてい る (図 1 参照) 。 また、 業務 Bについては、 各クラス夕 1 、 2、 3 が口一 ドシヱァの形態にてその業務を行うように定められている (図 1 参照) 。
運用状態管理テーブル 2 1 は、 各クラス夕の運用状態を管理する ものであって、 業務単位にホッ トスタンバイの現用系、 ホッ トス夕 ンバイの待機系、 ロー ドシェアの現用系、 およびグローバル処理表 (引継ぎ用) を関連づけて設定したものである (図 4 A、 図 4 B、 図 4 C参照) 。 グローバル処理テーブル 2 2は、 業務が使用する資源、 実行する 処理などを設定したものである (図 5 A、 図 5 B参照) 。
振分テーブル 2 3は、 ロー ドシェアのときの業務単位のクラス夕 への負荷分散割合を設定するものである (図 6参照) 。
次に、 図 3に示す順序に従い、 上記システムの動作を図 4 A乃至 図 6を用いて詳細に説明する。
図 3は、 動作説明図を示す。 図 3におけるクラスタ 1、 2、 3は、 図 1及び図 2におけるクラスタ 1 、 2、 3に対応する。
各クラス夕 1 、 2、 3は、 周期的に電文を交換してその応答の有 無を相互に監視をしている。 図 2に示すように、 例えば、 クラスタ 1 か何らかの障害によってダウン (動作を停止) した (S 1 ) 場合、 他のクラス夕 2、 3は次のような動作を行う。
他のクラスタ 2、 3は、 夫々のタイ ミ ングにて、 クラスタ 1 に電 文を送信してから、 所定時間経過 (タイムオーバ) してもその応答 がないことを検出すると (S 2、 S 2 2 ) 、 クラス夕 1 に何らかの 障害が発生したことを認識する (S 3、 S 2 3 ) 。 以下、 クラス夕 2及びクラスタ 3は同様の業務の引き継ぎに関する処理を実行する ため、 例えば、 クラスタ 2での処理を説明する。
クラス夕 2は、 クラス夕 1 で障害が発生したことを認識すると ( S 3 ) 、 図 4 Aに示すようなこのダウンしたクラスタ 1 の運用状 態管理テーブル 2 1 を参照してそのクラスタ 1 に割り付けられた業 務を抽出する ( S 4 ) 。 そして、 その抽出された業務が終了してい るか否かを判別する (S 5 ) 。 Y E Sの場合には、 終了する。 N O の場合 (まだ終了していない業務である場合) には、 次のステップ S 6に進む。
抽出された業務がまだ終了していない場合 (S 5で N O ) 、 更に、 クラス夕 1 の運用状態管理テーブル 2 1 (図 4 A参照) を参照して その業務が口一 ドシェアの形態にて処理されるべきものであるか否 かが判別される (S 6 ) 。 Y E Sの場合には、 ロー ドン ァの形態 9 にて処理すべき業務であると判明したのでステップ S 1 2に進み、 ロー ドシェアの形態にて処理すべき業務の引き継ぎ処理を実行する。 一方、 NOの場合には、 ホッ トスタンバイの形態にて処理すべき業 務であると判明したので、 ステップ S 7に進む。
ステップ S 7では、 更に、 クラスタ 1 の運用状態管理テーブルを 参照して、 クラスタ 1 がその業務の現用系として定められていたか 否かが判定される。 クラスタ 1がその業務の待機系として定められ ていた場合 (S 7、 NO) 、 その業務については引き継ぎ必要がな いので、 ステップ S 4に戻って、 更に、 障害の発生したクラス夕 1 に割り付けられていた業務の抽出を行い、 上記と同様の手順での処 理を行う。
一方、 障害の発生したクラス夕 1 がその業務の現用系として定め られていた場合 (S 7、 YE S) 、 クラス夕 2は、 図 4 Bに示すク ラス夕 2の運用状態管理テーブル 2 1 を参照して、 自クラスタ (ク ラス夕 2 ) が上記障害発生のクラスタ 1 が現用系として定められた その業務の待機系として定められているか否かを判定する (S 7 0 ) 。 そして、 その業務の待機系として定められていなければ、 ク ラスタ 2はその業務について引き継ぐ必要かないので、 ステツプ S 4に戻って、 更に、 障害の発生したクラス夕 1 に割り付けられてい た業務の抽出を行い、 上記と同様の手順での処理を行う。
一方、 クラス夕 2がその業務についての待機系として定められて いた場合 (S 7 0、 Y E S) 、 ステップ S 8乃至すステップ S 1 1 の手順に従って業務の引継ぎ処理を行う。
まず、 ステップ S 8において、 排他の獲得要求がだされる。 ステ ップ S 9において、 その排他の獲得要求に対して排他が取れるか否 かが判別される。 YE Sの場合には、 0 Sの制御表が書き替えられ て排他の取得がなされる。 ここでは、 排他を取れるクラスタは、 最 も速く排他を獲得するクラス夕 (クラス夕 2またはクラス夕 3 ) で あって、 最も負荷の低いクラスタである。 この最も負荷の低いクラ ス夕のみが、 ダウンしたクラスタの業務の引継ぎ処理を行うことと なる。 なお、 排他の取得がなされない場合、 その業務の引き継ぎを 行う必要はなく、 ステップ S 4に戻って、 更に、 障害の発生したク ラス夕 1 に割り付けられていた業務の抽出を行い、 上記と同様の手 順での処理を行う。
上記のようにして、 例えば、 クラスタ 2が排他を擭得すると、 ス テツプ S 1 0にて、 制御表の書換えを行う。 これは、 図 4 Bに示す クラスタ 2の運用状態管理テーブル 2 1 の該当する業務の状態が例 えば "待機系" から "引継中" 、 更に引継ぎ処理が終了した時点で "現用系" に書換えられる。
更に、 ステップ S I 1 において、 図 5 Aに示すグロ一バル処理表 に従い、 資源の獲得が行われる。 これは、 該当する図 4 Aに示すグ ローバル処理表 (ホッ トスタンバイ) 2 2 に従い、 引継ぎ処理とし て、 資源の獲得 (必要なデータベース資源、 ネッ トワーク資源、 各 種テーブル、 ハー ド資源などを獲得) および処理 ( 卜 ラ ンザクショ ンリ力バリ、 起動通知、 比率 (タスク多重度) の変更 (口一 ドシェ ァ) 、 電文振分け比率 (負荷 : ロー ドシェア) などの処理) が行わ れる。
上記のようにして、 引き継ぎ処理が終了すると、 ク ラス夕 2は、 クラス夕 1 から引き継いだ業務について実際の運用を継続する (S 1 5 ) o
以上のステップ S 1 乃至 S 1 1 、 およびステップ S 1 5によって、 クラスタ 1 がダウンしたときに、 運用状態管理テーブル 2 1 を参照 して行われる引き継ぎの処理の開始の最も早い (排他を取得した) クラス夕 2がクラス夕 1 の実行していたホッ トス夕ンバイの形態で 処理すべき業務 (業務 A ) を引き継ぐ。
一方、 上述したように抽出した業務が口一 ドシ Xァの形態で行う べきものであると判定されると (S 6、 Y E S ) 、 処理はステップ S 1 2に移行され、 制御表の書換えが行われる。 これは、 ダウンし たクラスタ 1 の実行していた業務と同じクラス夕 2の業務が口一 ド シェアと判明したので、 残りのクラス夕 1 1 で業務を行うように運 用状態管理テーブル 2 1 を書き替える (ロー ドシェアの該当する業 務の状態を例えば "現用系" から "引継中" 、 更に引継ぎ処理が終 了した時点で "現用系" に書換える) 。
その後、 ステップ S 1 3において、 グロ一バル処理表に従い、 資 源の獲得が行われる。 即ち、 上記のように運用状態管理テーブル 2 1 の該当する業務の伏態が "現用系" に書き替えられた後、 図 5 A に示すグロ一バル処理表 (ロー ドンヱァ) 2 2に従い、 引継ぎ処理 として、 資源の獲得 (必要なデータベース資源、 ネッ 卜ワーク資源、 各種テーブル、 ハー ド資源などを獲得) か行われる。
ステップ S 1 では、 図 6に示す振分テーブル 2 3の更新が行わ れると共に、 図 5 Bに示すグローバル処理表上で未処理となるクラ ス夕 1 の電文の処理が行われる。 即ち、 この場合、 ダウンしたクラ ス夕 1 の業務がロー ドシニアの形態にて処理されるべきものであつ たので、 クラス夕 2は、 ダウンしたクラス夕 1 の負荷分担割合を他 のクラス夕 3 と再分担すべく 自クラス夕の当該業務についての負荷 分担割合を決定する。 そして、 振分テーブル 2 3のロー ドシヱァの 形態で行うべき業務 Bの当該クラス夕 2に対する負荷分担割合を更 新する。 なお、 クラスタ 3でも同様の手順によって振分テーブル 2 3の当該業務 Bのクラス夕 3に対する負荷分担割合の更新も行われ る (図 6参照) 。 また、 図 5 Bのグロ一バル処理表 2 2にて管理さ れるダウンしたクラスタ 〗 の未処理の電文の処理がリカバリ処理と して実行される。 なお、 リカバリ処理された電文はグローバル処理 表 2 2において処理済の電文として管理される。
以後、 クラスタ 2及びクラスタ 3力 新たな負荷分担割合に更新 された振分テーブル 2 3に従って業務 Bについての処理をロー ドシ エアの形態にて実行する (S 1 5 ) 。
以上のステップ S 1 乃至ステップ S 5、 更にステップ S 6での Y E Sの判断からステツプ S 1 2乃至ステップ S 1 5での処理によつ て、 クラスタ 1 がダウンしたときに、 クラスタ 2、 3か運用状態管 理テーブル 2 1 を参照してクラス夕 1 が実行していた業務 (業務 B ) がロー ドシ アの形態にて処理すべきものであると判定した場 合、 ダウンしたクラスタ 1 に対する当該業務の負荷分担割合が他の クラス夕 2、 3に振り分けられるように振分テーブル 2 3が更新さ れる。 そして、 その更新された振分テーブル 2 3に従った負荷割合 でその業務の引き継ぎがが行われと共に未処理の業務は別途リカバ リされる。
これらにより、 運用状態管理テーブル 2 1 、 グローバル処理表 2 2、 および振分テーブル 2 3に予めロー ドシ アの業務単位に設定 するのみで、 いずれかのクラス夕がダウンした時に業務単位に口一 ドシェアの業務引継ぎを自動的に行うことが可能となる。
上述う したようなステップ S 1 乃至ステップ S 1 5の全体の処理 によって、 ホッ トス夕バンィの形態あるいはロー ドシェアの形態で 実行する業務が混在しても、 運用状態管理テーブル 2 1 、 グロ—バ ル処理表 2 2、 および振分テーブル 2 3に予め業務単位にホッ 卜ス 夕ンバイの形態における現用系/待機系、 ロー ドシェアの情報を設 定するのみで、 クラス夕 1 1 かダウンしても自動的に該当する他の クラスタにて業務を引き継ぐことが可能となる。
以下、 上記処理にに用いられた各テーブルについて更に詳細に説 明する。
図 4 A、 図 4 B、 図 4 Cは、 上記システムでの処理に用いられる 各クラス夕の運用状態管理テーブルの例を示す。
図 4 Aはクラス夕 1 の運用状態管理テーブル例を示す。 クラスタ 1 の運用状態管理テーブル 2 1 は、 例えば図示の下記のように業務 に対応づけて設定する。 番号 業務 種別 現用 Z待機 グローバル処理表 1 業務 A H S 現用 グローバル処理表 (引継用)
2 業務 B L S 現用 グロ—バル処理表 (引継用)
H S : ホッ トスタ ンバイ L S : ロー ドシェア ここで、 番号はシーケンシャルの番号であって、 例えば 3 2 まで 登錄できる。 業務はクラスタ 1 で実行する業務であって、 例えば勘 定系の預金業務、 為替業務、 融資業務などであり、 業務単位に種別、 現用/待機などを設定するためのものである。 現用/待機はクラス 夕 1 で業務が現用か待機のいずれかを設定するためのものである (尚、 待機の場合には、 現用のクラス夕かダウンしたときは現用に 変更される) 。 グロ一バル処理表は業務を引継ぐときに必要な資源 の獲得や処理を指定したものである。
図 4 Bはクラス夕 2の運用状態管理テーブル例を示す。 クラスタ 2の運用状態管理テーブル 2 1 は、 例えば図示の下記のように業務 に対応づけて設定する。
番号 業務 種別 現用 Z待機 グ α—バル処理表
1 業務 A H S 待機 グローバル処理表 (引継用)
2 業務 B L S 現用 グローバル処理表 (引継用)
H S : ホッ トスタンバイ L S : ロー ドシェア 図 4 Cはクラスタ 3の運用状態管理テーブル例を示す。 クラス夕 3の運用状態管理テーブル 2 1 は、 例えば図示の下記のように業務 に対応づけて設定する。
番号 業務 種別 現用ノ待機 グ^一バル処理表
1 業務 A H S 待機 グローバル処理表 (引継用)
2 業務 B L S 現用 グローバル処理表 (引継用)
H S : ホッ トスタ ンバイ L S : ロー ドシェア
以上の図 4 A、 図 4 B、 図 4 Cに示すようにクラス夕 1、 2、 3 の運用状態管理テーブル 2 1 を設定することにより、 図 1、 図 2に 示すクラスタ 1 、 2 、 3内の業務 A、 業務 Bについて記載したよう な状態 (ホッ トスタ ンバイの現用/待機、 ロ ー ドシヱァの現用) で 各クラスタの業務が運用され、 いずれかのクラスタに障害発生時に 既述した図 3の手順に従い、 業務単位にホッ 卜スタ ンバイの待機系 のクラス夕、 あるいは口 一 ドシェアの現用のクラス夕がそれぞれ業 務を引き継ぐように自動的に動作させることか可能となる。
図 5 A、 図 5 Bは、 上記システムに用いられるグローバル処理表 の例を示す。
図 5 Aは、 グロ一バル処理表 (ホッ 卜スタ ンバイ) の例を示す。 このグロ一バル処理表 (ホッ 卜スタ ンバイ) 2 2 は、 図示のような 資源の確保、 および処理を行う。 内容 詳細
資源の確保 データベース
ネ ッ トワーク資源
各種テーブル
ハー ド資源
処理 トランザグシヨ ンリカバリ
起動通知
比率 (タスク多重度) の変更 (ロー ドシェア) 電文振分比率 (負荷 : ロー ドシェア) ここで、 資源の確保として、 デ一夕ベースについては当該データ ベースに関する情報を確保して当該デ一夕ベースを業務からァクセ スできるようにすることである。 ネッ トワーク資源の確保は、 ネッ トワークに関する資源 (例えばァ ドレスなど) を確保し、 相互に通 信可能にすることである。 各種テーブルの確保は、 各種テーブルの 領域を確保したりその内容を設定したすることである。 ハー ド資源 は、 業務に使用する資源 (例えばプリ ン夕装置やメモリなど) を確 保することである。 また、 処理として、 トランザクショ ンリカバリ は、 例えば図 5 Bに示すグロ一バル処理表 (ロー ドシェア) 2 2上 で、 ダウンしたクラス夕の未処理の電文の処理を行い、 リカバリす ることである。 起動通知は、 業務を引き継いだクラス夕が、 業務の 運用を再開し、 その旨の起動通知を行うことである。 比率 (タスク 多重度) の変更 (ロー ドシヱァ) は、 複数のクラスタかある業務に ついて負荷分散して実行している口一 ドシヱァの状態のときに、 ク ラス夕内のタスクの多重度を変更することである (尚、 タスクの多 重度の替わりにクラスタの多重度を変えるようにしてもよい) 。 電 文振分比率 (負荷 : ロー ドシェア) は、 複数のクラス夕がある業務 について負荷分散して実行している口一 ドシヱァの状態のときに、 振り分ける電文の割合を変更 (負荷割合を変更) することである。 以上のように、 グローバル処理表 2 2を設けて資源の確保、 およ び処理を設定することにより、 ホッ トス夕ンバイの待機系のクラス 夕が業務を引き継ぐときに自動的に業務処理に必要な資源を獲得、 および引継ぎのための処理を実行することが可能となる。
図 5 Bは、 グローバル処理表 (ロー ドシェア) の例を示す。 これ は、 ロー ドシェアの状態のもとでクラスタ 1 、 2、 3が電文を受信 し、 その処理状態を格納したものである。 未処理の電文については、 業務の引継ぎ処理中のトランザクショ ンリカバリによってクラスタ が処理を行う。
図 6は、 本発明の振分テーブル例を示す。 この振分テーブル 2 3 は、 ロー ドシェアでクラス夕が業務を実行している伏態で、 あるク ラス夕がダウンしたときに他のクラスタに負荷を振り分ける比率を 変更するためのものである。 例えばロー ドシヱァで業務 Bを
業務名 クラス夕 1 クラス夕 2 クラス夕 3
業務 B 3 3 4
の割合でそれぞれ負荷分散していた場合、 クラスタ 1 かダウンする と、 業務名 クラス夕 1 クラス夕 2 クラス夕 3
業務 B - 5 5
の割合でそれぞれの負荷分散の比率を自動的に変更するためのもの である。
以上説明したように、 本発明によれば、 ホッ トスタンバイおよび 口一 ドシヱァが混在するシステムにおいて、 障害発生時にテーブル を参照して障害発生したクラス夕の業務をホッ 卜スタンバイのクラ ス夕が早いもの勝ちなどで引き継ぐと共にロー ドシェアのクラス夕 の業務毎の負荷分散を動的変更したりする構成を採用しているため、 障害発生時の処理の設計を簡単かつク ラス夕の効率的な運用を行う ことができると共にクラス夕を自由に配置することができる。
本発明は、 具体的に開示された実施例に限定されるものではなく、 ク レームされた本発明の範囲から逸脱することなく、 種々の変形例 や実施例が考えられる。

Claims

請求の範囲
1 . 複数の処理装置 ( 1 1 ) により業務に係る処理をホッ トス夕 ンバイの形態にて行う システムにおいて、
各処理装置 ( 1 1 ) が業務についての現用系であるか待機系であ るかを表すテーブル ( 2 1 ) を記憶する記憶手段 ( 1 0 0、 1 2 0 ) と、
業務についての現用系である処理装置 ( 1 1 ) の障害発生時に、 該障害が発生した処理装置 ( 1 1 ) における業務に係る処理を、 前 記記憶手段 ( 1 0 0、 1 2 0 ) に記憶されたテーブル ( 2 1 ) を参 照して当該業務の待機系となる処理装置に引き継ぐ手段 ( S 2 - S 1 1 ) とを備えたことを特徴とする業務引継
2. 複数の処理装置 ( 1 1 ) により業務に係る処理をロー ドシェ ァの形態にて行うシステムにおいて、
各処理装置か当該業務に係る処理を分担する割合を表すテーブル ( 2 3 ) を記憶する記憶手段 ( 1 0 0、 1 2 0 ) と、
処理装置 ( 1 1 ) の障害発生時に、 上記記憶手段 ( 1 0 0、 1 2 0 ) に記憶されたテーブル ( 2 3 ) を参照して、 該障害が発生した 処理装置に分担された割合の業務を他の処理装置か引き継ぐ手段 (S 2 - S 6、 S 1 2 - S 1 ) とを備えたことを特徴とする業務 引継システム。
3. 複数の処理装置 ( 1 1 ) により複数の業務に係る処理をホッ トス夕ンバイの形態及びロー ドシェアの形態にて行うシステムにお いて、
ホッ トス夕ンバイの形態にて処理すべき業務と口一 ドシェアの形 態にて処理すべき業務の各処理装置 ( 1 1 ) に対する割付の有無を 表すと共に、 ホッ トスタンバイの形態にて処理すべき業務が割り付 けられる場合にその業務についての現用系であるか待機系であるか を表すテーブル ( 2 1 ) を記憶した記憶手段 ( 1 0 0、 1 2 0 ) と、 上記複数の処理装置 ( 1 1 ) のいずれかでの障害発生時に、 上記 記憶手段 ( 1 0 0、 1 2 0 ) に記憶されたテーブル ( 2 1 ) を参照 して、 該障害が発生した処理装置に割り付けられた業務のうちホッ トス夕ンバイの形態にて処理すべき業務に係る処理を当該業務につ いての待機系となる処理装置に引継ぎ、 ロー ドシヱァの形態にて処 理すべき業務に係る処理を当該業務が割り付けられた他の処理装置 にて引き継ぐ手段 (S 2 — S 1 4 ) とを備えたことを特徴とする業 務引継システム。
4. クレーム 1 または 3記載の業務引継システムにおいて、 各処理装置 ( 1 1 ) は、 他の処理装置での障害発生を検出する障 害発生検出手段 (S 2、 S 3 ) と、
該障害発生検出手段 (S 2、 S 3 ) が他の処理装置での障害を検 出したときに、 記憶手段 ( 1 0 0、 1 2 0 ) に記憶されたテーブル ( 2 1 ) を参照して、 自処理装置が障害の発生した当該他の処理装 置の業務についての待機系として定められているか否かを判定する 判定手段 (S 7、 S 7 0 ) と、
自処理装置が当該業務についての待機系として定められていると 判定されたときに、 障害の発生した当該他の処理装置の業務に係る 処理を引き継ぐ手段 (S 8 — S 1 1 ) とを備えたことを特徴とする 業務引継システム。
5. クレーム 2または 3記載の業務引継システムにおいて、 各処理装置 ( 1 1 ) は、 他の処理装置での障害発生を検出する障 害発生検出手段 (S 2、 S 3 ) と、
該障害発生検出手段 ( S 2、 S 3 ) が他の処理装置での障害を検 出したときに、 記憶手段 ( 1 0 0、 1 2 0 ) に記憶されたテーブル ( 2 1 ) を参照して、 自処理装置が障害の発生した当該他の処理装 置の業務について口一 ドシヱァの形態にて処理を行う ものか否かを 判定する判定手段 (S 6 ) と、
自処理装置が当該業務についてロー ドシエアの形態にて処理を行 う ものであると判定されたときに、 障害の発生した当該他の処理装 置の業務に係る処理を引き継ぐ手段 (S 1 2 - S 1 4 ) とを備えた ことを特徴とする業務引継システム。
6. クレーム 4または 5記載の業務引継システムにおいて、 障害の発生した当該他の処理装置の業務に係る処理を引き継ぐた めの処理を最初に開始した処理装置または優先順位の最も高い処理 装置が当該業務に係る処理を引き継ぐようにした業務引継システム。
7. ク レーム 2または 3記載の業務引継システムにおいて、 上記引継ぎのための処理として、 ロー ドシヱァの形態にて業務に 係る処理を行う処理装置内の業務タスクの多重度を変更する処理を 含むことを特徴とする業務引継システム。
8. 複数の処理装置 ( 1 1 ) により業務に係る処理をホッ トス夕 ンバイの形態にて行うシステム内において、 ある処理装置にて障害 が発生したときにその処理装置における業務に係る処理を引き継ぐ ための処理を他の処理装置にて行わせるためのプログラムを記憶し た記憶媒体において、 該プログラムは、
業務についての現用系である処理装置 ( 1 1 ) の障害発生時に、 該障害が発生した処理装置 ( 1 1 ) における業務に係る処理を、 各 処理装置 ( 1 1 ) が業務についての現用系であるか待機系であるか を表すテーブル (2 1 ) を参照して当該業務の待機系となる処理装 置に引き継ぐ手段 (S 2— S 1 1 ) を備えたことを特徴とする記憶 媒体。
9 . 複数の処理装置 ( 1 1 ) により業務に係る処理を口— ドシェ ァの形態にて行うシステムにおいて、 ある処理装置にて障害が発生 したときにその処理装置における業務に係る処理を引き継ぐための 処理を他の処理装置にて行わせるためのプログラムを記憶した記憶 媒体において、 該プログラムは、
処理装置 ( 1 1 ) の障害発生時に、 各処理装置が当該業務に係る 処理を分担する割合を表すテーブル ( 2 3 ) を参照して、 該障害が 発生した処理装置に分担された割合の業務を他の処理装置が引き継 ぐ手段 (S 2— S 6、 S 1 2— S 1 4 ) を備えたことを特徴とする 記憶媒体。
1 0 . 複数の処理装置 ( 1 1 ) により複数の業務に係る処理をホ ッ トスタンバイの形態及びロー ドシェアの形態にて行うシステムに おいて、 ある処理装置にて障害が発生したときにその処理装置にお ける業務に係る処理を引き継ぐための処理を他の処理装置にて行わ せるためのプログラムを記憶した記憶媒体において、 該プログラム は、
上記複数の処理装置 ( 1 1 ) のいずれかでの障害発生時に、 ホッ トス夕ンバイの形態にて処理すべき業務と口一 ドシェアの形態にて 処理すべき業務の各処理装置 ( 1 1 ) に対する割付の有無を表すと 共に、 ホッ 卜スタ ンバイの形態にて処理すべき業務が割り付けられ る場合にその業務についての現用系であるか待機系であるかを表す テーブル ( 2 1 ) を参照して、 該障害が発生した処理装置に割り付 けられた業務のうちホッ トスタンバイの形態にて処理すべき業務に 係る処理を当該業務についての待機系となる処理装置に引継ぎ、 α ― ドシ アの形態にて処理すべき業務に係る処理を当該業務が割り 付けられた他の処理装置にて引き継ぐ手段 (S 2 - S 1 4 ) を備え たことを特徴とする記憶媒体。
PCT/JP1997/002109 1996-06-20 1997-06-19 Systeme de prise en charge de taches WO1997049034A1 (fr)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP52879497A JP3197279B2 (ja) 1996-06-20 1997-06-19 業務引継システム
KR1019980701217A KR100323255B1 (ko) 1996-06-20 1997-06-19 업무인계시스템
US09/011,737 US6219801B1 (en) 1996-06-20 1997-06-19 Work inheriting system
GB9803343A GB2319369B (en) 1996-06-20 1997-06-19 Work inheriting system
DE19780639T DE19780639C2 (de) 1996-06-20 1997-06-19 Arbeitsübernahmesystem

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP8/159787 1996-06-20
JP15978796 1996-06-20

Publications (1)

Publication Number Publication Date
WO1997049034A1 true WO1997049034A1 (fr) 1997-12-24

Family

ID=15701267

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP1997/002109 WO1997049034A1 (fr) 1996-06-20 1997-06-19 Systeme de prise en charge de taches

Country Status (6)

Country Link
US (1) US6219801B1 (ja)
JP (1) JP3197279B2 (ja)
KR (1) KR100323255B1 (ja)
DE (1) DE19780639C2 (ja)
GB (1) GB2319369B (ja)
WO (1) WO1997049034A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6219801B1 (en) 1996-06-20 2001-04-17 Fujitsu Limited Work inheriting system
JP2001251664A (ja) * 1999-10-06 2001-09-14 Lucent Technol Inc 無線通信ネットワークにおけるダイナミック負荷バランスの実行方法及び実行システム並びに無線通信ネットワークにおけるメッセージ処理システム
JP3298837B2 (ja) 1998-11-20 2002-07-08 富士通株式会社 情報処理システム
JP2011248737A (ja) * 2010-05-28 2011-12-08 Fujitsu Ltd タスク引継プログラム、処理装置及びコンピュータ・システム

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6523130B1 (en) * 1999-03-11 2003-02-18 Microsoft Corporation Storage system having error detection and recovery
US6442713B1 (en) * 1999-03-30 2002-08-27 International Business Machines Corporation Cluster node distress signal
US6446218B1 (en) 1999-06-30 2002-09-03 B-Hub, Inc. Techniques for maintaining fault tolerance for software programs in a clustered computer system
US7213167B1 (en) * 2000-01-18 2007-05-01 Verso Technologies, Inc. Redundant state machines in network elements
JP4155399B2 (ja) * 2003-03-28 2008-09-24 株式会社日立製作所 コンピュータ処理方法及びその実施システム並びにその処理プログラム
CN1292346C (zh) * 2003-09-12 2006-12-27 国际商业机器公司 用于在分布式计算体系结构中执行作业的系统和方法
US7302608B1 (en) * 2004-03-31 2007-11-27 Google Inc. Systems and methods for automatic repair and replacement of networked machines
JP5278471B2 (ja) * 2011-03-09 2013-09-04 日本電気株式会社 クラスタシステム
JP5533789B2 (ja) 2011-06-14 2014-06-25 株式会社デンソー 車載電子制御装置
CN107851055B (zh) * 2015-07-30 2021-06-29 三菱电机株式会社 程序执行装置、程序执行系统以及程序执行方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5566049A (en) * 1978-11-09 1980-05-19 Fujitsu Ltd Composite data processing unit and data processing unit
JPH0744413A (ja) * 1993-07-29 1995-02-14 Toshiba Corp コンピュータバックアップシステム
JPH07334468A (ja) * 1994-06-07 1995-12-22 Toshiba Corp 負荷分散方式

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5774642A (en) * 1990-08-09 1998-06-30 Bull S.A. Architecture for dynamic service processor exchange providing multitasking environment where multiple processors have access to a system configuration table
JPH04271454A (ja) 1991-02-27 1992-09-28 Toshiba Corp 疎結合計算機システム
JP3345626B2 (ja) * 1994-09-29 2002-11-18 富士通株式会社 マルチプロセッサシステムにおけるプロセッサ異常対策装置およびマルチプロセッサシステムにおけるプロセッサ異常対策方法
US5802265A (en) * 1995-12-01 1998-09-01 Stratus Computer, Inc. Transparent fault tolerant computer system
US6219801B1 (en) 1996-06-20 2001-04-17 Fujitsu Limited Work inheriting system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5566049A (en) * 1978-11-09 1980-05-19 Fujitsu Ltd Composite data processing unit and data processing unit
JPH0744413A (ja) * 1993-07-29 1995-02-14 Toshiba Corp コンピュータバックアップシステム
JPH07334468A (ja) * 1994-06-07 1995-12-22 Toshiba Corp 負荷分散方式

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6219801B1 (en) 1996-06-20 2001-04-17 Fujitsu Limited Work inheriting system
JP3298837B2 (ja) 1998-11-20 2002-07-08 富士通株式会社 情報処理システム
JP2001251664A (ja) * 1999-10-06 2001-09-14 Lucent Technol Inc 無線通信ネットワークにおけるダイナミック負荷バランスの実行方法及び実行システム並びに無線通信ネットワークにおけるメッセージ処理システム
JP2011248737A (ja) * 2010-05-28 2011-12-08 Fujitsu Ltd タスク引継プログラム、処理装置及びコンピュータ・システム

Also Published As

Publication number Publication date
JP3197279B2 (ja) 2001-08-13
GB2319369B (en) 2000-10-25
DE19780639C2 (de) 2003-12-04
DE19780639T1 (de) 1998-07-02
KR100323255B1 (ko) 2002-03-08
US6219801B1 (en) 2001-04-17
GB9803343D0 (en) 1998-04-15
GB2319369A (en) 1998-05-20
KR19990043986A (ko) 1999-06-25

Similar Documents

Publication Publication Date Title
US7340637B2 (en) Server duplexing method and duplexed server system
US7225356B2 (en) System for managing operational failure occurrences in processing devices
US8032786B2 (en) Information-processing equipment and system therefor with switching control for switchover operation
US20070198709A1 (en) OPC server redirection manager
US7389367B2 (en) Method of managing I/O interface modules in a computer system
WO1997049034A1 (fr) Systeme de prise en charge de taches
CN105337780B (zh) 一种服务器节点配置方法及物理节点
US20100268687A1 (en) Node system, server switching method, server apparatus, and data takeover method
US20020147823A1 (en) Computer network system
CN111414241A (zh) 批量数据处理方法、装置、系统、计算机设备及计算机可读存储介质
CN113467873A (zh) 虚拟机的调度方法、装置、电子设备及存储介质
CN110704250A (zh) 一种分布式系统的热备份装置
JPH07168778A (ja) ネットワーク装置およびマルチプロセッサ装置
JPH11224207A (ja) マルチクラスタシステムを構成する計算機
JP4806382B2 (ja) 冗長化システム
CN107888491A (zh) Hsb备份系统及基于二层组网vrrp协议的ac双机热备方法
US6370654B1 (en) Method and apparatus to extend the fault-tolerant abilities of a node into a network
CN114564340B (zh) 航天地面系统分布式软件高可用方法
JPH04311251A (ja) マルチプロセッサシステム
JP2001027951A (ja) マルチプロセッサ構成の情報処理システムにおけるファイルロード装置と記録媒体
JP3008887B2 (ja) アプリケーションプログラム単位の現用予備切り替え機能を有するコンピュータシステム及びプログラムを記録した機械読み取り可能な記録媒体
US20050198022A1 (en) Apparatus and method using proxy objects for application resource management in a communication network
JP2002055840A (ja) 冗長構成切替システム
JPH09288589A (ja) システム・バックアップ方法
JP3860587B2 (ja) マルチプロセッサ装置

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): DE GB JP KR US

WWE Wipo information: entry into national phase

Ref document number: 1019980701217

Country of ref document: KR

RET De translation (de og part 6b)

Ref document number: 19780639

Country of ref document: DE

Date of ref document: 19980702

WWE Wipo information: entry into national phase

Ref document number: 09011737

Country of ref document: US

Ref document number: 19780639

Country of ref document: DE

WWP Wipo information: published in national office

Ref document number: 1019980701217

Country of ref document: KR

WWG Wipo information: grant in national office

Ref document number: 1019980701217

Country of ref document: KR

点击 这是indexloc提供的php浏览器服务,不要输入任何密码和下载