AI

ブライトデータのウェブ検索をVertex AIパイプラインに統合する

Bright Data の SERP API を使用して Google Vertex AI でスケーラブルなファクトチェックパイプラインを構築し、リアルタイムで信頼性の高いウェブ検索コンテキストを実現する方法をご覧ください。
6 分読
Bright Data Web Search with Vertex AI Pipelines blog image

この記事では、次のことを学びます:

  • Vertex AIパイプラインとは何か。
  • Bright Data SERP APIをパイプラインに統合してファクトチェックを行う理由。
  • 最新のウェブ検索コンテキストを取得するためにBright Data SERP APIを使用してVertex AIでファクトチェックパイプラインを構築する方法。

さっそく見てみよう!

Vertex AIパイプラインとは?

Vertex AI PipelinesはGoogle Cloud上のマネージドサービスで、エンドツーエンドの機械学習ワークフローを自動化、オーケストレーション、再現します。

このサービスは、データ処理、トレーニング、デプロイなどの複雑なMLプロセスを、追跡、バージョン管理、サーバーレス環境での実行が可能な一連のモジュラーコンポーネントに分解することを可能にします。

つまり、Vertex AI PipelinesはMLOpsのライフサイクルを簡素化し、反復可能でスケーラブルなMLシステムの構築を容易にします。

Vertex AIでファクトチェックパイプラインを構築する:その理由と方法

LLMは確かに強力だが、その知識は静的だ。そのため、2024年に訓練されたLLMは、昨日の株式市場の動きや昨夜のスポーツの結果などを全く認識していない。これは「陳腐な」あるいは「幻覚のような」返答につながる。

これに対処するには、インターネットからの最新データをLLMに「根拠づける」システムを構築すればよい。LLMが応答を生成する前に、外部情報を与え、その出力が現在の事実に基づいていることを確認する。それがRAG(検索-補強型生成)である!

現在、Geminiは、GeminiモデルをGoogle検索に接続するための接地ツールを提供している。しかし、このツールは本番環境には対応しておらず、スケーラビリティに問題があり、また、グラウンディングデータのソースを完全にコントロールすることはできません。GEO/SEOコンテンツ最適化エージェントで、このツールの動作をご覧ください。

より専門的で柔軟な代替手段は、Bright DataのSERP APIです。このAPIは、検索エンジンの検索クエリをプログラムで実行し、完全なSERPコンテンツを取得することができます。言い換えれば、LLMのワークフローに統合できる、新鮮で検証可能なコンテンツの信頼できるソースを提供します。ドキュメントを読んで、SERPが提供するすべてを発見してください。

例えば、SERP API を事実確認パイプラインの一部として Vertex AI Pipelines に統合することができます。これは3つのステップで構成されます:

  1. クエリを抽出する:LLMが入力テキストを読み、主な事実主張を特定し、Google検索可能なクエリに変換する。
  2. ウェブ検索コンテキストの取得:このコンポーネントはこれらのクエリを受け取り、Bright Data SERP APIを呼び出してリアルタイムの検索結果を取得する。
  3. ファクトチェック:LLMの最後のステップは、原文と検索された検索コンテキストを取り込み、ファクトチェックレポートを作成します。

:これは、データ/MLパイプラインにおけるSERP APIの可能な使用例の一つに過ぎません。

Bright Data のウェブ検索用の SERP API を Vertex AI パイプラインに統合する方法

このセクションでは、Vertex AIパイプラインにファクトチェックパイプラインを実装するために必要な各ステップを説明します。これはBright DataのSERP APIに依存し、APIは事実に基づいたウェブ検索のコンテキストを取得するために使用されます。

事実確認は、Vertex AIパイプラインノードでSERP APIを利用できる多くのユースケース(ニュース発見、コンテンツ要約、トレンド分析、調査支援など)の一つに過ぎないことを忘れないでください。したがって、この実装を他の多くのシナリオに簡単に適応させることができます。

以下の手順に従ってください!

前提条件

このチュートリアルのセクションに従うには、以下を確認してください:

API キーの取得方法については、Bright Data の公式ガイドに従ってください。すぐに必要になるので、安全な場所に保管してください。

ステップ #1: 新しい Google Cloud プロジェクトの作成と設定

Google Cloud Console にログインし、新しいプロジェクトを作成します。また、課金が有効になっていることを確認します(無料トライアルを使用しても問題ありません)。

この例では、Google Cloud プロジェクトを “Bright Data SERP API Pipeline” と呼び、プロジェクト ID をbright-data-pipeline とします:

Creating a new Google Cloud project

プロジェクトが作成されたら、それを選択して作業を開始します。このようなビューが表示されます:

Your Google Cloud project’s dashboard

このページでは、プロジェクト名、プロジェクト番号、プロジェクトIDを確認できます。プロジェクト番号と ID はこのチュートリアルで必要になるので、メモして安全な場所に保管してください。

Google Cloudプロジェクトの準備ができたので、次のステップは必要なAPIを有効にすることです。検索バーに「API & Services」と入力してページに到達し、「Enable APIs and services」ボタンをクリックします:

Pressing the “Enable APIs and services” button

以下のAPIを検索し、有効化する:

これら2つのAPIは、Vertex AIWorkbenchでVertex AIを使用し開発するために必要です。

注意:パイプラインは他のいくつかのAPIにも依存しており、通常はデフォルトで有効になっています。問題が発生した場合は、これらも有効になっていることを確認してください:

  • “Cloud Resource Manager API” (クラウドリソースマネージャAPI)
  • “Cloud Storage API” (クラウドストレージAPI)
  • “Service Usage API” (サービス利用API)
  • “Compute Engine API” (コンピュートエンジンAPI)
  • “ジェミニ for Google Cloud API”
  • “Cloud Logging API”

無効になっているものがあれば、手動で有効にしてから続行してください。

完了です!これでGoogle Cloudプロジェクトができました。

ステップ #2: クラウドストレージバケットのセットアップ

Vertex AI Pipelinesを実行するには、Cloud Storageバケットが必要です。Vertex AIは、パイプライン実行中に生成された中間データ、モデルファイル、ログ、メタデータなどのパイプライン成果物を保存する必要があるからです。つまり、設定されたバケットは、パイプラインコンポーネントがデータを読み書きするワークスペースとして機能する。

バケットを作成するには、Google Cloud Console で “Cloud Storage” を検索します。最初の結果を開き、左側のメニューから “Buckets” を選択し、”Create” ボタンを押す:

Locating and clicking the “Create” button

バケット作成フォームで

  • bright-data-pipeline-artifactsのように、グローバルにユニークな名前をつける。
  • 場所の種類と地域を選択します。簡単のために、”us (アメリカ合衆国の複数の地域)” を選択することをお勧めします。

作成したら、バケット名をメモしておきましょう。後でパイプラインの設定で必要になるからです。このように表示されるはずです:

Your Google Cloud Storage bucket page

この場合、バケット名は

bright-data-pipeline-artifacts です。 

バケットURIは

gs://bright-data-pipeline-artifacts です。

us” マルチリージョンを選択したので、サポートされているus-*リージョンであればどこからでもこのバケツにアクセスできます。これには、us-central1us-east1、…、us-west1…などが含まれます。us-central1 を設定することを推奨します。

次に、Vertex AI にバケット内のデータの読み書き権限を与える必要があります。バケット名をクリックして詳細ページを開き、”Permissions” タブを開きます:

アクセス許可(Grant access) “ボタンをクリックし、以下のように新しいアクセス許可ルールを追加します:

Permission rules

(重要:重要:本番環境では、必要最小限のロールのみを割り当ててください。完全な “Storage Admin “アクセス権を使用するのは、このセットアップを簡単にするためです)。

Giving the “Storage Admin” role to the Compute Engine service

Save “をクリックして、新しいロールを確認します。これにより、プロジェクトのCompute Engineサービスに、Cloud Storageバケット内のオブジェクトにアクセスし、管理する権限が付与されます。

この権限がないと、Vertex AIパイプラインは実行中にデータを読み書きできず、以下のような403 Forbiddenエラーが発生します:

google.api_core.exceptions.Forbidden: 403 GET https://storage.googleapis.com/storage/v1/b/bright-data-pipeline-artifacts?fields=name&prettyPrint=false: <YOUR_GC_PROJECT_NUMBER>[email protected] does not have storage.buckets.get access to the Google Cloud Storage bucket.リソースに対するパーミッション 'storage.buckets.get' が拒否されました (または存在しない可能性があります)。

すごい!Google Cloud Storageバケットを設定しました。

ステップ3: IAM パーミッションの設定

Cloud Storageバケットと同様に、プロジェクトのCompute Engineサービスアカウントに適切なIAMパーミッションを与える必要があります。

このパーミッションによって、Vertex AIがあなたの代わりにパイプラインジョブを作成・管理できるようになります。この権限がないと、パイプラインはGoogle Cloudプロジェクト内で起動したり実行を制御したりする権限を持たない。

設定するには、Google Cloud Console で “IAM & Admin” を検索し、ページを開きます。
Grant access “ボタンをクリックし、Compute Engineのデフォルトのサービスアカウント(<YOUR_GC_PROJECT_NUMBER>[email protected])に以下の2つのロールを追加します:

  • “サービスアカウントユーザー”
  • “Vertex AIユーザー”
Giving the Compute Engine service account the right IAM roles

ロールを割り当てたら、”Save “ボタンを押します。こうすることで、Vertex AIパイプラインがプロジェクトのコンピュートリソースを使用し、マネージドワークロードを実行できるようになります。

要するに、Vertex AIパイプラインがプロジェクトのコンピュートサービスアカウントの代理として動作する権限があることをGoogle Cloudに伝えます。これらの権限がないと、パイプラインジョブを起動しようとしたときに、以下のような403 Forbiddenエラーが発生します:

403 POST https://us-central1-aiplatform.googleapis.com/v1/projects/bright-data-pipeline/locations/us-central1/pipelineJobs?pipelineJobId=XXXXXXXXXXXXXXXXXXXXXXX&%24alt=json%3Benum-encoding%3Dint:リソース'//aiplatform.googleapis.com/projects/bright-data-pipeline/locations/us-central1'(または存在しないかもしれません)で'aiplatform.pipelineJobs.create'パーミッションが拒否されました:'IAM_PERMISSION_DENIED', 'domain': 'aiplatform.googleapis.com', 'metadata': {'resource': 'projects/bright-data-pipeline/locations/us-central1', 'permission': 'aiplatform.pipelineJobs.create'}}]。

すべての設定が完了しました!これでIAMが設定され、Vertex AIパイプラインの実行準備が整いました。

ステップ #4: Vertex AI Workbenchを使い始める

開発を簡素化するため、Vertex AIパイプラインをクラウド上で直接構築します。

具体的には、Google CloudのVertex AIプラットフォーム内で完全に管理されたJupyterLabベースの開発環境であるVertex AI Workbenchを使用します。これは、プロトタイピングからモデルのデプロイまで、データサイエンスのワークフロー全体をサポートするように構築されています。

: Vertex AI Workbenchが機能するためには、このAPIが必要なので、先に進む前に、”Notebooks API “が有効になっていることを確認してください。

Vertex AI Workbenchにアクセスするには、Google Cloud Consoleで “Vertex AI Workbench “を検索し、ページを開く。次に、”Instances “タブで “Create New “をクリックし、新しいインスタンスを起動する:

Pressing the “Create New” button

:Vertex AI Workbenchは新しいインスタンスでJupyter 4をサポートしていますが、現在すべての環境でJupyterLab 3がデフォルトで使用されています。このバージョンには、最新のNVIDIA GPUとIntelのライブラリとドライバがプリインストールされています。従って、このチュートリアルでは、JupyterLab 3を使うことにする。

インスタンス作成フォームでは、デフォルトのマシンタイプ(n1-standard-4)を含め、デフォルトの設定値のままにしておきます。このガイドでは、このマシンで十分です。

Create “をクリックし、インスタンスのプロビジョニングと起動に数分かかることに留意してください。インスタンスの準備ができたら、”Instances “テーブルに新しいエントリーができ、”Open JupyterLab “というリンクが表示される。それをクリックする:

Following the “Open JupyterLab” link

Google CloudでホストされているクラウドベースのJupyterLab環境にリダイレクトされます:

The “Vertex AI Workbench” environment

ここで、”Notebook “の下にある “Python 3 (ipykernel) “をクリックして、新しいノートブックを作成します。このノートブックは、Bright Dataと統合されたVertex AIパイプラインを記述し、テストするための開発環境となります:

Your new notebook

ファンタスティックこれで、Vertex AIデータパイプラインのロジックのコーディングと構築を開始する準備が整いました。

ステップ #5: 必要な Python ライブラリのインストールと初期化

ノートブックに以下のセルを追加して実行し、このプロジェクトに必要なすべてのPythonライブラリをインストールすることから始めます:

pip install kfp google-cloud-aiplatform google-genai brightdata-sdk --quiet --upgrade

これには数分かかるかもしれないので、環境がすべてをセットアップするまで辛抱してほしい。

各ライブラリが何をするのか、なぜ必要なのかを説明する:

  • kfp:これはKubeflow Pipelines SDKで、Pythonでプログラム的に機械学習パイプラインを定義、コンパイル、実行できる。パイプラインコンポーネントを作成するためのデコレーターとクラスが付属しています。
  • google-cloud-aiplatform:Python用のVertex AI SDK。モデルのトレーニング、エンドポイントのデプロイ、パイプラインの実行など、Google Cloud の Vertex AI サービスと直接やり取りするために必要なものを提供します。
  • google-genai:GoogleのジェネレーティブAI SDKで、Geminiや他のジェネレーティブモデル(Vertex AIにもある)を使用し、オーケストレーションすることができる。パイプラインにLLMタスクが含まれているため、これは便利です。(Vertex AI SDKは現在非推奨です)。
  • brightdata-sdk:Bright DataのSERP APIや他のウェブデータソースにパイプラインから直接接続し、リアルタイムデータを取得するために使用します。

すべてのライブラリがインストールされたら、それらをインポートし、専用のセルに以下のコードを記述してVertex AI SDKを初期化します:

インポート kfp
from kfp.dsl import component, pipeline, Input, Output, Artifact
from kfp import compiler
from google.cloud import aiplatform
from typing import リスト

# プロジェクトの秘密で置き換える
project_id = "<your_gc_project_id>"
リージョン = "<your_region>"# (例えば、"us-central1")
bucket_uri = "<your_bucket_uri>" # (例:"us-central1")# (例: "gs://bright-data-pipeline-artifacts")

# バーテックスAI SDKの初期化
aiplatform.init(project=PROJECT_ID、location=REGION、staging_bucket=BUCKET_URI)

aiplatform.init()関数は、Vertex AIと通信するためのPython環境を設定します。この関数は、プロジェクト、リージョン、ステージングバケットを設定し、パイプラインの作成、ジョブのトレーニング、モデルのデプロイなど、Vertex AI のその後のすべての操作が自動的に正しいコンテキストを使用するようにします。

要するに、この 1 行のコードは、ノートブック セッションを Google Cloud プロジェクトに接続し、Vertex AI にパイプラインの成果物や一時的なデータを保存する場所を指示します。よくできました!

ステップ #6: クエリ抽出コンポーネントの定義

Vertex AIパイプラインはコンポーネントから構築されます。コンポーネントとは、特定のタスクを実行するPython関数のことです。先に説明したように、このパイプラインには3つのコンポーネントがあります。

まず、最初のコンポーネントであるextract_queriesコンポーネントから説明します!

extract_queriesコンポーネント:

  1. ファクトチェックされるテキストを入力として受け取る。
  2. (google-genaiライブラリを介して)Geminiモデルを使用し、テキスト内の事実の主張を検証するのに役立つGoogle検索クエリのリストを生成する。
  3. そのリストをPythonの配列(List[str])として返す。

以下のように実装する:

コンポーネント(
    base_image="python:3.10"、
    packages_to_install=["google-genai"]、
)
def extract_queries(
    input_text: str、
    project: str、
    location: str、
) -> List[str]:   
    from google import genai
    from google.genai.types import GenerateContentConfig, HttpOptions
    from typing import リスト
    インポート json

    # Vertex を統合した Google Gen AI SDK を初期化する。
    client = genai.Client(
        vertexai=True、
        project=project、 
        location=location、
        http_options=HttpOptions(api_version="v1")
    )

    # これは文字列の配列である。
    これは文字列の配列である。
        "type":"ARRAY"、
        "items":{
            "type":"STRING"
        }
    }

    # クエリ抽出プロンプト
    プロンプト = f""
    あなたはプロのファクトチェッカーです。あなたの仕事は、次のテキストを読んで、次のものを抽出することです。 
    主な事実の主張を検証するために必要な、具体的でググれる検索クエリのリスト 
    を抽出することです。

    Pythonの文字列リストのみを返し、それ以外は何も返さないこと。

    例
    入力:"1889年にギュスターヴ・エッフェルによって建てられたエッフェル塔の高さは300mである"
    出力: ["エッフェル塔はいつ建てられたのか", "誰がエッフェル塔を建てたのか", "エッフェル塔の高さは"]。

    以下はファクトチェックのためのテキストである:
    ---
    "{input_text}"
    ---
    """

    response = client.models.generate_content(
        model="gemini-2.5-flash"、
        contents=prompt、
        config=GenerateContentConfig(
            # 文字列のJSON配列を返すようにモデルを強制する
            response_mime_type="application/json"、
            response_schema=response_schema、
        ),
    )

    # 'response.text'には、スキーマに準拠したJSON文字列が確実に含まれる (例えば、'["query_1", ..., "query_n"]')
    query_list:リスト[str] = json.loads(response.text.strip())

    return query_list

KFP コンポーネントは自己完結型でなければなりません。つまり、インポートはすべてコンポーネント関数の内部で宣言する必要があります。

genai.Client()vertexai=Trueproject=projectlocation=locationパラメータはgoogle-genaiクライアントとVertex AI環境を接続するために必要です。これらは、設定されたモデルがパイプラインと同じリージョンとプロジェクトで実行されることを保証します。

モデルの選択に関しては、軽量で高速なGemini 2.5 Flashを使用する必要があります。いずれにせよ、必要であれば、より精度の高い別のGeminiモデルを設定することができる。

コンポーネントが1つ減り、あと2つです!

ステップ7: SERP APIを利用したウェブ検索コンテキスト取得コンポーネントの作成

Googleで検索可能なクエリのリストが作成できたので、次はウェブ上でコンテキストを検索します。これを行うには、Bright DataのSERP APIを使用します。SERP APIを使用すると、構造化されたスケーラブルな方法で検索結果(デフォルトではGoogle)をプログラムでスクレイピングすることができます。

PythonからSERP APIにアクセスする最も簡単な方法は、公式でオープンソースのBright Data SDKを使うことです。このライブラリは、SERP APIを含むBright Data製品を呼び出すためのシンプルなメソッドを提供します。詳しくはドキュメントをご覧ください

特にfetch_web_search_contextコンポーネントが便利です:

  1. 前のステップで生成された検索クエリのリストを受け取ります。
  2. Bright Data SDK を使用して、各クエリに対して SERP API を並列に呼び出します。
  3. 検索結果を取得します(デフォルトではGoogleから)。
  4. パイプラインの他のコンポーネントが使用できるファイルであるJSONアーティファクトとして、すべての結果を保存する。

このようなコンポーネントを専用のノートブックセルに次のように作成します:

コンポーネント(
    base_image="python:3.10"、
    packages_to_install=["brightdata-sdk"]、
)
def fetch_web_search_context(
    queries:リスト[str]、
    api_key: str、
    output_file:Output[Artifact]、
):
    """
    クエリのリストを受け取り、Bright Data SDKを使用して各クエリを検索します、
    すべての結果を JSON ファイルアーティファクトとして出力します。
    """
    from brightdata import bdclient
    インポート json

    # Bright Data SDK クライアントの初期化
    client = bdclient(api_token=api_key)
    # 入力クエリに対して SERP API を呼び出す
    results = client.search(
        queries、
        data_format="markdown"
    )

    # 結果をアーティファクトファイルに書き込む
    with open(output_file.path, "w") as f:
        json.dump(results, f)

SERP APIは、LLMへの取り込みに理想的なMarkdown形式でコンテンツを返すように設定されていることに注意してください。

また、このコンポーネントの出力はかなり大きくなる可能性があるので、アーティファクトとして保存するのがベストです。アーティファクトはGoogle Cloud Storageのバケットに保存され、Vertex AIパイプラインのコンポーネント間で、メモリに負荷をかけたりデータ転送の制限を超えたりすることなく、効率的にデータを受け渡すことができます。

さあ、始めましょう!Bright Dataのウェブ検索機能のおかげで、次のコンポーネント(LLMがファクトチェックを行う)の入力として使用できるGoogleの検索コンテキストが準備できました。

ステップ#8:ファクトチェッカーコンポーネントの実装

クエリ抽出コンポーネントと同様に、このステップでもLLMを呼び出します。しかし、このコンポーネントはクエリを生成する代わりに、前のステップで収集したウェブ検索結果を文脈上の証拠として使用し、元の入力テキストのファクトチェックを行う。

基本的には、検索されたウェブコンテンツがモデルの検証プロセスを導く、SERPベースのRAGスタイルのワークフローを実行する。

新しいノートブックのセルに、fact_check_with_web_search_contextコンポーネントを以下のように定義する:

コンポーネント(
    base_image="python:3.10"、
    packages_to_install=["google-genai"]、
)
def fact_check_with_web_search_context(
    input_text: str、
    web_search_context_file:Input[Artifact]、
    project: str、
    location: str、
) -> str:
    インポート json
    from google import genai

    # アーティファクトからウェブ検索コンテキストを読み込む
    with open(web_search_context_file.path, "r") as f:
        web_search_context = json.load(f)

    client = genai.Client(
        vertexai=True、
        project=project、 
        ロケーション
    )

    prompt = f""
    あなたはAIファクトチェッカーです。原文とJSON検索コンテキストを比較し
    と比較し、Markdownでファクトチェックレポートを作成します。

    [オリジナルテキスト]
    "{input_text}"

    [ウェブ検索コンテキスト]
    "{json.dumps(web_search_context)}"
    """

    response = client.models.generate_content(
        model="gemini-2.5-pro",
        contents=prompt
    )

    return response.text

このタスクはより複雑であり、複数の証拠ソースを推論する必要がある。そのため、Gemini 2.5 Proのような、より能力の高いモデルを使用する方が良いでしょう。

素晴らしい!これでVertex AIパイプラインを構成する3つのコンポーネントが定義できました。

ステップ #9: パイプラインの定義とコンパイル

3つのコンポーネントを1つのKubeflowパイプラインに接続します。各コンポーネントは順次実行され、あるステップの出力が次のステップの入力になります。

パイプラインを定義する方法は次のとおりです:

パイプラインを定義する方法です。
    name="bright-data-fact-checker-pipeline"、
    description="Fetches SERP context to fact-check a text document.")
)
def fact_check_pipeline(
    input_text: str、
    bright_data_api_key: str、
    project: str = PROJECT_ID、
    location: str = REGION、
):
    # ステップ1:入力テキストからGoogleが検証可能なクエリを抽出する 
    step1 = extract_queries(
        input_text=input_text、
        project=project、
        location=location
    )

    # ステップ2:検索クエリに対するブライトデータのSERP結果を取得する
    step2 = fetch_web_search_context(
        queries=step1.output、
        bright_data_api_key=bright_data_api_key
    )

    # ステップ3:先に取得したウェブ検索コンテキストを使ってファクトチェックを実行する
    step3 = fact_check_with_web_search_context(
        input_text=input_text、
        web_search_context_file=step2.outputs["output_file"]、
        project=project、
        location=location
    ) 

要するに、この関数は、先に構築した3つのコンポーネントを結びつけるものである。まずファクトチェッククエリを生成し、次にBright DataのSERP APIを使用して各クエリの検索結果を取得し、最後にGeminiモデルを実行して収集した証拠に基づいて主張を検証する。

次に、パイプラインをVertex AIが実行できるJSON仕様にコンパイルする必要がある:

コンパイラ.コンパイラ().コンパイル(
    pipeline_func=fact_check_pipeline、
    package_path="fact_check_pipeline.json"
)

このコマンドは、Pythonパイプライン定義をfact_check_pipeline.jsonというJSONパイプライン仕様ファイルに変換します。

このJSONファイルは、Vertex AI Pipelinesがワークフローのオーケストレーション方法を理解するために信頼するブループリントです。このファイルには、すべてのコンポーネント、その入力と出力、依存関係、コンテナイメージ、実行順序が記述されている。

このJSONファイルをVertex AIで実行すると、Google Cloudが自動的にインフラストラクチャをプロビジョニングし、各コンポーネントを正しい順序で実行し、ステップ間のデータ受け渡しを処理する。パイプラインの完成です!

ステップ #10: パイプラインの実行

Vertex AIパイプラインを、次のような明らかに誤った文章でテストしたいとします:

「パリはドイツの首都であり、ドイツの通貨は円である。

Jupyterノートブックに以下のセルを追加する。このAddはパイプラインを起動するロジックを定義する:

text_to_check = """
パリは円を通貨として使うドイツの首都である。
"""

# Bright Data APIキーで置き換える
bright_data_api_key = "<your_bright_data_api_key>"

print("パイプラインジョブを開始します...")

# パイプラインジョブを定義する
job = aiplatform.PipelineJob(
    display_name="fact-check-pipeline-run"、
    template_path="fact_check_pipeline.json"、
    pipeline_root=BUCKET_URI、
    parameter_values={
        "input_text":TEXT_TO_CHECK、
        "bright_data_api_key":bright_data_api_key
    }
)

# ジョブの実行
job.run()

print("ジョブが送信されました!Vertex AI UIで進捗を確認できます。")

このコードは、先にコンパイルしたパイプラインJSON(fact_check_pipeline.json)、パイプラインルートとしてのストレージバケット、およびこの特定の実行に必要なパラメータ(検証する入力テキストとBright Data APIキー)を指定して、新しいVertex AI Pipelineジョブを作成します。

このセルを実行すると、Vertex AIが自動的にパイプライン全体をクラウドでオーケストレーションします。

セキュリティ上の注意:この例では、簡単のために Bright Data API キーをノートブックに直接ハードコードしていますが、これは本番環境では安全ではありません。実際のデプロイでは、Google Cloud Secret Managerを使用して API キーのような機密性の高いクレデンシャルを保存および取得し、偶発的な暴露(ログなど)を避ける必要があります。

パイプラインを実行するには、すべてのセルを選択し、Jupyterノートブックの「▶」ボタンを押します。最後のセルにこのような出力が出ます:

The pipeline has started

これは、あなたのVertex AIファクトチェックパイプラインが正常に実行されていることを意味します。すごい!

ステップ#11:パイプラインの実行を監視する

パイプラインジョブのステータスを確認するには、プロジェクトのGoogle Cloud ConsoleのVertex AI Pipelinesページにアクセスします:

https://console.cloud.google.com/vertex-ai/pipelines?project={PROJECT_ID}。

この場合、URLは次のようになります:

https://console.cloud.google.com/vertex-ai/pipelines?project=bright-data-pipeline です。

このURLをブラウザに貼り付けると、このようなページが表示されます:

The Vertex AI Pipelines page

Runs” テーブルの最初のエントリーをクリックすると、パイプラインジョブの実行ページが開きます:

The pipeline job execution page

ここで、パイプラインが構成するコンポーネントを視覚的に確認できます。ここでは、パイプラインが構成するコンポーネントを視覚的に確認できます。また、各ノードのステータスを確認したり、詳細なログを表示したり、パイプラインの実行中にその先頭から最後までのデータの流れを観察したりすることもできます。

ステップ#12: 出力の探索

パイプラインの実行が完了すると、各ノードに正常終了を示すチェックマークが表示されます:

All nodes in the pipeline have been executed successfully

最初のノードをクリックすると、入力テキストから抽出されたGoogleで検索可能なクエリが表示されます。この例では、生成されたクエリは次のとおりです:

  • 「ドイツの首都は?
  • "ドイツの通貨は?"

これらのクエリは、入力文の事実の主張を検証するのに最適です:

Checking the output of the first node

次に、2番目のノードと3番目のノードの間にあるアーティファクト・ノードをクリックする。設定したGoogle Cloud Storageバケット(この場合はbright-data-pipeline-artifacts)に保存されているJSONファイルへのリンクが表示されます。

Cloud Console でバケットに移動して、目的のページに直接アクセスすることもできます:

The folders associated with the pipeline run in the bucket

バケット内には、各コンポーネントのフォルダがあります。詳細には、fetch_web_search_contextコンポーネントのフォルダには、SERP API を介して取得されたウェブ検索コンテキストが、Markdown 形式の文字列の配列として格納された JSON ファイルがあります:

The file containing the retrieved SERP data

このファイルをダウンロードして開くと、次のようなことがわかります:

The array with the SERPs in Markdown

このコンテンツは、識別された検索クエリごとに取得されたSERPのMarkdown表現である。

Vertex AIパイプラインのUIに戻り、出力ノードをクリックして全体の結果を確認する:

The output produced by the pipeline

お分かりのように、出力は詳細なMarkdownファクトチェックレポートである。同じ出力は、パイプライン実行のバケットフォルダ内のexecutor_output.jsonファイルにも保存されます。それをダウンロードし、Visual Studio CodeのようなIDEで開いて検査する:

Viewing the output file in Visual Studio Code

Markdownの文字列を.mdファイル(例:report.md)にコピーすると、よりわかりやすく表示されます:

Inspecting the final Markdown output

レポートには、入力された文のどの部分が間違っていたのか、検証された事実は何なのかについての詳細な情報が記載されています。

出来上がりです!これは、RAGベースのVertex AIパイプラインでコンテキスト情報を取得するためのBright Dataのウェブ検索統合の威力を示しています。

次のステップ

これは、Bright Dataのウェブ検索データ検索をVertex AIパイプラインで使用するための実現可能性を示す簡単な例に過ぎないことを忘れないでください。実際のシナリオでは、これらのコンポーネントはもっと長く複雑なパイプラインの一部になる可能性が高い。

入力データは、ビジネス文書、内部レポート、データベース、ファイルなど、さまざまなソースから得られる可能性があります。さらに、ワークフローには他にも多くのステップが含まれる可能性があり、必ずしも事実確認レポートだけで終わるとは限らない。

まとめ

このブログポストでは、Bright Data の SERP API を活用して Vertex AI パイプライン内でウェブ検索コンテキストを取得する方法を学びました。ここで紹介したAIワークフローは、データの正確性を確保するために、プログラムによる信頼性の高いファクトチェックパイプラインを構築したいと考えている人に最適です。

同様の高度なAIワークフローを作成するには、Bright DataのAIインフラストラクチャを使用して、ライブのウェブデータを取得、検証、変換するためのあらゆるソリューションをご覧ください。

今すぐ無料のBright Dataアカウントを作成し、AIのためのウェブデータツールの実験を開始してください!