Gerar embeddings de texto

A extensão google_ml_integration inclui funções de incorporação em dois namespaces diferentes: public e google_ml. Nesta página, descrevemos como gerar incorporações de texto usando funções desses namespaces.

A função embedding() no esquema public pode ser usada com qualquer modelo de incorporação da Vertex AI sem registrar o endpoint. Se quiser transmitir informações personalizadas, como o tipo de tarefa, registre o endpoint e use a função google_ml.embedding() no esquema google_ml. Para mais informações sobre como registrar um endpoint, consulte Registrar um modelo.

Como as incorporações funcionam

Imagine um banco de dados em execução no AlloyDB com as seguintes características:

  • O banco de dados contém uma tabela, items. Cada linha nesta tabela descreve um item que sua empresa vende.

  • A tabela items contém uma coluna, complaints. Essa coluna TEXT armazena reclamações do comprador registradas sobre cada item.

  • O banco de dados se integra ao Model Garden da Vertex AI, concedendo acesso aos modelos em inglês gemini-embedding-001.

Embora esse banco de dados armazene reclamações sobre itens, elas são armazenadas como texto simples, dificultando a consulta. Por exemplo, se você quiser saber quais itens têm mais reclamações de clientes que receberam a cor errada do produto, realize consultas SQL comuns na tabela, procurando várias correspondências de palavras-chave. No entanto, essa abordagem corresponde apenas às linhas que contêm essas palavras-chave exatas.

Por exemplo, uma consulta SQL básica, como SELECT * FROM item WHERE complaints LIKE "%wrong color%", não retorna uma linha em que o campo complaints contém apenas The picture shows a blue one, but the one I received was red.

Consultas SQL que usam embeddings com tecnologia LLM podem ajudar a retornar respostas semanticamente semelhantes para essas consultas. Ao aplicar embeddings, é possível consultar a tabela neste exemplo para itens em que as reclamações têm semelhança semântica com um determinado comando de texto, como It was the wrong color.

Para gerar embeddings, selecione um dos seguintes esquemas.

A seguir