- AWS
- Amazon Bedrock
- Preços
Preços do Amazon Bedrock
-
Preços do modelo
-
Bases de conhecimento
-
Barreiras de proteção
-
Avaliação de modelo
-
Automação de dados
-
Roteamento de prompts inteligente
-
Otimização de prompts
-
Preços do modelo
-
Preços do modelo
O preço depende da modalidade, do fornecedor e do modelo. Selecione o fornecedor do modelo para ver os preços detalhados.
O Amazon Bedrock oferece suporte a uma variedade de níveis, incluindo os níveis Standard, Flex, Priority e Reserved. Clique para saber mais sobre os níveis de serviço.
O Amazon Bedrock oferece modelos de base (FMs) selecionados dos principais fornecedores de IA, como Anthropic, Meta, Mistral AI e Amazon, para inferência em lote a um preço 50% menor em comparação com os preços de inferência sob demanda. Para saber mais sobre o Batch, clique no aqui. Consulte a lista de modelos da lista aqui.
-
AI21 Labs
-
Amazon
-
Anthropic
-
Cohere
-
DeepSeek
-
Google
-
Luma AI
-
Meta
-
MiniMax AI
-
Mistral AI
-
Moonshot AI
-
NVIDIA
-
OpenAI
-
Qwen
-
Stability AI
-
TwelveLabs
-
Writer
-
Z AI
-
Importação de modelos personalizados
-
AI21 Labs
-
AI21 Labs
Preços sob demanda
-
Amazon
-
-
Amazon Nova
-
Amazon Titan
-
Outras opções da Amazon
-
Amazon Nova
-
Amazon Nova
Preços para entender os modelos
Inferência global entre regiões
Inferência entre regiões geográficas e dentro da região
Ferramentas integradas
Preços de modelos para geração de conteúdo criativo
Preços para modelos de compreensão e geração de fala
Preços sob demanda para modelos de base de fala para fala
Observação: *os preços de entrada e saída de tokens de texto se aplicam a casos de uso específicos, como transcrição de fala para texto, chamadas de ferramentas para conclusão de tarefas ou base de conhecimento de conhecimento, adição de histórico de conversas à sessão etc.
A inferência sob demanda para modelos personalizados do Nova tem o mesmo preço da inferência básica do Nova.
Preços dos modelos de incorporação
-
Amazon Titan
-
Amazon Titan
-
Outras opções da Amazon
-
-
-
Anthropic
-
Anthropic
Preços sob demanda e em lote
Modelos com acesso estendido
Provedor Nome do modelo Regiões Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída Preço por 1 milhão de tokens de entrada (lote) Preço por 1 milhão de tokens gerados (lote) Preço por 1 milhão de tokens de entrada (gravação no cache) Preço por 1 milhão de tokens de entrada (leitura do cache) Anthropic Claude 3.5 Sonnet (Acesso público ampliado, em vigor a partir de 1º de dezembro de 2025) Leste dos EUA (Virgínia do Norte), Leste dos EUA (Ohio), Oeste dos EUA (Oregon), Europa (Frankfurt), Europa (Irlanda), Europa (Zurique), Europa (Paris) USD 6,00 30,00 USD USD 3,00 USD 15 N/D N/D Anthropic Claude 3.5 Sonnet v2 ( acesso público estendido, em vigor a partir de 1º de dezembro de 2025) Leste dos EUA (Virgínia do Norte), Leste dos EUA (Ohio), Oeste dos EUA (Oregon) USD 6,00 30,00 USD USD 3,00 USD 15 USD 7,50 USD 0,60 Preços de nível reservado
Inferência otimizada de latência
Preços para throughput provisionado
Para obter informações sobre os preços de throughput provisionado, entre em contato com sua equipe de contas.
-
Cohere
-
Cohere
Preços sob demanda
Modelos do Cohere Preço por 1.000 consultas** Rerank 3.5 USD 2,00 **A cobrança é feita pelo número de consultas, sendo que uma consulta pode conter até cem blocos de documentos. Se a consulta contiver mais de cem blocos de documentos, ela será contada como várias consultas. Por exemplo, se uma solicitação contiver 350 documentos, ela será tratada como quatro consultas. Observe que cada documento só pode conter até 500 tokens (incluindo a consulta e o total de tokens do documento) e, se o tamanho do token for maior que 512 tokens, ele será dividido em vários documentos. Preços para personalização (ajuste fino)
*Total de tokens treinados = número de tokens no corpus de dados de treinamento x número de epochs
Preços para throughput provisionado
Modelos do Cohere Preço por hora por modelo
sem compromissoPreço por hora por unidade de modelo para compromisso de 1 mês Preço por hora por unidade modelo para compromisso de 6 meses
Cohere Command
USD 49,50 USD 39,60
USD 23,77
Cohere Command - Light USD 8,56 USD 6,85
USD 4,11 Embed 3 English USD 7,12 USD 6,76
USD 6,41 Embed 3 Multilingual USD 7,12 USD 6,76
USD 6,41 Entre em contato com sua equipe de contas ou vendas da AWS para obter mais detalhes sobre unidades de modelo.
-
DeepSeek
-
DeepSeek
Preços sob demanda
-
Standard
-
Prioridade
-
Flex
-
Standard
-
Regiões: Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio) e Oeste dos EUA (Oregon)
Modelos do DeepSeek Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída DeepSeek v3.2 USD 0.62 USD 1,85 Regiões: Ásia-Pacífico (Mumbai), América do Sul (São Paulo), Ásia-Pacífico (Jacarta), Ásia-Pacífico (Tóquio) e Europa (Estocolmo)
Modelos do DeepSeek Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída DeepSeek v3.2 USD 0.74 USD 2,22 Região: Ásia-Pacífico (Sydney)
Modelos do DeepSeek Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída DeepSeek v3.1 USD 0,5974 USD 1,7304 DeepSeek v3.2 USD 0,6386 USD 1,9055 -
Prioridade
-
Região: Ásia-Pacífico (Sydney)
Modelos do DeepSeek Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída DeepSeek v3.1 USD 1,0455 USD 3,0282 -
Flex
-
Região: Ásia-Pacífico (Sydney)
Modelos do DeepSeek Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída DeepSeek v3.1 USD 0,2987 USD 0,8652
-
-
Google
-
Google
Preços sob demanda
Regiões: Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio) e Oeste dos EUA (Oregon)
Modelos Google Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída Gemma 3 4B USD 0,04 USD 0,08 Gemma 3 12B USD 0,09 USD 0,29 Gemma 3 27B USD 0,23 USD 0,38 Regiões: Ásia-Pacífico (Mumbai), Europa (Irlanda) e Europa (Milão)
Modelos Google Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída Gemma 3 4B USD 0,05 USD 0,09 Gemma 3 12B 0,11 USD USD 0,34 Gemma 3 27B USD 0,27 USD 0,45 Regiões: América do Sul (São Paulo) e Ásia-Pacífico (Tóquio)
Modelos Google Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída Gemma 3 4B USD 0,05 USD 0,10 Gemma 3 12B USD 0,11 USD 0,35 Gemma 3 27B USD 0,28 USD 0,46 Região: Europa (Londres)
Modelos Google Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída Gemma 3 4B USD 0,06 0,12 USD Gemma 3 12B USD 0,14 USD 0,45 Gemma 3 27B USD 0,36 USD 0,59 Região: Ásia-Pacífico (Sydney)
Modelos Google Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída Gemma 3 4B USD 0,0412 USD 0,0824 Gemma 3 12B USD 0,0927 USD 0,2987 Gemma 3 27B USD 0,2369 USD 0,3914 * O preço do nível prioritário é 75% superior ao preço do nível padrão
* O preço do nível Flex tem um desconto de 50% em relação ao preço do nível Standard -
Luma AI
-
Preços sob demanda
-
Meta
-
Meta
Llama 4
Preços sob demanda e em lote
Llama 3.3
Preços sob demanda e em lote
Llama 3.2
Preços sob demanda e em lote
Preços para personalização de modelos (ajuste fino)
Preços para throughput provisionado
Llama 3.1
Preços sob demanda e em lote
Preços para personalização de modelos (ajuste fino)
Preços para throughput provisionado
Llama 3
Preço sob demanda
Llama 2
Preço sob demanda
Região: Leste dos EUA (Norte da Virgínia) e Oeste dos EUA (Oregon)
Modelos do Meta Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída Llama 2 Chat (13B)
USD 0,75
USD 1,00
Llama 2 Chat (70B) USD 1,95
2,56 USD Preços para personalização de modelos (ajuste fino)
Modelos do Meta Custo para validar 1 milhão de tokens Preço para armazenar cada modelo personalizado* por mês Preço a ser inferido de um modelo personalizado para 1 unidade de modelo por hora (com preços de throughput provisionado sem compromisso) Llama 2 pré-treinado (13B)
1,49 USD
USD 1,95
USD 23,50
Llama 2 pré-treinado (70B) USD 7,99
USD 1,95 USD 23,50 *Armazenamento de modelo personalizado = USD 1,95
Preços para throughput provisionado
Modelos do Meta Preço por hora por unidade de modelo para compromisso de 1 mês Preço por hora por unidade modelo para compromisso de 6 meses Llama 2 pré-treinado e Chat (13B)
USD 21,18
USD 13,08
Llama 2 pré-treinado (70B) USD 21,18
USD 13,08 *Os modelos pré-treinados do Llama 2 estão disponíveis somente em throughput provisionado após a personalização.
Entre em contato com sua equipe de contas ou vendas da AWS para obter mais detalhes sobre unidades de modelo.
-
MiniMax AI
-
MiniMax AI
Preços sob demanda
Regiões: Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio) e Oeste dos EUA (Oregon)
Modelos Minimax Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída Minimax M2 0,30 USD 1,20 USD Minimax M2.1 0,30 USD 1,20 USD Regiões: Leste dos EUA (Norte da Virgínia) e Oeste dos EUA (Oregon)
Modelos Minimax Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída Minimax M2.5 0,30 USD 1,20 USD Regiões: Ásia-Pacífico (Mumbai), Europa (Irlanda) e Europa (Milão)
Modelos Minimax Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída Minimax M2 USD 0,35 USD 1,41 Minimax M2.1 USD 0,36 USD 1,44 Regiões: América do Sul (São Paulo) e Ásia-Pacífico (Tóquio)
Modelos Minimax Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída Minimax M2 USD 0,36 USD 1,45 Minimax M2.1 USD 0,36 USD 1,44 Região: Europa (Londres)
Modelos Minimax Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída Minimax M2 USD 0,47 USD 1,86 Minimax M2.1 USD 0,47 USD 1,86 Regiões: Europa (Frankfurt), Europa (Estocolmo), Ásia-Pacífico (Jacarta)
Modelos Minimax Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída Minimax M2.1 USD 0,36 USD 1,44 Região: Ásia-Pacífico (Sydney)
Modelos Minimax Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída Minimax M2 USD 0,3090 USD 1,2360 Minimax M2.1 USD 0,3090 USD 1,2360 * O preço do nível prioritário é 75% superior ao preço do nível padrão
* O preço do nível Flex tem um desconto de 50% em relação ao preço do nível Standard -
Mistral AI
-
Mistral AI
Preços sob demanda
Regiões: Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio) e Oeste dos EUA (Oregon)
Modelos Mistral Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída Devstral 2 135B 0,40 USD 2 USD Magistral Small 1.2 0,50 USD USD 1,50 Voxtral Mini 1.0 USD 0,04 USD 0,04 Voxtral Small 1.0 USD 0,10 0,30 USD Ministral 3B 3.0 USD 0,10 USD 0,10 Ministral 8B 3.0 0,15 USD 0,15 USD Ministral 14B 3.0 0,20 USD 0,20 USD Mistral Large 3 0,50 USD USD 1,50 Regiões: Ásia-Pacífico (Mumbai)
Modelos Mistral Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída Devstral 2 135B 0,48 USD 2,40 USD Magistral Small 1.2 USD 0,59 USD 1,76 Voxtral Mini 1.0 USD 0,05 USD 0,05 Voxtral Small 1.0 0,12 USD USD 0,35 Ministral 3B 3.0 0,12 USD 0,12 USD Ministral 8B 3.0 USD 0,18 USD 0,18 Ministral 14B 3.0 0,24 USD 0,24 USD Mistral Large 3 USD 0,59 USD 1,76 Regiões: América do Sul (São Paulo) e Ásia-Pacífico (Tóquio)
Modelos Mistral Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída Devstral 2 135B 0,48 USD 2,40 USD Magistral Small 1.2 USD 0,61 USD 1,82 Voxtral Mini 1.0 USD 0,05 USD 0,05 Voxtral Small 1.0 0,12 USD USD 0,36 Ministral 3B 3.0 0,12 USD 0,12 USD Ministral 8B 3.0 USD 0,18 USD 0,18 Ministral 14B 3.0 0,24 USD 0,24 USD Mistral Large 3 USD 0,61 USD 1,82 Regiões: Europa (Irlanda) e Europa (Milão)
Modelos Mistral Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída Devstral 2 135B 0,48 USD 2,40 USD Magistral Small 1.2 USD 0,59 USD 1,76 Voxtral Mini 1.0 USD 0,05 USD 0,05 Voxtral Small 1.0 0,12 USD USD 0,35 Ministral 3B 3.0 0,12 USD 0,12 USD Ministral 8B 3.0 USD 0,18 USD 0,18 Ministral 14B 3.0 0,24 USD 0,24 USD Região: Europa (Londres)
Modelos Mistral Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída Devstral 2 135B USD 0.62 USD 3,10 Magistral Small 1.2 USD 0,78 USD 2,33 Voxtral Mini 1.0 USD 0,06 USD 0,06 Voxtral Small 1.0 USD 0,16 USD 0,47 Ministral 3B 3.0 USD 0,16 USD 0,16 Ministral 8B 3.0 USD 0,23 USD 0,23 Ministral 14B 3.0 USD 0,31 USD 0,31 Região: Ásia-Pacífico (Sydney)
Modelos Mistral Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída Devstral 2 135B USD 0,41 USD 2,06 Magistral Small 1.2 USD 0,5150 USD 1,5450 Voxtral Mini 1.0 USD 0,0412 USD 0,0412 Voxtral Small 1.0 USD 0,1030 USD 0,3090 Ministral 3B 3.0 USD 0,1030 USD 0,1030 Ministral 8B 3.0 USD 0,1545 USD 0,1545 Ministral 14B 3.0 USD 0,2060 USD 0,2060 Mistral Large 3 USD 0,5150 USD 1,5450 Regiões: Ásia-Pacífico (Jacarta), Europa (Frankfurt), Europa (Estocolmo)
Modelos Mistral Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída Devstral 2 135B 0,48 USD 2,40 USD * O preço do nível prioritário é 75% superior ao preço do nível padrão
* O preço do nível Flex tem um desconto de 50% em relação ao preço do nível Standard -
Moonshot AI
-
Moonshot AI
Preços sob demanda
Regiões: Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio) e Oeste dos EUA (Oregon)
Modelos Kimi Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída Kimi K2 Thinking USD 0,60 USD 2,50 Kimi K2.5 USD 0,60 USD 3,00 Região: Ásia-Pacífico (Mumbai)
Modelos Kimi Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída Kimi K2 Thinking USD 0,71 USD 2,94 Kimi K2.5 USD 0,72 USD 3,60 Regiões: América do Sul (São Paulo) e Ásia-Pacífico (Tóquio)
Modelos Kimi Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída Kimi K2 Thinking USD 0,73 USD 3,03 Kimi K2.5 USD 0,72 USD 3,60 Regiões: Europa (Estocolmo), Ásia-Pacífico (Jacarta)
Modelos Kimi Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída Kimi K2.5 USD 0,72 USD 3,60 Região: Ásia-Pacífico (Sydney)
Modelos Kimi Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída Kimi K2 Thinking USD 0,6180 USD 2,5750 Kimi K2.5 USD 0,6180 USD 3,0900 * O preço do nível prioritário é 75% superior ao preço do nível padrão
* O preço do nível Flex tem um desconto de 50% em relação ao preço do nível Standard -
NVIDIA
-
NVIDIA
Preços sob demanda
Regiões: Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio) e Oeste dos EUA (Oregon)
Modelos NVIDIA Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída NVIDIA Nemotron Nano 2 USD 0,06 USD 0,23 NVIDIA Nemotron Nano 2 VL 0,20 USD USD 0,60 NVIDIA Nemotron 3 Nano 30B A3B USD 0,06 0,24 USD Regiões: Leste dos EUA (Norte da Virgínia) e Oeste dos EUA (Oregon)
Modelos NVIDIA Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída NVIDIA Nemotron 3 Super 120B A12B 0,15 USD USD 0,65 Regiões: Ásia-Pacífico (Mumbai), Europa (Irlanda) e Europa (Milão)
Modelos NVIDIA Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída NVIDIA Nemotron Nano 2 USD 0,07 USD 0,27 NVIDIA Nemotron Nano 2 VL 0,24 USD USD 0,71 NVIDIA Nemotron 3 Nano 30B A3B USD 0,07 USD 0,28 Regiões: América do Sul (São Paulo) e Ásia-Pacífico (Tóquio)
Modelos NVIDIA Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída NVIDIA Nemotron Nano 2 USD 0,07 USD 0,28 NVIDIA Nemotron Nano 2 VL 0,24 USD USD 0,73 NVIDIA Nemotron 3 Nano 30B A3B USD 0,07 USD 0,29 Região: Europa (Londres)
Modelos NVIDIA Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída NVIDIA Nemotron Nano 2 USD 0,09 USD 0,36 NVIDIA Nemotron Nano 2 VL USD 0,31 USD 0,93 NVIDIA Nemotron 3 Nano 30B A3B USD 0,09 USD 0,37 Região: Ásia-Pacífico (Sydney)
Modelos NVIDIA Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída NVIDIA Nemotron Nano 2 USD 0,0618 USD 0,2369 NVIDIA Nemotron Nano 2 VL USD 0,2060 USD 0,6180 NVIDIA Nemotron 3 Nano 30B A3B USD 0,0618 USD 0,2472 * O preço do nível prioritário é 75% superior ao preço do nível padrão
* Os preços dos planos Flex e Batch têm um desconto de 50% em relação aos preços do plano Standard -
OpenAI
-
OpenAI
-
gpt-oss-20b, 120b
-
gpt-oss-safeguard 20b, 120b
-
gpt-oss-20b, 120b
-
-
Standard
-
Prioridade
-
Flex
-
Batch
-
Personalização de modelos
-
Standard
-
Região: Ásia-Pacífico (Sydney)
Modelos OpenAI Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída gpt-oss-20b USD 0,0721 USD 0,3090 gpt-oss-120b USD 0,1545 USD 0,6180 -
Prioridade
-
Região: Ásia-Pacífico (Sydney)
Modelos OpenAI Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída gpt-oss-20b USD 0,1262 USD 0,5408 gpt-oss-120b USD 0,2704 USD 1,0815 -
Flex
-
Região: Ásia-Pacífico (Sydney)
Modelos OpenAI Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída gpt-oss-20b USD 0,0361 USD 0,1545 gpt-oss-120b USD 0,0773 USD 0,3090 -
Batch
-
Região: Ásia-Pacífico (Sydney)
Modelos OpenAI Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída gpt-oss-20b USD 0,0361 USD 0,1545 gpt-oss-120b USD 0,0773 USD 0,3090 -
Personalização de modelos
-
Personalização de modelos
Preços de ajuste fino do reforço
Com o recurso Ajuste fino por reforço no Amazon Bedrock, você pode melhorar a precisão do modelo sem precisar de uma profunda experiência em machine learning ou grandes somas de dados rotulados. O Amazon Bedrock automatiza o fluxo de trabalho de ajuste fino por reforço: com base nas suas amostras de prompt, ele gera respostas do modelo e as pontua usando sua função de recompensa. Esses prompts, respostas e pontuações são então usados para treinar seu modelo por meio de um fluxo de trabalho de RFT iterativo.
Todo o fluxo de trabalho de treinamento é cobrado por hora. Após a conclusão do treinamento, os clientes podem utilizar imediatamente o modelo otimizado resultante para inferência sob demanda. A opção de inferência sob demanda inclui um modelo de preços baseado em tokens que cobra com base no número de tokens processados durante a inferência.
Regiões: Leste dos EUA (Norte da Virgínia) e Oeste dos EUA (Oregon)
Modelos OpenAI Preço por hora de treinamento Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída Custo mensal para armazenar cada modelo treinado gpt-oss-20b USD 80,00 USD 0,09 USD 0,39 USD 1,95
-
-
gpt-oss-safeguard 20b, 120b
-
Preços sob demanda
Regiões: Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio) e Oeste dos EUA (Oregon)
Modelos OpenAI Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída GPT OSS Safeguard 20B USD 0,07 0,20 USD GPT OSS Safeguard 120B 0,15 USD USD 0,60 Regiões: Ásia-Pacífico (Mumbai), América do Sul (São Paulo) e Ásia-Pacífico (Tóquio)
Modelos OpenAI Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída GPT OSS Safeguard 20B USD 0,08 0,24 USD GPT OSS Safeguard 120B USD 0,18 USD 0,71 Regiões: Europa (Irlanda) e Europa (Milão)
Modelos OpenAI Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída GPT OSS Safeguard 20B USD 0,08 USD 0,23 GPT OSS Safeguard 120B USD 0,18 USD 0,70 Região: Europa (Londres)
Modelos OpenAI Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída GPT OSS Safeguard 20B USD 0,11 USD 0,31 GPT OSS Safeguard 120B USD 0,23 USD 0,93 Região: Ásia-Pacífico (Sydney)
Modelos OpenAI Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída GPT OSS Safeguard 20B USD 0,0721 USD 0,2060 GPT OSS Safeguard 120B USD 0,1545 USD 0,6180 * O preço do nível prioritário é 75% superior ao preço do nível padrão
* Os preços dos planos Flex e Batch têm um desconto de 50% em relação aos preços do plano Standard.
-
-
Qwen
-
Qwen
-
Qwen3 Coder, 32B, 235B
-
Qwen 3 Next, VL, Coder Next
-
Qwen3 Coder, 32B, 235B
-
-
Standard
-
Prioridade
-
Flex
-
Batch
-
Personalização de modelos
-
Standard
-
Região: Ásia-Pacífico (Sydney)
Modelos Qwen Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída Qwen3 Coder 30B A3B USD 0,1545 USD 0,6180 Qwen 3 32B USD 0,1545 USD 0,6180 Qwen3 235B A22B 2507 USD 0,2266 USD 0,9064 -
Prioridade
-
Região: Ásia-Pacífico (Sydney)
Modelos Qwen Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída Qwen3 Coder 30B A3B USD 0,2704 USD 1,0815 Qwen 3 32B USD 0,2704 USD 1,0815 Qwen3 235B A22B 2507 USD 0,3966 USD 1,5862 -
Flex
-
Região: Ásia-Pacífico (Sydney)
Modelos Qwen Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída Qwen3 Coder 30B A3B USD 0,0773 USD 0,3090 Qwen 3 32B USD 0,0773 USD 0,3090 Qwen3 235B A22B 2507 USD 0,1133 USD 0,4532 -
Batch
-
Região: Ásia-Pacífico (Sydney)
Modelos Qwen Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída Qwen3 Coder 30B A3B USD 0,0773 USD 0,3090 Qwen 3 32B USD 0,0773 USD 0,3090 Qwen3 235B A22B 2507 USD 0,1133 USD 0,4532 -
Personalização de modelos
-
Personalização de modelos
Preços de ajuste fino do reforço
Com o recurso Ajuste fino por reforço no Amazon Bedrock, você pode melhorar a precisão do modelo sem precisar de uma profunda experiência em machine learning ou grandes somas de dados rotulados. O Amazon Bedrock automatiza o fluxo de trabalho de ajuste fino por reforço: com base nas suas amostras de prompt, ele gera respostas do modelo e as pontua usando sua função de recompensa. Esses prompts, respostas e pontuações são então usados para treinar seu modelo por meio de um fluxo de trabalho de RFT iterativo.
Todo o fluxo de trabalho de treinamento é cobrado por hora. Após a conclusão do treinamento, os clientes podem utilizar imediatamente o modelo otimizado resultante para inferência sob demanda. A opção de inferência sob demanda inclui um modelo de preços baseado em tokens que cobra com base no número de tokens processados durante a inferência.
Regiões: Leste dos EUA (Norte da Virgínia) e Oeste dos EUA (Oregon)
Modelos Qwen Preço por hora de treinamento Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída Custo mensal para armazenar cada modelo treinado Qwen 3 32B USD 80,00 0,20 USD USD 0,78 USD 1,95
-
-
Qwen 3 Next, VL, Coder Next
-
Preços sob demanda
Regiões: Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio) e Oeste dos EUA (Oregon)
Modelos Qwen Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída Qwen3 Next 80B A3B 0,15 USD 1,20 USD Qwen3 VL 235B A22B USD 0,53 USD 2,66 Qwen3 Coder Next 0,50 USD 1,20 USD Regiões: Ásia-Pacífico (Mumbai), Europa (Irlanda) e Europa (Milão)
Modelos Qwen Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída Qwen3 Next 80B A3B USD 0,18 USD 1,41 Qwen3 VL 235B A22B USD 0.62 USD 3,13 Qwen3 Coder Next USD 0,60 USD 1,44 Regiões: América do Sul (São Paulo) e Ásia-Pacífico (Tóquio)
Modelos Qwen Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída Qwen3 Next 80B A3B USD 0,18 USD 1,45 Qwen3 VL 235B A22B USD 0,64 USD 3,22 Qwen3 Coder Next USD 0,60 USD 1,44 Região: Europa (Londres)
Modelos Qwen Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída Qwen3 Next 80B A3B USD 0,23 USD 1,86 Qwen3 VL 235B A22B USD 0,82 USD 4,12 Qwen3 Coder Next USD 0,78 USD 1,86 Regiões: Europa (Frankfurt) e Ásia-Pacífico (Jacarta)
Modelos Qwen Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída Qwen3 Coder Next USD 0,60 USD 1,44 Região: Ásia-Pacífico (Sydney)
Modelos Qwen Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída Qwen3 Next 80B A3B USD 0,1545 USD 1,2360 Qwen3 VL 235B A22B USD 0,5459 USD 2,7398 Qwen3 Coder Next USD 0,5150 USD 1,2360 * O preço do nível prioritário é 75% superior ao preço do nível padrão
* Os preços dos planos Flex e Batch têm um desconto de 50% em relação aos preços do plano Standard.
-
-
Stability AI
-
Stability AI
Preços sob demanda
Os modelos de imagem da geração anterior oferecidos pela Stability AI têm o preço por imagem, dependendo da contagem de etapas e da resolução da imagem.
Região: Oregon, Norte da Virgínia, Ohio
Serviços de imagem da Stability AI Preço por geração para cada modelo Stable Image - Remover fundo USD 0,07 Stable Image - Apagar objeto USD 0,07 Stable Image - Estrutura de controle USD 0,07 Stable Image - Esboço de controle USD 0,07 Stable Image - Guia de estilo USD 0,07 Stable Image - Pesquisar e substituir USD 0,07 Stable Image - Inpaint USD 0,07 Stable Image - Pesquisar e recolorir USD 0,07 Stable Image - Transferência de estilo USD 0,08 Stable Image Conservative Upscale USD 0,40 Stable Image Creative Upscale USD 0,60 Stable Image Fast Upscale USD 0,03 Stable Image Outpaint USD 0,06 -
TwelveLabs
-
TwelveLabs
Preços sob demanda
-
Inferência global entre regiões
-
Inferência entre regiões geográficas e regionais
-
Inferência global entre regiões
-
-
Inferência entre regiões geográficas e regionais
-
-
-
Writer
-
Writer
Preços sob demanda
Modelos de escritores Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída Palmyra X4 USD 2,50 USD 10,00 Palmyra X5 USD 0,60 USD 6,00 -
Z AI
-
Z AI
-
GLM 5
-
GLM 4.7
-
GLM 4.7 Flash
-
GLM 5
-
Preços sob demanda
Regiões: Leste dos EUA (Norte da Virgínia) e Oeste dos EUA (Oregon)
Modelos Z AI Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída GLM 5 1 USD USD 3,20 * O preço do nível prioritário é 75% superior ao preço do nível padrão
* Os preços dos planos Flex e Batch têm um desconto de 50% em relação aos preços do plano Standard. -
GLM 4.7
-
Preços sob demanda
Regiões: Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio) e Oeste dos EUA (Oregon)
Modelos Z AI Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída GLM 4.7 USD 0,60 2,20 USD Regiões: Ásia-Pacífico (Jacarta), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Tóquio), América do Sul (São Paulo) e Europa (Estocolmo)
Modelos Z AI Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída GLM 4.7 USD 0,72 USD 2,64 Região: Ásia-Pacífico (Sydney)
Modelos Z AI Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída GLM 4.7 USD 0,6180 USD 2,2660 * O preço do nível prioritário é 75% superior ao preço do nível padrão
* Os preços dos planos Flex e Batch têm um desconto de 50% em relação aos preços do plano Standard. -
GLM 4.7 Flash
-
Preços sob demanda
Regiões: Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio) e Oeste dos EUA (Oregon)
Modelos Z AI Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída GLM 4.7 Flash USD 0,07 0,40 USD Regiões: Ásia-Pacífico (Jacarta), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Tóquio), Europa (Frankfurt), Europa (Irlanda), Europa (Milão), Europa (Estocolmo) e América do Sul (São Paulo)
Modelos Z AI Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída GLM 4.7 Flash USD 0,08 0,48 USD Região: Europa (Londres)
Modelos Z AI Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída GLM 4.7 Flash USD 0,11 USD 0.62 Região: Ásia-Pacífico (Sydney)
Modelos Z AI Preço por 1 milhão de tokens de entrada Preço por 1 milhão de tokens de saída GLM 4.7 Flash USD 0,0721 USD 0,4120 * O preço do nível prioritário é 75% superior ao preço do nível padrão
* Os preços dos planos Flex e Batch têm um desconto de 50% em relação aos preços do plano Standard.
-
-
Importação de modelos personalizados
-
Importação de modelos personalizados
-
Llama
-
Llama multimodal
-
Mistral
-
Mixtral
-
Flan
-
Qwen
-
OpenAI
-
Llama
-
Regiões: Leste dos EUA (Norte da Virgínia) e Oeste dos EUA (Oregon)
Versão de unidade de modelo personalizada v1.0 Preço por unidade de modelo personalizado por min* USD 0,05718 Custo mensal de armazenamento por unidade de modelo personalizado USD 1,95 Região: Europa (Frankfurt)
Versão de unidade de modelo personalizada v1.0 Preço por unidade de modelo personalizado por min* USD 0,07144 Custo mensal de armazenamento por unidade de modelo personalizado USD 1,95 Observação: as unidades de modelo personalizadas necessárias para hospedar um modelo dependem de vários fatores, principalmente a arquitetura do modelo, a contagem de parâmetros do modelo e o comprimento do contexto. O número exato de unidades de modelo personalizado necessárias será determinado no momento da importação. Para referência, o modelo Llama 3.1 8B 128K requer duas unidades de modelo personalizadas, um modelo Llama 3.1 70B 128k requer oito unidades de modelo personalizadas.
*Faturado em janelas de 5 minutos
-
Llama multimodal
-
Regiões: Leste dos EUA (Norte da Virgínia) e Oeste dos EUA (Oregon)
Versão de unidade de modelo personalizada v1.0 Preço por unidade de modelo personalizado por min* USD 0,05718 Custo mensal de armazenamento por unidade de modelo personalizado USD 1,95 Região: Europa (Frankfurt)
Versão de unidade de modelo personalizada v1.0 Preço por unidade de modelo personalizado por min* USD 0,07144 Custo mensal de armazenamento por unidade de modelo personalizado USD 1,95 Observação: as unidades de modelo personalizadas necessárias para hospedar um modelo dependem de vários fatores, principalmente a arquitetura do modelo, a contagem de parâmetros do modelo e o comprimento do contexto. O número exato de unidades de modelo personalizado necessárias será determinado no momento da importação. Para referência, o modelo Llama 3.1 8B 128K requer duas unidades de modelo personalizadas, um modelo Llama 3.1 70B 128k requer oito unidades de modelo personalizadas.
*Faturado em janelas de 5 minutos
-
Mistral
-
Regiões: Leste dos EUA (Norte da Virgínia) e Oeste dos EUA (Oregon)
Versão de unidade de modelo personalizada v1.0 Preço por unidade de modelo personalizado por min* USD 0,05718 Custo mensal de armazenamento por unidade de modelo personalizado USD 1,95 Região: Europa (Frankfurt)
Versão de unidade de modelo personalizada v1.0 Preço por unidade de modelo personalizado por min* USD 0,07144 Custo mensal de armazenamento por unidade de modelo personalizado USD 1,95 Observação: as unidades de modelo personalizadas necessárias para hospedar um modelo dependem de vários fatores, principalmente a arquitetura do modelo, a contagem de parâmetros do modelo e o comprimento do contexto. O número exato de unidades de modelo personalizado necessárias será determinado no momento da importação. Para referência, o modelo Llama 3.1 8B 128K requer duas unidades de modelo personalizadas, um modelo Llama 3.1 70B 128k requer oito unidades de modelo personalizadas.
*Faturado em janelas de 5 minutos
-
Mixtral
-
Regiões: Leste dos EUA (Norte da Virgínia) e Oeste dos EUA (Oregon)
Versão de unidade de modelo personalizada v1.0 Preço por unidade de modelo personalizado por min* USD 0,05718 Custo mensal de armazenamento por unidade de modelo personalizado USD 1,95 Região: Europa (Frankfurt)
Versão de unidade de modelo personalizada v1.0 Preço por unidade de modelo personalizado por min* USD 0,07144 Custo mensal de armazenamento por unidade de modelo personalizado USD 1,95 Observação: as unidades de modelo personalizadas necessárias para hospedar um modelo dependem de vários fatores, principalmente a arquitetura do modelo, a contagem de parâmetros do modelo e o comprimento do contexto. O número exato de unidades de modelo personalizado necessárias será determinado no momento da importação. Para referência, o modelo Llama 3.1 8B 128K requer duas unidades de modelo personalizadas, um modelo Llama 3.1 70B 128k requer oito unidades de modelo personalizadas.
*Faturado em janelas de 5 minutos
-
Flan
-
Regiões: Leste dos EUA (Norte da Virgínia) e Oeste dos EUA (Oregon)
Versão de unidade de modelo personalizada v1.0 Preço por unidade de modelo personalizado por min* USD 0,05718 Custo mensal de armazenamento por unidade de modelo personalizado USD 1,95 Região: Europa (Frankfurt)
Versão de unidade de modelo personalizada v1.0 Preço por unidade de modelo personalizado por min* USD 0,07144 Custo mensal de armazenamento por unidade de modelo personalizado USD 1,95 Observação: as unidades de modelo personalizadas necessárias para hospedar um modelo dependem de vários fatores, principalmente a arquitetura do modelo, a contagem de parâmetros do modelo e o comprimento do contexto. O número exato de unidades de modelo personalizado necessárias será determinado no momento da importação. Para referência, o modelo Llama 3.1 8B 128K requer duas unidades de modelo personalizadas, um modelo Llama 3.1 70B 128k requer oito unidades de modelo personalizadas.
*Faturado em janelas de 5 minutos
Preços de inferência sob demanda:
Você receberá cobranças em janelas de 5 minutos pelo período em que sua cópia de modelo estiver ativa, a partir da primeira invocação bem-sucedida. O limite máximo de throughput e simultaneidade por cópia de modelo depende de fatores como combinação de tokens de entrada/saída, tipo de hardware, tamanho do modelo, arquitetura, otimizações de inferência e é determinado durante o fluxo de trabalho de importação do modelo.O Bedrock dimensiona automaticamente o número de cópias do modelo de acordo com seus padrões de uso. Se não houver invocações por um período de 5 minutos, o Bedrock diminuirá para zero e aumentará novamente quando você invocar seu modelo. Ao aumentar a escala, você pode experimentar uma duração de inicialização a frio (em dezenas de segundos), dependendo do tamanho do modelo. O Bedrock também aumenta o número de cópias do modelo se o volume de inferência exceder consistentemente os limites de simultaneidade de uma única cópia do modelo. Observação: há um máximo padrão de três cópias de modelo por conta e por modelo importado que podem ser aumentadas por meio do Service Quotas.
-
Qwen
-
Regiões: Leste dos EUA (Norte da Virgínia) e Oeste dos EUA (Oregon)
Versão de unidade de modelo personalizada v1.0 Preço por unidade de modelo personalizado por min* USD 0,05718 Custo mensal de armazenamento por unidade de modelo personalizado USD 1,95 Região: Europa (Frankfurt)
Versão de unidade de modelo personalizada v1.0 Preço por unidade de modelo personalizado por min* USD 0,07144 Custo mensal de armazenamento por unidade de modelo personalizado USD 1,95 Observação: as unidades de modelo personalizadas necessárias para hospedar um modelo dependem de vários fatores, principalmente a arquitetura do modelo, a contagem de parâmetros do modelo e o comprimento do contexto. O número exato de unidades de modelo personalizado necessárias será determinado no momento da importação. Para referência, o modelo Llama 3.1 8B 128K requer duas unidades de modelo personalizadas, um modelo Llama 3.1 70B 128k requer oito unidades de modelo personalizadas.
*Faturado em janelas de 5 minutos
Preços de inferência sob demanda:
Você receberá cobranças em janelas de 5 minutos pelo período em que sua cópia de modelo estiver ativa, a partir da primeira invocação bem-sucedida. O limite máximo de throughput e simultaneidade por cópia de modelo depende de fatores como combinação de tokens de entrada/saída, tipo de hardware, tamanho do modelo, arquitetura, otimizações de inferência e é determinado durante o fluxo de trabalho de importação do modelo.O Bedrock dimensiona automaticamente o número de cópias do modelo de acordo com seus padrões de uso. Se não houver invocações por um período de 5 minutos, o Bedrock diminuirá para zero e aumentará novamente quando você invocar seu modelo. Ao aumentar a escala, você pode experimentar uma duração de inicialização a frio (em dezenas de segundos), dependendo do tamanho do modelo. O Bedrock também aumenta o número de cópias do modelo se o volume de inferência exceder consistentemente os limites de simultaneidade de uma única cópia do modelo. Observação: há um máximo padrão de três cópias de modelo por conta e por modelo importado que pode ser aumentado por meio do Service Quotas.
-
OpenAI
-
Regiões: Leste dos EUA (Norte da Virgínia) e Oeste dos EUA (Oregon)
Versão de unidade de modelo personalizada v2.0 Preço por unidade de modelo personalizado por min* USD 0,1433 Custo mensal de armazenamento por unidade de modelo personalizado USD 1,95 Observação: as unidades de modelo personalizadas necessárias para hospedar um modelo dependem de vários fatores, principalmente a arquitetura do modelo, a contagem de parâmetros do modelo e o comprimento do contexto. O número exato de unidades de modelo personalizado necessárias será determinado no momento da importação. Para referência, o modelo Llama 3.1 8B 128K requer duas unidades de modelo personalizadas, um modelo Llama 3.1 70B 128k requer oito unidades de modelo personalizadas.
*Faturado em janelas de 5 minutos
Preços de inferência sob demanda:
Você receberá cobranças em janelas de 5 minutos pelo período em que sua cópia de modelo estiver ativa, a partir da primeira invocação bem-sucedida. O limite máximo de throughput e simultaneidade por cópia de modelo depende de fatores como combinação de tokens de entrada/saída, tipo de hardware, tamanho do modelo, arquitetura, otimizações de inferência e é determinado durante o fluxo de trabalho de importação do modelo.O Bedrock dimensiona automaticamente o número de cópias do modelo de acordo com seus padrões de uso. Se não houver invocações por um período de 5 minutos, o Bedrock diminuirá para zero e aumentará novamente quando você invocar seu modelo. Ao aumentar a escala, você pode experimentar uma duração de inicialização a frio (em dezenas de segundos), dependendo do tamanho do modelo. O Bedrock também aumenta o número de cópias do modelo se o volume de inferência exceder consistentemente os limites de simultaneidade de uma única cópia do modelo. Observação: há um máximo padrão de três cópias de modelo por conta e por modelo importado que pode ser aumentado por meio do Service Quotas.
-
-
-
Bases de conhecimento
-
Recuperação de dados estruturados (geração de SQL)
A recuperação de dados estruturados é cobrada por cada solicitação para gerar uma consulta SQL. A consulta SQL gerada é usada para recuperar os dados de armazenamentos de dados estruturados.
Modelos Rerank
Os modelos Rerank são projetados para melhorar a relevância e a precisão das respostas em aplicações de geração aumentada via recuperação (RAG). Eles são cobrados por consulta.
**A cobrança é feita pelo número de consultas, sendo que uma consulta pode conter até cem blocos de documentos. Se a consulta contiver mais de cem blocos de documentos, ela será contada como várias consultas. Por exemplo, se uma solicitação contiver 350 documentos, ela será tratada como quatro consultas. Observe que cada documento só pode conter até 512 tokens (incluindo a consulta e o total de tokens do documento) e, se o tamanho do token for maior que 512 tokens, ele será dividido em vários documentos. Uma consulta é equivalente a uma unidade de pesquisa.
-
Barreiras de proteção
-
Barreira de proteção do Amazon Bedrock
O preço das barreiras de proteção do Amazon Bedrock é baseado nas cobranças incorridas pelo filtro usado na barreira de proteção. O preço é o mesmo para os níveis Standard e Classic.
Filtro das barreiras de proteção*
Preço
Filtros de conteúdo para os níveis Standard e Classic (conteúdo de texto) USD 0,15 por 1.000 unidades de texto
Filtros de conteúdo (conteúdo de imagem)
USD 0,00075 por imagem processada
Tópicos negados tanto para o nível Standard como Classic
USD 0,15 por 1.000 unidades de texto
Filtros de informações confidenciais
USD 0,10 por 1.000 unidades de texto
Filtros de informações confidenciais (padrão de expressão regular)
Grátis
Filtros de palavras
Grátis
Verificações de fundamentação contextual
USD 0,10 por 1.000 unidades de texto
Verificações com raciocínio automatizado
USD 0,17 por 1.000 unidades de texto por política de raciocínio automatizado
Preços sob demanda
* Cada filtro de barreira de proteção é opcional e pode ser habilitado com base nos requisitos da aplicação. As cobranças serão feitas com base no tipo de filtro usado na barreira de proteção. Por exemplo, se uma barreira de proteção estiver configurada com filtros de conteúdo e tópicos negados, haverá cobranças por esses dois filtros, mas não haverá cobranças associadas aos filtros de informações confidenciais.
Observação: uma unidade de texto pode conter até 1000 caracteres. Se uma entrada de texto tiver mais de 1000 caracteres, ela será processada como várias unidades de texto, cada uma contendo 1000 caracteres ou menos. Por exemplo, se um texto tiver 5600 caracteres, serão contabilizadas seis unidades de texto para fins de cobrança.A verificação de fundamentação contextual utiliza uma fonte de referência e uma consulta para determinar se a resposta do modelo está fundamentada com base na fonte e se é relevante para a consulta. O número total de unidades de texto cobradas é calculado com base na soma de todos os caracteres presentes na fonte, na consulta e na resposta do modelo.
-
Avaliação de modelo
-
Avaliação de modelo
A avaliação de modelo é cobrada pela inferência de sua escolha de modelo. As pontuações algorítmicas geradas automaticamente são fornecidas sem custo adicional. Na avaliação baseada em humanos, na qual você traz seu próprio fluxo de trabalho, você é cobrado pela inferência do modelo na avaliação e uma taxa de USD 0,21 por tarefa humana concluída.
Se você utilizar a avaliação RAG ou o LLM como avaliador na Avaliação de Modelos, os tokens utilizados pelo modelo de avaliação serão cobrados com base nos preços do plano padrão sob demanda. Os prompts de avaliador são cobrados como parte do uso do seu token e estão disponíveis na documentação pública. A avaliação do RAG em uma Base de Conhecimentos Bedrock também está sujeita às taxas de uso normal aplicáveis a Bases de Conhecimentos Bedrock.
Modelo
Preço por 1.000 tokens de entrada
Preço por 1.000 tokens de saída
Preço por tarefa humana
Modelo selecionado para avaliação
Com base no modelo selecionado
Com base no modelo selecionado
USD 0,21
-
Automação de dados
-
Automação de dados
A automação de dados do Amazon Bedrock transforma conteúdo multimodal não estruturado em formatos de dados estruturados para casos de uso como processamento inteligente de documentos, análise de vídeo e RAG. O Bedrock Data Automation pode gerar conteúdo de saída padrão usando padrões predefinidos que são específicos da modalidade, como descrições de vídeos cena a cena, transcrições de áudio ou análise automatizada de documentos. Além disso, os clientes podem criar saídas personalizadas especificando seus requisitos de saída em esquemas com base em seu próprio esquema de dados, que eles podem carregar facilmente em um banco de dados ou data warehouse existente. Por meio de uma integração com Bases de Conhecimento, a automação de dados do Bedrock também pode ser usada para analisar o conteúdo de aplicações de RAG, melhorando a precisão e a relevância dos resultados ao incluir informações incorporadas em imagens e texto.
As bases de conhecimento do Amazon Bedrock oferecem uma integração de automação de dados do Bedrock para fornecer respostas mais relevantes e precisas para dados multimodais. Ao configurar uma base de conhecimento, você pode selecionar a automação de dados do Bedrock como seu método de análise para analisar e extrair insights significativos de imagens ou documentos, que podem incluir figuras, gráficos e diagramas. Durante o processamento, a automação de dados do Bedrock extrai informações significativas dos documentos e imagens ingeridos, que são usadas nas etapas subsequentes da base de conhecimento para fragmentação, incorporação e armazenamento. Quando integrado às bases de conhecimento, a automação de dados do Bedrock fornece e faz a cobrança com base na saída padronizada.
-
Roteamento de prompts inteligente
-
Ponto de preço Dimensão dos preços Plano de preços Roteamento de prompts inteligente 1 USD por 1.000 solicitações Sob demanda Roteamento de prompts inteligente
O Roteamento de prompts inteligente permite usar uma combinação de modelos de base (FMs) da mesma família de modelos para ajudar a otimizar a qualidade e o custo. Por exemplo, com a família de modelos Claude da Anthropic, o Amazon Bedrock pode direcionar de forma inteligente as solicitações entre o Claude 3.5 Sonnet e o Claude 3 Haiku, dependendo da complexidade do prompt. Da mesma forma, o Amazon Bedrock pode encaminhar solicitações entre o Meta Llama 3.3 70B e 3.18B, e o Nova Pro e o Nova Lite. O roteador de prompts prevê qual modelo fornecerá o melhor desempenho para cada solicitação, ajudando a otimizar a qualidade da resposta e o custo. Isso é particularmente útil para aplicações como assistentes de atendimento ao cliente, onde consultas simples podem ser tratadas por modelos menores, mais rápidos e mais econômicos, e consultas complexas são encaminhadas para modelos mais capazes. O Roteamento de prompts inteligente pode reduzir os custos em até 30% sem comprometer a precisão.
-
Otimização de prompts
-
Prompt Optimization para Amazon Bedrock
Você é cobrado com base no número de tokens em prompts de entrada e em prompts otimizados.
Todas as cobranças serão faturadas mensalmente a partir de 23 de abril de 2025.
Preço por 1.000 tokens 0,030 USD
Exemplos de preço
-
AI21 Labs
Um desenvolvedor de aplicações faz as seguintes chamadas de API para o Amazon Bedrock: uma solicitação ao modelo Jurrasic-2 Mid da AI21 para resumir uma entrada de 10.000 tokens de texto em uma saída de 2.000 tokens.
Custo total acumulado = 10.000 tokens/1000 * USD 0,0125 + 2.000 tokens/1000 * USD 0,0125 = USD 0,15
-
Amazon
Preços sob demanda
Um desenvolvedor de aplicações faz as seguintes chamadas de API para o Amazon Bedrock de hora em hora: uma solicitação ao modelo Amazon Titan Text Lite para resumir uma entrada de 2.000 tokens de texto em uma saída de 1.000 tokens.
Custo total acumulado por hora = 2.000 tokens/1.000 * USD 0,0003 + 1.000 tokens/1.000 * USD 0,0004 = USD 0,001.
Um desenvolvedor de aplicações faz as seguintes chamadas de API para o Amazon Bedrock: uma solicitação ao modelo de base do Gerador de imagens do Amazon Titan para gerar 1000 imagens de 1024 x 1024 em tamanho de qualidade padrão.
Custo total acumulado = 1000 imagens * USD 0,01 por imagem = USD 10
Preços para personalização (ajuste fino e pré-treinamento contínuo)
Um desenvolvedor de aplicações personaliza um modelo Gerador de imagens do Amazon Titan usando 1.000 pares de imagem e texto. Após o treinamento, o desenvolvedor usa o throughput provisionado do modelo personalizado por 1 hora para avaliar a performance desse modelo. O modelo ajustado é armazenado por 1 mês. Após a avaliação, o desenvolvedor usa o throughput provisionado (compromisso de 1 mês) para hospedar o modelo personalizado.
Custo mensal do ajuste fino = treinamento de ajuste fino (USD 0,005 * 500 * 64), em que USD 0,005 é o preço por imagem vista, 500 é o número de etapas e 64 é o tamanho do lote + armazenamento de modelo personalizado por mês (USD 1,95) + 1 hora de inferência de modelo personalizado (USD 21) = USD 160 + USD 1,95 + USD 21 = USD 182,95
Preços para throughput provisionado
Um desenvolvedor de aplicações compra duas unidades de modelo do Amazon Titan Text Express com um compromisso de 1 mês para seu caso de uso de resumo de texto.
Custo mensal total acumulado = 2 unidades do modelo * USD 18,40/hora * 24 horas * 31 dias = USD 27.379,20
Um desenvolvedor de aplicações compra uma unidade de modelo do modelo de base do Gerador de imagens do Amazon Titan com compromisso de 1 mês.
Custo total incorrido = 1 unidade do modelo * USD 16,20 * 24 horas* 31 dias = USD 12.052,80
-
Barreiras de proteção do Amazon Bedrock
Exemplo 1: chatbot de suporte ao cliente
Um desenvolvedor de aplicações cria um chatbot de suporte ao cliente e usa filtros de conteúdo para bloquear conteúdo nocivo e tópicos negados para filtrar consultas e respostas indesejáveis.
O chatbot atende a 1.000 consultas de usuários por hora. Cada consulta do usuário tem um tamanho médio de entrada de 200 caracteres e recebe uma resposta FM com 1.500 caracteres.
Cada consulta do usuário de 200 caracteres corresponde a 1 unidade de texto.
Cada resposta FM de 1.500 caracteres corresponde a 2 unidades de texto.
Unidades de texto processadas a cada hora = (1 + 2) * 1.000 consultas = 3.000 unidades de texto
Custo total incorrido por hora com filtros de conteúdo e tópico negado = 3.000 * (USD 0,15 + USD 0,15)/1.000 = USD 0,90Exemplo 2: resumo de transcrição do call center
Um desenvolvedor de aplicações cria uma aplicação para resumir as transcrições de chat entre usuários e atendentes de suporte. Ele usa filtro de informações confidenciais para omitir informações de identificação pessoal (PII) nos resumos gerados para 10.000 conversas.
Cada resumo gerado tem uma média de 3.500 caracteres que correspondem a 4 unidades de texto.
Custo total incorrido para resumir 10.000 conversas = 10.000 * 4 * (USD 0,1/1000) = USD 4Exemplo 3: Mecanismo de verificação de protocolo médico
Uma empresa de tecnologia de saúde implementa verificações com raciocínio automatizado no seu sistema de suporte à decisões clínicas para validar sugestões de tratamento em relação às diretrizes médicas.O sistema processa 5.000 casos de pacientes por mês. Cada caso envolve:
- Resumo dos dados do paciente: 500 caracteres (1 unidade de texto)
- Avaliação diagnóstica: 2.000 caracteres (2 unidades de texto)
- Recomendação de tratamento: 4.500 caracteres (5 unidades de texto)
Unidades de texto processadas por mês = (1 + 2 + 5) 5.000 casos = 40.000 unidades de texto
Custo total por mês para verificações de raciocínio automatizado = 40.000 (0,17 USD) /1000 = 6,80 USD -
Amazon Bedrock Knowledge Bases
Exemplo de preço 1 (reclassificação usando o modelo Amazon Rerank 1.0)
Em um determinado mês, você faz 2 milhões de solicitações para a API Rerank usando o modelo Amazon Rerank 1.0, sendo que 1 milhão de solicitações contêm menos de cem documentos cada e, portanto, serão cobradas como uma solicitação cada. O 1 milhão de solicitações restante contêm de 120 a 150 documentos e, portanto, cada solicitação será cobrada como duas solicitações.
Preço de uma solicitação = USD 0,001
Cobrança total = 1.000.000 * USD 0,001 + 1.000.000*2*USD 0,001= USD 3.000Exemplo de preço 2: (recuperação de dados estruturados)
Um desenvolvedor de aplicações cria um chatbot de suporte que consulta dados estruturados armazenados no Amazon Redshift. O desenvolvedor cria uma base de conhecimento do Bedrock e se conecta ao Amazon Redshift. O chatbot atende a 10 mil consultas de usuários por hora. Cada consulta de usuário custará USD 0,002 por API GenerateQuery para gerar SQL com base na consulta do usuário.
Custo total incorrido para gerar SQL por hora = USD 0,002 * 10.000 = USD 20.
Custo total incorrido no mês = USD 20 * 24 * 30 = USD 1.440 -
Anthropic
Preços sob demanda
Um desenvolvedor de aplicações faz as seguintes chamadas de API para o Amazon Bedrock na região Oeste dos EUA (Oregon): uma solicitação ao modelo Claude da Anthropic para resumir uma entrada de 11.000 tokens de texto em uma saída de 4.000 tokens.
O custo total acumulado é de 11.000 tokens/1000 * USD 0,008 + 4.000 tokens/1000 * USD 0,024 = USD 0,088 + USD 0,096 = USD 0,184
Preços para throughput provisionado
Um desenvolvedor de aplicações compra uma unidade de modelo do Claude Instant da Anthropic na região Oeste dos EUA (Oregon):
O custo mensal total acumulado é de 1 unidade de modelo * USD 39,60 * 24 horas * 31 dias = USD 29.462,40
-
Cohere
Preços sob demanda
Um desenvolvedor de aplicações faz as seguintes chamadas de API para o Amazon Bedrock: uma solicitação ao modelo Command da Cohere para resumir uma entrada de 6.000 tokens de texto em uma saída de 2.000 tokens.
O custo total incorrido é = 6.000 tokens/1.000 * USD 0,0015 + 2.000 tokens/1.000 * USD 0,0020 = USD 0,013
Um desenvolvedor de aplicações faz as seguintes chamadas de API para o Amazon Bedrock: uma solicitação ao modelo Command-Light da Cohere para resumir uma entrada de 6.000 tokens de texto de entrada em uma saída de 2.000 tokens.
Custo total acumulado = 6.000 tokens/1000 * USD 0,0003 + 2.000 tokens/1000 * USD 0,0006 = USD 0,003
Um desenvolvedor de aplicações faz as seguintes chamadas de API para o Amazon Bedrock: um solicitação ao modelo Embed em inglês ou Embed multilíngue da Cohere para gerar incorporações para 10.000 tokens de entrada.
Custo total acumulado = 10.000 tokens/1000 * USD 0,0001 = USD 0,001
Preços para personalização (ajuste fino)
Um desenvolvedor de aplicações personaliza um modelo Command da Cohere usando 1000 tokens de dados. Após o treinamento, ele usa o throughput provisionado do modelo personalizado por 1 hora para avaliar a performance desse modelo. O modelo ajustado é armazenado por 1 mês. Após a avaliação, o desenvolvedor usa o throughput provisionado (compromisso de 1 mês) para hospedar o modelo personalizado.
O custo mensal do ajuste fino é: treinamento de ajuste fino (USD 0,004 * 1000) + armazenamento de modelos personalizados por mês (USD 1,95) + 1 hora de inferência de modelo personalizado (USD 49,50) = USD 55,45
Custo mensal acumulado para throughput provisionado (compromisso de 1 mês) do modelo personalizado = USD 39,60
Preços para throughput provisionado
Um desenvolvedor de aplicações compra uma unidade de modelo do Command da Cohere com um compromisso de 1 mês para seu caso de uso de resumo de texto.
O custo mensal total acumulado é de 1 unidade de modelo * USD 39,60 * 24 horas * 31 dias = USD 29.462,40
-
Importação de modelos personalizados
Exemplo de preço: um desenvolvedor de aplicações importa um modelo personalizado do tipo Llama 3.1 com um tamanho de parâmetro de 8B com um comprimento de sequência de 128 mil na região us-east-1. Isso requer duas unidades de modelo personalizadas. Portanto, o preço por minuto será de USD 0,1570 porque são necessárias duas unidades de modelo personalizadas. Os custos de armazenamento do modelo para duas unidades de modelo personalizadas seriam de USD 3,90 por mês.
Não há cobrança para importar o modelo. A primeira invocação bem-sucedida é feita às 8h03, quando a medição começa. As janelas de medição de 5 minutos são feitas das 8h03 às 8h07; das 8h07 às 8h11 e assim por diante. Se houver pelo menos uma invocação durante qualquer período de 5 minutos, a janela será considerada ativa para cobrança. Se houver uma invocação às 8h03 e nenhuma outra invocação depois das 8h07, a medição será interrompida às 8h07. Nesse caso, a fatura seria calculada da seguinte forma: USD 0,1570 * 5 minutos* 1 janelas de cinco minutos = USD 0,785.
-
Automação de dados
Exemplo de preço 1:
Digamos que você processe um documento de mil páginas usando a saída personalizada do BDA. Todas as mil páginas são processadas usando o esquema 1, que tem 15 campos. O preço por página para qualquer esquema com 30 campos ou menos é USD 0,040. O custo total seria de USD 40.
Total de páginas processadas = 1.000
Preço por página para esquemas com menos de 30 campos = USD 0,040
Cobrança total = 1.000 * USD 0,040 = USD 40Exemplo de preço 2:
Digamos que você processe dois documentos usando a saída personalizada do BDA. O documento 1 tem 40 páginas e é processado usando o esquema 1, que tem 20 campos. O documento 2 tem 10 páginas e é processado usando o esquema 2, que tem 40 campos. O preço por página do esquema 1 é USD 0,040, pois ele contém 30 campos ou menos. O preço por página do esquema 2 é USD 0,045. O custo de processamento do Documento 1 usando o esquema 1 é USD 1,60. O custo de processamento do Documento 2 usando o esquema 2 é USD 0,45. O custo total do processamento de ambos os documentos seria de USD 2,05.
Total de páginas processadas = 50
Preço por página do Esquema 1 com menos de 30 campos = USD 0,040
Preço por página para o Esquema 2 com 40 campos = USD 0,040 + (n.º de campos adicionais acima de 30 * USD 0,0005 por campo)
Número de campos adicionais acima de 30 = 40 - 30 = 10
Preço por página para o Esquema 2 com 40 campos = USD 0,040 + (10 * USD 0,0005 por campo) = USD 0,045
Cobrança pelo Documento 1 usando o Esquema 1 = 40 páginas x USD 0,040 por página = USD 1,6
Cobrança pelo Documento 2 usando o Esquema 2 = 10 páginas x USD 0,045 por página = USD 0,45
Cobrança total = cobrança pelo Documento 1 + cobrança pelo Documento 2 = USD 1,6 + USD 0,45 = USD 2,05Exemplo de preço 3:
Digamos que você configure as bases de conhecimento do Bedrock para usar a automação de dados do Bedrock como um analisador e, em seguida, faça a ingestão de um documento de mil páginas. Observe que as estruturas de custo diferem entre as opções de análise do Knowledge Bases. O BDA usa preços por página, enquanto os analisadores do Foundational Model cobram com base nos tokens de entrada e saída. Para contextualizar, o processamento de 1.000 páginas, em que 30% contêm tabelas e 30% contêm figuras, normalmente requer 2.900 tokens de entrada e 750 tokens de saída. O consumo de tokens varia de acordo com o tipo de conteúdo, portanto, os clientes são incentivados a testar usando seus próprios dados para obter estimativas mais precisas. A integração entre a base de conhecimento do Bedrock e a automação de dados do Bedrock usa a saída padrão, com um preço de USD 0,010 por página. O custo total seria de USD 10.Total de páginas processadas = 1.000
Preço por página para a saída padrão = USD 0,010
Cobrança total = 1.000 * USD 0,010 = USD 10Exemplo de preço 4:
Digamos que você processe um vídeo de 60 minutos usando a saída padrão do BDA. O preço por minuto da saída padrão de vídeo é USD 0,050. O custo total seria de USD 3,00.
Total de minutos processados = 60
Preço por minuto para saída padrão de vídeo = USD 0,050
Cobrança total = 60 * USD 0.050 = USD 3,00Exemplo de preço 5:
Digamos que você processe 2 mil imagens usando a saída personalizada do BDA. As primeiras mil imagens são processadas usando o esquema 1, que tem 10 campos. As últimas mil páginas são processadas usando o esquema 2, que tem 40 campos. O preço por imagem do esquema 1 é USD 0,005, pois ele contém 30 campos ou menos. O preço por imagem do esquema 2 é USD 0,01. O custo de processamento das primeiras mil imagens usando o esquema 1 é USD 5,00. O custo de processamento das segundas mil imagens usando o esquema 2 é USD 10,00. O custo total do processamento de todas as 2 mil imagens seria de USD 15,00
Custo das primeiras 1.000 imagens = 1.000 imagens * USD 0,005 por imagem = USD 5,00
Custo das segundas 1.000 imagens = 1.000 imagens * (USD 0,005 + (n.º de campos adicionais acima de 30 * USD 0,0005 por campo))
= 1.000 * (USD 0,005 + ((40-30) * USD 0,0005))
= 1.000 * (USD 0,005 + (10 * USD 0,0005)) = USD 10,00
Custo total = USD 5,00 + USD 10,00 = USD 15,00Exemplo de preço 6:
Vamos supor que você queira usar a saída padrão da automação de dados do Bedrock para processar 15 mil minutos de gravações de áudio de reuniões em sua organização. O custo total do processamento de todos os 15 mil minutos de áudio seria de USD 90.
Total de minutos processados = 15.000 minutos
Cobrança total = 15.000 min × USD 0,006 = USD 90 -
DeepSeek
Preços sob demanda
Um desenvolvedor de aplicações faz as seguintes chamadas de API para o Amazon Bedrock de hora em hora: uma solicitação ao modelo DeepSeek-R1 para resumir uma entrada de 2.000 tokens de texto de entrada em uma saída de 1.000 tokens (incluindo tokens de raciocínio):
Custo total acumulado por hora = 2.000 tokens/1000 * USD 0,00135 + 1000 tokens/1.000 * USD 0,0054 = USD 0,0081
-
Fluxos
Exemplo: resumo de notícias
Um desenvolvedor de aplicações cria um fluxo para automatizar o resumo de notícias para negociadores. O fluxo inclui um nó de entrada, que ocupa um local do S3, e um nó de recuperação do S3, que recupera dez arquivos que incluem artigos de dez grandes agências de notícias no S3 (transições de dois nós). Em seguida, ele usa um nó iterador para invocar um modelo com um nó de prompt para resumir cada arquivo (+ 10 arquivos x 2 transições de nós). Em seguida, ele coleta todos os resultados usando um nó coletor, grava os resultados no S3 usando o nó de armazenamento do S3 e os completa em um nó de saída (+ 3 transições de nós). Eles executam esse fluxo a cada meia hora de cada dia da semana.O número de transições de nós por execução de fluxo é: 2+1+10*2 + 3 = 25 transições de nós/execução de fluxo
O número de execuções de fluxo por mês é: 24 horas *2* 5 dias * 4 semanas = 960 execuções de fluxo/mês.
A fatura mensal total é: 25 * 960 * USD 0,035/1.000 = USD 0,84
Cobranças adicionais
A fatura também incluirá cobranças adicionais pelos serviços da AWS usados na execução do fluxo de trabalho, incluindo o uso do Amazon S3 nos nós de recuperação e armazenamento e o uso do modelo de base do Amazon Bedrock no nó do prompt. -
Meta
Preços sob demanda
Um desenvolvedor de aplicações faz as seguintes chamadas de API para o Amazon Bedrock: uma solicitação ao modelo Llama 2 Chat (13B) da Meta para resumir uma entrada de 2.000 tokens de texto de entrada em uma saída de 500 tokens.
Custo total acumulado = 2.000 tokens/1000 * USD 0,00075 + 500 tokens/1000 * USD 0,001 = USD 0,002
Preços para personalização (ajuste fino)
Um desenvolvedor de aplicações personaliza o modelo pré-treinado do Llama 2 (70B) usando 1000 tokens de dados. Após o treinamento, ele usa o throughput provisionado do modelo personalizado por 1 hora para avaliar a performance desse modelo. O modelo ajustado é armazenado por 1 mês. Após a avaliação, o desenvolvedor usa o throughput provisionado (compromisso de 1 mês) para hospedar o modelo personalizado.
O custo mensal do ajuste fino é: treinamento de ajuste fino (USD 0,00799 * 1000) + armazenamento de modelo personalizado por mês (USD 1,95) + 1 hora de inferência de modelo personalizado (USD 23,50) = USD 33,44
Custo mensal acumulado para throughput provisionado (compromisso de 1 mês) do modelo personalizado = USD 21,18
Preços para throughput provisionado
Um desenvolvedor de aplicações compra uma unidade de modelo do Meta Llama 2 com um compromisso de 1 mês para seu caso de uso de resumo de texto.
O custo mensal total acumulado é de 1 unidade de modelo * USD 21,18 * 24 horas * 31 dias = USD 15.757,92
-
Mistral AI
Preços sob demanda
Um desenvolvedor de aplicações faz as seguintes chamadas de API para o Amazon Bedrock de hora em hora: uma solicitação ao modelo Mistral 7B para resumir uma entrada de 2.000 tokens de texto em uma saída de 1.000 tokens.
Custo total acumulado por hora = 2.000 tokens/1000 * USD 0,00015 + 1000 tokens/1.000 * USD 0,0002 = USD 0,0005
Um desenvolvedor de aplicações faz as seguintes chamadas de API para o Amazon Bedrock de hora em hora: uma solicitação ao modelo Mistral 8x7B para resumir uma entrada de 2.000 tokens de texto em uma saída de 1.000 tokens.
Custo total acumulado por hora = 2.000 tokens/1000 * USD 0,00045 + 1000 tokens/1.000 * USD 0,0007 = USD 0,0016
Um desenvolvedor de aplicações faz as seguintes chamadas de API para o Amazon Bedrock de hora em hora: uma solicitação ao modelo Mistral Large para resumir uma entrada de 2.000 tokens de texto de entrada em uma saída de 1.000 tokens.
O custo total por hora incorrido é = 2.000 tokens/1000 * USD 0,008 + 1.000 tokens/1000 * USD 0,024 = USD 0,04
-
Avaliação de modelo
Exemplo de avaliação de modelo 1:
Preços sob demanda
Um desenvolvedor de aplicações envia um conjunto de dados para avaliação de modelos baseada em humanos usando o Anthropic Claude 2.1 e o Anthropic Claude Instant na região da AWS Leste dos EUA (Norte da Virgínia).O conjunto de dados contém 50 solicitações e o desenvolvedor exige que 1 pessoa avalie cada conjunto de prompts de resposta (configurável na criação do trabalho de avaliação como parâmetro “pessoas por prompt”).
Haverá 50 tarefas neste trabalho de avaliação (uma tarefa para cada conjunto de prompt-resposta por cada trabalhador). As 50 solicitações combinam até 5.000 tokens de entrada, e as respostas associadas combinam 15.000 tokens para o Anthropic Claude Instant e 20.000 tokens para o Anthropic Claude 2.1.
As seguintes cobranças são cobradas por esse trabalho de avaliação de modelo:Item Número de tokens de entrada Preço por 1.000 tokens de entrada Custo da entrada Número de tokens de saída Preço por 1.000 tokens de saída Custo de produção Número de tarefas humanas Preço por tarefa humana Custo das tarefas humanas Total Inferência instantânea de Claude 5.000 USD 0,0008 USD 0,004 15.000 USD 0,0024 USD 0,036 USD 0,04 Inferência do Claude 2.1 5.000 USD 0,008 USD 0,04 20.000 USD 0,024 USD 0,48 USD 0,52 Tarefas humanas 50 USD 0,21 USD 10,50 USD 10,50 Total USD 11,06 Exemplo de avaliação de modelo 2:
Preços sob demanda
Um desenvolvedor de aplicações envia um conjunto de dados para avaliação de modelos baseada em humanos usando o Anthropic Claude 2.1 e o Anthropic Claude Instant na região da AWS Leste dos EUA (Norte da Virgínia).
O conjunto de dados contém 50 solicitações e o desenvolvedor exige que dois trabalhadores avaliem cada conjunto de prompts de resposta (configurável na criação do trabalho de avaliação como parâmetro “trabalhadores por prompt”). Haverá 100 tarefas neste trabalho de avaliação (1 tarefa para cada conjunto de resposta de prompt por cada trabalhador: 2 trabalhadores x 50 conjuntos de respostas de prompt = 100 tarefas humanas).
As 50 solicitações combinam até 5.000 tokens de entrada, e as respostas associadas combinam 15.000 tokens para o Anthropic Claude Instant e 20.000 tokens para o Anthropic Claude 2.1.
As seguintes cobranças são cobradas por esse trabalho de avaliação de modelo:Item Número de tokens de entrada Preço por 1.000 tokens de entrada Custo da entrada Número de tokens de saída Preço por 1.000 tokens de saída Custo de produção Número de tarefas humanas Preço por tarefa humana Custo das tarefas humanas Total Inferência instantânea de Claude 5.000 0,0008 USD USD 0,0040 15.000 USD 0,0024 USD 0,036 USD 0,04 Inferência do Claude 2.1 5.000 USD 0,008 USD 0,0400 20.000 USD 0,024 USD 0,48 USD 0,52 Tarefas humanas 100 USD 0,21 USD 21,00 USD 21,00 Total USD 21,56 -
Otimização de prompts
Exemplo: resumo de notícias
Um desenvolvedor de aplicações cria um prompt para resumir as notícias para os negociantes usando o Claude 3.5. O prompt original inclui 429 tokens. O prompt otimizado tem 511 tokens e inclui instruções e exemplos mais específicos para gerar uma resposta mais concisa dos modelos de base. Ele usa o prompt otimizado com 511 tokens como entrada para o otimizador de prompts e cria duas novas variantes para Claude 3.7 e Nova Pro com 582 e 579 tokens.O número total de tokens de entrada e saída para otimização de prompts: 429 + 511 + 511 + 582 + 511 + 579 = 3.123
A fatura mensal total é: 3.123 * 1000 * USD 0,03 = USD 0,09
-
Stability AI
Preços sob demanda
Um desenvolvedor de aplicações faz as seguintes chamadas de API para o Amazon Bedrock: uma solicitação ao modelo SDXL para gerar uma imagem de 512 x 512 em gradações de 70 (qualidade premium).
Custo total acumulado = 1 imagem * USD 0,036 por imagem = USD 0,036
Um desenvolvedor de aplicações faz as seguintes chamadas de API para o Amazon Bedrock: uma solicitação ao modelo SDXL 1.0 para gerar uma imagem de 1024 X 1024 em gradações de 70 (qualidade premium).
Custo total acumulado = 1 imagem * USD 0,08 por imagem = USD 0,08
Preços para throughput provisionado
Um desenvolvedor de aplicações compra uma unidade de modelo do SDXL 1.0 com compromisso de 1 mês.
Custo total acumulado = 1 * USD 49,86 * 24 horas * 31 dias = USD 37.095,84
-
TwelveLabs
Preços sob demanda
Um desenvolvedor de aplicações faz as seguintes chamadas de API para o Amazon Bedrock: uma solicitação ao modelo Pegasus 1.2 para descrever o que envolve um vídeo de 10 segundos, que fornece uma saída de 2.000 tokens.
Custo total incorrido = 10 segundos* USD 0,00049 + 2 mil tokens /1000 * USD 0,0075 = USD 0,0199
Um desenvolvedor de aplicação faz as seguintes chamadas de API para o Amazon Bedrock: uma solicitação ao modelo Marengo Embed [3.0 ou 2.7] para incorporar 10 vídeos, com duração combinada de 100 minutos.Custo total incorrido = 100 minutos (ou seja, 6000 segundos) * USD 0,00070 = USD 4,2
Um desenvolvedor de aplicações faz as seguintes chamadas de API para o Amazon Bedrock: uma solicitação ao modelo Marengo Embed 3.0, fornecendo um texto e uma imagem juntos, para gerar uma incorporação que eles poderiam usar para encontrar o clipe que mostra a bolsa na imagem fornecida, em todo o repositório de incorporação que eles teriam criado usando o exemplo acima.Custo total incorrido = 1 solicitação de texto * USD 0,00007 + 1 solicitação de imagem * USD 0,0001 = USD 0,00017
Um desenvolvedor de aplicação faz as seguintes chamadas de API para o Amazon Bedrock: uma solicitação ao modelo Marengo Embed [3.0 ou 2.7] fornecendo um texto para gerar uma incorporação que eles poderiam usar para encontrar clipes correspondentes em um repositório de incorporação que eles teriam criado usando o exemplo acima.Custo total incorrido = 1 solicitação de texto * USD 0,00007 = USD 0,00007
-
Writer
Um desenvolvedor de aplicações faz as seguintes chamadas de API para o Amazon Bedrock: uma solicitação ao modelo Palmyra X5 do Writer para resumir uma entrada de 10 mil tokens de texto de entrada em uma saída de 2 mil tokens.
Custo total incorrido = 10 mil tokens/1000 * USD 0,003 + 2 mil tokens/1000 * USD 0,015 = USD 0,06