prompt-evaluation

Here are 15 public repositories matching this topic...

loloMD / awesome_chainforge

Another day, another Awesome List repo. A comprehensive list of Chainforge-related content

awesome ai evaluation awesome-list model-evaluation gpt-4 large-language-models llm prompt-engineering llms chatgpt llmops prompt-injection prompt-evaluation tools-for-prompt-engineering auditing-models testing-prompts

Updated Oct 24, 2025

thunderous77 / GLaPE

Star

Official implementation for "GLaPE: Gold Label-agnostic Prompt Evaluation and Optimization for Large Language Models" (stay tuned & more will be updated)

large-language-models prompt-optimization prompt-evaluation

Updated Feb 6, 2024
Python

prompt-foundry / python-sdk

Star

The prompt engineering, prompt management, and prompt evaluation tool for Python

python python3 open-ai llm prompt-engineering prompt-management llm-eval llm-evaluation prompt-evaluation

Updated Sep 17, 2024
Python

prompt-foundry / typescript-sdk

Star

The prompt engineering, prompt management, and prompt evaluation tool for TypeScript, JavaScript, and NodeJS.

typescript gpt open-ai gpt-3 gpt-4 llm prompt-engineering llmops prompt-testing prompt-manager prompt-management llm-eval llm-test llm-ops llm-evaluation prompt-evaluation

Updated Nov 15, 2025
TypeScript

prompt-foundry / ruby-sdk

Star

The prompt engineering, prompt management, and prompt evaluation tool for Ruby.

ruby ruby-gem openai ruby-on-rails prompt-engineering prompt-manager prompt-management llm-eval llm-evaluation prompt-evaluation

Updated Jun 16, 2024

syed-waleed-ahmed / LLM-as-Judge

Star

A Streamlit web app that uses a Groq-powered LLM (Llama 3) to act as an impartial judge for evaluating and comparing two model outputs. Supports custom criteria, presets like creativity and brand tone, and returns structured scores, explanations, and a winner. Built end-to-end with Python, Groq API, and Streamlit.

python code-evaluation a-b-testing text-evaluation groq streamlit model-benchmarking ai-automation ai-evaluation llm prompt-evaluation llama3 llm-judge output-evaluation scoring-framework

Updated Nov 24, 2025
Python

prompt-foundry / java-sdk

Star

The prompt engineering, prompt management, and prompt evaluation tool for Java.

java evaluation openai prompt-engineering prompt-manager prompt-management llm-evaluation prompt-evaluation

Updated Jun 16, 2024

danielrosehill / LLM-Evaluation-Prompts

Star

A few prompts that I am storing in a repo for the purpose of running controlled experiments comparing and benchmarking different LLMs for defined use-cases

prompt-engineering prompt-evaluation prompt-eval prompt-benchmarking

Updated Dec 4, 2024
Python

DrixoT / Prompt-Optimization

Star

A Simple Prompt Optimization Using 3 different algorithms for testing.

prompt-engineering prompt-optimization prompt-evaluation

Updated Nov 4, 2025
Jupyter Notebook

Rickcau / ConsoleApp-Prompt-Testing

Star

testing ai azure evaluation prompt genai prompt-evaluation

Updated Jan 1, 2025
C#

genaivitbcommunity / prompt_analyzer

Star

A hybrid machine learning system for scoring LLM prompts. Features a BERT-based gatekeeper for structural validation and an LLM-based classifier to ensure semantic intent, delivering consistent empirical metrics for prompt engineering.

python nlp flask machine-learning transformers pytorch ensemble-learning bert intent-classification huggingface llm prompt-engineering langchain prompt-evaluation prompt-metrics

Updated Dec 17, 2025
Jupyter Notebook

hillaryke / Prompt-Tuning-Enterprise-RAG

Star

An AI-driven system to automatically generate, evaluate, and rank prompts using Monte-Carlo and Elo Ranking system for enterprise-grade Retrieval Augmented Generation (RAG) systems.

rag prompt-engineering langchain prompt-evaluation