LLM Capability Evaluation

Observing and comparing LLM capabilities across multiple dimensions — from code generation to multi-turn reasoning and multimodal understanding.

11 Tests

5 Categories

Launch Solar Lab View Directory

View:

Solar Lab

Interactive 3D orrery visualization. Explore planetary orbits, scales, and cinematic camera angles.

Visualization 3D

Trompetas 3D

Three.js 3D trumpet physics — standing waves, harmonics, and sound propagation rendered interactively.

Animation Physics

LLM Math

Interactive visualization of the transformer self-attention mechanism with real-time weight heatmap.

Visualization AI

Context Window

Token window management and context limits visualization — see how models handle long contexts.

Engineering Architecture

Reasoning

Multi-step logic and math problem solving with step-by-step chain-of-thought breakdown.

Reasoning Logic

Code Generation

Functional code generation and bug correction across multiple programming languages.

Code Engineering

Tool Use

Function calling evaluation — model's ability to select, invoke, and parameterize external tools.

Tools Reasoning

Multi-Turn Dialogue

Context retention and consistency across extended conversations — tracking state and coherence.

Dialogue Communication

Multimodal

Cross-modal reasoning — understanding images, text, and structured output in parallel.

Vision Communication

Performance

Response latency, accuracy consistency, and throughput benchmarks under load.

Perf Benchmarks

Results Dashboard

Aggregate evaluation results across all test dimensions. Compare models side-by-side.

Results Analytics

Creativity

Narrative creativity, code originality, and divergent thinking assessment. Evaluate originality, fluency, and elaboration.

Creative Analysis

Translation

Multilingual translation and cross-lingual context understanding evaluation.

NLP Language

About This Project

Tests of Code (TOC) is an internal project to evaluate and compare LLM capabilities across key dimensions: code generation, reasoning, tool use, dialogue, and multimodal understanding. Each demo is self-contained, observable, and designed to clearly show what capability is being tested.

Explore demos →