vllm/tests/test_sequence.py

import pytest

from vllm.sequence import (CompletionSequenceGroupOutput, SamplerOutput,
                           SequenceData, SequenceOutput)

from .core.utils import create_dummy_prompt


@pytest.fixture
def sample_outputs():
    return [
        CompletionSequenceGroupOutput(samples=[
            SequenceOutput(parent_seq_id=0, output_token=i, logprobs={})
        ],
                                      prompt_logprobs=None) for i in range(5)
    ]


@pytest.fixture
def sampler_output(sample_outputs):
    return SamplerOutput(outputs=sample_outputs)


def test_sampler_output_initialization(sampler_output, sample_outputs):
    assert len(sampler_output) == len(sample_outputs)
    assert sampler_output.sampled_token_probs is None
    assert sampler_output.sampled_token_ids is None
    assert sampler_output.spec_decode_worker_metrics is None


def test_sampler_output_getitem(sampler_output, sample_outputs):
    assert sampler_output[2] == sample_outputs[2]


def test_sampler_output_setitem(sampler_output):
    new_output = CompletionSequenceGroupOutput(samples=[
        SequenceOutput(parent_seq_id=0, output_token=99, logprobs={})
    ],
                                               prompt_logprobs=None)
    sampler_output[2] = new_output
    assert sampler_output[2] == new_output


def test_sampler_output_len(sampler_output, sample_outputs):
    assert len(sampler_output) == len(sample_outputs)


def test_sampler_output_eq(sample_outputs):
    sampler_output1 = SamplerOutput(outputs=sample_outputs)
    sampler_output2 = SamplerOutput(outputs=sample_outputs.copy())
    sampler_output3 = SamplerOutput(outputs=sample_outputs[:-1])
    assert sampler_output1 == sampler_output2
    assert sampler_output1 != sampler_output3


def test_sequence_data_prefill():
    seq_data = SequenceData(prompt_token_ids=[1, 2, 3, 4])
    assert seq_data.get_num_uncomputed_tokens() == 4
    assert seq_data.get_num_computed_tokens() == 0
    # advance by 2
    seq_data.update_num_computed_tokens(2)
    assert seq_data.get_num_uncomputed_tokens() == 2
    assert seq_data.get_num_computed_tokens() == 2

    # advance by 1
    seq_data.update_num_computed_tokens(1)
    assert seq_data.get_num_uncomputed_tokens() == 1
    assert seq_data.get_num_computed_tokens() == 3

    # append tokens and reset, simulating recompute
    seq_data.append_token_id(1, logprob=0.0)
    seq_data.reset_state_for_recompute()
    assert seq_data.get_num_uncomputed_tokens() == 5
    assert seq_data.get_num_computed_tokens() == 0


def test_sequence_group_stage():
    _, seq_group = create_dummy_prompt("1", 12)
    assert seq_group.is_prefill() is True
    seq_group.update_num_computed_tokens(6)
    assert seq_group.is_prefill() is True
    seq_group.update_num_computed_tokens(5)
    assert seq_group.is_prefill() is True
    seq_group.update_num_computed_tokens(1)
    assert seq_group.is_prefill() is False
    seqs = seq_group.get_seqs()
    assert len(seqs) == 1
    seqs[0].data.append_token_id(1, logprob=0.0)
    for seq in seq_group.get_seqs():
        seq.reset_state_for_recompute()
    assert seq_group.is_prefill() is True
    seq_group.update_num_computed_tokens(5)
    assert seq_group.is_prefill() is True
    seq_group.update_num_computed_tokens(7)
    assert seq_group.is_prefill() is True
    seq_group.update_num_computed_tokens(1)
    assert seq_group.is_prefill() is False
[Speculative decoding 3/9] Worker which speculates, scores, and applies rejection sampling (#3103) 2024-03-09 15:32:46 +08:00			`import pytest`

[Model][Misc] Add e5-mistral-7b-instruct and Embedding API (#3734) 2024-05-12 02:30:37 +08:00			`from vllm.sequence import (CompletionSequenceGroupOutput, SamplerOutput,`
			`SequenceData, SequenceOutput)`
[Speculative decoding 3/9] Worker which speculates, scores, and applies rejection sampling (#3103) 2024-03-09 15:32:46 +08:00
[CI/Build] Move `test_utils.py` to `tests/utils.py` (#4425) Since #4335 was merged, I've noticed that the definition of ServerRunner in the tests is the same as in the test for OpenAI API. I have moved the class to the test utilities to avoid code duplication. (Although it only has been repeated twice so far, I will add another similar test suite in #4200 which would duplicate the code a third time) Also, I have moved the test utilities file (test_utils.py) to under the test directory (tests/utils.py), since none of its code is actually used in the main package. Note that I have added __init__.py to each test subpackage and updated the ray.init() call in the test utilities file in order to relative import tests/utils.py. 2024-05-13 22:50:09 +08:00			`from .core.utils import create_dummy_prompt`

[Speculative decoding 3/9] Worker which speculates, scores, and applies rejection sampling (#3103) 2024-03-09 15:32:46 +08:00
			`@pytest.fixture`
			`def sample_outputs():`
			`return [`
[Model][Misc] Add e5-mistral-7b-instruct and Embedding API (#3734) 2024-05-12 02:30:37 +08:00			`CompletionSequenceGroupOutput(samples=[`
[Speculative decoding 3/9] Worker which speculates, scores, and applies rejection sampling (#3103) 2024-03-09 15:32:46 +08:00			`SequenceOutput(parent_seq_id=0, output_token=i, logprobs={})`
			`],`
[Model][Misc] Add e5-mistral-7b-instruct and Embedding API (#3734) 2024-05-12 02:30:37 +08:00			`prompt_logprobs=None) for i in range(5)`
[Speculative decoding 3/9] Worker which speculates, scores, and applies rejection sampling (#3103) 2024-03-09 15:32:46 +08:00			`]`


			`@pytest.fixture`
			`def sampler_output(sample_outputs):`
			`return SamplerOutput(outputs=sample_outputs)`


			`def test_sampler_output_initialization(sampler_output, sample_outputs):`
			`assert len(sampler_output) == len(sample_outputs)`
			`assert sampler_output.sampled_token_probs is None`
			`assert sampler_output.sampled_token_ids is None`
			`assert sampler_output.spec_decode_worker_metrics is None`


			`def test_sampler_output_getitem(sampler_output, sample_outputs):`
			`assert sampler_output[2] == sample_outputs[2]`


			`def test_sampler_output_setitem(sampler_output):`
[Model][Misc] Add e5-mistral-7b-instruct and Embedding API (#3734) 2024-05-12 02:30:37 +08:00			`new_output = CompletionSequenceGroupOutput(samples=[`
[Speculative decoding 3/9] Worker which speculates, scores, and applies rejection sampling (#3103) 2024-03-09 15:32:46 +08:00			`SequenceOutput(parent_seq_id=0, output_token=99, logprobs={})`
			`],`
[Model][Misc] Add e5-mistral-7b-instruct and Embedding API (#3734) 2024-05-12 02:30:37 +08:00			`prompt_logprobs=None)`
[Speculative decoding 3/9] Worker which speculates, scores, and applies rejection sampling (#3103) 2024-03-09 15:32:46 +08:00			`sampler_output[2] = new_output`
			`assert sampler_output[2] == new_output`


			`def test_sampler_output_len(sampler_output, sample_outputs):`
			`assert len(sampler_output) == len(sample_outputs)`


			`def test_sampler_output_eq(sample_outputs):`
			`sampler_output1 = SamplerOutput(outputs=sample_outputs)`
			`sampler_output2 = SamplerOutput(outputs=sample_outputs.copy())`
			`sampler_output3 = SamplerOutput(outputs=sample_outputs[:-1])`
			`assert sampler_output1 == sampler_output2`
			`assert sampler_output1 != sampler_output3`
[2/N] Chunked prefill data update (#3538) 2024-03-29 01:06:01 +08:00

			`def test_sequence_data_prefill():`
			`seq_data = SequenceData(prompt_token_ids=[1, 2, 3, 4])`
			`assert seq_data.get_num_uncomputed_tokens() == 4`
			`assert seq_data.get_num_computed_tokens() == 0`
			`# advance by 2`
			`seq_data.update_num_computed_tokens(2)`
			`assert seq_data.get_num_uncomputed_tokens() == 2`
			`assert seq_data.get_num_computed_tokens() == 2`

			`# advance by 1`
			`seq_data.update_num_computed_tokens(1)`
			`assert seq_data.get_num_uncomputed_tokens() == 1`
			`assert seq_data.get_num_computed_tokens() == 3`

			`# append tokens and reset, simulating recompute`
			`seq_data.append_token_id(1, logprob=0.0)`
[Chunked Prefill][4/n] Chunked prefill scheduler. (#3853) 2024-04-06 01:17:58 +08:00			`seq_data.reset_state_for_recompute()`
[2/N] Chunked prefill data update (#3538) 2024-03-29 01:06:01 +08:00			`assert seq_data.get_num_uncomputed_tokens() == 5`
			`assert seq_data.get_num_computed_tokens() == 0`
[Chunked Prefill][4/n] Chunked prefill scheduler. (#3853) 2024-04-06 01:17:58 +08:00

			`def test_sequence_group_stage():`
[Misc] Keep only one implementation of the create_dummy_prompt function. (#4716) 2024-05-10 12:42:38 +08:00			`_, seq_group = create_dummy_prompt("1", 12)`
[Chunked Prefill][4/n] Chunked prefill scheduler. (#3853) 2024-04-06 01:17:58 +08:00			`assert seq_group.is_prefill() is True`
			`seq_group.update_num_computed_tokens(6)`
			`assert seq_group.is_prefill() is True`
			`seq_group.update_num_computed_tokens(5)`
			`assert seq_group.is_prefill() is True`
			`seq_group.update_num_computed_tokens(1)`
			`assert seq_group.is_prefill() is False`
			`seqs = seq_group.get_seqs()`
			`assert len(seqs) == 1`
			`seqs[0].data.append_token_id(1, logprob=0.0)`
			`for seq in seq_group.get_seqs():`
			`seq.reset_state_for_recompute()`
			`assert seq_group.is_prefill() is True`
			`seq_group.update_num_computed_tokens(5)`
			`assert seq_group.is_prefill() is True`
			`seq_group.update_num_computed_tokens(7)`
			`assert seq_group.is_prefill() is True`
			`seq_group.update_num_computed_tokens(1)`
			`assert seq_group.is_prefill() is False`