ComfyUI/comfy/text_encoders/spiece_tokenizer.py

import torch

class SPieceTokenizer:
    @staticmethod
    def from_pretrained(path, **kwargs):
        return SPieceTokenizer(path, **kwargs)

    def __init__(self, tokenizer_path, add_bos=False, add_eos=True):
        self.add_bos = add_bos
        self.add_eos = add_eos
        import sentencepiece
        if torch.is_tensor(tokenizer_path):
            tokenizer_path = tokenizer_path.numpy().tobytes()

        if isinstance(tokenizer_path, bytes):
            self.tokenizer = sentencepiece.SentencePieceProcessor(model_proto=tokenizer_path, add_bos=self.add_bos, add_eos=self.add_eos)
        else:
            self.tokenizer = sentencepiece.SentencePieceProcessor(model_file=tokenizer_path, add_bos=self.add_bos, add_eos=self.add_eos)

    def get_vocab(self):
        out = {}
        for i in range(self.tokenizer.get_piece_size()):
            out[self.tokenizer.id_to_piece(i)] = i
        return out

    def __call__(self, string):
        out = self.tokenizer.encode(string)
        return {"input_ids": out}

    def serialize_model(self):
        return torch.ByteTensor(list(self.tokenizer.serialized_model_proto()))
Make it possible to load tokenizer data from checkpoints. 2024-07-24 20:43:53 +00:00			`import torch`
Better tokenizing code for AuraFlow. 2024-07-12 05:08:45 +00:00
Rename LLAMATokenizer to SPieceTokenizer. 2024-07-22 16:21:45 +00:00			`class SPieceTokenizer:`
Better tokenizing code for AuraFlow. 2024-07-12 05:08:45 +00:00			`@staticmethod`
Support Lumina 2 model. 2025-02-04 08:56:00 +00:00			`def from_pretrained(path, **kwargs):`
			`return SPieceTokenizer(path, **kwargs)`
Better tokenizing code for AuraFlow. 2024-07-12 05:08:45 +00:00
Support Lumina 2 model. 2025-02-04 08:56:00 +00:00			`def __init__(self, tokenizer_path, add_bos=False, add_eos=True):`
			`self.add_bos = add_bos`
			`self.add_eos = add_eos`
Better tokenizing code for AuraFlow. 2024-07-12 05:08:45 +00:00			`import sentencepiece`
Make it possible to load tokenizer data from checkpoints. 2024-07-24 20:43:53 +00:00			`if torch.is_tensor(tokenizer_path):`
			`tokenizer_path = tokenizer_path.numpy().tobytes()`

Allow SPieceTokenizer to load model from a byte string. 2024-07-23 18:17:42 +00:00			`if isinstance(tokenizer_path, bytes):`
Support Lumina 2 model. 2025-02-04 08:56:00 +00:00			`self.tokenizer = sentencepiece.SentencePieceProcessor(model_proto=tokenizer_path, add_bos=self.add_bos, add_eos=self.add_eos)`
Allow SPieceTokenizer to load model from a byte string. 2024-07-23 18:17:42 +00:00			`else:`
Support Lumina 2 model. 2025-02-04 08:56:00 +00:00			`self.tokenizer = sentencepiece.SentencePieceProcessor(model_file=tokenizer_path, add_bos=self.add_bos, add_eos=self.add_eos)`
Better tokenizing code for AuraFlow. 2024-07-12 05:08:45 +00:00
			`def get_vocab(self):`
			`out = {}`
			`for i in range(self.tokenizer.get_piece_size()):`
			`out[self.tokenizer.id_to_piece(i)] = i`
			`return out`

			`def __call__(self, string):`
			`out = self.tokenizer.encode(string)`
			`return {"input_ids": out}`
Basic hunyuan dit implementation. (#4102) * Let tokenizers return weights to be stored in the saved checkpoint. * Basic hunyuan dit implementation. * Fix some resolutions not working. * Support hydit checkpoint save. * Init with right dtype. * Switch to optimized attention in pooler. * Fix black images on hunyuan dit. 2024-07-25 22:21:08 +00:00
			`def serialize_model(self):`
			`return torch.ByteTensor(list(self.tokenizer.serialized_model_proto()))`