spurious leading whitespaces from sentencepiece in non-whitespace languages
When doing word tokenization for non-whitespace languages, the sentencepiece model seems to introduce additional leading whitespaces at the beginning of the sentence. Example from mywiki:
text = "အပြည်ပြည်ဆိုင်ရာ ထေရဝါဒဗုဒ္ဓသာသနာပြုတက္ကသိုလ် တွင်လည်း ဒုတိယပါမောက္ခချုပ်အဖြစ် တာဝန်ထမ်းဆောင်ခဲ့သည်။"
tokenizer=Tokenizer(language_code="my")
print(list(tokenizer.word_tokenize(text)))
[' ', 'အ', 'ပြည်ပြည်ဆိုင်ရာ', ' ', 'ထေရဝါဒ', 'ဗုဒ္ဓ', 'သာသနာပြု', 'တက္ကသိုလ်', ' ', 'တွင်လည်း', ' ', 'ဒုတိယ', 'ပါမောက္ခ', 'ချုပ်အဖြစ်', ' ', 'တာဝန်ထမ်းဆောင်', 'ခဲ့သည်', '။']
We might want to check for these spurious leading whitespaces and remove them.