1. Bert

Model Tokenizer Vocab Layers NSMC ACC Naver-NER F1 Corpus
KoBERT Sentencepiece 8002 12 layers 89.63 86.11 Wiki \n - 5M sentences \n - 54 words
KoELECTRA Wordpiece 32200 12 layers 90.63 88.11 뉴스, 나무위키, 모두의 말뭉치
KoSentenceBert - ETRI            
LMKor   42000 6, 12 layers 90.87 87.27 - 국내 주요 커머스 리뷰 1억개 + 블로그 형 웹사이트 2000만개 (75GB) \n - 모두의 말뭉치 (18GB) \n - - 위키피디아와 나무위키 (6GB)

2. Datasets

Name Type Description
SNLI Dataset Corpus Sentence Similarity 2개의 영어 문장이 있고, contradiction, neutral, entailment 로 나눔
The Multi-Genre NLI Corpus Sentence Similarity 2개의 영어 문장이 있고, contradiction, neutral, entailment 로 나눔