1. Bert

Model	Tokenizer	Vocab	Layers	NSMC ACC	Naver-NER F1	Corpus
KoBERT	Sentencepiece	8002	12 layers	89.63	86.11	Wiki \n - 5M sentences \n - 54 words
KoELECTRA	Wordpiece	32200	12 layers	90.63	88.11	뉴스, 나무위키, 모두의 말뭉치
KoSentenceBert - ETRI
LMKor		42000	6, 12 layers	90.87	87.27	- 국내 주요 커머스 리뷰 1억개 + 블로그 형 웹사이트 2000만개 (75GB) \n - 모두의 말뭉치 (18GB) \n - - 위키피디아와 나무위키 (6GB)

2. Datasets

Name	Type	Description
SNLI Dataset Corpus	Sentence Similarity	2개의 영어 문장이 있고, contradiction, neutral, entailment 로 나눔
The Multi-Genre NLI Corpus	Sentence Similarity	2개의 영어 문장이 있고, contradiction, neutral, entailment 로 나눔