Incredible.AI

Cassandra + Spark

Thu, 25 Jul 2024 01:00:00 +0000

1. Installation

1.1 Installing Cassandra DB + CQLSH

[https://cassandra.apache.org//download.html](https://cassandra.apache.org//download.html) 들어갑니다.
Latest GA Version 을 다운로드 받습니다.

아래와 같이 설치 가능합니다.

$ wget https://dlcdn.apache.org/cassandra/4.1.5/apache-cassandra-4.1.5-bin.tar.gz
$ tar -zxvf apache-cassandra-4.1.5-bin.tar.gz

# 원하는 장소로 이동
$ mv apache-cassandra-4.1.5 ~/apps/

# 이후 .bashrc (ubuntu) 또는 .bash_profile (mac) 을 설정합니다.
$ vi ~/.bashrc 

다음과 같이 내용을 (수정 필요) .bashrc 또는 .bash_profile 에 넣습니다.

# Cassandra
CASSANDRA_HOME=/home/anderson/apps/apache-cassandra-4.1.5
export PATH=$PATH:$CASSANDRA_HOME/bin

Cassandra 실행도 시켜봅니다. in

$ cassandra -f

버젼 확인및 접속

$ cqlsh --version
cqlsh 6.1.0

# 접속
$ cqlsh localhost 9042

1.2 Installing only CQLSH

아래와 같이 하면 된다고 하는데, 저는 안되서 그냥 위에꺼 전체 설치 했습니다.

$ pip install cqlsh

2. Cassandra Quick Reference

2.1 Node Status

현재 노드 상태 확인

$ nodetool status
Datacenter: datacenter1
=======================
Status=Up/Down
|/ State=Normal/Leaving/Joining/Moving
--  Address    Load        Tokens  Owns (effective)  Host ID                               Rack 
UN  127.0.0.1  205.33 KiB  16      100.0%            36cbcf5a-4753-4491-8fec-2dd168613512  rack1

그외

nodetool info : 각종 시스템 정보
nodetool ring: 노드가 소유한 토큰의 분포 확인 가능

2.2 Basic CQL

Show databases / tables 같은거

# 기본적인 것
desc keyspaces
desc tables

만약 CQLSH 버젼이 높고 -> 서버는 3.11.5 같은 낮은 버젼일 경우 desc 가 작동을 안합니다.
이 경우에는 다음과 같은 명령어로 가능합니다.

SELECT keyspace_name, table_name FROM system_schema.tables;

KeySpace or Table 생성

--  KeySpace 생성
CREATE KEYSPACE IF NOT EXISTS my_keyspace
    WITH replication = {
       'class': 'SimpleStrategy', 
       'replication_factor': 1};

SimpleStrategy: 단일 데이터센터 내에서 데이터 복제. 여러개 데이터 센터의 경우 NetworkTopologyStrategy 사용
Replication Factor: 복제본 갯수. 3이라면 클러스터내의 노드중 3개에 데이터가 복제

NetworkTopologyStrategy 사용시 다음과 같이 생성 가능. dc1에 3개 복제하고, dc2에 2개 복제

CREATE KEYSPACE IF NOT EXISTS example_keyspace 
WITH replication = {
    'class': 'NetworkTopologyStrategy', 
    'dc1': 3, 
    'dc2': 2
};

2.3 JSON Select & Insert

특이하게도, JSON 형식으로 출력하거나, json을 insert 할 수도 있습니다.

SELECT JSON * FROM keyspace.table;

여기서 출력한 것을 복사한후, insert 할수도 있습니다.

INSERT INTO keyspace.table JSON
`<json string here>`;

3. Java + Spark Example

3.1 Gradle

com.datastax.spark:spark-cassandra-connector_2.12:3.4.1: Spaprk 에서 Cassandra 접속 가능
com.datastax.oss:java-driver-core:4.17.0: 다이렉트로 Cassandra DB 에 접속 가능 / Spark 없어도 됨

dependencies {
    implementation "com.github.jnr:jnr-posix:3.1.15"
    implementation 'joda-time:joda-time:2.12.7'

    implementation group: 'org.projectlombok', name: 'lombok', version: '1.18.34'
    implementation 'org.apache.spark:spark-core_2.12:3.4.1'
    implementation 'org.apache.spark:spark-sql_2.12:3.4.1'
    implementation 'com.datastax.spark:spark-cassandra-connector_2.12:3.4.1'
//    implementation 'com.datastax.oss:java-driver-core:4.17.0'
    testImplementation platform('org.junit:junit-bom:5.10.0')
    testImplementation 'org.junit.jupiter:junit-jupiter'
}

3.2 Spark Setup + Adding Data to Cassandra

@BeforeEach
public void setup() {
    SparkConf conf = new SparkConf()
        .setAppName("Local Spark Example")
        .setMaster("local[2]")
        // .set("spark.cassandra.auth.username", "user_id")
        // .set("spark.cassandra.auth.password", "password")
        // .set("spark.cassandra.input.throughputMBPerSec", "1")
        .set("spark.cassandra.connection.host", "127.0.0.1");

    spark = SparkSession.builder()
        .config(conf)
        .getOrCreate();

    addTestData();
}

protected void addTestData() {
    try (CqlSession session = CqlSession.builder()
        .addContactEndPoint(
            new DefaultEndPoint(new InetSocketAddress("localhost", 9042)))
        .withLocalDatacenter("datacenter1")
        // .withAuthCredentials("your_username", "your_password") // 사용자 인증 정보 추가
        .build()) {
        String createKeySpace = "CREATE KEYSPACE IF NOT EXISTS my_keyspace "
            + "WITH replication = {'class': 'SimpleStrategy', 'replication_factor': 1};";

        String createTable =
            "CREATE TABLE IF NOT EXISTS my_keyspace.users ("
                + "uid UUID PRIMARY KEY, "
                + "name text, "
                + "age int, "
                + "married boolean,"
                + "created_at timestamp);";

        System.out.println(createTable);
        session.execute(createKeySpace);
        session.execute(createTable);
    }

    // 데이터 생성
    StructType schema = DataTypes.createStructType(new StructField[] {
        DataTypes.createStructField("uid", DataTypes.StringType, false),
        DataTypes.createStructField("name", DataTypes.StringType, false),
        DataTypes.createStructField("age", DataTypes.IntegerType, false),
        DataTypes.createStructField("married", DataTypes.BooleanType, false),
        DataTypes.createStructField("created_at", DataTypes.TimestampType, false)
    });

    Timestamp timestamp = new Timestamp(new Date().getTime());
    Dataset<Row> userData = spark.createDataFrame(Arrays.asList(
        RowFactory.create(UUID.randomUUID().toString(), "Anderson", 40, true, timestamp),
        RowFactory.create(UUID.randomUUID().toString(), "Alice", 25, false, timestamp),
        RowFactory.create(UUID.randomUUID().toString(), "Yoona", 21, false, timestamp)
    ), schema);

    userData.write()
        .format("org.apache.spark.sql.cassandra")
        .mode(SaveMode.Append)
        .option("keyspace", "my_keyspace")
        .option("table", "users")
        .save();
}

3.3 Spark 로 데이터 다 가져오기

public void readAllTable() {
    // 방법 1
    // Spark 에서 전체 데이터를 다 가져오기.
    Dataset<Row> df = spark.read()
        .format("org.apache.spark.sql.cassandra")
        .option("keyspace", "my_keyspace")
        .option("table", "users")
        .load();

    assertTrue(df.count() >= 3);
    Row andersonRow = df.filter("name = 'Anderson'").first();
    assertEquals(40, (int) andersonRow.getAs("age"));
    assertEquals(true, andersonRow.getAs("married"));
    df.show();
}

3.4 Spark Cassandra Connector 사용 - 1번

버젼에 따라서 이게 될수도 있고, 2번이 될수도 있음. 회사에서는 해당 1번은 안되고, 2번이 됐는데, 내 컴퓨터에서는 그 반대.

public void readThroughCassandraConnector1() {
    CassandraTableScanJavaRDD<CassandraRow> rdd =
        javaFunctions(spark.sparkContext())
            .cassandraTable("my_keyspace", "users")
            .select(column("uid"),
                column("name"),
                column("age"),
                column("married"),
                column("created_at").as("createdAt"),
                writeTime("name").as("writetime"));
    JavaRDD<Row> javaRdd = rdd.map(row -> {
        return RowFactory.create(
            row.getString("uid"),
            row.getString("name"),
            row.getInt("age"),
            row.getBoolean("married"),
            new Timestamp(row.getLong("createdAt")),
            row.getLong("writetime"));
    });

    StructType schema = DataTypes.createStructType(new StructField[] {
        DataTypes.createStructField("uid", DataTypes.StringType, false),
        DataTypes.createStructField("name", DataTypes.StringType, false),
        DataTypes.createStructField("age", DataTypes.IntegerType, false),
        DataTypes.createStructField("married", DataTypes.BooleanType, false),
        DataTypes.createStructField("createdAt", DataTypes.TimestampType, false),
        DataTypes.createStructField("writetime", DataTypes.LongType, false)
    });

    Dataset<Row> dataset = spark.createDataFrame(javaRdd, schema);
    dataset.show();
    System.out.println(dataset);

}

3.5 Spark Cassandra Connector 사용 - 2번

public void readThroughCassandraConnector2() {
    // Spark Cassandra Connector를 사용해서, 좀더 자세한 정보를 가져오는 방법
    // 회사에서는 됐는데, 지금 여기서는 안됨. select 에서 empty 가 나옴.
    CassandraTableScanJavaRDD<DataBean> rdd = javaFunctions(spark.sparkContext())
        .cassandraTable("my_keyspace", "users", mapRowTo(DataBean.class))
        .select(column("uid"),
            column("name"),
            column("age"),
            column("married"),
            column("created_at").as("createdAt"),
            writeTime("name").as("writetime"));
    JavaRDD<Row> javaRdd = rdd.map(row -> {
        return RowFactory.create(
            row.getUid(),
            row.getName(),
            row.getAge(),
            row.getMarried(),
            row.getCreatedAt(),
            row.getWritetime()
        );
    });
    
    Dataset<Row> dataset = spark.createDataFrame(javaRdd, DataBean.class);
    dataset.show();
}

DataBean.java

package ai.incredible.cassandra;

import lombok.Data;
import lombok.ToString;

import java.sql.Timestamp;

@Data
@ToString
public class DataBean {
	protected String uid;
	protected String name;
	protected Integer age;
	protected Boolean married;
	protected Timestamp createdAt;
	protected Long writetime;
}

3.1 CQL Session 으로 Direct Connection

// CQL 로 direct 접속을 해서 데이터를 가져옵니다.
// 해당 방법은 spark.read() 를 사용하는 것이 아니며, 이를 spark 에서 사용시에
// driver 에서 바로 가져오는 것이기 때문에 distributed loading 이 되는 것이 아닙니다.
// Spark 에서 쓰는 것 보다는 따로 CQL 로 접속해야 할때 사용하면 좋은 방법입니다.
try (CqlSession session = CqlSession.builder()
.addContactEndPoint(
	new DefaultEndPoint(new InetSocketAddress("localhost", 9042)))
.withLocalDatacenter("datacenter1")
// .withAuthCredentials("your_username", "your_password") // 사용자 인증 정보 추가
.build()) {

// 중요한점! ALLOW FILTERING 에 끝에 들어갔음.
// Cassandra 에서는 WHERE statement 가 연산량이 많은듯 함.
// 그래서 WHERE 사용시 반드시 뒤에 ALLOW FILTERING 써줘야 함
// 또한 setPageSize 를 통해서 한번에 얼마나 가져올지를 정함
String query = "SELECT name, age, WRITETIME(name) as created_at "
	+ "FROM my_keyspace.users WHERE name='Anderson' ALLOW FILTERING;";
ResultSet resultSet = session.execute(SimpleStatement.builder(query)
	.setPageSize(5).build());

List<Row> rows = new ArrayList<>();
do {
	for (com.datastax.oss.driver.api.core.cql.Row cassandraRow : resultSet) {
		rows.add(RowFactory.create(
			cassandraRow.getString("name"),
			cassandraRow.getInt("age"),
			new Timestamp(cassandraRow.getLong("created_at") / 1000)
		));
	}

} while (!resultSet.isFullyFetched());

StructType schema2 = DataTypes.createStructType(new StructField[] {
	DataTypes.createStructField("name", DataTypes.StringType, false),
	DataTypes.createStructField("age", DataTypes.IntegerType, false),
	DataTypes.createStructField("created_at", DataTypes.TimestampType, false)
});

Dataset<Row> df2 = spark.createDataFrame(rows, schema2);
df2.show();

LightGBM Java

Mon, 01 Jul 2024 01:00:00 +0000

1. Installation

# Mac
brew install libomp

# Debian Linux
sudo apt install libgomp1

2. LightGBM

2.1 Python

Python code에서는 학습 그리고 evaluation을 작성하고, 이후에 txt 파일로 모델을 저장하는 것 까지 보여줍니다.
즉 Java 에서는 prediction관련해서만 콬드를 보여줍니다.

from lightgbm import LGBMClassifier
from sklearn.metrics import classification_report, accuracy_score


scale_pos_weight = sum(y_train == 0) / len(y_train)

model = LGBMClassifier(
    metrics="prauc",
    n_estimators=100,
    scale_pos_weight=scale_pos_weight,
    random_state=32
)
model.fit(x_train, y_train)

# 예측
y_prob = model.predict(x_test)
y_prob = model.predict_proba(x_test)[:, 1]

txt 파일로 저장합니다.
텍스트 파일로 저장시 실제로 인간이 이해할수 있는 txt 정보로 저장이 됩니다.

model.booster_.save_model("model.txt")

2.2 LightGBM Java

build.gradle

lightgbm4j 가 필요합니다.

dependencies {
    implementation 'io.github.metarank:lightgbm4j:4.3.0-1'
    implementation group: 'com.google.guava', name: 'guava', version: '11.0.2'
}

Example

package ai.incredible.lightgbm;

import com.google.common.base.Charsets;
import com.google.common.io.Files;
import com.microsoft.ml.lightgbm.PredictionType;
import io.github.metarank.lightgbm4j.LGBMBooster;

import java.io.File;
import java.util.Arrays;

public class Main {
	static private final String MODEL_PATH = "/home/anderson/Desktop/model.txt";
	static private final String DATA_PARQUET_DIR = "/tmp/lightgbm4j/";

	@lombok.SneakyThrows
	public static void main(String[] args) {
		File file = new File(MODEL_PATH);
		String modelContent;
		modelContent = Files.toString(file, Charsets.UTF_8);
		LGBMBooster model = LGBMBooster.loadModelFromString(modelContent);
		System.out.println(model);

		float[] input =
			new float[] { 0.700720f, 1.287160f, -2.085664f, -0.004941f, 0.249742f, -0.323739f,
				-1.946551f, 1.496363f };

		double[] pred = model.predictForMat(input, 1, 8, true,
			PredictionType.C_API_PREDICT_NORMAL);
		System.out.println(Arrays.toString(pred));
	}
}

LLM - UPSTAGE SOLAR 10.7B v1.0

Sat, 13 Apr 2024 01:00:00 +0000

Personal Experience

한글 안되는 듯 합니다.

Installation

$ pip install bitsandbytes datasets accelerate peft trl

Quick Code

Import Libraries

import argparse
import os
import warnings

import torch
import transformers
from accelerate import init_empty_weights, load_checkpoint_and_dispatch
from transformers import (
    AutoModelForCausalLM,
    AutoTokenizer,
    GenerationConfig,
    StoppingCriteria,
    StoppingCriteriaList,
)

warnings.filterwarnings("ignore")
torch.cuda.empty_cache()

Loading Model and Tokenizer

MODEL_ID = "Upstage/SOLAR-10.7B-v1.0"

tokenizer = transformers.AutoTokenizer.from_pretrained(MODEL_ID)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_ID,
    torch_dtype=torch.float16,
    device_map="auto",
    offload_folder="./offload",
    low_cpu_mem_usage=True,
)

model.eval()

Inference

text = '''
한글 가능해?
'''

inputs = tokenizer(text, return_tensors="pt")
inputs = {k: v.to("cuda") for k, v in inputs.items()}

generation_config = GenerationConfig(
    temperature=0.1,
    max_new_tokens=256,
    
    eos_token_id=tokenizer.eos_token_id,
    repetition_penalty=1.2,
    do_sample=True,
    top_p=0.9,
    min_length=5,
    use_cache=True,
)

with torch.no_grad():
    outputs = model.generate(**inputs, generation_config=generation_config)
    print(tokenizer.decode(outputs[0], skip_special_tokens=True))

일단 한글은 안됩니다.

한글 가능해?

#include <iostream>
using namespace std;
int main() {
	cout << "Hello World!" << endl; //endl은 \n과같음
	return 0;
}

LLM - MLP-TKLim Llama3 Korean Blossom 8B

Fri, 12 Apr 2024 01:00:00 +0000

Personal Experience

뭔가 될듯 하면서, 계속 아쉬운 부분이 많이 나옵니다.

Installation

$ pip install bitsandbytes datasets accelerate peft trl

Quick Code

Import Libraries

import argparse
import os
import warnings

import torch
import transformers
from accelerate import init_empty_weights, load_checkpoint_and_dispatch
from transformers import (
    AutoModelForCausalLM,
    AutoTokenizer,
    GenerationConfig,
    StoppingCriteria,
    StoppingCriteriaList,
)

warnings.filterwarnings("ignore")
torch.cuda.empty_cache()

Loading Model and Tokenizer

MODEL_ID = "MLP-KTLim/llama-3-Korean-Bllossom-8B"

pipeline = pipeline(
    "text-generation",
    model=MODEL_ID,
    model_kwargs={"torch_dtype": torch.bfloat16, 
                  "offload_folder": "./offload", 
                  "low_cpu_mem_usage": True},
    device_map="auto",
)

pipeline.model.eval()

Inference

PROMPT = '''
다음 문장을 자연스럽게 완성해 주세요: '인공지능은 미래의 기술로...'
'''
instruction = ""

messages = [
    {"role": "system", "content": f"{PROMPT}"},
    {"role": "user", "content": f"{instruction}"}
    ]

prompt = pipeline.tokenizer.apply_chat_template(
        messages, 
        tokenize=False, 
        add_generation_prompt=True
)

terminators = [
    pipeline.tokenizer.eos_token_id,
    pipeline.tokenizer.convert_tokens_to_ids("<|eot_id|>")
]

outputs = pipeline(
    prompt,
    max_new_tokens=2048,
    eos_token_id=terminators,
    do_sample=True,
    temperature=0.6,
    top_p=0.9
)

print(outputs[0]['generated_text'])

헤드라인은 다음과 같습니다:
최대 규모인 단위의 반도체 생산 장비 '듀얼 TC본더 그리핀' 납품 계약을 체결했다고 합니다.
한미반도체 창사 이후 단일 제품 횡령액은 최대이며, 기존 연간 순매출의 95% 이상으로 큰 계약입니다.
한미반도체는 현재까지 SK하이닉스사와 2천500억원이 넘는 계약액을 기록했습니다.
한미반도체는 2022년 상반기 중 3천587억원의 누진폭을 기록하다가 현재 1위 종목입니다.
HBM 반도체 생산 분야 1위는 현재 SK모네크로나 삼성SDI 등이 경쟁하고 있는 상황에서, SK모네크가 납품을 수행한다면 대규모 수주가 예상됩니다.
현재 SK하이닉스 주식 가격은 큰 변동성을 겪고 있으며, 다음 기업의 주가가 높아질지, 하락할지에 대한 투자자들의 관심도 높아지고 있습니다.

Some Examples

민희진 대표에 대해서 설명해줘

민희진 대표는 국내 최초의 여성 차프터이자, 국내 자동차 산업에서 가장 성공한 여성 경영자입니다. 그녀는 수작업으로 자동차 차를 만들고, 부품의 대부분을 직접 생산하여, 국내에서 가장 신뢰받는 차 브랜드 중 하나로 자리 잡았습니다. 또한, 민희진 박사는 국내 기업들로부터 크레이지 다쉬보드의 기술을 도입하게 함과 동시에, 대규모 생산 라인을 구축함으로써 생산 효율성을 높인 것으로 알려져 있습니다.

python binary search

아래는 Python에서 이진 검색 알고리즘을 구현한 예시입니다.
def binarySearch(nums, target):
    low = 0
    high = len(nums) - 1
    
    while low <= high:
        mid = (low + high) // 2
         
        if target == nums[mid]:
            return mid
        elif target < nums[mid]:
            high = mid - 1
        else:
            low = mid + 1
    
    return -1
위의 코드에서 binarySearch 함수는 주어진 숫자 배열 nums에서 ` target` 값을 이진 검색하여 반환하는 함수입니다. 이진 검색은 반복적으로 목록을 반으로 나누고, 중간 요소를 비교하여 대상 값을 찾을 때까지 반복하는 알고리즘입니다. 이 알고리즘은 수학적 복잡도가 O(log n)으로 매우 효율적입니다.

PROMPT = ‘’’ 주어진 정보는 다음과 같습니다. 던킨도너츠 일산점에는 다음과 같은 메뉴가 있습니다.

올스타 도넛세트
해피먼치킨겁 10EA
버라이어티 10EA
30th 해피버스데이
라이스 글레이즈드
인절미 후로스티드
(캔) 자두 쿨라타

위의 정보를 이용해서 한글 해시 태그로 사용될만한 단어를 list 형태로 출력하세요’’‘
instruction = ‘#태그로 사용될만한 단어를 리스트로 여러개 추천해줘’

#던킨도너츠 #제주도 #이마트 #식료품 #커피 #일류 #자두 #쿨라타 #커피맛 #향상형 #모아드 #이마트오프라인

LLM - KoAlpaca Llama 7b

Thu, 11 Apr 2024 01:00:00 +0000

Personal Experience

python 함수를 만들어주기도 하네요.
주어진 정보를 잘 이용을 못합니다.
단순한 답변에는 저장된 형태되로 뭔가 답변하긴 하는데, 퀄리티가 매우 떨어지는 느낌입니니다.

Installation

$ pip install bitsandbytes datasets accelerate peft trl

Quick Code

Import Libraries

import argparse
import os
import warnings

import torch
import transformers
from accelerate import init_empty_weights, load_checkpoint_and_dispatch
from transformers import (
    AutoModelForCausalLM,
    AutoTokenizer,
    GenerationConfig,
    StoppingCriteria,
    StoppingCriteriaList,
)

warnings.filterwarnings("ignore")
torch.cuda.empty_cache()

Loading Model and Tokenizer

MODEL_ID = "beomi/KoAlpaca-llama-1-7b"

tokenizer = transformers.AutoTokenizer.from_pretrained(MODEL_ID)

model = AutoModelForCausalLM.from_pretrained(
    MODEL_ID,
    load_in_4bit=True,
    torch_dtype=torch.bfloat16,
    device_map="auto",
    offload_folder="./offload",
    llm_int8_enable_fp32_cpu_offload=True,
    low_cpu_mem_usage=True,
)

Inference

# Evaluation 모드로 전환
model.eval()

prompt = """
우리는 아래와 같은 정보를 갖고 있습니다.
---------------------
한미반도체가 창사 이래 최대 규모의 단일 제품 수주 계약을 체결했다.
한미반도체는 7일 1천500억원 규모의 고대역폭메모리(HBM) 반도체 생산 장비인 ‘듀얼 TC본더 그리핀’ 납품 계약을 SK하이닉스와 체결했다고 밝혔다. 한미반도체 창사 이후 단일 제품 수주액으로는 최대 규모이며, 지난해 총 매출액(1천590억원)의 95%에 이르는 대형 계약이다.
한미반도체가 SK하이닉스와 수주 계약을 맺은 건 올해 들어 3번째다. 한미반도체는 지난 2월과 3월에도 각각 860억원과 214억원 규모의 장비를 공급하는 등 SK하이닉스와 2천500억원이 넘는 계약액을 기록했다. 한미반도체는 올해 매출 목표액을 5천500억원으로 제시했는데, 2분기 만에 3천587억원의 누적 수주액을 기록하며 순항하고 있다.
한미반도체의 주가는 이달 들어 크게 출렁였다. HBM 반도체 생산 분야 1위로 치고 나온 SK하이닉스에 독점적으로 장비를 공급해왔으나, 최근 한화정밀기계가 자체 개발한 TC 본딩 장비를 SK하이닉스에 공급할 것이란 소식이 들려오면서 한미반도체의 주가에 영향을 미쳤다. 지난 3일 한미반도체 주가는 전 거래일보다 12.99% 하락한 14만700원까지 급락하기도 했다. 한미반도체 대표인 곽동신 부회장이 다음날 자사주 30억원을 매입하는 등 적극적인 방어에 나서면서 내림세가 멈췄다.
---------------------
주어진 정보에 따라, 질문에 답해주세요.: '한미반도체의 수주를 리스트로 출력해줘'
"""

batch = tokenizer(prompt, return_tensors="pt")
prompt_size = len(batch["input_ids"][0])
print("prompt_size:", prompt_size)
batch = {k: v.to('cuda') for k, v in batch.items()}

generation_config = GenerationConfig(
    temperature=0.01,
    max_new_tokens=512,
    exponential_decay_length_penalty=(256, 1.03),
    eos_token_id=tokenizer.eos_token_id,
    repetition_penalty=1.2,
    do_sample=True,
    top_p=0.7,
    min_length=5,
    use_cache=True,
    return_dict_in_generate=True,
)

with torch.no_grad():
    generated = model.generate(**batch, generation_config=generation_config)
    response = tokenizer.decode(
        generated["sequences"][0][prompt_size:], skip_special_tokens=True
    )

print(response)

response 입니다.
주어진 정보에서 찾지는 못하는듯 합니다.

"한미반도체의 수주: (1) SK하이닉스 (2) Samsung Electronics (3) LG Display (4) Apple Inc."

LLM - YANOLJA EEVE Korean 10.8B v1.0

Wed, 10 Apr 2024 01:00:00 +0000

Personal Experience

확실히 prompt 에 따라서 결과물이 좋게 나올수도 있고, 너무 엉망으로 나올때도 많습니다.
3090 x 1 에서 돌아가기 때문에 뭔가 테스트용으로 좋은 듯 합니다.

Installation

$ pip install bitsandbytes datasets accelerate peft trl

Quick Code

Import Libraries

import argparse
import os
import warnings

import torch
import transformers
from accelerate import init_empty_weights, load_checkpoint_and_dispatch
from transformers import (
    AutoModelForCausalLM,
    AutoTokenizer,
    GenerationConfig,
    StoppingCriteria,
    StoppingCriteriaList,
)

warnings.filterwarnings("ignore")
torch.cuda.empty_cache()

Loading Model and Tokenizer

MODEL_ID = "yanolja/EEVE-Korean-10.8B-v1.0"

tokenizer = transformers.AutoTokenizer.from_pretrained(MODEL_ID)

model = AutoModelForCausalLM.from_pretrained(
    MODEL_ID,
    load_in_4bit=True,
    torch_dtype=torch.bfloat16,
    device_map="auto",
    offload_folder="./offload",
    llm_int8_enable_fp32_cpu_offload=True,
    low_cpu_mem_usage=True,
)

Inference

# Evaluation 모드로 전환
model.eval()

prompt = """
우리는 아래와 같은 정보를 갖고 있습니다.
---------------------
한미반도체가 창사 이래 최대 규모의 단일 제품 수주 계약을 체결했다.
한미반도체는 7일 1천500억원 규모의 고대역폭메모리(HBM) 반도체 생산 장비인 ‘듀얼 TC본더 그리핀’ 납품 계약을 SK하이닉스와 체결했다고 밝혔다. 한미반도체 창사 이후 단일 제품 수주액으로는 최대 규모이며, 지난해 총 매출액(1천590억원)의 95%에 이르는 대형 계약이다.
한미반도체가 SK하이닉스와 수주 계약을 맺은 건 올해 들어 3번째다. 한미반도체는 지난 2월과 3월에도 각각 860억원과 214억원 규모의 장비를 공급하는 등 SK하이닉스와 2천500억원이 넘는 계약액을 기록했다. 한미반도체는 올해 매출 목표액을 5천500억원으로 제시했는데, 2분기 만에 3천587억원의 누적 수주액을 기록하며 순항하고 있다.
한미반도체의 주가는 이달 들어 크게 출렁였다. HBM 반도체 생산 분야 1위로 치고 나온 SK하이닉스에 독점적으로 장비를 공급해왔으나, 최근 한화정밀기계가 자체 개발한 TC 본딩 장비를 SK하이닉스에 공급할 것이란 소식이 들려오면서 한미반도체의 주가에 영향을 미쳤다. 지난 3일 한미반도체 주가는 전 거래일보다 12.99% 하락한 14만700원까지 급락하기도 했다. 한미반도체 대표인 곽동신 부회장이 다음날 자사주 30억원을 매입하는 등 적극적인 방어에 나서면서 내림세가 멈췄다.
---------------------
### 주어진 정보에 따라, 질문에 답해주세요.: '한미반도체의 수주를 리스트로 뽑아줘'
### Assistant:
"""

batch = tokenizer(prompt, return_tensors="pt")
prompt_size = len(batch["input_ids"][0])
batch = {k: v.to('cuda') for k, v in batch.items()}

generation_config = GenerationConfig(
    temperature=0.05,
    max_new_tokens=512,
    exponential_decay_length_penalty=(256, 1.03),
    eos_token_id=tokenizer.eos_token_id,
    repetition_penalty=1.2,
    do_sample=True,
    top_p=0.9,
    min_length=5,
    use_cache=True,
    return_dict_in_generate=True,
)

with torch.no_grad():
    generated = model.generate(**batch, generation_config=generation_config)
    response = tokenizer.decode(
        generated["sequences"][0][prompt_size:], skip_special_tokens=True
    )

print(response)

response 입니다.

- [ ] 1천500억원 규모의 대규모 수주 계약
- [ ] 860억원 규모의 추가 수주 계약
- [ ] 214억원 규모의 추가 수주 계약
- [ ] 3천587억원의 누계 수주 금액 달성

Cosine Similarity

일단 잘 안되요. 역시 LLM 은 generative 문제에 집중된 것이지, 이런건 그냥 Bert 로 해도 될듯요.

STORE_TEXTS = [
    "네네치킨 품동점. 가장 인기 있는 제품은 후라이드, 반반치킨이며, 그외 제품은 네네스위틱, 닭날개, 윙봉 있습니다",
    "후라이드 참 잘하는 집 풍동 식사점. 가장 인기 있는 제품은 매운양념치킨, 눈꽃 치즈치킨이며, 그외 제품은 허니버터치킨, 간장치킨 있습니다",
    "굽네치킨&피자 풍동점. 가장 인기 있는 제품은 간장치킨, 고추바사삭, 후라이드이며, 그외 제품은 웨지감자 있습니다",
    "처갓집양념치킨 백석점. 가장 인기 있는 제품은 순살 슈프림양념치킨, 반반치킨이며, 그외 제품은 매운양념치킨 있습니다",
    "이도돈까스. 가장 인기 있는 제품은 이도돈까스, 치즈돈까스이며, 그외 제품은 가께우동 있습니다",
    "돈까스왕. 가장 인기 있는 제품은 동까스왕이며, 그외 제품은 치즈까스 있습니다",
    "시골김치찌개. 가장 인기 있는 제품은 시골 김치찌개이며, 그외 제품은 도시락 있습니다",
    "전통김치찌개. 가장 인기 있는 제품은 전통김치찜, 그외 제품은 달걀말이 있습니다.",
]


def create_embeddings(model, texts):
    inputs = tokenizer(texts, return_tensors="pt", padding=True, truncation=True)
    with torch.no_grad():
        # (batch, word size, d_model).
        embeddings = model(**inputs)
        return embeddings.logits.mean(dim=1).cpu().numpy()

store_embeddings = create_embeddings(model, STORE_TEXTS)
print("store_embeddings:", store_embeddings.shape)

from sklearn.metrics.pairwise import cosine_similarity

query = '네네치킨'

query_embedding = create_embeddings(model, [query])
print("query_embedding:", query_embedding.shape)

scores = cosine_similarity(store_embeddings, query_embedding)
ranks = np.argsort(-scores.reshape(-1))

for r in ranks:
    s = scores.reshape(-1)[r]
    print(f'{s:.4f} {STORE_TEXTS[r]}')

네네치킨이라고 검색했는데, 대부분 값들이 다 높아요.
이걸로 분별하는건 매우 어려워 보입니다.

query_embedding: (1, 32001)
8117 네네치킨 품동점. 가장 인기 있는 제품은 후라이드, 반반치킨이며, 그외 제품은 네네스위틱, 닭날개, 윙봉 있습니다
7769 처갓집양념치킨 백석점. 가장 인기 있는 제품은 순살 슈프림양념치킨, 반반치킨이며, 그외 제품은 매운양념치킨 있습니다
7760 굽네치킨&피자 풍동점. 가장 인기 있는 제품은 간장치킨, 고추바사삭, 후라이드이며, 그외 제품은 웨지감자 있습니다
7631 돈까스왕. 가장 인기 있는 제품은 동까스왕이며, 그외 제품은 치즈까스 있습니다
7626 이도돈까스. 가장 인기 있는 제품은 이도돈까스, 치즈돈까스이며, 그외 제품은 가께우동 있습니다
7595 시골김치찌개. 가장 인기 있는 제품은 시골 김치찌개이며, 그외 제품은 도시락 있습니다
7451 후라이드 참 잘하는 집 풍동 식사점. 가장 인기 있는 제품은 매운양념치킨, 눈꽃 치즈치킨이며, 그외 제품은 허니버터치킨, 간장치킨 있습니다
7428 전통김치찌개. 가장 인기 있는 제품은 전통김치찜, 그외 제품은 달걀말이 있습니다.

LangChain

Wed, 03 Apr 2024 01:00:00 +0000

Installation

$ pip install langchain 
$ pip install transformers sentence-transformers faiss-cpu

HuggingFace 101

Tue, 02 Apr 2024 01:00:00 +0000

CUDA out of memory

아래와 같은 에러가 뜬다면, GPU에서 충분한 메모리를 들고 있지 않아서 입니다.

OutOfMemoryError: CUDA out of memory. Tried to allocate 202.00 MiB. GPU

기본적인 설정

python 실행전 max_split_size_mb:32 설정

# CUDA 메모리 할당시 더 작은 크기의 메모리 블록을 사용하도록 강제합니다. 
# 큰 메모리 블락시 메모리 단편화 현상이 발생가능 합니다.
#  - 메모리 단편화: 큰 블락으로 메모리 할당시 실제로는 빈공간이 남게 되며,
#    실제로는 충분한 공간이 있지만, 큰 블락의 메모리를 더이상 할당할 수 없는 상황. 
#    이를 메모리 단편화 라고 합니다. 

# Pytorch
export PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:32

torch.cuda.empty_cache() 를 모델 로딩전에 호출

# 모델 로드 전에 CUDA 캐시 비우기
torch.cuda.empty_cache()

모델 로딩

option	description
low_cpu_mem_usage	원래는 CPU -> 메모리 -> GPU인데, 바로 GPU로 업로드 / CPU 메모리 사용량 줄임
model.gradient_checkpointing_enable()	모델이 GPU에 한번에 안 올라갈 경우 학습시 사용. 반대급부로 계산량이 많아져서 속도가 느려짐 / 올라가면 사용하지 말자
llm_int8_enable_fp32_cpu_offload	CPU 에서 FP32로 처리

model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map="auto",
    torch_dtype=torch.float16,
    low_cpu_mem_usage=True,
    offload_folder="./offload",
    llm_int8_enable_fp32_cpu_offload=True,
)

# Gradient Checkpointing 활성화
model.gradient_checkpointing_enable()

model.eval()

해결 방법으로 다음과 같이 합니다.

batch_size 더 적게 조정 및 gradient_accumulation_steps=4 로 수정

training_args = TrainingArguments(
    output_dir='./results',          # output directory
    num_train_epochs=3,              # total number of training epochs
    per_device_train_batch_size=4,   # batch size per device during training
    per_device_eval_batch_size=4,    # batch size for evaluation
    warmup_steps=500,                # number of warmup steps for learning rate scheduler
    weight_decay=0.01,               # strength of weight decay
    logging_dir='./logs',            # directory for storing logs
    logging_steps=10,
    gradient_accumulation_steps=4    # Number of updates steps to accumulate before performing a backward/update pass
)

LLM 101

Mon, 01 Apr 2024 01:00:00 +0000

Dataset

Korea Dataset

Nvidia Driver on Ubuntu

Tue, 09 Jan 2024 01:00:00 +0000

Prerequisite

Ubuntu 설치시에 update 하지 않는 것도 방법 (깔고나서 에러 나면. linux-headers 가 문제)
Secure Boot 모드는 disabled 시켜놓자 (설치할때 password 넣으라고 하는데 귀찮음)

$ sudo apt install make gcc vim openssl libgoogle-perftools4 libtcmalloc-minimal4 g++ freeglut3-dev build-essential libx11-dev libxmu-dev libxi-dev libglu1-mesa libglu1-mesa-dev
$ sudo apt install linux-headers-generic
$ sudo apt install libglu1-mesa libxi-dev libxmu-dev gcc build-essential

Uninstalling Nvidia Driver

$ sudo apt-get remove --purge 'nvidia.*'
$ sudo apt-get remove --purge 'cuda.*'
$ sudo apt-get remove --purge 'libnvidia*'
$ sudo apt-get autoremove
$ sudo apt autoclean
$ sudo apt-get install ubuntu-desktop
$ sudo rm /etc/X11/xorg.conf
$ sudo nvidia-uninstall

Checking Current Nvidia Driver

현재 설치된 Nvidia 버젼을 확인합니다.

$ modinfo $(find /usr/lib/modules -name nvidia.ko)

# apt 로 확인
$ sudo apt --installed list | grep nvidia-driver

Checking Supported CUDA Version

CUDA Toolkit version

CUDA Toolkit 11.8

Pytorch CUDA	Tensorflow CUDA
11.8	11.8
12.1

CUDNN

Pytorch CUDA	Tensorflow CUDA	Nvidia Version
	8.6.0	520

Installing Nvidia Driver

일단 설치 가능한 버젼을 확인합니다.

$ sudo ubuntu-drivers list --gpgpu

nvidia-driver-470-server, (kernel modules provided by linux-modules-nvidia-470-server-generic-hwe-22.04)
nvidia-driver-535-server, (kernel modules provided by linux-modules-nvidia-535-server-generic-hwe-22.04)
nvidia-driver-535-open, (kernel modules provided by linux-modules-nvidia-535-open-generic-hwe-22.04)
nvidia-driver-470, (kernel modules provided by linux-modules-nvidia-470-generic-hwe-22.04)
nvidia-driver-535, (kernel modules provided by linux-modules-nvidia-535-generic-hwe-22.04)
nvidia-driver-545, (kernel modules provided by nvidia-dkms-545)
nvidia-driver-545-open, (kernel modules provided by nvidia-dkms-545-open)
nvidia-driver-535-server-open, (kernel modules provided by linux-modules-nvidia-535-server-open-generic-hwe-22.04)

이후 설치 합니다.
2024년 6월 기준으로 520 에다가 CUDA Toolkit 11.8 이 잘 작동합니다. (Ubuntu 22.04)
545 아래는 에러가 났습니다.

# 커널 설치
$ sudo apt install linux-headers-$(uname -r)

# Nvidia 드라이버 설치
# xxx 부분은 예를 들어서 "520" 
$ sudo apt install nvidia-common-xxx
$ sudo apt install nvidia-dkms-xxx
$ sudo apt install nvidia-driver-xxx
$ sudo apt install nvidia-settings

이후 설치된 package 를 확인 할 수 있습니다.

$ dpkg --get-selections | grep nvidia
$ dpkg --get-selections | grep cuda

Installing CUDA Toolkit 11.8

CUDA Toolkit 11.8
- 이때 중요한건 runfile (local) 을 선택해서 다운로드 받고 실행해야 합니다.
- 다른것 deb 로 실행시 에러가 납니다.

$ wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda_11.8.0_520.61.05_linux.run
$ sudo sh cuda_11.8.0_520.61.05_linux.run

실행후 메뉴 화면에서 오직 CUDA Toolkit 만 설치하도록 합니다.

Install CuDNN

Download CuDNN

$ wget https://developer.download.nvidia.com/compute/cudnn/9.1.1/local_installers/cudnn-local-repo-ubuntu2204-9.1.1_1.0-1_amd64.deb
$ sudo dpkg -i cudnn-local-repo-ubuntu2204-9.1.1_1.0-1_amd64.deb
$ sudo cp /var/cudnn-local-repo-ubuntu2204-9.1.1/cudnn-*-keyring.gpg /usr/share/keyrings/
$ sudo apt-get update

# 설치합니다. 
$ sudo apt-get -y install cudnn-cuda-11

# 버젼 확인합니다. 
$ nvcc --version
Build cuda_11.5.r11.5/compiler.30672275_0

Install Pytorch TensorRT

Installing TensorRT

cuda 11.5 에는 다음을 설치 합니다.

$ python -m pip install torch torch-tensorrt tensorrt --extra-index-url https://download.pytorch.org/whl/cu115

cuda 11.8 에는 다음을 설치 합니다.

$ python -m pip install torch torch-tensorrt tensorrt --extra-index-url https://download.pytorch.org/whl/cu118

잘 작동하는지 확인 합니다.

import torch
import torch_tensorrt

# 간단한 모델 정의 (스크립팅 가능)
class SimpleModel(torch.nn.Module):
    def forward(self, x):
        return x + 1

model = SimpleModel().cuda().eval()

# JIT 스크립트 모듈로 변환
scripted_model = torch.jit.script(model)

# TensorRT 변환
input_tensor = torch.randn((1, 3, 224, 224)).cuda()
trt_model = torch_tensorrt.ts.compile(
    scripted_model,
    inputs=[torch_tensorrt.Input(input_tensor.shape)]
)

# 변환된 모델로 추론
with torch.no_grad():
    output = trt_model(input_tensor)

print("TensorRT 변환 및 추론 성공:", output.shape)

Disable Nouveau

기존 우분투에서 지원하는 그래픽 드라이버를 제거합니다. Nvidia 그래픽 드라이버와 서로 충돌이 나면서 이후 문제가 생기는 것을 방지 합니다.

$ sudo vi  /etc/modprobe.d/nouveau-blacklist.conf

/etc/modprobe.d/nouveau-blacklist.conf 에 아래의 내용을 넣습니다.

blacklist nouveau
blacklist lbm-nouveau
options nouveau modeset=0
alias nouveau off
alias lbm-nouveau off

이후 다음의 명령어로 부팅을 업데이트 해줍니다.

sudo update-initramfs -u

이후 reboot 시킵니다.

Test

Tensorflow

$ python3 -c "import tensorflow as tf; print(tf.config.list_physical_devices('GPU'))"

Pytorch

import torch
x = torch.rand(5, 3)
print(x)
torch.cuda.is_available()