Feat:TM2LGCN_modularization #62

guridon · guridon · commit b1be1063de89 · 2024-03-27T23:32:37.000+09:00
diff --git a/model/TM2LGCN/args.py b/model/TM2LGCN/args.py
@@ -0,0 +1,28 @@
+import argparse
+
+def parse_args():
+    parser = argparse.ArgumentParser()
+    parser.add_argument("--device", default="cuda", type=str, help="cpu or gpu")
+
+    # TM args
+    parser.add_argument("--num_topics", default=24, type=int, help="number of topics")
+    parser.add_argument("--random_state", default=42, type=int, help="LDAmodel_random_state")
+    parser.add_argument("--passes", default=20, type=int, help="LDAmodel_passes")
+    
+    # model
+    parser.add_argument("--emb_dim", default=24, type=int, help="hidden dimension size")
+    parser.add_argument("--reg", default=1e-5, type=int, help="regularization")
+    parser.add_argument("--n_layers", default=2, type=int, help="number of layers")
+    parser.add_argument("--node_dropout", default=0.2, type=float, help="drop out rate")
+    parser.add_argument("--valid_samples", default=2, type=int, help="valid samples")
+
+    # train
+    parser.add_argument("--seed", default=22, type=int, help="seed")
+    parser.add_argument("--num_epochs", default=150, type=int, help="number of epochs")
+    parser.add_argument("--batch_size", default=64, type=int, help="batch size")
+    parser.add_argument("--lr", default=0.0001, type=float, help="learning rate")
+    parser.add_argument("--n_batch", default=10, type=int, help="n_batch")
+
+    args = parser.parse_args()
+
+    return args
diff --git a/model/TM2LGCN/dataloader.py b/model/TM2LGCN/dataloader.py
@@ -0,0 +1,56 @@
+from google.oauth2 import service_account
+from google.cloud import storage
+import pickle
+
+from datetime import datetime
+import pandas as pd
+import numpy as np
+from collections import defaultdict
+
+
+def preprocess(df):
+    df = df[df['uri_first']==1]
+    df['timestamp']=pd.to_datetime(df['local_time']).astype(int)//10**9
+    df = df[['hashed_ip', 'products', 'timestamp']]
+
+    df['user']=df['hashed_ip']
+    df['item']=df['products']
+    df['time']=df['timestamp']
+
+    df.sort_values(['user', 'timestamp'])
+
+    del df['hashed_ip'], df['products'], df['timestamp']
+    user_interaction_counts = df['user'].value_counts()
+    selected_users = user_interaction_counts[user_interaction_counts >= 5].index
+    df = df[df['user'].isin(selected_users)]
+
+    return df
+
+
+def load_data(): 
+    # LOAD ITEM2IDX PICKLE
+    
+    SERVICE_ACCOUNT_FILE = "/home/user/TM2LGCN/storage/level3-416207-893f91c9529e_api.json"
+    credentials = service_account.Credentials.from_service_account_file(SERVICE_ACCOUNT_FILE)
+    project_id = "level3-416207"
+    storage_client = storage.Client(credentials=credentials, project=project_id)
+    bucket_name = 'crwalnoti'
+    bucket = storage_client.bucket(bucket_name)
+
+    item2idx_name = '240320/item_to_idx.pickle'
+    inter_name = '240320/inter_240129.csv'
+
+    # prepare item2idx
+    blob_item2idx = bucket.blob(item2idx_name)
+    with blob_item2idx.open(mode='rb') as f:
+        item2idx = pickle.load(f)
+    
+    # prepare interaction_df
+    blob_inter = bucket.blob(inter_name)
+    with blob_inter.open(mode='rb') as f:
+        interaction_df = pd.read_csv(f)
+        
+    interaction_df = preprocess(interaction_df)
+
+    return item2idx, interaction_df
+
diff --git a/model/TM2LGCN/dataset.py b/model/TM2LGCN/dataset.py
@@ -0,0 +1,191 @@
+from dataloader import load_data
+
+import gensim
+from gensim.corpora import Dictionary
+from collections import defaultdict
+
+import pickle
+import scipy.sparse as sp
+import numpy as np
+import random
+import torch
+
+
+class MakeTMDataSet():
+    def __init__(self):
+        self.item2idx , self.df = load_data()
+        
+        self.df["item_idx"] = self.df["item"].map(self.item2idx)   
+        self.df['item_name'] = self.df['item'].map(self.item2name())
+        
+        # inter_dict & df user 순서 주의
+        self.inter_dict = self.df.groupby('user', sort=False)['item_name'].apply(set).apply(list).to_dict()
+        self.user_ids = list(self.inter_dict.keys())
+        self.user2idx = {user_id: index for index, user_id in enumerate(self.user_ids)}
+        
+        self.df["user_idx"] = self.df["user"].map(self.user2idx)
+        
+        self.num_item, self.num_user = len(self.item2idx), len(self.user2idx)
+        
+        self.dictionary, self.corpus = self.TM_traindata()
+        
+    def item2name(self):
+        with open('/home/user/pickle/product_info_df.pickle', 'rb') as fr:
+            product_info = pickle.load(fr)
+            
+        product_data = product_info.copy()
+        product_data['title'] = product_data['title'].map(lambda x: x.replace("'",'').replace(',','').replace('(', ' ').replace(')', ' '))
+        product_data['title'] = product_data['title'].map(lambda x: x.lower())
+        product_data['title'] = product_data['title'].map(lambda x: x.split(' '))
+        product_data['title'] = product_data['title'].map(lambda x: ' '.join(x).split())
+        product_data['title'] = product_data['title'].map(lambda x: ' '.join(x))
+        
+        dict_products = product_data[['id','title']].set_index('id').to_dict()['title']
+        
+        return dict_products
+    
+    def TM_traindata(self):
+        documents = list(self.inter_dict.values())
+        dictionary = Dictionary(documents)
+        corpus = [dictionary.doc2bow(document) for document in documents]
+        return dictionary, corpus
+    
+    def get_dictionary(self):
+        return self.dictionary
+    
+    def get_corpus(self):
+        return self.corpus
+    
+
+class MakeLightGCNDataSet():
+    def __init__(self, TM_dataset, lda_model, args):
+        self.args = args
+        self.TM_dataset = TM_dataset
+        self.lda_model = lda_model
+        
+        self.df = self.TM_dataset.df
+        self.user2idx = self.TM_dataset.user2idx
+        self.item2idx = self.TM_dataset.item2idx
+        self.num_user, self.num_item = self.TM_dataset.num_user, self.TM_dataset.num_item
+        
+        self.exist_users = [i for i in range(self.num_user)]
+        self.exist_items = [i for i in range(self.num_item)]
+        
+        self.user_train, self.user_valid = self.generate_sequence_data()
+        self.R_train, self.R_valid, self.R_total = self.generate_dok_matrix()
+        self.ngcf_adj_matrix = self.generate_ngcf_adj_matrix()
+        
+        self.user_topic_tensor = self.get_TM_user_vector()
+        
+        self.n_train = len(self.R_train)
+        self.batch_size = self.args.batch_size
+        
+    def generate_sequence_data(self) -> dict:
+        """
+        split train/valid
+        중복 허용
+        """
+        users = defaultdict(list)
+        user_train = {}
+        user_valid = {}
+        for user, item, time in zip(self.df['user_idx'], self.df['item_idx'], self.df['time']):
+            users[user].append(item)
+        
+        for user in users:
+            np.random.seed(self.args.seed)
+            user_total = users[user]
+            valid_indices = random.sample(range(len(user_total)), 2)
+            valid = [user_total[idx] for idx in valid_indices]
+            train = [user_total[idx] for idx in range(len(user_total)) if idx not in valid_indices]
+            user_train[user] = train
+            user_valid[user] = valid
+        
+        return user_train, user_valid
+    
+    def generate_dok_matrix(self):
+        R_train = sp.dok_matrix((self.num_user, self.num_item), dtype=np.float32)
+        R_valid = sp.dok_matrix((self.num_user, self.num_item), dtype=np.float32)
+        R_total = sp.dok_matrix((self.num_user, self.num_item), dtype=np.float32)
+        user_list = self.exist_users   # user2idx에 있는 value값
+        for user in user_list:
+            train_items = self.user_train[user]
+            valid_items = self.user_valid[user]
+            
+            for train_item in train_items:
+                R_train[user, train_item] = 1.0
+                R_total[user, train_item] = 1.0
+            
+            for valid_item in valid_items:
+                R_valid[user, valid_item] = 1.0
+                R_total[user, valid_item] = 1.0
+        
+        return R_train, R_valid, R_total
+
+    def generate_ngcf_adj_matrix(self):
+        adj_mat = sp.dok_matrix((self.num_user + self.num_item, self.num_user + self.num_item), dtype=np.float32)
+        adj_mat = adj_mat.tolil() # to_list
+        R = self.R_train.tolil()
+
+        adj_mat[:self.num_user, self.num_user:] = R
+        adj_mat[self.num_user:, :self.num_user] = R.T
+        adj_mat = adj_mat.todok() # to_dok_matrix
+
+        def normalized_adj_single(adj):
+            rowsum = np.array(adj.sum(1))
+            d_inv = np.power(rowsum, -.5).flatten()  
+            d_inv[np.isinf(d_inv)] = 0.
+            d_mat_inv = sp.diags(d_inv)
+            norm_adj = d_mat_inv.dot(adj).dot(d_mat_inv)
+
+            return norm_adj.tocoo()
+
+        ngcf_adj_matrix = normalized_adj_single(adj_mat)
+        return ngcf_adj_matrix.tocsr()
+
+    def get_TM_user_vector(self):
+        user_topic_matrix = np.zeros((self.num_user, self.args.num_topics))
+        corpus = self.TM_dataset.get_corpus()
+        
+        user_topic_vectors = [self.lda_model.get_document_topics(bow, minimum_probability=0.0) 
+                              for bow in corpus]
+        for i, user_vec in enumerate(user_topic_vectors):
+            """
+                i: user idx
+                user_vec: (topic, prob)
+            """
+            for topic, prob in user_vec:
+                user_topic_matrix[i, topic] = prob
+
+        # numpy array --> torch tensor
+        user_topic_tensor = torch.tensor(user_topic_matrix, dtype=torch.float32)
+        
+        return user_topic_tensor
+
+    def sampling(self):
+        users = random.sample(self.exist_users, self.args.batch_size)
+
+        def sample_pos_items_for_u(u, num):
+            pos_items = self.user_train[u]
+            pos_batch = random.sample(pos_items, num)
+            return pos_batch
+        
+        def sample_neg_items_for_u(u, num):
+            neg_items = list(set(self.exist_items) - set(self.user_train[u]))
+            neg_batch = random.sample(neg_items, num)
+            return neg_batch
+        
+        pos_items, neg_items = [], []
+        for user in users:
+            pos_items += sample_pos_items_for_u(user, 1)
+            neg_items += sample_neg_items_for_u(user, 1)
+        
+        return users, pos_items, neg_items
+        
+    def get_train_valid_data(self):
+        return self.user_train, self.user_valid
+
+    def get_R_data(self):
+        return self.R_train, self.R_valid, self.R_total
+
+    def get_ngcf_adj_matrix_data(self):
+        return self.ngcf_adj_matrix
diff --git a/model/TM2LGCN/main.py b/model/TM2LGCN/main.py
@@ -0,0 +1,73 @@
+from args import parse_args
+from Dataset import MakeTMDataSet, MakeLightGCNDataSet
+from gensim.models import LdaModel
+from model import LightGCN
+from trainer import train, evaluate
+from tqdm import tqdm
+
+import torch
+import os
+import mlflow
+import mlflow.pytorch
+
+def main(args):
+
+    print(f'----------------------Load TM Data & Make TM Dataset----------------------')
+    TM_dataset = MakeTMDataSet()
+    dictionary, corpus = TM_dataset.get_dictionary(), TM_dataset.get_corpus()
+    print(f'Done.')
+    
+    print(f'----------------------Load & Train TM Model----------------------')
+    print(f'...')
+    lda_model = LdaModel(corpus=corpus, id2word=dictionary, 
+                   num_topics=args.num_topics, 
+                   random_state=args.random_state, 
+                   passes=args.passes)
+    print(f'Done.')
+    
+    print(f'----------------------Make LGCN_dataset & LGCN_model----------------------')
+    lightgcn_dataset = MakeLightGCNDataSet(TM_dataset, lda_model, args)
+    ngcf_adj_matrix = lightgcn_dataset.get_ngcf_adj_matrix_data()
+    R_train, R_valid, R_total = lightgcn_dataset.get_R_data()
+    
+    args.device = "cuda" if torch.cuda.is_available() else "cpu"
+    
+    model = LightGCN(
+                        n_users = lightgcn_dataset.num_user,
+                        n_items = lightgcn_dataset.num_item,
+                        args = args,
+                        adj_mtx = ngcf_adj_matrix,
+                        user_topic_tensor = lightgcn_dataset.user_topic_tensor,
+                        ).to(args.device)
+
+    optimizer = torch.optim.Adam(model.parameters(), lr=args.lr)
+    print(f'Done.')
+    
+    print(f'----------------------Training----------------------')
+    best_hit = 0
+    for epoch in range(1, args.num_epochs + 1):
+        tbar = tqdm(range(1))
+        for _ in tbar:
+            train_loss = train(
+                model = model, 
+                make_graph_data_set = lightgcn_dataset, 
+                optimizer = optimizer,
+                n_batch = args.n_batch,
+                )
+            with torch.no_grad():
+                ndcg, hit = evaluate(
+                    u_emb = model.u_emb.detach(), 
+                    i_emb = model.i_emb.detach(), 
+                    Rtr = R_train, 
+                    Rte = R_valid, 
+                    args = args,
+                    k = 10,
+                    )
+            # if best_hit < hit:
+            #     best_hit = hit
+            #     torch.save(model.state_dict(), os.path.join(args.model_path, args.model_name))
+            tbar.set_description(f'Epoch: {epoch:3d}| Train loss: {train_loss:.5f}| NDCG@10: {ndcg:.5f}| HIT@10: {hit:.5f}')
+
+if __name__ == "__main__":
+    args = parse_args()
+    main(args)
diff --git a/model/TM2LGCN/model.py b/model/TM2LGCN/model.py
diff --git a/model/TM2LGCN/trainer.py b/model/TM2LGCN/trainer.py