pawankg
diff --git a/‎word_embeddings_and_PCA/GaussianScatterPCA.svg
+5,758 b/‎word_embeddings_and_PCA/GaussianScatterPCA.svg
+5,758
diff --git a/‎word_embeddings_and_PCA/III_Principal_component_analysis.ipynb
+415 b/‎word_embeddings_and_PCA/III_Principal_component_analysis.ipynb
+415
diff --git a/‎word_embeddings_and_PCA/II_Manipulating_word_embeddings.ipynb
+985 b/‎word_embeddings_and_PCA/II_Manipulating_word_embeddings.ipynb
+985
diff --git a/‎word_embeddings_and_PCA/IV_Compute_PCA.ipynb
+1,698 b/‎word_embeddings_and_PCA/IV_Compute_PCA.ipynb
+1,698
diff --git a/‎word_embeddings_and_PCA/I_Vector_and_matrix_operation_using_Numpy.ipynb
+824 b/‎word_embeddings_and_PCA/I_Vector_and_matrix_operation_using_Numpy.ipynb
+824
diff --git a/‎word_embeddings_and_PCA/capitals.txt
+4,952 b/‎word_embeddings_and_PCA/capitals.txt
+4,952
diff --git a/‎word_embeddings_and_PCA/en-fr.txt
+113,287 b/‎word_embeddings_and_PCA/en-fr.txt
+113,287
diff --git a/‎word_embeddings_and_PCA/map.jpg
570 KB b/‎word_embeddings_and_PCA/map.jpg
570 KB
diff --git a/‎word_embeddings_and_PCA/utils.py
+21 b/‎word_embeddings_and_PCA/utils.py
+21
diff --git a/‎word_embeddings_and_PCA/utils_vecs.py
+61 b/‎word_embeddings_and_PCA/utils_vecs.py
+61
diff --git a/‎word_embeddings_and_PCA/vectors.jpg
165 KB b/‎word_embeddings_and_PCA/vectors.jpg
165 KB
diff --git a/‎word_embeddings_and_PCA/vectorsf.jpg
498 KB b/‎word_embeddings_and_PCA/vectorsf.jpg
498 KB
diff --git a/‎word_embeddings_and_PCA/word_embeddings_subset.p
302 KB b/‎word_embeddings_and_PCA/word_embeddings_subset.p
302 KB
diff --git a/‎word_embeddings_and_PCA/word_embf.jpg
47.9 KB b/‎word_embeddings_and_PCA/word_embf.jpg
47.9 KB
@@ -0,0 +1,21 @@
+import numpy as np
+
+
+def get_vectors(embeddings, words):
+    """
+    Input:
+        embeddings: a word 
+        fr_embeddings:
+        words: a list of words
+    Output: 
+        X: a matrix where the rows are the embeddings corresponding to the rows on the list
+        
+    """
+    m = len(words)
+    X = np.zeros((1, 300))
+    for word in words:
+        english = word
+        eng_emb = embeddings[english]
+        X = np.row_stack((X, eng_emb))
+    X = X[1:,:]
+    return X
@@ -0,0 +1,61 @@
+# This is used to tranlate english to french
+
+import pandas as pd
+from gensim.models import KeyedVectors
+import nltk
+import unicodedata
+import string
+
+# Loading in the French embeddings. 
+
+fr_embeddings = KeyedVectors.load_word2vec_format('wiki.multi.fr.vec')
+f = open('capitals.txt', 'r').read()
+set_words = set(nltk.word_tokenize(f))
+
+def load_translations():
+    '''
+    TBD
+    
+    '''
+    dict_fr = pd.read_csv('en-fr.txt', delimiter = ' ')
+    
+    en_to_fr = {}
+    fr_to_vec = {}
+    for i in range(len(dict_fr)):
+        en = dict_fr.loc[i][0]
+        fr = dict_fr.loc[i][1]
+        if type(en) != float:
+            en = en.capitalize()
+        if en in set_words and en not in set(en_to_fr.keys()):
+            en_to_fr[en] = fr
+            fr_to_vec[fr] = fr_embeddings[fr]
+    # Add comments later 
+    del fr_to_vec['syrienne']
+    del fr_to_vec['iranienne']
+    del fr_to_vec['malien']
+    del fr_to_vec['arménienne']
+    del fr_to_vec['chilien']
+    del fr_to_vec['équateur']
+    en_to_fr['Chile'] = 'chili'
+    fr_to_vec['chili'] = fr_embeddings['chili']
+    en_to_fr['Iran'] = 'iran'
+    fr_to_vec['iran'] = fr_embeddings['iran']
+    en_to_fr['Turkey'] = 'turquie'
+    fr_to_vec['turquie'] = fr_embeddings['turquie']
+    en_to_fr['Syria'] = 'syrie'
+    fr_to_vec['syrie'] = fr_embeddings['syrie']
+    en_to_fr['Nigeria'] = 'nigeria'
+    fr_to_vec['nigeria'] = fr_embeddings['nigeria']
+    en_to_fr['Mali'] = 'mali'
+    fr_to_vec['mali'] = fr_embeddings['mali']
+    fr_to_vec['grece'] = fr_embeddings['grèce']
+    en_to_fr['Armenia'] = 'arménie'
+    fr_to_vec['arménie'] = fr_embeddings['arménie']
+    en_to_fr['Ecuador'] = 'ecuador'
+    fr_to_vec['ecuador'] = fr_embeddings['ecuador']
+    en_to_fr['Niger'] = 'niger'
+    fr_to_vec['niger'] = fr_embeddings['niger']
+    return en_to_fr, fr_to_vec
+
+def remove_accents(data):
+    return ''.join(x for x in unicodedata.normalize('NFKD', data) if x in string.ascii_letters).lower()