student projects: reports

mdeff · Feb 7, 2018 · fb59444 · fb59444
1 parent 20dccd8
commit fb59444
Show file tree

Hide file tree

Showing 727 changed files with 440,567 additions and 0 deletions.
diff --git a/projects/reports/amazon_products/data/product_also_bought.pkl b/projects/reports/amazon_products/data/product_also_bought.pkl
diff --git a/projects/reports/amazon_products/data/review_also_bought.pkl b/projects/reports/amazon_products/data/review_also_bought.pkl
diff --git a/projects/reports/amazon_products/project main notebook.ipynb b/projects/reports/amazon_products/project main notebook.ipynb
diff --git a/projects/reports/arab_springs/.gitignore b/projects/reports/arab_springs/.gitignore
diff --git a/projects/reports/arab_springs/25Jan_Anniversary_pic_1.jpg b/projects/reports/arab_springs/25Jan_Anniversary_pic_1.jpg
diff --git a/projects/reports/arab_springs/A_Network_Tour_of_the_Arab_Spring.ipynb b/projects/reports/arab_springs/A_Network_Tour_of_the_Arab_Spring.ipynb
diff --git a/projects/reports/arab_springs/checkpoints/checkpoint b/projects/reports/arab_springs/checkpoints/checkpoint
diff --git a/projects/reports/arab_springs/checkpoints/model-1200.data-00000-of-00001 b/projects/reports/arab_springs/checkpoints/model-1200.data-00000-of-00001
diff --git a/projects/reports/arab_springs/checkpoints/model-1200.index b/projects/reports/arab_springs/checkpoints/model-1200.index
diff --git a/projects/reports/arab_springs/checkpoints/model-1200.meta b/projects/reports/arab_springs/checkpoints/model-1200.meta
diff --git a/projects/reports/arab_springs/checkpoints/model-1600.data-00000-of-00001 b/projects/reports/arab_springs/checkpoints/model-1600.data-00000-of-00001
diff --git a/projects/reports/arab_springs/checkpoints/model-1600.index b/projects/reports/arab_springs/checkpoints/model-1600.index
diff --git a/projects/reports/arab_springs/checkpoints/model-1600.meta b/projects/reports/arab_springs/checkpoints/model-1600.meta
diff --git a/projects/reports/arab_springs/checkpoints/model-2000.data-00000-of-00001 b/projects/reports/arab_springs/checkpoints/model-2000.data-00000-of-00001
diff --git a/projects/reports/arab_springs/checkpoints/model-2000.index b/projects/reports/arab_springs/checkpoints/model-2000.index
diff --git a/projects/reports/arab_springs/checkpoints/model-2000.meta b/projects/reports/arab_springs/checkpoints/model-2000.meta
diff --git a/projects/reports/arab_springs/checkpoints/model-2400.data-00000-of-00001 b/projects/reports/arab_springs/checkpoints/model-2400.data-00000-of-00001
diff --git a/projects/reports/arab_springs/checkpoints/model-2400.index b/projects/reports/arab_springs/checkpoints/model-2400.index
diff --git a/projects/reports/arab_springs/checkpoints/model-2400.meta b/projects/reports/arab_springs/checkpoints/model-2400.meta
diff --git a/projects/reports/arab_springs/checkpoints/model-800.data-00000-of-00001 b/projects/reports/arab_springs/checkpoints/model-800.data-00000-of-00001
diff --git a/projects/reports/arab_springs/checkpoints/model-800.index b/projects/reports/arab_springs/checkpoints/model-800.index
diff --git a/projects/reports/arab_springs/checkpoints/model-800.meta b/projects/reports/arab_springs/checkpoints/model-800.meta
diff --git a/projects/reports/arab_springs/cnn.png b/projects/reports/arab_springs/cnn.png
diff --git a/projects/reports/arab_springs/dictionaries.p b/projects/reports/arab_springs/dictionaries.p
diff --git a/projects/reports/arab_springs/english_dictionary.py b/projects/reports/arab_springs/english_dictionary.py
@@ -0,0 +1,94 @@
+###############################################################
+########################## IMPORTS ############################
+###############################################################
+import numpy as np
+import string
+from nltk.tokenize import TweetTokenizer
+import pickle
+
+
+###############################################################
+########################## FUNCTIONS ##########################
+###############################################################
+def tokenize(text):
+	'''
+	Tokenize string using nltk tweet tokenizer
+	param text: string
+	return: list of tokens
+	'''
+	tknzr = TweetTokenizer()
+	return tknzr.tokenize(text)
+
+def correct(sentence, contrac_dict={}):
+	'''
+	replace contractions in sentence and remove punctuation
+	param sentence: string
+	param contrac_dict: dictionary, english contraction
+	return string, corrected sentece
+	'''
+	tokens = tokenize(sentence)
+	new_tokens = []
+	for token in tokens:
+		if token in contrac_dict:
+			new_tokens.append(contrac_dict[token])
+		if len(token)>1:
+			new_tokens.append(''.join(c for c in token if c not in string.punctuation))
+	return ' '.join(new_tokens)
+
+
+###############################################################
+############################ MAIN #############################
+###############################################################
+def main():
+
+	######## Upload dictionaries ######
+	###################################
+	#Define Paths
+	#BASE = '../data/dictionaries/'
+	BASE = ''
+
+	## English Dicionary
+	english_words = np.asarray([line.rstrip('\n').lower() for line in open(BASE+'english_words.txt')])
+	idx = np.arange(int(len(english_words)/3))
+	english_dictionary = dict(zip(english_words[3*idx+1], english_words[3*idx+2]))
+	freq =  dict(zip(english_words[3*idx+1], english_words[3*idx+2]))
+
+	## English contractions (#ignore)
+	contractions = np.asarray([line.rstrip('\n').lower() for line in open(BASE+'contractions.txt')])
+	idx = np.arange(int(len(contractions)/2))
+	contractions_dict = dict(zip(contractions[2*idx], contractions[2*idx+1]))
+
+	## Acronyms
+	acronyms = np.asarray([line.rstrip('\n').lower() for line in open(BASE+'netlingo_acronyms.txt')])
+	idx = np.arange(int(len(acronyms)/2))
+	acronyms_dict = dict(zip(acronyms[2*idx], acronyms[2*idx+1]))
+
+	#Remove multi explications
+	for key in acronyms_dict:
+		acronyms_dict[key] = acronyms_dict[key].split('/ ')[0]
+
+  	#correct descriptions
+	for key in acronyms_dict:
+		acronyms_dict[key] = correct(acronyms_dict[key])
+
+	## Smileys
+	smileys = np.asarray([line.rstrip('\n').lower() for line in open(BASE+'netlingo_smileys.txt')])
+	idx = np.arange(int(len(smileys)/2))
+	smileys_dict = dict(zip(smileys[2*idx], smileys[2*idx+1]))
+
+	#Remove multi explications
+	for key in smileys_dict:
+		smileys_dict[key] = smileys_dict[key].split('- ')[0]
+
+	## Final Dicionary
+	freq_dict = { k:v for k, v in english_dictionary.items()}
+
+	final_dict = { k:k for k, v in english_dictionary.items()}
+	final_dict.update(acronyms_dict)
+	final_dict.update(smileys_dict)
+
+	# Save Dictionary
+	pickle.dump([final_dict, freq_dict], open('../data/dictionaries.p', 'wb'))
+
+if __name__ == "__main__":
+	main()