DataScience | 2017-10-25 数据科学导论HW1 - Text Analysis and Entity Resolution Assignment 1: Text Analysis and Entity Resolution OverviewEntity resolution is a ...
| 2017-10-23 常用数据集 Scikit-learn ToyScikit-learn数据集内嵌在Scikit-learn工具包中,可以通过Python导入命令直接加载,不需要从任何外部网络资源中下载。加载:12from sklearn import datasetsiris=datasets.load_iris()基本上,所有的Scikit-learn数据集都提供以下方法:.DESCR:提供数据集总体描述(description前五个字母).data:.feature_names:.target:用数值 ...
| 2017-10-09 通俗解释Hadoop 原文出处:http://os.51cto.com/art/201305/396145.htm 众所周知,Hadoop是Apache软件基金会管理的开源软件平台,但Hadoop到底是什么呢?简单来说,Hadoop是在分布式服务器集群上存储海量数据并运行分布式分析应用的一种方法。Hadoop被设计成一种非常“鲁棒”的系统,即使某台服务器甚至集群宕机了,运行其上的大数据分析应用也不会中断。此外Hadoop的效率也很高,因为它并不需要你在网络间来回捣腾数据。以下是Apache的正式定 ...
| 2017-10-08 《集体智慧编程》读书笔记 - Chapter2 评价相似度1.欧几里得距离123456789101112def sim_distance(prefs,person1,person2): si={} for item in prefs[person1]: if item in prefs[person2]: si[item]=1 if len(si)==0:return 0 sum_of_squares=sum([ ...