你想不想利用自己手头上的现有日常硬件、自由软件等资源去搭建一个属于个人的小型数据中心呢?
1.硬件
设计数据中心的时候,我们的目标是在每个环节上有冗余的时候保持系统最大的可用性,因此,即使有些环节不工作了,可影响不会受到影响。
服务器使用了日常硬件:我们所有的服务器硬件基于Inter Core i3处理器,16G内存和3TB的存储空间,为了做到最大可用性,设备共用了硬盘、网卡、路由和交换机。
多UPS和发电设备:我们意识到在印度经常会停电。我们不能因为停电而牺牲服务器,因此我们设置了多个UPS,一个附加的发电设备——用来防备USP也撑不住的时候。
多个网络专线:虽然有一条专线我们的服务器和爬虫就应该能7×24小时的工作,但为了防止网络中断,我们做了冗余——来自两个不同服务商的专线。
2.硬件监控和软件配置的工具
自动化的安装、配置和监控至关重要,可以接受日常的维护工作。
自动安装和配置:Mondo (linux下的ghost)和 Puppet用来完成系统配置的自动化管理。Mondo 用来批量安装Puppt到裸机,Puppt安装既定的设置进行管理和配置。
监控和警告: Nagios, Munin and WinPower(伊顿中国|winpower),这些软件用来监控我们的私有云设备。Nagios 对主机进行频繁的检查并通过邮件、短信、聊天工具提出警报,我们通过一个蓝牙发射器连接一个废弃手机,用来发送警报短信。
数据备份:所有数据复制在多个硬盘上备份。关键数据仍然要用一套独立的外部系统和存储设备再备份一次。我们使用rsync配合BackupPC进行每周一次的全局备份和每日的增量备份。周备份按时传送到外部硬盘上。
3.设置爬取设施
我们使用如下开源软件进行7×24小时的爬取、分布式存储和工作处理。
Hadoop HDFS:阿帕奇Hadoop 是一个支持数据库分布式处理的开源框架。Hadoop Distributed File System (HDFS)是其使用的主要存储系统,HDFS能够串联一个计算机集群中以极快的速度地为数据块进行拷贝和分发。
上面提到的Cassandra 非关系型数据库:阿帕奇Cassandra 是一个开源的分布式数据库管理系统。它被设计用来通过日常服务器处理大数量级的数据,提供没有单点故障的高可用性。
Hadoop Map-Reduce :是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的分布式大型集群架构上,并以一种可靠容错的方式并行处理上T级别的数据集。
Pig脚本:“ Pig是一种编程语言,它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果。Pig内置的操作使得半结构化数据变得有意义(如日志文件)。同时Pig可扩展使用Java中添加的自定义数据类型并支持数据转换。”
Zookeeper:是Hadoop的正式子项目,它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。
Apache Nutch :基于Lucene 和 Java的开源搜索引擎,用于爬虫搜索和索引。
文本处理通过Lucene
4.成本
1)设备支出:
整个设施花费了大概一万二千美元,包括服务器、冷却系统、电源组件的价格,我们从当地供应商购买,自己组装,每个服务器成本控制在了500美元。效率方面从组装到提供给用户需要2-3小时时间。(一小时组装,30分钟用Mondo恢复统一镜像,一小时用Puppt安装和配置)
日本云专线原生IP必须是独立的,有些公司提供的加速线路,给你的是一样共享的IP,很多客户共同使用一个IP。这个对于运营TikTok账户的商家来说是大忌。