什么是原始信件分析服务器?如何配置?前两天,复旦大学向外国泄露了中国人类基因组计划的一些数据,这些数据被认为是中国的国家机密。这一事件引起了人们对基因数据保护和共享的关注。事实上,中国人类基因数据的分析时间已经从一天增加到七分钟。随着服务器的进步,以前不可能的事情越来越多的走进了普通人的生活。
经过这次实践,又在闲鱼上看到这么多分析学生信件的服务,我觉得我有了新的使命,我可以像自来水一样,为广大可以安装/使用rstudio的医学生/科研人员提供/协助分析计算资源,并推广这种经验,帮助更多的朋友。
海外服务器免费测试:https://www.zhaodufu.com/zt/2023-05-06/
1.什么是原始信件分析服务器?
最近遇到这样一个优质客户,说要装R和rstudio分析10G数据,要装百度网盘。请问什么样的设备可以做这个分析?进一步询问得知,其自带8G内存,3060显卡的戴尔G16电脑,安装后根本无法移动。在网上搜索rstudio的硬件配置,发现了这样一篇文章《单细胞转录组基础分析I:分析环境的构建》,来自盛鑫的客厅。
,通过驱动蛋白。对硬件要求有一个描述:
10X基因组单细胞数据分析对计算机硬件配置要求高。上游分析软件单元
游侠最低配置需要8核CPU+64G内存,推荐配置为16核CPU+128G内存,显然超出了个人电脑的能力范围。用R语言的Seurat包做下游分析时,10,000 cells表达式矩阵,8G内存的计算机应付不过来。所以没有服务器的同学也不用考虑上游分析,只需要一台最低16 GB内存的电脑就可以进行下游分析。
机器性能配置初步形成。
发给客户聊一聊,它立马同意确实需要这么大的配置。再问也只是做数据分析,不涉及图像处理。然后配置明确,数据只有10G,分析后只有5G左右,套餐系统20G左右。一般40G系统盘基本能满足要求,建议配置20G数据盘。后来我才知道,经过分析,数据需要下载5G左右,只需要在某个时间下载即可。1M的下载速率除以8,就是10*1024*1024/128/60/60=22.76小时,所以可以选择按流量计费,带宽可以升级到100M,不下载流量也不用付费。
二、原信分析服务器初步建议客户配置:(一般来说,主要围绕客户使用场景理解和判断以下三个需求)
1.16核128G内存
2.60G硬盘(应推荐超高IO型硬盘)
3.网络按流量计费,带宽100M(初次建议5M,了解分析后需要下载5G数据,建议100M)。
客户下载r,rstudio,网盘和数据到服务器,准备好,将数据导入rstudio。结果反馈指南10多分钟都没看完。后来估计引导了40多分钟。
所以看起来16核128G配置还是有点不足,其实可以升级到24vCPUs。
192GiB内存或更高。提速,实际整体使用成本应该差不了多少,但至少节省了时间。客户反馈其实2天就能完成数据分析,整体费用两三百元甚至更少。
后来才知道,客户其实跑了一段时间,不自信就关了机,删了资源。花了500块钱让别人分析结果数据。
三、信用分析服务器方案的配置成本:
客户反馈这次有15G的基因数据,所以60G的硬盘容量应该够了。因为升级机器性能只会改变CPU和内存,所以需要从头选择磁盘类型。根据rstudio对基因数据的分析统计,在阅读和写作时也考虑了阅读速度。比如15G数据的读取用了1小时15分钟左右,内存占用达到190G以上。
所以尽可能选择读写性能最高的磁盘类型。这里选择超高IO,60G每小时0.08元。带宽方面,客户从远程桌面下载网盘、R、rstudio、数据到云端服务器,然后配置运行操作,不涉及大量数据从服务器频繁流出。因此,建议客户配置带宽为100M,计费方式为按量计费。
下载1G数据只要0.64元。CPU和内存方面,rstuido分析CPU利用率不高。目前实际观察8核就够了,算法和基因数据可能有差异,还需要进一步观察。内存占用很大。这部分根据之前的经验有一个初步的对应供参考。这样,服务器的配置和操作过程就非常清晰了。
四、信用分析服务器的具体配置方案
按照上述步骤创建服务器并做好准备。导入数据前,打开RStudio,输入memory.limit()检查rstuido能分配的内存是否足够大(这里单位是m)。如果与从服务器购买的内存不一致,可以使用memory.limit(256000)等设置为256G。
过了不到一个小时,客户又开始着急了,说一直没动静,好像卡住了。安慰他们打开任务管理器看看CPU和内存有没有变化。rstudio的实际CPU占用率只有3.1,但内存每隔几秒就以G级递增。观察一会儿,导入命令结束,内存占用稳定在190G g,从通信时间和后面的话单分析,导入15G数据大概需要1小时15分钟。
然后,客户运行分析。从账单和关机时间分析,分析时间应该在一个半小时左右。
以下是数据准备和分析过程的账单明细,费用约37.8元。
最后,考虑到正是云计算的便利性,使得信用分析服务器的硬件配置在几分钟内就可以完成,即使需要调整配置。而且可以马上敷,不用就关,用完后马上放,成本比较低。对于非大企业,研究机构的小公司,个人分析师,确实方便。如文中所说,没有服务器的同学是不需要考虑上游分析的,但是现在随时都可以用,而且用得起。
评论前必须登录!
注册