数据科学可能是昂贵的事业。物理基础设施和设备、云托管服务和数据库访问,这些很快会带来可观的成本。因此,可能很难在这个行业起步。
大多数小公司每年在数据分析上的花费超过10000美元,但大多数个人吃不消。无论您是独自工作还是为公司建立架构,您都需要一套更经济实惠的方案。下面介绍了无需花费太多即可建立架构的方法。
1. 寻找提供免费套餐的服务提供商
像主机托管公司这样的服务提供商是数据科学中必不可少但通常成本高昂的部分。还好,其中许多提供商还为入门级用户提供免费或低成本的套餐。甚至像AWS这样的行业领头羊也免费提供S3和AWS Lamba之类的功能,只是有所限制。
您无法在免费套餐中使用提供商的所有服务,您的存储空间或访问频次可能有限。确定您的项目需要什么,然后货比三家,看看哪个最适合自己的要求。
2. 青睐基于Web的软件
选购要使用的软件工具时,应关注基于Web的选择,而不是传统的设备端应用程序。如果您将大部分或全部业务运营移到网上,对物理设备的要求不会那么高。然后,您可以在计算机、服务器或其他基础设施上少花钱,因为您不需要同样强大的存储或处理能力。
物色基于Web的选择时,确保您知道它们如何收费。针对Kubernetes操作的许多计费选择按每小时集群数量收费,很快会变得费用高昂。确保X即服务方案的费用不会超过本地解决方案。
3. 重新考虑什么是必要的
另一种降低架构成本的方法是摈弃一些选择。许多功能和流程可能很昂贵,但您可能不需要。比如说,主机托管常常在1000美元到4000美元之间,但您不一定需要独特的域名。
分析预算和目标时,重新考虑您是否需要清单上的每一项。一些功能可能有帮助,但不会显著影响您的最终产品,因此最好暂时将它们排除在外。
4. 使用开源数据库
数据科学的另一个可能带来高额费用的部分是数据库。收集自己的数据很慢,还需要大量的基础设施成本,许多公开可用的数据库成本很高。您可以改而在开源数据库上训练程序,避免这些成本。
许多开源数据库将为您免费提供有限的访问。一些服务提供商的免费套餐(比如Supabase)甚至提供可以免费全面访问数据库的服务,常常基于开源选项。不过在使用这些开放数据库时,务必在处理之前检查其安全并清理数据。
5.从小处着手
最后,您可以通过降低目标来控制成本。大型、开创性或颠覆性的项目其复杂性和存储要求可能超出您有限的预算。先关注规模小、强度低的项目,等有了更多的收入,再扩展也不晚。
小项目会使免费资源相对有限的效用让人觉得不那么受限制。如果您能坚持到赚到更多的钱来扩展,免费数据库和托管工具可以让您坚持很长一段路。
数据科学不一定很昂贵
数据科学一开始可能高大上,尤其是考虑到一些企业在它上面花的费用。虽然这些费用可能会增加到天文数字般那么高,但不是说非得如此,尤其是对于新的数据科学操作而言。
遵循上述五个步骤将帮助您建立架构,无需花费太多。如果您已经拥有一些工具,甚至可以开始免费工作了。然后,您可以开始拓展业务,以便将来改而开展更大的项目。
原文标题:How to Set Up Your Data Science Stack on a Budget,作者:Devin Partida