有关 data science说两句

看到data science 首先要问的是这个问题:

Is data science to be understood as the science of data, or as science with data?

其实两者都包含,发明牛逼的工具来处理data,然后从data中获取有用的知识,反过来再推动工具的发展。

Data science is concerned with all aspects of the creation, management, analysis, and communication of data focusing particularly on the application of computational methods to digital data。

说白了就是data science的目的就是为了从 data 中获取有用的知识。

Data science = Data Curation + Data Analytics,在实际中,人们花费了大部分人的人力金钱和时间在data curation, 我知道花了大概 80% 时间在处理数据上。

由于data science的范围太广了,所以它的工种也是万千种,大家崇拜的 ML/AI也可以归到data science.

Data science并不像紫檀理解的那么低门槛,相反相当的高大上。没有好的data,ML/AI喝西北风。

所有跟帖: 

开始CS鄙视链。啥排第一? -其乐无穷- 给 其乐无穷 发送悄悄话 (0 bytes) () 09/23/2024 postreply 12:46:45

ML模型都不难,难的是high quality data -留仙之二九零零年右移- 给 留仙之二九零零年右移 发送悄悄话 (0 bytes) () 09/23/2024 postreply 12:47:04

现在厉害的那些AI公司发展快是因为他们能拿到高质量的data么? -trivial- 给 trivial 发送悄悄话 (0 bytes) () 09/23/2024 postreply 12:50:51

说的是传统或特定行业的模型。LLM是brute force,彼此在data上区别不大,几乎把所有的数据都塞进去了 -成功的飞过- 给 成功的飞过 发送悄悄话 (0 bytes) () 09/23/2024 postreply 12:57:08

对。生成性AI,针对普遍话题,比如Chat GPT是有可靠数据,图形生成也是,这些都垂手可得的 -加州lalin- 给 加州lalin 发送悄悄话 加州lalin 的博客首页 (800 bytes) () 09/23/2024 postreply 13:06:15

解释的通俗易懂了:) -两女宝妈- 给 两女宝妈 发送悄悄话 两女宝妈 的博客首页 (0 bytes) () 09/23/2024 postreply 13:20:51

长知识了:) -两女宝妈- 给 两女宝妈 发送悄悄话 两女宝妈 的博客首页 (0 bytes) () 09/23/2024 postreply 12:47:11

snowflake, databricks这类的数据公司,待遇也相当的不错啊 -青裁- 给 青裁 发送悄悄话 (0 bytes) () 09/23/2024 postreply 12:52:33

databrick是数据公司么??? -成功的飞过- 给 成功的飞过 发送悄悄话 (0 bytes) () 09/23/2024 postreply 12:59:29

怎么不算? -青裁- 给 青裁 发送悄悄话 (0 bytes) () 09/23/2024 postreply 13:08:00

靠卖数据谋生的才是数据公司吧?比如布隆伯格、Reuters -我是谁的谁- 给 我是谁的谁 发送悄悄话 (0 bytes) () 09/23/2024 postreply 13:47:55

这些都属于data platform service provider,不是data provider。 -加州lalin- 给 加州lalin 发送悄悄话 加州lalin 的博客首页 (0 bytes) () 09/23/2024 postreply 16:17:17

给这个坛子说的我以为DS是CS界的二等公民 -trivial- 给 trivial 发送悄悄话 (120 bytes) () 09/23/2024 postreply 12:47:51

問題是data science本科生有多少去做了AI/ML? -violinpiano- 给 violinpiano 发送悄悄话 (167 bytes) () 09/23/2024 postreply 12:51:07

不是说CS本科也很难吗?这种职位对接的就不是本科生吧? -两女宝妈- 给 两女宝妈 发送悄悄话 两女宝妈 的博客首页 (0 bytes) () 09/23/2024 postreply 12:54:09

主要还是运用 Azure,AWS 上的一些 AI 相关的工具 -TTFAN- 给 TTFAN 发送悄悄话 (0 bytes) () 09/23/2024 postreply 13:47:08

哈哈哈。好多 AI 工作者读不懂别人给的数据,对 schema 一头雾水的多的是,原因是 data sciencee没学 -青裁- 给 青裁 发送悄悄话 (0 bytes) () 09/23/2024 postreply 12:51:37

所以做AI的需要多学一些DS方面非AI的课程? 比如什么呢 -trivial- 给 trivial 发送悄悄话 (0 bytes) () 09/23/2024 postreply 12:56:25

我想不出来,基础都是统计都要学。DS总体偏数据:要懂得数据的来龙去脉;AI偏建模和实施。DS/AI/SWE之间有很多交叉 -成功的飞过- 给 成功的飞过 发送悄悄话 (0 bytes) () 09/23/2024 postreply 13:02:22

数据库 pandas/numpy 必须非常熟,族基本功,然后data curation的方方面面… -青裁- 给 青裁 发送悄悄话 (0 bytes) () 09/23/2024 postreply 13:02:00

整LLM的跟数据库、Pandas不搭界 -成功的飞过- 给 成功的飞过 发送悄悄话 (0 bytes) () 09/23/2024 postreply 13:04:32

10年前Data science刚红火的时候,可能CS的本科生或是马工都可以称自己是Data scientist,其实干 -Pilsung- 给 Pilsung 发送悄悄话 (454 bytes) () 09/23/2024 postreply 12:59:15

数据科学家的大多数是学统计或其他专业转行的,计算机系出来的会自称机器学习或人工智能专家 -whaled- 给 whaled 发送悄悄话 (0 bytes) () 09/23/2024 postreply 14:12:18

今天一主播说, DS会是被AI替换很快的专业 -多多少少运动- 给 多多少少运动 发送悄悄话 (0 bytes) () 09/23/2024 postreply 14:13:11

高级的data science 是需要数学或统计学的博士吧? -小松松- 给 小松松 发送悄悄话 (0 bytes) () 09/23/2024 postreply 13:09:30

很多学校DS在社科学院,ML在计算机学院。DS用工具处理数据解决应用问题,ML开发算法和原始工具。 -whaled- 给 whaled 发送悄悄话 (0 bytes) () 09/23/2024 postreply 14:02:29

请您先登陆,再发跟帖!