DeepSeek是中国知名私募巨头幻方量化旗下人工智能公司深度求索(DeepSeek)自主研发的AI大模型,深度求索致力于研究和开发先进的通用人工智能模型AGI。目前DeepSeek的模型全部开源,包括通用大模型DeepSeek LLM、MoE模型DeepSeek MoE、DeepSeek V2、DeepSeek-V3、代码模型DeepSeek Coder、DeepSeek Coder V2、数学模型DeepSeek Math、多模态大模型DeepSeek-VL、DeepSeek VL2等。幻方量化不仅为DeepSeek提供强大的资金支持,例如第一期研发投入预计就达30亿元,还为DeepSeek提供了 “萤火超算” 万卡级别的算力支持。
过去几天以来,低调上线的DeepSeek V3在国内外引起了不小的轰动。根据国外网友们的说法,尽管DeepSeek V3可以算是第一梯队AI大模型,却只用了2048张H800 GPU显卡、2个月不到时间训练完毕,计算预算也只有不到600万美元;在性能方面几乎追上了Claude 3.5 Sonnet 和 GPT-4o,如编程、数学等;每百万Token的价格可以压到不到0.5美金,是用1/10的价格达到OpenAI和Anthropic同级的水平。