http://blog.sina.com.cn/s/blog_783b46930100y5no.html
在当今浮噪的中国,有这种事。很感慨。
—----------
这是一个关于两个土鳖创业的故事。在看到曙光之前,他们整整坚持了5年。在这样一个电商风起云涌,在用脚本语言开发Web被看做是IT行业最潮事情的时代,这是我在中关村二十多年来看到的最能坚持的创业的故事。
五年前,也就是2006年的7月,我和另外两个同事前后脚辞职离开上一家单位。我加入了一家做芯片的公司打工,他们两个选择自己创业。他们和另外一个朋友每人2万元注册了一家公司,地址就在知春路量子芯座大厦对面,一个老式筒子楼改的商务楼三楼,一间18平的房间。独一无二的环境使得这个房间是那一带最便宜的办公场所了,这是因为无论从那边进入都得经过一个厕所:一边是女厕所,一边是男厕所。好在两人烟瘾都很大,浓重的烟味让厕所的异味显得不是那么难闻,每次进入那间屋子我都有窒息的感觉。第三人因为家庭原因从未正式入伙,在差不多5年的时间里,这个公司就两个人。在此期间这个公司基本不赚钱,家里主要靠各自的太太,每次见面都自嘲是吃软饭的。注册资本金只有6万,买了两台服务器之后所剩无几,平时靠给朋友做点软件外包性质的开发赚点小钱付公司的房租水电;两人不拿工资,也没工资可拿。五年里就这么过来,直到今年。
这两人是做语音识别的,在这一行算是高手,但是是土鳖高手。语音识别这个行业也有点特别。作为人工智能和模式识别的分支,像手写识别早已成熟,而语音识别还是一个引无数英雄竞折腰但是无人能够蟾宫折桂的事。李开复今天在中国是IT风云人物,从前也是在CMU由于语音识别领域有过贡献而拿到PhD的,也因为这进了苹果和微软。但现在李博士的创新工场据说有两个技术不投,其中之一就是他从前吃饭的手艺—语音识别。几十年来,无数公司和研究机构,老的如IBM、Bell Labs,后起的如Nuance,Microsoft, Google等,投入了大量的资源,但是没有一家能够做出真正有用的语音识别产品。现在的语音识别技术最多也就能识别像新闻节目那样比较标准无背景噪音的语音。在UI技术上从来敢为天下先的苹果上世纪90年代也一度尝试过,但是效果不好,以后在苹果的官方产品再未出现过。在iPhone/iPad风靡的时代,一个UI技术如果苹果用了说不好,基本上就判了死刑。很不幸语音识别技术就是其中之一。因此没有人看好他们二人选择的方向。但是他们这两个很倔的土鳖就是想做语音识别,就是觉得土鳖也能在这个领域做出点新东西,就是想让语音识别技术变得真正有用,因此一直坚持。
因为办公地点离得很近,我和他们每年聚几次。公司没什么收入,有时候还干点web开发之类的,但是看得出来他们的精神状态一直很好,一直在埋头苦干。这几年的时间里,如果不是家里有事,就在公司里;做过无数次试验,一个方法不成,就推倒重来。最终他们搞了点东西出来,据说是全新的理论框架和方法。我很想说他们的成果是革命性的突破,但我不是语音识别领域的专家,这话得他们发表文章之后,由权威们来判断。现在只能用它们的产品来说说事。他们所开发的技术的第一个应用成果是字幕同步技术。什么是字幕同步技术呢?我们看到的电影电视节目上都有字幕,因为视频和文字是分别制作的,要让文字在合适的时候显示在屏幕上就需要同步,以前都是靠人工编辑。这个行业在美国每年有10亿美元以上的规模。他们的产品就是自动将字幕在合适的时候加入到视频节目里,这是迄今为止第一个真正能够实现自动化的字幕同步软件。北京电视台的好几个节目的后期制作现在都已使用。这个软件进一步成熟以后,视频节目的字幕制作历史将会改写。
他们的产品有多好?美国因为法律强制所有的视频节目不能歧视听障人群,必须有字幕(video-text)。因此曾经有过多个政府项目资助研究字幕同步(video-text synchronization)技术,顶级的大学和研究机构参与的也不少,都试图开发自动化的字幕同步技术,但目前也就能在教学软件、新闻等有限领域获得成功。能够处理复杂环境下如电影、自然对话等噪音环境的技术目前尚未见到,大量的视频节目还必须使用人工编辑的办法。而他们的产品就可以做得很好。像《阿凡达》这样的电影,两三分钟就能处理完毕。
他们的成果有多重要呢?过去二十年语音识别在理论上基本没有大的突破,所谓的进展都是靠老理论+越来越强的计算能力+越来越多的数据。微软研究院(MSR)最近发布了一项新的语音识别处理技术,号称是近年来语音识别领域最重要的进展,也不过就是利用今天超强的计算能力,将两个比较古老的语音识别方法—神经网络和基于HMM的统计方法—成功的结合在一起。然而该方法依然没有解决语音识别领域以前的问题。我虽然对语音识别技术不太懂,但是我直觉判断,他们的方法有很大可能远远好于MSR所发表的成果,有可能是过去十年或者二十年语音识别领域最有价值的贡献。
当然他们今年也熬过来了,公司赢利,也获得了VC的支持,换到了一个环境好一点的办公室,再也没有那么浓重的烟味了。不过还是一如既往的低调,公司也还是没有网站,互联网上也基本搜不到他们的信息。上个月去了他们新的办公室,看了他们的产品演示,非常感慨:在中关村,在知春路,在我们的身边,除了疯狂的团购、发烧的小米、三个月就要赚钱的电商的躁动之外,还有人数年如一日地在基础技术上默默耕耘。
五年磨一剑,我很佩服他们的坚持。
在当今浮噪的中国,有这种事。很感慨。
—----------
这是一个关于两个土鳖创业的故事。在看到曙光之前,他们整整坚持了5年。在这样一个电商风起云涌,在用脚本语言开发Web被看做是IT行业最潮事情的时代,这是我在中关村二十多年来看到的最能坚持的创业的故事。
五年前,也就是2006年的7月,我和另外两个同事前后脚辞职离开上一家单位。我加入了一家做芯片的公司打工,他们两个选择自己创业。他们和另外一个朋友每人2万元注册了一家公司,地址就在知春路量子芯座大厦对面,一个老式筒子楼改的商务楼三楼,一间18平的房间。独一无二的环境使得这个房间是那一带最便宜的办公场所了,这是因为无论从那边进入都得经过一个厕所:一边是女厕所,一边是男厕所。好在两人烟瘾都很大,浓重的烟味让厕所的异味显得不是那么难闻,每次进入那间屋子我都有窒息的感觉。第三人因为家庭原因从未正式入伙,在差不多5年的时间里,这个公司就两个人。在此期间这个公司基本不赚钱,家里主要靠各自的太太,每次见面都自嘲是吃软饭的。注册资本金只有6万,买了两台服务器之后所剩无几,平时靠给朋友做点软件外包性质的开发赚点小钱付公司的房租水电;两人不拿工资,也没工资可拿。五年里就这么过来,直到今年。
这两人是做语音识别的,在这一行算是高手,但是是土鳖高手。语音识别这个行业也有点特别。作为人工智能和模式识别的分支,像手写识别早已成熟,而语音识别还是一个引无数英雄竞折腰但是无人能够蟾宫折桂的事。李开复今天在中国是IT风云人物,从前也是在CMU由于语音识别领域有过贡献而拿到PhD的,也因为这进了苹果和微软。但现在李博士的创新工场据说有两个技术不投,其中之一就是他从前吃饭的手艺—语音识别。几十年来,无数公司和研究机构,老的如IBM、Bell Labs,后起的如Nuance,Microsoft, Google等,投入了大量的资源,但是没有一家能够做出真正有用的语音识别产品。现在的语音识别技术最多也就能识别像新闻节目那样比较标准无背景噪音的语音。在UI技术上从来敢为天下先的苹果上世纪90年代也一度尝试过,但是效果不好,以后在苹果的官方产品再未出现过。在iPhone/iPad风靡的时代,一个UI技术如果苹果用了说不好,基本上就判了死刑。很不幸语音识别技术就是其中之一。因此没有人看好他们二人选择的方向。但是他们这两个很倔的土鳖就是想做语音识别,就是觉得土鳖也能在这个领域做出点新东西,就是想让语音识别技术变得真正有用,因此一直坚持。
因为办公地点离得很近,我和他们每年聚几次。公司没什么收入,有时候还干点web开发之类的,但是看得出来他们的精神状态一直很好,一直在埋头苦干。这几年的时间里,如果不是家里有事,就在公司里;做过无数次试验,一个方法不成,就推倒重来。最终他们搞了点东西出来,据说是全新的理论框架和方法。我很想说他们的成果是革命性的突破,但我不是语音识别领域的专家,这话得他们发表文章之后,由权威们来判断。现在只能用它们的产品来说说事。他们所开发的技术的第一个应用成果是字幕同步技术。什么是字幕同步技术呢?我们看到的电影电视节目上都有字幕,因为视频和文字是分别制作的,要让文字在合适的时候显示在屏幕上就需要同步,以前都是靠人工编辑。这个行业在美国每年有10亿美元以上的规模。他们的产品就是自动将字幕在合适的时候加入到视频节目里,这是迄今为止第一个真正能够实现自动化的字幕同步软件。北京电视台的好几个节目的后期制作现在都已使用。这个软件进一步成熟以后,视频节目的字幕制作历史将会改写。
他们的产品有多好?美国因为法律强制所有的视频节目不能歧视听障人群,必须有字幕(video-text)。因此曾经有过多个政府项目资助研究字幕同步(video-text synchronization)技术,顶级的大学和研究机构参与的也不少,都试图开发自动化的字幕同步技术,但目前也就能在教学软件、新闻等有限领域获得成功。能够处理复杂环境下如电影、自然对话等噪音环境的技术目前尚未见到,大量的视频节目还必须使用人工编辑的办法。而他们的产品就可以做得很好。像《阿凡达》这样的电影,两三分钟就能处理完毕。
他们的成果有多重要呢?过去二十年语音识别在理论上基本没有大的突破,所谓的进展都是靠老理论+越来越强的计算能力+越来越多的数据。微软研究院(MSR)最近发布了一项新的语音识别处理技术,号称是近年来语音识别领域最重要的进展,也不过就是利用今天超强的计算能力,将两个比较古老的语音识别方法—神经网络和基于HMM的统计方法—成功的结合在一起。然而该方法依然没有解决语音识别领域以前的问题。我虽然对语音识别技术不太懂,但是我直觉判断,他们的方法有很大可能远远好于MSR所发表的成果,有可能是过去十年或者二十年语音识别领域最有价值的贡献。
当然他们今年也熬过来了,公司赢利,也获得了VC的支持,换到了一个环境好一点的办公室,再也没有那么浓重的烟味了。不过还是一如既往的低调,公司也还是没有网站,互联网上也基本搜不到他们的信息。上个月去了他们新的办公室,看了他们的产品演示,非常感慨:在中关村,在知春路,在我们的身边,除了疯狂的团购、发烧的小米、三个月就要赚钱的电商的躁动之外,还有人数年如一日地在基础技术上默默耕耘。
五年磨一剑,我很佩服他们的坚持。