北京晚报报道:搜狐微博有千余敏感词 每天屏蔽5千条微博

我等屁民

新手上路
VIP
注册
2008-12-22
消息
1,833
荣誉分数
34
声望点数
0
所在地
屁民国
http://discovery.ynet.com/view.jsp?oid=68684859


YNET.com 北青网 >> >> 正文

北青网

搜狐微博有千余敏感词 每天屏蔽5千条微博

来源:北京晚报 (2010/08/24 07:27)

  微博的兴起,使得人们多了一个畅所欲言的场所,但是,一些人却在网上发帖卖假证,有的甚至卖枪弹毒品,这些自然在被禁止之列。昨天,搜狐公司相关人士告诉记者,微博监控有1000多个敏感词,主要是涉枪、涉暴、涉黄等。

  上千敏感词监控网络安全

  目前,新浪、搜狐、网易、腾讯、人民网等各家网站均提供有微博,上微博发言被网民称为“织围脖”。但是,微博的快速发展也出现了一些问题,一些涉黄、涉暴的内容也在微博上出现。搜狐网监控中心负责人王国欣告诉记者,包括微博、博客在内的网民互动式的互联网产品,文字帖一般采用1000多个敏感词进行过滤,如果其中含有敏感词的就直接删除。这些敏感词有1000多个,主要是涉枪、涉黄、涉暴的内容。“AK47可以说,但是教人怎么做炸药或者直接贩卖枪支弹药毒品的帖子肯定要删除,绝大多数国家都不允许网上出现这种不健康不安全的内容。”

  据悉,微博被过滤掉的内容,绝大多数是涉黄,另外就是发帖做广告,或者是用语言攻击其他人。“网络口水战的内容可以发出来,但是‘国骂’就不行了。”王国欣说,搜狐微博是24小时都有人做过滤监控,微博每天出现的七八万个帖子,过滤掉的大约有5000多个。在搜狐社区每天出现的20多万个帖子中,有4万多个会被过滤掉。

图片过滤“软件+人工”

  除了文字要进行过滤监控,图片过滤也是互联网监控的一个重要内容。王国欣称,搜狐对网民在搜狐社区上传的图片采取软件自动过滤加人工审核的方法,搜狐使用的软件名为图片过滤器,能通过肤色、纹理、动作、人脸等多个参数,对图片进行要素的提取。“人的肤色介于红黄之间,当肤色大于一张图片面积的40%,图片就基本认定为情色图片,进入人工审核程序。”狮子的皮毛是黄颜色,这样的图片会不会直接过滤掉呢?对于这样的疑问,王国欣说,图片过滤的一个选项是纹理,通过软件可以发现狮子的边缘很杂乱,与人体图片的边缘不同,不会被过滤掉。

  记者在搜狐公司看到,一位负责网络监控的员工正在进行图片的人工审核。网民上传的照片按照每行5张、每屏40行的标准显示在电脑屏幕上。当发现照片有露点、挑逗动作内容时,他就会在图片下面的方框内点一下,图片就不会上传到网上公开发表了。

  妈妈评审团置顶过滤器

  文字和图片过滤,拿捏的火候很难掌握。昨天,搜狐举行“快乐假期,绿色家园”活动,10多位家长和儿童,以及搜狐社区的多位版主来到搜狐公司,现场交流“绿色网络”的建设。搜狐网副总编辑梁春元说,网络在删除一些不良信息的同时,也要保证正常网民不能受到伤害,对于正常的网上交流帖子不能删除,也不能人为耽误上传的时间。


 在网络扫黄中,北京网络媒体协会组建的妈妈评审团曾经引起社会关注。昨天,“妈妈评审团”成员之一冯云对这种图片过滤器软件很感兴趣。她认为应该在各家网站大力推广这种软件过滤技术。同时,她希望网站能做出视频过滤器软件,对网上一些不良视频进行过滤。

  搜狐媒体副总裁于威说,自己是个两岁女儿的妈妈,搜狐网上的内容是否做到让女儿将来放心上网,现在还不敢说。北京网络媒体协会魏莞说,国内网民数量已经达4.3亿,其中三分之一左右是未成年人,媒体有责任提供健康绿色的内容。“搜狐的好经验值得在全行业进行推广。”











有人写的评论文章



我想学习“敏感词”

这是星期二下午兴之所致写的,可是,这样的稿子无论如何卖不掉,贴到这里娱乐。敏感词本身可能是一个敏感词,所以这稿子贴得到几时也说不定。





我想学习“敏感词”


何三畏


“敏感词”终于成为一个可以公开报道的内容。当我看到搜狐网转载北京日报的报道《搜狐严格过滤不健康内容,每天屏蔽五千微博》时,我深感好奇。“敏感词”使用多年,使“敏感词”这个词本身,变得不再敏感,尽管“敏感词”都是什么样子,都长在什么部位,仍然不得而知。这就像“网络评论员”(俗称“五毛”)这一个工作或职业,也逐渐变得可以公开谈论,并出现在网络里,写在报纸上,但谁是“网络评论员”,仍然没有人知道。


我想,这样的潜规则的公开,对于网络公司来说,意味着什么呢?现在的企业爱美誉自己为“企业公民”,表示一个有道德人格的主体。那么,网络公司会不会为过去长期使用“过滤词”这一不公开的暗器对付网民而不好意思呢?而这一消息来自北京日报,北京日报应该是很政治主流和政治正确的报纸。它的报道应该有道理。再查,看到搜狐网络自己把它放在显眼位置,还在论坛里作为网民讨论的话题。这说明作为事主,网络公司认为这是光明正大的,视为表扬自己的“正面报道”的。


根据报道,这些“敏感词主要是涉枪、涉黄、涉暴”。“每天屏蔽五千微博”,差不多每十四五条当中,就有一条“不健康”。这真叫人伤心。一但“严格”起来,微博就显得这么黄色和暴力。这么看来,喜欢上微博的人,思想也太“不健康”了。可是,微博不是这个时代最有知识,最有判别力的人在玩吗。如果他们是如此“不健康”,那么,不意味着我们这个社会,或者说我们这个民族的素质“不健康”吗。或者,是否也说明网络公司“太严格”,敏感词“太敏感”了,才得出这个“不健康”的诊断呢?


“敏感词”的真容还在敏感中,不能依据它来做评论。但是,它的数量,“主要是涉枪、涉黄、涉暴”的敏感词即有1000多个,这可能太多了,会给微博写作带来极大的麻烦。微博使用的语言是简单的,基本上应该在两千多个不同汉字的范围,而从中又去掉了1000多个字、词或词组,难怪帖子那么容易被过滤。令人困惑的是,汉语词典里涉枪、涉黄、涉暴的字词应有尽有,假如某微博抄一段而被过滤掉,是否意味着对不起我们的文化?


这里必然产生两个问题。一,为什么需要“敏感词”,它们是怎么产生的,有没有合法的途径?二,如果需要而且合法地产生了“敏感词”,那么,应该怎样使用。很显然,它应该成为“上网须知”,最好是放在网上供网民学习。规定不能背诵60%以上,不能开机。一旦有新的“敏感词”产生了,还要及时增录,广而告知。本人上网的时间不多,但偶尔也被过滤。可是,我自认为我既不黄,也不暴,简直不明白什么原因。所以,我迫切需要学习掌握“敏感词”。
(2010-8-24)












疑敏感词漏网 全国微博变“测试版”

(香港) (2010-07-13)

早报导读



  (联合早报网讯)香港明报报道,“开通了一年,竟然倒退成了『测试版』!”新浪微博(微型网志)不少用户昨日都留意到网站logo上加了“测试版”3个小字,引发网民对当局加强网上言论监控的担忧。包括“人民微博”在内的全国所有微博昨日均加注“测试版”,事件怀疑与搜狐微博出现“过激”言论且未能有效过滤有关。

  网友忧言论“被和谐”

  除总部在广东的网易和腾讯一直属于“测试版”外,北京的新浪、搜狐、凤凰,甚至“根正苗红”的人民微博均于昨日打出“测试版”“Beta”等标志,由于微博上的言论一向较传统媒体“出位”,引发网友担忧微博会“被和谐”。

  有网友透露,事缘7月1日中共建党纪念日当天,有搜狐微博用户与朋友讨论“生日”和“祭日”的问题,怀疑搜狐微博因此于上周六(10日)关闭一整天,并拖累其他微博。

  搜狐微博无法搜寻

  但本报获知,事件起源是因为当局发现搜狐未关闭敏感词搜寻功能。记者昨日在新浪微博上搜寻“六四”等语,会出现“没有找到符合条件的微博”,但据称搜狐因仍可搜寻敏感词而“被维护”,记者昨日登入搜狐微博,发现已无任何搜寻功能。


http://www.zaobao.com/wencui/2010/07/hongkong100713c.shtml



不知道某年某月的某一天,屁民是否也要变成敏感词。:-D :-D :-D
 
4亿网民中3亿Q民,拿什么来拯救国人的智商
作者:飞花若梦 来源:http://faxue.info/2010/08/1.html

写出这个标题,是需要些勇气的,毕竟,明眼人一眼就能看出这篇文章将要直指XXX的愚民政策。但既然本人在之前已经说过不复骂政治,所以,尽量语气柔和地从其他角度来分析下4亿网民3亿Q民这一现象对我们的启示。

什么叫“网民”:

对于“网民”这一词汇的定义,笔者历来很不感冒,按照邪恶的CNNIC的定义:“平均每周使用互联网至少1小时的中国公民。”

CNNIC的邪恶之处还不止是下了个这么蛋疼的定义,更在于它城头变幻大王旗,将“网民”定义不断变换,竟然在统计时弄成了:“6岁以上,近6个月在任何地方有上网过的所有中国公民。”自然,中国网民数扶摇直上到了4亿。

在CNKI上没有关于“网民”的学术定义,但是在《新课标小学生词典》中,“网民”被定义为:“拥有固定账号,长期使用英特网的人。”

任何国内关于“网民”翻译均会指向Netizen这个合成词,wikipedia上关于netizen的解释是“A Netizen (a portmanteau of Internet and citizen) or cybercitizen is a person actively involved in online communities.”

笔者认为,上述两种定义/解释是比较靠谱的,长期使用英特网,或者积极参加网络社区交流的人,即为网民。

至于之前有新闻说中国网民数目超过美国的调查更是吃饱了撑的, 美国已经很多年不再统计这么个无聊数据。并且,即使有些调查公司无聊调查一番,人家统计的方法也只是直接计算在家庭上网的人数,按照这个统计方式,美国网民数约1.8亿,而中国才1.1亿。

什么叫“Q民”:

无论是谷歌还是百度,以“什么叫网民”为关键词搜索的使用者不在少数,但还没见过有人会傻到去问“什么叫Q民”,在中国的网络环境下,可以不知道网民是什么,但是Q民是绝对熟悉的。4亿网民3亿Q民,足以见Q民之势众,然而多数问题仅限于此而已。

QQ的发展并不意外,它弥补的是无数国人无聊寂寞和闲暇的时间,并占据了多数中国网民自电脑开机后第一件事情。近年发展起来的多数网民,相信很大部分是从玩QQ开始的。

QQ的发展很具有投机性,因为它的存在恰巧合适的满足了统治者的政治需求。近年,随着戈尔巴乔夫红利的继续延展、国际国内环境的相对稳定,国人物质 生活开始有了进一步丰富,在少数人踩着多数人的肩膀富起来的情况下,如何安抚与稳定多数公民的情绪,特别如何钳制有限抛弃了封建小农思想开始思索自由与民 主之论群体的思想,成为了统治阶级急迫需要解决的问题。

在网络大行其道之前,大多数国人的日常休闲模式几乎局限于电视棋牌阉割的书籍及瞎侃,这种情况对于统治者来说是极其理想的情况,如果没有大规模的思 想波动,它们就能持续稳定的专制统治下去。但网络世界的发展出乎了统治阶级的预料,大量西方民主自由思想的传播与社会主义专制统治的冲突的思考在网民间弥 漫和传播,统治阶级当然需要有所动作,于是巨大的GFW与网络审查成了统治阶级的法宝。

但仅仅依靠对自由言论的事后的封锁是远远不够的,更为急迫的是,如何在事前对网民进行防范。自然,聊天、休闲游戏等产品成了统治阶级暗中怂恿发展的对象,毕竟,于现状来说,这部分应用确实分流了大多数网民。

就个人经验来看,身处大学,周围有电脑的几乎是绝大多数,但是多数人上网的行为限于聊天、视频、游戏,甚至于,很多人不知道如何去收取发送邮件,如何下载安装软件、如何注册一个论坛账号等等。

曾见过有站长在文中大呼“我终于知道为什么我网站流量上不去了,因为中国网站比网民多!” 确实,如果我们将中国网民进行分流可以发现,那些占网民数目中大半的Q民、游(戏)民几乎很少会去涉及到其他网络产品,偶尔看个新闻、发个帖的情形,如除去聊天与游戏部分不计几乎构不成前述意义上的“网民”。

按照CNNIC的解读“即时通信服务是互联网首要的基础应用,使用率达到81.4%,非常符合现今中国网民对于便宜、便捷、交互性强的沟通需求。” 而实际上我们也可以看到,在QQ的聊天中,如今一对一的聊天模式正在逐渐萎缩,群聊应该是多数Q民的主要动因。个人情况是,QQ上700好友90群,基本 上一个月难得有几次一对一的QQ消息往来,长期均为论坛群组交流中。这样说来“群体之间的交互”成了主流,那么在这个习惯于三人成虎的国度,统治阶级又怎 么能放任之?于是冒出了专门的Q警,专门来监控3亿QQ用户的言论,而腾讯为了配合统治维稳以及言论控制工作,亦极尽全力屏蔽掉任何有政治风险的词句。

网络上几大主流应用(新闻、聊天、邮件、论坛、博客、游戏、文件共享、购物、订阅、搜索、维基等)在国内的分化度过高,大体局限于少数站点。例如说 搜索只上百度、新闻只去新浪、聊天只用QQ、论坛就去天涯等等。由于多数人被分流去了大型网站,而这些网站往往不敢逾越愚民政策的高墙,虽然多数民众集聚 于此,但穷凶极恶的言论控制让网民几无还手之力,纵有很多中小网站在歇斯底里的呐喊与批判,但他们的身影很难进入普罗大众的视角,常光顾的也就是那些没有 被分流,譬如说能够坚强的挺在推特、谷歌问答的。

其他:

对于中小网站或者国外某些对中国市场虎视眈眈的国外网站来说,如何设计得符合愚民政策下网民的使用习惯就是很值得思索的问题。我们经常见到网络上各 种形形色色的SB问题,诸如说做论坛的站长会遇到用户抱怨需要填写电子邮件才能收到密码,而他没有电子邮件,或者说不会收取邮件,或者说找不到垃圾邮件的 文件夹,或者更加邪恶的直接问电子邮件是什么,或者如何注册电子邮件的问题。别看这种问题很傻,但如果站长在注册账号的页面公布自己的QQ号码申明不会注 册的加Q教,搞不定就会疯掉的。据这例子不是贬低什么的,但确实,就我的个人经验,中国网民很多都停留在这个层次的。

中国4亿网民中3亿是Q民,都说互联网改变生活,可这3亿的Q民不属于这之列,他们很难享受高科技带来的生活改变,不 是个人问题,而是不可回避的政治问题。最近在天涯问答看到一个很有趣的提问:“如果中国4亿网民都会翻墙的话,是什么情况?”我认真想了想,没答案。
 
过滤掉的不都是‘敏感’的。有时会“误伤”。
 
后退
顶部