宝山疾控话健康 | 癌症防治,刻不容缓!
肿瘤防治宣传周4月15日-21日为第三十四届上海市肿瘤防治宣传周,今年的宣传主题为“癌症防治全面行动——全人群全周期全社会”。平均每天18人
(资料图)
财联社4月20日讯(编辑 史正丞)在过去半年不到的时间里,许多地球上的人类已经接触到AI聊天机器人的魅力和魔力。但归根结底,目前并没有AI已经产生像人类一样的自我意识,它们能够模仿人类讲话,主要原因是算法“吸收”了大量的文本——大部分是从互联网上抓取的。
互联网上蕴含着大量有用、有益的经验和知识,但数字时代的网民们也不得不承认,在烟波浩渺的互联网信息丛林中,也蕴含着大量偏见、歧视、有害,以及侵犯名誉和隐私的内容。种种迹象显示,这些“人类的禁忌知识”也被大模型照单全收了。
当地时间周三,《华盛顿邮报》发表了与艾伦人工智能研究院合作进行的调查结果,他们拆解了谷歌的C4数据集,这也是许多知名英语AI大模型的训练材料,例如谷歌的T5和Facebook的LLaMA。中国投资者更关注的OpenAI并没有公布训练ChatGPT所用的数据集,所以这也是目前窥得AI数据黑箱的最便利解决方案。
AI数据集黑箱揭秘
值得一提的是,调查人员使用了SimilarWeb的网站分类数据,由于C4数据集中有三分之一的网站已经不存在这个世界上了,所以实际统计的数据大约为1000万个网站。
根据研究,囊括全球专利信息的谷歌专利网、维基百科和订阅制数字图书馆scribd的资料权重位列整个数据集前三。但随着列表往下翻,一系列意想不到的名字开始出现。
已经被美国司法部查封的盗版电子书网站b-ok.org高举第190位,类似这样因为侵犯版权被美国查封的网站还在数据集中出现至少27次。
此外,《魔兽世界》玩家论坛wowhead也高居第181位,《赫芬顿邮报》创始人阿里安娜·赫芬顿办的行为转变课程网站thriveglobal也位居175位。令人意外的是,有两个美国投票人数据库网站也位列前100位。虽然投票人的数据本身是公开的,但大模型可能会把这些个人数据用在哪里,又有谁能说清楚呢?
接下来的数据则显示,AI大模型潜在的侵权问题,可能要比想象中更加严重。商业和行业网站是数据集中比重最大的分类,创意产品众筹网站kickstarter(25位)也出现在榜单里非常高的位置。这里就引出了一个新的问题,AI向用户提供的许多创意和市场营销答案,很有可能本身就是现成的作品。
研究人员也发现,超过50万的个人博客被收录进C4训练集中,这些作者显然没有因此得到过任何报酬。
作为AI训练的“富矿”,每天都大量生产经过审校内容的媒体也是训练集的最爱,纽约时报、洛杉矶时报、卫报、福布斯和赫芬顿邮报均挤进数据库比重前十。与许多艺术家一样,不少媒体目前也在向AI产业声索维权。由于美国媒体行业的复杂性,所以训练集中也能找到以极右翼、白人至上主义内容为主基调的网站。
事实上,谷歌在构建数据库的时候,已经意识到网络信息污染的问题,所以除了删除毫无意义和重复的语句外,特意用开源的“脏话过滤器”筛过一遍,但似乎有数量非常庞大的漏网之鱼钻了过去。研究人员就在训练集中找到至少7.2万个德国纳粹的标志性符号。
更令人担忧的是,训练集中也能找到宣扬种族主义、极右翼阴谋论(QAnon)的网页,而以组织网络暴力闻名的4Chan匿名聊天网站也出现在训练集中。
比起数据脏 处理数据的态度更迷离
虽然C4训练集的数据已经非常庞大,但用于训练OpenAI GPT-3的网络爬虫数据集,从一开始就要比C4大40倍,背后的问题自然也会被同步放大。
但在GPT-3的论文中,OpenAI也公开讨论了一个细节:在防止测试数据被放进训练数据导致污染的过程中发现了一个BUG,但由于重新训练模型太贵、公司又没钱,所这个问题就放着不去管它了。
一些业内人士也透露,许多科技公司在内部都不会记录训练数据的来源,因为担心会发现个人信息数据,以及未经授权的材料或其他数据。
关键词:
肿瘤防治宣传周4月15日-21日为第三十四届上海市肿瘤防治宣传周,今年的宣传主题为“癌症防治全面行动——全人群全周期全社会”。平均每天18人
一、不锈钢炒锅需要开锅吗不锈钢炒锅第一次使用前需要开锅,原因有二。1、不锈钢锅在制造过程中,会在其表面用到工业油,这些工业油会有些许渗
川恒股份近期接受投资者调研时称,公司目前已建成一条10万吨 年磷酸铁产线,第二条10万吨 年的产线尚在建设中,预计2024年公司会形成20万吨 年
20日晚上开始有一次持续阴雨过程从明天夜间开始,天气迎来转折,预计全市有小到中雨,南部山区部分地方大雨,高海拔山区有雨夹雪,主要降水时
XboxEra游戏媒体发文表示《星球大战绝地:幸存者》Xbox主机版现已开启预载,截至发稿,游戏的PS5及PC平台预载尚未开始。其中《星球大战绝地:
19日上午,由洛阳市文联、银川市文联主办,洛阳市书法家协会、银川市书法家协会、洛阳市图书馆承办的“黄河文脉·洛阳——银川书法交流作品展
4月7日有19只新债招标。
4月19日中午12时,北京市人民政府新闻办公室、北京市丰台区人民政府举行长峰医院火灾事故情况通报会。市公安局、市卫健委、市消防救援总队、丰
上海车展进境展品通关全部完成申报批次较上届增长34%□记者陈友敏本报讯4月17日,在上海会展中心海关监管下,第二十届上海国际汽车工业展览会
100天后,第31届世界大学生夏季运动会即将拉开序幕。届时,世界各地的大学生运动员将汇聚在成都,共赴青春与激情的体育文化盛会。本次大运会,
环境建设,关于环境建设介绍这个很多人还不知道,我们一起来看看!1、环境建设是经济社会全面发展的基础保障和重要内容,是经济运行、社会发展
墨西哥总统洛佩斯17日指责美国在墨实施干涉行为及开展间谍活动。洛佩斯在当天举行的总统府新闻发布会上说,美国毒品管制局在未
探索高校德育工作的系统化路径
1、宋成利,博士,上海理工大学医疗器械与食品学院教授。2、。本文到此分享完毕,希望对大家有所帮助。
证券时报记者叶玲珍4月18日晚间,赛腾股份(603283)发布公告,拟与浙江南浔经济开发区管委会签署《项目投资协议书》,在当地投建高端半导体、新
Copyright 2015-2022 起点双创网 版权所有 备案号:皖ICP备2022009963号-12 联系邮箱: 39 60 29 14 2@qq.com
英飞拓(002528.SZ)近日走出大涨大跌的过山车行情 今日一字板跌停
英飞拓(002528 SZ)近日走出大涨大跌的过山车行情,此前走出3连涨停创下阶段新高,今日一字板跌停,录得连续2日跌停,大幅回吐此前涨幅,现
京基智农(000048.SZ)再度跌超6% 总市值失守百亿元大关
昨日跌停的京基智农(000048 SZ)再度跌超6%,盘中低见16 5元创5个月新低,总市值失守百亿元大关。公司控股股东京基集团7月4日通过大宗交易方
随着全光网络越织越密 如何进一步增强消费者和产业界的“获得感”?
近年来,在5G和宽带双千兆牵引下,新项目、新试点、新应用层出不穷。随着全光网络越织越密,如何进一步增强消费者和产业界的获得感?湖北日