算力不足还是数据荒?中国AI面临的核心挑战是什么?
哈喽,小伙伴们。今天我们将探索人工智能奥秘,主要重点放在中国人工智能在数据领域的发展及其优劣势上。在谈及百度的“文心”大模型时,李彦宏称其在中文创作,尤其是诗歌撰写等方面展示了超越GPT-4.0的能力。他举了一个例子说,GPT-4.0在写《沁园春·长沙》时起句字数都数不过来,而“文心”则游刃有余。的确如此,百度模型不仅在中文上有所优势,未来将更有潜力在更广泛的领域取得更大的突破。
但行业人士分析,李彦宏对“文心”大模型全面性过于乐观,特别是在数据这一决定性的因素上。大型人工智能模型的性能依赖于算法先进性、算力强大以及最关键的数据的丰富性。一旦数据存在根本性缺陷,就可能会对整个行业的未来发展构成重大的负面影响。下面就让我们来深入分析一下数据面临的挑战。
一、中英文内容在全球互联网上的分布不均
据W3Techs分析网站统计显示,截至2024年3月全球访问量最大的前100万个网站中,超过半数都是英文网站。西班牙语位居第二,而中文只排在第13位,占比1.3%。有朋友可能会疑惑,中国拥有将近10亿网民,创造的内容数量巨大,这个比例怎会如此之低?但如果我们从参与度最高的前100万个网站来看,毕竟尽管中国有14亿人,但全球人口总数大约是70亿。再进一步想,如果内容量并不能直接代表内容质量,那么在质量上的差异可能就更加明显。
二、新闻媒体与社交媒体的角色
1、英语主流媒体在多元视角和内容更新上占优
英语媒体如何在全球新闻领域取得了主导地位。举几个耳熟能详的例子,像《纽约时报》、《华盛顿邮报》、《华尔街日报》和英国的《金融时报》等,不仅出版数量庞大,影响力巨大,而且新闻内容更新迅速,从不同视角出发,提供多元化分析和评论,有时还会引起广泛热议。正是包容性,让英语媒体的内容更加丰富。
然而在中国,中文媒体报道往往更多地代表官方声音,尤其是在关键时刻,很少有机会从个体角度自由地表达观点,必须遵照新华社等官方媒体的线路进行报道。这导了中文新闻媒体在内容的多样性与深度方面,与英文媒体相比稍显不足。尽管阅览量不小,但中文报道的深度和广度却可能受到限制。
不仅如此,新闻媒体的争端也反映出其在大模型训练中不可或缺的地位,就如《纽约时报》针对OpenAI使用其内容未经许可一事的起诉所示。新闻机构的报道在为大模型提供训练数据时发挥着举足轻重的作用。
2、中文社交媒体内容的持久性不足
其次,我们不得不提社交媒体平台,这些平台在数据提供方面的作用同样不容小觑。Reddit和Twitter是美国知名的数据网站,而在中国微博等平台肩负着相似的角色。尽管如此,社交媒体内容的持久性在中英文平台之间却大有不同。中文社交媒体上,有用户设定内容半年后自动隐藏,旨在避免古旧帖子引发的纠纷。这在英文社交媒体中较为罕见,因而大量英文内容得以长期保留。Reddit等网站展示了这种可持续性的优势。
3、中文互联网和学术内容相比英文而言更显稀缺和易逝
20年前甚至15年前人们常浏览的中文网站,例如天涯和猫扑,如今或禁止访问或已关闭。高质量的中文内容因此消逝的无影无踪。反观英文网站,其内容保存得更好,比如运营20年仍然活跃的Reddit。这表明中文互联网内容比英文内容更易消失,加剧了网上信息的量质差距。
人工智能发展的瓶颈在于高质量的语料内容,中文在这方面面临较大劣势。就学术内容而言,几乎所有学科的研究成果都是英文发表的,即使中文是作者的母语。高质量的学术内容通常为英文,对中文内容的发展是一大挑战。
三、数据质量和隐私问题对AI的影响
不合规的数据采集与质量管控问题,对数据及人工智能行业的未来发展构成威胁。首先,非法获取的数据缺乏质量保障,无法追溯与核查, 这对数据敏感的算法而言是致命的,因其结果的准确性和鲁棒性直接受到数据品质的影响。其次,数据隐私的滥用会削弱数据生产的动力,无知识产权保护的环境下,创造数据缺乏激励,影响整个数据产业生态。特别是大模型的兴起,高质量内容创造者如果无法得到合法回报,新闻机构等就失去了创作和提供高品质内容的动力。至于中国市场,目前大多数媒体难以通过订阅维持运营,这不仅造成了劣质内容的泛滥,还破坏了基于订阅模式下对内容质量的追求。
长远来看,没有适当的数据保护及对原创内容创造者的经济激励,整个产业可能会遭受创作动力的丧失。高质量内容的创造者受剥削,他们的劳动被他人非法转化为利益,自身却得不到相应的回报。在当前环境下,中文内容在新闻以及其他领域如社交媒体和学术研究等领域,很难追赶上英文内容。版权保护的匮乏无疑是制约中国大模型和整个大数据行业发展的关键障碍。
蓝海大脑 京ICP备18017748号-1